Se Website Crawl Progress i Website Scraper
Forklaring om statusoplysninger under webstedscrawl i A1 Website Scraper.
Webstedscrawleren gemmer samlede tællinger for følgende tilstande:
- Interne "sitemap"-URL'er:
- Listet fundet :
Unikke webadresser placeret.
- Opført udledt :
Vises efter scanning af webstedet er afsluttet: Antag, at crawler under scanning fandt links til " eksempel/somepage.html ", men ingen til " eksempel/ ". Sidstnævnte "udledes" til at eksistere.
- Analyseret indhold :
Unikke URL'er med indhold analyseret.
- Analyserede referencer :
Unikke URL'er med indhold analyseret og har alle deres links i indhold løst (f.eks. links til URL'er, der omdirigerer).
- Eksterne webadresser:
- Listet fundet :
Unikke webadresser placeret.
- Jobs venter i crawler-motoren:
- "Init" fundet link :
Links fundet venter på at blive analyseret. (Alle links er URL-dekodede/URL-kodede, kontrolleret mod alle rodsti-aliasser, udskæring af sessionsvariabler osv. Efter al "normalisering" er udført, tjekkes linket mod en liste over allerede kendte URL'er. Som minimum er forskellige "linkede" -fra"-data opdateres derefter.)
- "Analyse" fundet URL :
Sideindhold i unikke URL'er, der venter på at blive analyseret. (Indholdet er muligvis allerede blevet hentet afhængigt af indstillinger.)
- Job udført i crawlermotor:
- "Init" fundet link :
- "Analyse" fundet URL :
Som standard bruger crawler-motoren i A1 Website Scraper som standard GET-anmodninger, når den rammer en side-URL for første gang. Dette får crawleren til at prioritere at "analysere" sider hurtigt bagefter, da GET-anmodninger returnerer alt sideindhold i hukommelsen. Dette kan nogle gange betyde, at "init link" -køen bliver meget stor, da den kun udføres, når ingen andre "analyse" -job venter.
Hvis crawleren på den anden side bruger HEAD-anmodninger, når den første gang tester en URL, overføres meget mindre data, da alt foregår via HTTP-headere. (Dette har igen også den effekt, at alle nye detekterede links hurtigt genkendes som allerede testet. Køen bliver således aldrig stor.) Ulempen ved at bruge HEAD-anmodninger er dog, at nogle servere reagerer buggy på HEAD-anmodninger. (Og selvfølgelig, hvis/når sideanalyse senere er nødvendig, vil en GET-anmodning være nødvendig for at hente sidens indhold.)
Du kan ændre ovenstående adfærd ved at markere/fjerne markeringen: Scan websted | Crawler motor | Standard til GET for sideanmodninger
Når scanningen af webstedet er færdig, kan du få A1 Website Scraper til at fjerne uønskede URL'er bagefter. Denne adfærd styres af:
- Ældre versioner:
- Scan hjemmeside | Crawler muligheder | Anvend "webmaster"- og "output"-filtre, efter at webstedsscanningen stopper
- Nyere versioner:
- Scan hjemmeside | Udgangsfiltre | Når webstedsscanningen stopper: Fjern ekskluderede webadresser
- Scan hjemmeside | Webmaster filtre | Efter at webstedsscanningen stopper: Fjern URL'er med noindex/disallow
Forskellen i fremskridt svarer meget til forskellen mellem
outputfiltre og
analysefiltre : Forestil dig, at du ville vise
.pdf- filer, men ikke have dem analyseret/gennemgået. I sådanne og lignende tilfælde vil du se en forskel mellem de to tal i gang.
Hvis du vil se detaljerede optællinger, kan du gøre det, efter at scanningen af webstedet er afsluttet. Bare åbn fanen
Analyser websted, der viser resultater fra webstedsscanning, vælg rod-URL'en og vælg
Udvidede data | Katalogoversigt.
Hvis du oplever mærkelige problemer med at spidere dit websted, kan du prøve at aktivere
Scan websted - Dataindsamling - Logning af fremskridt. Efter webstedsscanning kan du finde en logfil i programmets databibliotek
logs/diverse.
Logfilen kan være nyttig til at løse problemer relateret til crawler-filtre,
robots.txt, no-follow-links osv. Du kan finde ud af, gennem hvilken side crawleren
først fandt en bestemt hjemmesidesektion.
2007-07-28 10:56:14 CodeArea: InitLink:Begynd ReferencedFromLink: http://www.example.com/website/ LinkToCheck: http://www.example.com/website/scan.html |