Se Website Crawl Progress i Website Scraper

Forklaring om statusoplysninger under webstedscrawl i A1 Website Scraper.

Forstå oplysninger om status for webstedsscanning

Webstedscrawleren gemmer samlede tællinger for følgende tilstande:

Interne "sitemap"-URL'er:
- Listet fundet :
  Unikke webadresser placeret.
- Opført udledt :
  Vises efter scanning af webstedet er afsluttet: Antag, at crawler under scanning fandt links til " eksempel/somepage.html ", men ingen til " eksempel/ ". Sidstnævnte "udledes" til at eksistere.
- Analyseret indhold :
  Unikke URL'er med indhold analyseret.
- Analyserede referencer :
  Unikke URL'er med indhold analyseret og har alle deres links i indhold løst (f.eks. links til URL'er, der omdirigerer).
Eksterne webadresser:
- Listet fundet :
  Unikke webadresser placeret.
Jobs venter i crawler-motoren:
- "Init" fundet link :
  Links fundet venter på at blive analyseret. (Alle links er URL-dekodede/URL-kodede, kontrolleret mod alle rodsti-aliasser, udskæring af sessionsvariabler osv. Efter al "normalisering" er udført, tjekkes linket mod en liste over allerede kendte URL'er. Som minimum er forskellige "linkede" -fra"-data opdateres derefter.)
- "Analyse" fundet URL :
  Sideindhold i unikke URL'er, der venter på at blive analyseret. (Indholdet er muligvis allerede blevet hentet afhængigt af indstillinger.)
Job udført i crawlermotor:
- "Init" fundet link :
- "Analyse" fundet URL :

Jobs venter i Crawler Engine

Som standard bruger crawler-motoren i A1 Website Scraper som standard GET-anmodninger, når den rammer en side-URL for første gang. Dette får crawleren til at prioritere at "analysere" sider hurtigt bagefter, da GET-anmodninger returnerer alt sideindhold i hukommelsen. Dette kan nogle gange betyde, at "init link" -køen bliver meget stor, da den kun udføres, når ingen andre "analyse" -job venter.

Hvis crawleren på den anden side bruger HEAD-anmodninger, når den første gang tester en URL, overføres meget mindre data, da alt foregår via HTTP-headere. (Dette har igen også den effekt, at alle nye detekterede links hurtigt genkendes som allerede testet. Køen bliver således aldrig stor.) Ulempen ved at bruge HEAD-anmodninger er dog, at nogle servere reagerer buggy på HEAD-anmodninger. (Og selvfølgelig, hvis/når sideanalyse senere er nødvendig, vil en GET-anmodning være nødvendig for at hente sidens indhold.)

Du kan ændre ovenstående adfærd ved at markere/fjerne markeringen: Scan websted | Crawler motor | Standard til GET for sideanmodninger

Fremskridt ændres, når scanning af websted er færdig

Når scanningen af webstedet er færdig, kan du få A1 Website Scraper til at fjerne uønskede URL'er bagefter. Denne adfærd styres af:

Ældre versioner:
- Scan hjemmeside | Crawler muligheder | Anvend "webmaster"- og "output"-filtre, efter at webstedsscanningen stopper
Nyere versioner:
- Scan hjemmeside | Udgangsfiltre | Når webstedsscanningen stopper: Fjern ekskluderede webadresser
- Scan hjemmeside | Webmaster filtre | Efter at webstedsscanningen stopper: Fjern URL'er med noindex/disallow

Forskellen mellem "Opført fundet" og "analyseret"

Forskellen i fremskridt svarer meget til forskellen mellem outputfiltre og analysefiltre : Forestil dig, at du ville vise .pdf- filer, men ikke have dem analyseret/gennemgået. I sådanne og lignende tilfælde vil du se en forskel mellem de to tal i gang.

Detaljerede optællinger af URL'er efter webstedsscanning

Hvis du vil se detaljerede optællinger, kan du gøre det, efter at scanningen af webstedet er afsluttet. Bare åbn fanen Analyser websted, der viser resultater fra webstedsscanning, vælg rod-URL'en og vælg Udvidede data | Katalogoversigt.

webstedsscannings mislykkede optællingsresultater

webstedsscannings mislykkede optællingsresultater

Log og analysér problemer med webcrawling

Hvis du oplever mærkelige problemer med at spidere dit websted, kan du prøve at aktivere Scan websted - Dataindsamling - Logning af fremskridt. Efter webstedsscanning kan du finde en logfil i programmets databibliotek logs/diverse.

statuslog for webstedsscanning

Logfilen kan være nyttig til at løse problemer relateret til crawler-filtre, robots.txt, no-follow-links osv. Du kan finde ud af, gennem hvilken side crawleren først fandt en bestemt hjemmesidesektion.

2007-07-28 10:56:14
CodeArea: InitLink:Begynd
ReferencedFromLink: http://www.example.com/website/
LinkToCheck: http://www.example.com/website/scan.html

A1 Website Scraper | hjælp | forrige | Næste

Udtræk data fra websteder til CSV-filer. Ved at skrabe hjemmesider kan du få fat i data på hjemmesider og omdanne dem til CSV-filer, der er klar til at blive importeret overalt, f.eks. SQL-databaser

Denne hjælpeside vedligeholdes af Thomas Schulz

Som en af de ledende udviklere har hans hænder rørt det meste af koden i softwaren fra Microsys. Hvis du e-mailer spørgsmål, er chancerne for, at han vil være den, der svarer.