Website Robots.txt, Noindex, Nofollow og Canonical
A1 Website Scraper har valgfri support til at adlyde robottekstfiler, noindex og nofollow i metatags og nofollow i linktags.
Webstedscrawleren i
A1 Website Scraper har mange værktøjer og muligheder for at sikre, at den kan scanne komplekse websteder. Nogle af disse inkluderer komplet understøttelse af robottekstfiler, noindex og nofollow i metatags og nofollow i linktags.
Tip: Downloading af
robots.txt vil ofte få webservere og analysesoftware til at identificere dig som en
webcrawler-robot.
Du kan finde de fleste af disse muligheder på
Scan hjemmeside | Webmaster filtre.
I forbindelse med disse kan du også styre, hvordan de bliver anvendt:
- Deaktiver Scan websted | Webmaster filtre | Når webstedsscanningen stopper: Fjern URL'er med noindex/disallow.
Hvis du bruger
pause og genoptag crawler-funktionalitet, kan du undgå at få de samme webadresser crawlet gentagne gange ved at gemme dem alle mellem scanninger.
Du kan læse mere i vores onlinehjælp til A1 Website Scraper for at lære om
analyse og
outputfiltre.
Matchadfærden i webstedscrawleren, der bruges af A1 Website Scraper, ligner den for de fleste søgemaskiner.
Understøttelse af
jokertegn i
robots.txt -fil:
- Standard : Match fra begyndelsen til filterets længde.
gre vil matche: greyfox, greenfox og green/fox. - Wildcard * : Match en hvilken som helst karakter, indtil en anden match bliver mulig.
gr*ræv vil matche: greyfox, grayfox, growl-fox og green/fox.
Tip: Jokertegnfiltre i robots.txt er ofte forkert konfigureret og en kilde til crawlproblemer.
Webcrawleren i vores webstedsskraberværktøj vil adlyde følgende
brugeragent-id'er i
robots.txt- filen:
- Præcis match mod brugeragent valgt i: Generelle muligheder og værktøjer | Internet-crawler | Brugeragent-id.
- User-agent: A1 Website Scraper, hvis produktnavnet er i ovennævnte HTTP-brugeragent-streng.
- User-agent: miggibot, hvis crawlermotornavnet er i den ovennævnte HTTP-brugeragentstreng.
- Bruger-agent: *.
Alle fundne
disallow- instruktioner i
robots.txt konverteres internt til både
analyse- og
outputfiltre i
A1 Website Scraper.
Se alle
tilstandsflag for alle URL'er som registreret af crawleren - dette bruger indstillinger indstillet i
webmasterfiltre,
analysefiltre og
outputfiltre.
Alternativt kan du bruge indstillingen
Scan hjemmeside | Crawler muligheder | Brug specielle svarkoder til at få tilstande afspejlet som
svarkoder.
For detaljer om en specifik URL skal du vælge den og se alle oplysninger i
Udvidede data | Detaljer,
Udvidede data | Linket af og lignende: