Microsys
  

Hard and Soft 404 Ikke fundet URL'er i Website Scraper

A1 Website Scraper har mulighed for at crawle fejlsider for links, da vores software har indbygget beskyttelse mod at crawle endeløse fejlsider.

Hvorfor er det problematisk at crawle "404 - Ikke fundet"-sidewebadresser

Generelt er det en dårlig idé at crawle URL'er, der fejler med f.eks. 404 - Not Found. For at forstå årsagen skal du tage et kig på følgende eksempel på processen i en naiv webstedscrawler, der håndterer relative ødelagte links:
    • Crawleren registrerer url http://www.example.com/directory/ giver 404 - ikke fundet.
    • Webcrawleren finder http://www.example.com/directory/ links til mappe/noget.
    • Crawler sammenkæder http://www.example.com/directory/ og directory/noget til http://www.example.com/directory/directory/noget.
    • Crawleren registrerer url http://www.example.com/directory/directory/ giver 404 - ikke fundet.
    • Webcrawleren finder http://www.example.com/directory/directory/ links til mappe/noget.
    • Crawler sammenkæder http://www.example.com/directory/directory/ og directory/noget til http://www.example.com/directory/directory/directory/noget.
    • Klassisk edderkoppefælde, hvor hjemmesidens crawl vil fortsætte for evigt.

Dette er grunden til, at de fleste crawlere som standard ikke fortsætter med at crawle sider, der returnerer 404-Not Found.


A1-websideskraber kan gennemsøge 404 sider

Nogle websteder indeholder vigtige links på sider, der returneres for f.eks. 404 - ikke fundet fejl. Du kan tvinge A1 Website Scraper til at scanne fejlsider for links ved at markere indstillingen: scan websted | crawler muligheder | crawl-fejlsider.

Bemærk venligst, at links i forhold til den aktuelle sti vil blive ignoreret ved analyse af fejlsider for at undgå at blive fanget i en endeløs gennemsøgningsløkke.

Hvis det er nødvendigt at få fejlside-URL'er scannet for links, skal du bruge en af følgende typer links i stedet:
  • /mappe/noget
  • http://www.example.com/mappe/noget


Soft 404-fejl og hvordan man undgår dem

Hvis dit websted korrekt returnerer HTTP-svar 404 - Ikke fundet for en ikke-eksisterende URL, kaldes det en hård 404-fejl. Omvendt er en blød 404 fejl, når din hjemmeside i stedet reagerer forkert med fx HTTP-svar 200 - Fundet.

Grunden til, at bløde fejl er problematiske for crawlere, er, at de skaber edderkoppefælder svarende til det, der er beskrevet tidligere ovenfor.

Bemærk: Selvom din side synligt angiver "ikke fundet" i sideindholdsteksten for URL'er og sider, der ikke findes, skal du sikre dig, at dit websted rent faktisk returnerer HTTP-svarkode 404 - Ikke fundet og ikke f.eks. 200 - fundet.
A1 Website Scraper
A1 Website Scraper | hjælp | forrige | Næste
Udtræk data fra websteder til CSV-filer. Ved at skrabe hjemmesider kan du få fat i data på hjemmesider og omdanne dem til CSV-filer, der er klar til at blive importeret overalt, f.eks. SQL-databaser
Denne hjælpeside vedligeholdes af
Som en af de ledende udviklere har hans hænder rørt det meste af koden i softwaren fra Microsys. Hvis du e-mailer spørgsmål, er chancerne for, at han vil være den, der svarer.
Del denne side med dine venner   LinkedIn   Twitter   Facebook   Pinterest   YouTube  
 © Copyright 1997-2024 Microsys

 Brug af denne side inkluderer accept af vores juridisk, privatliv og cookie information.

Se vores prisrobot indenfor emner: Maling | Stiger | Vinduespudsning | Robotstøvsuger | Støvsuger | Maskiner | Køkken | Bad | Computer | Printer | Mobil