Microsys
  

Hårdt og blødt 404 Ikke fundet URL'er i webstedsdownload

A1 Website Download har en mulighed for at crawle fejlsider for links, da vores software har indbygget beskyttelse mod at crawle endeløse fejlsider.

Hvorfor er det problematisk at crawle "404 - Ikke fundet"-sidewebadresser

Generelt er det en dårlig idé at crawle URL'er, der fejler med f.eks. 404 - Not Found. For at forstå årsagen skal du tage et kig på følgende eksempel på processen i en naiv webstedscrawler, der håndterer relative ødelagte links:
    • Crawleren registrerer url http://www.example.com/directory/ giver 404 - ikke fundet.
    • Webcrawleren finder http://www.example.com/directory/ links til mappe/noget.
    • Crawler sammenkæder http://www.example.com/directory/ og directory/noget til http://www.example.com/directory/directory/noget.
    • Crawleren registrerer url http://www.example.com/directory/directory/ giver 404 - ikke fundet.
    • Webcrawleren finder http://www.example.com/directory/directory/ links til mappe/noget.
    • Crawler sammenkæder http://www.example.com/directory/directory/ og directory/noget til http://www.example.com/directory/directory/directory/noget.
    • Klassisk edderkoppefælde, hvor hjemmesidens crawl vil fortsætte for evigt.

Dette er grunden til, at de fleste crawlere som standard ikke fortsætter med at crawle sider, der returnerer 404-Not Found.


A1-webstedsdownload kan gennemgå 404 sider

Nogle websteder indeholder vigtige links på sider, der returneres for f.eks. 404 - ikke fundet fejl. Du kan tvinge A1-webstedsdownload til at scanne fejlsider for links ved at markere indstillingen: scan websted | crawler muligheder | crawl-fejlsider.

Bemærk venligst, at links i forhold til den aktuelle sti vil blive ignoreret ved analyse af fejlsider for at undgå at blive fanget i en endeløs gennemsøgningsløkke.

Hvis det er nødvendigt at få fejlside-URL'er scannet for links, skal du bruge en af følgende typer links i stedet:
  • /mappe/noget
  • http://www.example.com/mappe/noget


Soft 404-fejl og hvordan man undgår dem

Hvis dit websted korrekt returnerer HTTP-svar 404 - Ikke fundet for en ikke-eksisterende URL, kaldes det en hård 404-fejl. Omvendt er en blød 404 fejl, når din hjemmeside i stedet reagerer forkert med fx HTTP-svar 200 - Fundet.

Grunden til, at bløde fejl er problematiske for crawlere, er, at de skaber edderkoppefælder svarende til det, der er beskrevet tidligere ovenfor.

Bemærk: Selvom din side synligt angiver "ikke fundet" i sideindholdsteksten for URL'er og sider, der ikke eksisterer, skal du sikre dig, at dit websted faktisk returnerer HTTP-svarkode 404 - Ikke fundet og ikke f.eks. 200 - fundet.
A1 Website Download
A1 Website Download | hjælp | forrige | Næste
Download og tag komplette websteder med dig for at browse på offline medier. Kopier og gem hele websteder til sikkerhedskopiering, arkivering og dokumentationsformål. Gå aldrig glip af et websted igen.
Denne hjælpeside vedligeholdes af
Som en af de ledende udviklere har hans hænder rørt det meste af koden i softwaren fra Microsys. Hvis du e-mailer spørgsmål, er chancerne for, at han vil være den, der svarer.
Del denne side med dine venner   LinkedIn   Twitter   Facebook   Pinterest   YouTube  
 © Copyright 1997-2024 Microsys

 Brug af denne side inkluderer accept af vores juridisk, privatliv og cookie information.

Se vores prisrobot indenfor emner: Maling | Stiger | Stilladser | Vinduespudsning | Robotstøvsuger | Støvsuger | Maskiner | Køkken | Kaffe | Bad | Mobil | Bærbar | Printer