Hvordan Crawler håndterer hårdt og blødt 404 Ikke fundet URL'er
A1 Website Search Engine har mulighed for at crawle fejlsider for links, da vores software har indbygget beskyttelse mod at crawle endeløse fejlsider.
Generelt er det en dårlig idé at crawle URL'er, der fejler med f.eks.
404 - Not Found. For at forstå årsagen skal du tage et kig på følgende eksempel på processen i en naiv webstedscrawler, der håndterer relative ødelagte links:
- Crawleren registrerer url http://www.example.com/directory/ giver 404 - ikke fundet.
- Webcrawleren finder http://www.example.com/directory/ links til mappe/noget.
- Crawler sammenkæder http://www.example.com/directory/ og directory/noget til http://www.example.com/directory/directory/noget.
- Crawleren registrerer url http://www.example.com/directory/directory/ giver 404 - ikke fundet.
- Webcrawleren finder http://www.example.com/directory/directory/ links til mappe/noget.
- Crawler sammenkæder http://www.example.com/directory/directory/ og directory/noget til http://www.example.com/directory/directory/directory/noget.
- Klassisk edderkoppefælde, hvor hjemmesidens crawl vil fortsætte for evigt.
Dette er grunden til, at de fleste crawlere som standard
ikke fortsætter med at crawle sider, der returnerer
404-Not Found.
Nogle websteder indeholder vigtige links på sider, der returneres for f.eks.
404 - ikke fundet fejl. Du kan tvinge
A1 Website Search Engine til at scanne fejlsider for links ved at markere indstillingen:
scan websted | crawler muligheder | crawl-fejlsider.
Bemærk venligst, at links
i forhold til den aktuelle sti vil blive ignoreret ved analyse af fejlsider for at undgå at blive fanget i en endeløs gennemsøgningsløkke.
Hvis det er nødvendigt at få fejlside-URL'er scannet for links, skal du bruge en af følgende typer links i stedet:
- /mappe/noget
- http://www.example.com/mappe/noget