Wie Crawler mit harten und weichen 404-URLs umgeht. Nicht gefundene URLs
Die A1-Website-Suchmaschine bietet die Möglichkeit, Fehlerseiten nach Links zu crawlen, da unsere Software über integrierte Schutzmaßnahmen gegen das Crawlen endloser Fehlerseiten verfügt.
Im Allgemeinen ist das Crawlen von URLs mit der Fehlermeldung
„404 – Nicht gefunden“ eine schlechte Idee. Um den Grund zu verstehen, werfen Sie einen Blick auf das folgende Beispiel des Prozesses in einem naiven Website-Crawler, der relativ defekte Links verarbeitet:
- Crawler erkennt die URL http://www.example.com/directory/ und gibt 404 aus – nicht gefunden.
- Der Crawler findet http://www.example.com/directory/-Links zum Verzeichnis/something.
- Der Crawler verkettet http://www.example.com/directory/ und Directory/something zu http://www.example.com/directory/directory/something.
- Der Crawler erkennt die URL http://www.example.com/directory/directory/ und gibt 404 aus – nicht gefunden.
- Der Crawler findet http://www.example.com/directory/directory/-Links zum Verzeichnis/something.
- Der Crawler verkettet http://www.example.com/directory/directory/ unddirectory/something zu http://www.example.com/directory/directory/directory/something.
- Klassische Spinnenfalle, bei der das Website-Crawling für immer andauert.
Aus diesem Grund crawlen die meisten Crawler standardmäßig
nicht weiter Seiten, die
404 – Not Found zurückgeben.
Einige Websites enthalten wichtige Links auf Seiten, die z. B. für den Fehler
„404 – nicht gefunden“ zurückgegeben werden. Sie können
die A1-Website-Suchmaschine zwingen, Fehlerseiten nach Links zu durchsuchen, indem Sie die Option „
Website scannen |“ aktivieren
Crawler-Optionen | Fehlerseiten crawlen.
Bitte beachten Sie, dass Links
relativ zum aktuellen Pfad bei der Analyse von Fehlerseiten ignoriert werden, um zu vermeiden, dass Sie in eine endlose Crawling-Schleife geraten.
Wenn es erforderlich ist, dass Fehlerseiten-URLs auf Links überprüft werden, verwenden Sie stattdessen eine der folgenden Arten von Links:
- /Verzeichnis/etwas
- http://www.example.com/directory/something