Microsys
  

Wie Crawler mit harten und weichen 404-URLs umgeht. Nicht gefundene URLs

Die A1-Website-Suchmaschine bietet die Möglichkeit, Fehlerseiten nach Links zu crawlen, da unsere Software über integrierte Schutzmaßnahmen gegen das Crawlen endloser Fehlerseiten verfügt.

Warum das Crawlen von „404 – Nicht gefunden“-Seiten-URLs problematisch ist

Im Allgemeinen ist das Crawlen von URLs mit der Fehlermeldung „404 – Nicht gefunden“ eine schlechte Idee. Um den Grund zu verstehen, werfen Sie einen Blick auf das folgende Beispiel des Prozesses in einem naiven Website-Crawler, der relativ defekte Links verarbeitet:
    • Crawler erkennt die URL http://www.example.com/directory/ und gibt 404 aus – nicht gefunden.
    • Der Crawler findet http://www.example.com/directory/-Links zum Verzeichnis/something.
    • Der Crawler verkettet http://www.example.com/directory/ und Directory/something zu http://www.example.com/directory/directory/something.
    • Der Crawler erkennt die URL http://www.example.com/directory/directory/ und gibt 404 aus – nicht gefunden.
    • Der Crawler findet http://www.example.com/directory/directory/-Links zum Verzeichnis/something.
    • Der Crawler verkettet http://www.example.com/directory/directory/ unddirectory/something zu http://www.example.com/directory/directory/directory/something.
    • Klassische Spinnenfalle, bei der das Website-Crawling für immer andauert.

Aus diesem Grund crawlen die meisten Crawler standardmäßig nicht weiter Seiten, die 404 – Not Found zurückgeben.


Die A1-Website-Suchmaschine kann 404 Seiten crawlen

Einige Websites enthalten wichtige Links auf Seiten, die z. B. für den Fehler „404 – nicht gefunden“ zurückgegeben werden. Sie können die A1-Website-Suchmaschine zwingen, Fehlerseiten nach Links zu durchsuchen, indem Sie die Option „ Website scannen |“ aktivieren Crawler-Optionen | Fehlerseiten crawlen.

Bitte beachten Sie, dass Links relativ zum aktuellen Pfad bei der Analyse von Fehlerseiten ignoriert werden, um zu vermeiden, dass Sie in eine endlose Crawling-Schleife geraten.

Wenn es erforderlich ist, dass Fehlerseiten-URLs auf Links überprüft werden, verwenden Sie stattdessen eine der folgenden Arten von Links:
  • /Verzeichnis/etwas
  • http://www.example.com/directory/something


Soft 404-Fehler und wie man sie vermeidet

Wenn Ihre Website für eine nicht vorhandene URL korrekt die HTTP-Antwort 404 – Nicht gefunden zurückgibt, spricht man von einem harten 404-Fehler. Umgekehrt liegt ein Soft-404-Fehler vor, wenn Ihre Website stattdessen fälschlicherweise beispielsweise mit der HTTP-Antwort 200 – Gefunden antwortet.

Der Grund dafür, dass Soft Errors für Crawler problematisch sind, besteht darin, dass sie Spider-Fallen erzeugen, ähnlich wie oben beschrieben.

Hinweis: Auch wenn auf Ihrer Seite im Seiteninhaltstext für URLs und Seiten, die nicht vorhanden sind, sichtbar „nicht gefunden“ steht, müssen Sie sicherstellen, dass Ihre Website tatsächlich den HTTP-Antwortcode 404 – Nicht gefunden und nicht z. B. 200 – Gefunden zurückgibt.
A1 Website Search Engine
A1 Website Search Engine | Hilfe | vorherige | nächste
Durch den Einsatz einer Suchmaschine auf einer Online- oder Offline-Website können Sie sicherstellen, dass mehr Besucher auf Ihrer Website bleiben. Ein Suchfeld hilft Besuchern, das Gesuchte zu finden.
Diese Hilfeseite wird von betreut
Als einer der Hauptentwickler haben seine Hände den größten Teil des Codes in der Software von Microsys berührt. Wenn Sie Fragen per E-Mail senden, ist die Wahrscheinlichkeit groß, dass er derjenige ist, der antwortet.
Teile diese Seite mit Freunden   LinkedIn   Twitter   Facebook   Pinterest   YouTube  
 © Copyright 1997-2024 Microsys

 Mit der Nutzung dieser Website erklären Sie sich mit unseren Rechtlichen, Datenschutzrichtlinien und Cookie Informationen einverstanden.