Microsys
  

Hard und Soft 404 Nicht gefundene URLs im Website-Download

A1 Website Download bietet die Möglichkeit, Fehlerseiten nach Links zu crawlen, da unsere Software über integrierte Schutzmaßnahmen gegen das Crawlen endloser Fehlerseiten verfügt.

Warum das Crawlen von „404 – Nicht gefunden“-Seiten-URLs problematisch ist

Im Allgemeinen ist das Crawlen von URLs mit der Fehlermeldung „404 – Nicht gefunden“ eine schlechte Idee. Um den Grund zu verstehen, werfen Sie einen Blick auf das folgende Beispiel des Prozesses in einem naiven Website-Crawler, der relativ defekte Links verarbeitet:
    • Crawler erkennt die URL http://www.example.com/directory/ und gibt 404 aus – nicht gefunden.
    • Der Crawler findet http://www.example.com/directory/-Links zum Verzeichnis/something.
    • Der Crawler verkettet http://www.example.com/directory/ und Directory/something zu http://www.example.com/directory/directory/something.
    • Der Crawler erkennt die URL http://www.example.com/directory/directory/ und gibt 404 aus – nicht gefunden.
    • Der Crawler findet http://www.example.com/directory/directory/-Links zum Verzeichnis/something.
    • Der Crawler verkettet http://www.example.com/directory/directory/ unddirectory/something zu http://www.example.com/directory/directory/directory/something.
    • Klassische Spinnenfalle, bei der das Website-Crawling für immer andauert.

Aus diesem Grund crawlen die meisten Crawler standardmäßig nicht weiter Seiten, die 404 – Not Found zurückgeben.


Der A1-Website-Download kann 404 Seiten crawlen

Einige Websites enthalten wichtige Links auf Seiten, die z. B. für den Fehler „404 – nicht gefunden“ zurückgegeben werden. Sie können A1 Website Download zwingen, Fehlerseiten nach Links zu durchsuchen, indem Sie die Option „ Website scannen |“ aktivieren Crawler-Optionen | Fehlerseiten crawlen.

Bitte beachten Sie, dass Links relativ zum aktuellen Pfad bei der Analyse von Fehlerseiten ignoriert werden, um zu vermeiden, dass Sie in eine endlose Crawling-Schleife geraten.

Wenn es erforderlich ist, dass Fehlerseiten-URLs auf Links überprüft werden, verwenden Sie stattdessen eine der folgenden Arten von Links:
  • /Verzeichnis/etwas
  • http://www.example.com/directory/something


Soft 404-Fehler und wie man sie vermeidet

Wenn Ihre Website für eine nicht vorhandene URL korrekt die HTTP-Antwort 404 – Nicht gefunden zurückgibt, spricht man von einem harten 404-Fehler. Umgekehrt liegt ein Soft-404-Fehler vor, wenn Ihre Website stattdessen fälschlicherweise beispielsweise mit der HTTP-Antwort 200 – Gefunden antwortet.

Der Grund dafür, dass Soft Errors für Crawler problematisch sind, besteht darin, dass sie Spider-Fallen erzeugen, ähnlich wie oben beschrieben.

Hinweis: Auch wenn auf Ihrer Seite im Seiteninhaltstext für URLs und Seiten, die nicht vorhanden sind, sichtbar „nicht gefunden“ steht, müssen Sie sicherstellen, dass Ihre Website tatsächlich den HTTP-Antwortcode 404 – Nicht gefunden und nicht z. B. 200 – Gefunden zurückgibt.
A1 Website Download
A1 Website herunterladen | Hilfe | vorherige | nächste
Laden Sie vollständige Websites herunter und nehmen Sie sie mit, um sie in Offline-Medien zu durchsuchen. Kopieren und speichern Sie ganze Websites für Sicherungs-, Archivierungs- und Dokumentationszwecke. Verlieren Sie nie wieder eine Website.
Diese Hilfeseite wird von betreut
Als einer der Hauptentwickler haben seine Hände den größten Teil des Codes in der Software von Microsys berührt. Wenn Sie Fragen per E-Mail senden, ist die Wahrscheinlichkeit groß, dass er derjenige ist, der antwortet.
Teile diese Seite mit Freunden   LinkedIn   Twitter   Facebook   Pinterest   YouTube  
 © Copyright 1997-2024 Microsys

 Mit der Nutzung dieser Website erklären Sie sich mit unseren Rechtlichen, Datenschutzrichtlinien und Cookie Informationen einverstanden.