Website Robots.txt, Noindex, Nofollow und Canonical
Die A1-Website-Suchmaschine bietet optionale Unterstützung für die Einhaltung von Robots-Textdateien, Noindex und Nofollow in Meta-Tags und Nofollow in Link-Tags.
Der Website-Crawler in
der A1 Website Search Engine verfügt über viele Tools und Optionen, um sicherzustellen, dass er komplexe Websites scannen kann. Einige davon umfassen die vollständige Unterstützung für Robots-Textdateien, Noindex und Nofollow in Meta-Tags sowie Nofollow in Link-Tags.
Tipp: Durch das Herunterladen
von robots.txt werden Sie häufig von Webservern und Analysesoftware als
Website-Crawler-Roboter identifiziert.
Die meisten dieser Optionen finden Sie unter
Website scannen | Webmaster-Filter.
In diesem Zusammenhang können Sie auch steuern, wie sie angewendet werden:
- Website scannen deaktivieren | Webmaster-Filter | Nachdem der Website-Scan beendet wurde: URLs mit noindex/disallow entfernen.
Wenn Sie die Crawler-Funktion
zum Anhalten und Fortsetzen verwenden, können Sie vermeiden, dass dieselben URLs wiederholt gecrawlt werden, indem Sie sie alle zwischen den Scans beibehalten.
Weitere Informationen zu
Analyse- und
Ausgabefiltern finden Sie in unserer Online-Hilfe zur A1 Website Search Engine.
Das
Match- Verhalten im Website-Crawler der A1 Website Search Engine ähnelt dem der meisten Suchmaschinen.
Unterstützung für
Platzhaltersymbole in der
robots.txt- Datei:
- Standard: Übereinstimmung vom Anfang bis zur Länge des Filters.
gre passt zu: greyfox, greenfox und green/fox. - Platzhalter *: Entspricht einem beliebigen Zeichen, bis eine weitere Übereinstimmung möglich wird.
gr*fox passt zu: greyfox, greyfox, Growl-fox und green/fox.
Tipp: Platzhalterfilter in robots.txt sind oft falsch konfiguriert und verursachen Crawling-Probleme.
Der Crawler in unserem Website-Suchmaschinentool beachtet die folgenden
Benutzeragenten-IDs in der
robots.txt- Datei:
- Genaue Übereinstimmung mit dem Benutzeragenten, ausgewählt in: Allgemeine Optionen und Tools | Internet-Crawler | Benutzeragenten-ID.
- Benutzeragent: A1 Website Search Engine, wenn der Produktname in der oben genannten HTTP-Benutzeragentenzeichenfolge enthalten ist.
- Benutzeragent: miggibot, wenn der Name der Crawler-Engine in der oben genannten HTTP-Benutzeragentenzeichenfolge enthalten ist.
- Benutzeragent: *.
Alle gefundenen
Disallow- Anweisungen in
robots.txt werden intern sowohl in
Analyse- als auch in
Ausgabefilter in
der A1 Website Search Engine umgewandelt.
Alle
Status-Flags aller vom Crawler erkannten URLs anzeigen – hierfür werden die in
den Webmaster-Filtern,
Analysefiltern und
Ausgabefiltern festgelegten Optionen verwendet.
Alternativ nutzen Sie die Option
Website scannen | Crawler-Optionen | Verwenden Sie spezielle Antwortcodes, um Zustände als
Antwortcodes widerzuspiegeln.
Um Details zu einer bestimmten URL zu erhalten, wählen Sie diese aus und sehen Sie sich alle Informationen unter
Erweiterte Daten | an
Details,
Erweiterte Daten | Verlinkt von und ähnlich: