Website Robots.txt, Noindex, Nofollow und Canonical
A1 Website Analyzer bietet optionale Unterstützung für die Einhaltung von Robots-Textdateien, Noindex und Nofollow in Meta-Tags sowie Nofollow in Link-Tags.
Hinweis: Wir haben Video-Tutorials:
Obwohl diese Videodemonstrationen
TechSEO360 verwenden, sind sie auch für Benutzer von
A1 Website Analyzer anwendbar.
Der Website-Crawler im
A1 Website Analyzer verfügt über viele Tools und Optionen, um sicherzustellen, dass er komplexe Websites scannen kann. Einige davon umfassen die vollständige Unterstützung für Robots-Textdateien, Noindex und Nofollow in Meta-Tags sowie Nofollow in Link-Tags.
Tipp: Durch das Herunterladen
von robots.txt werden Sie häufig von Webservern und Analysesoftware als
Website-Crawler-Roboter identifiziert.
Die meisten dieser Optionen finden Sie unter
Website scannen | Webmaster-Filter.
In diesem Zusammenhang können Sie auch steuern, wie sie angewendet werden:
- Website scannen deaktivieren | Webmaster-Filter | Nachdem der Website-Scan beendet wurde: URLs mit noindex/disallow entfernen.
Wenn Sie die Crawler-Funktion
zum Anhalten und Fortsetzen verwenden, können Sie vermeiden, dass dieselben URLs wiederholt gecrawlt werden, indem Sie sie alle zwischen den Scans beibehalten.
Weitere Informationen zu
Analyse- und
Ausgabefiltern finden Sie in unserer Online-Hilfe zum A1 Website Analyzer.
Das
Match- Verhalten im Website-Crawler des A1 Website Analyzer ähnelt dem der meisten Suchmaschinen.
Unterstützung für
Platzhaltersymbole in der
robots.txt- Datei:
- Standard: Übereinstimmung vom Anfang bis zur Länge des Filters.
gre passt zu: greyfox, greenfox und green/fox. - Platzhalter *: Entspricht einem beliebigen Zeichen, bis eine weitere Übereinstimmung möglich wird.
gr*fox passt zu: greyfox, greyfox, Growl-fox und green/fox.
Tipp: Platzhalterfilter in robots.txt sind oft falsch konfiguriert und verursachen Crawling-Probleme.
Der Crawler in unserem Website-Analysetool beachtet die folgenden
Benutzeragenten-IDs in der
robots.txt- Datei:
- Genaue Übereinstimmung mit dem Benutzeragenten, ausgewählt in: Allgemeine Optionen und Tools | Internet-Crawler | Benutzeragenten-ID.
- Benutzeragent: A1 Website Analyzer, wenn der Produktname in der oben genannten HTTP-Benutzeragentenzeichenfolge enthalten ist.
- Benutzeragent: miggibot, wenn der Name der Crawler-Engine in der oben genannten HTTP-Benutzeragentenzeichenfolge enthalten ist.
- Benutzeragent: *.
Alle gefundenen
Disallow- Anweisungen in
robots.txt werden intern sowohl in
Analyse- als auch in
Ausgabefilter im
A1 Website Analyzer umgewandelt.
Alle
Status-Flags aller vom Crawler erkannten URLs anzeigen – hierfür werden die in
den Webmaster-Filtern,
Analysefiltern und
Ausgabefiltern festgelegten Optionen verwendet.
Alternativ nutzen Sie die Option
Website scannen | Crawler-Optionen | Verwenden Sie spezielle Antwortcodes, um Zustände als
Antwortcodes widerzuspiegeln.
Um Details zu einer bestimmten URL zu erhalten, wählen Sie diese aus und sehen Sie sich alle Informationen unter
Erweiterte Daten | an
Details,
Erweiterte Daten | Verlinkt von und ähnlich:
Für einen Überblick über alle URLs können Sie die gewünschten Datenspalten ein-/ausblenden, einschließlich
URL-Inhaltsstatus-Flags:
Sie können nach dem Scan auch einen benutzerdefinierten Filter anwenden, um nur URLs mit einer bestimmten Kombination von
URL-Statusflags anzuzeigen: