Website Robots.txt, Noindex, Nofollow und Canonical
TechSEO360 bietet optionale Unterstützung für das Befolgen von Robots-Textdateien, Noindex und Nofollow in Meta-Tags sowie Nofollow in Link-Tags.
Hinweis: Wir haben Video-Tutorials:
Der Website-Crawler in
TechSEO360 verfügt über viele Tools und Optionen, um sicherzustellen, dass er komplexe Websites scannen kann. Einige davon umfassen die vollständige Unterstützung für Robots-Textdateien, Noindex und Nofollow in Meta-Tags sowie Nofollow in Link-Tags.
Tipp: Durch das Herunterladen
von robots.txt werden Sie häufig von Webservern und Analysesoftware als
Website-Crawler-Roboter identifiziert.
Die meisten dieser Optionen finden Sie unter
Website scannen | Webmaster-Filter.
In diesem Zusammenhang können Sie auch steuern, wie sie angewendet werden:
- Website scannen deaktivieren | Webmaster-Filter | Nachdem der Website-Scan beendet wurde: URLs mit noindex/disallow entfernen.
- Aktivieren Sie Sitemap erstellen | Dokumentoptionen | Entfernen Sie URLs, die von den Filtern „Webmaster“ und „Ausgabe“ ausgeschlossen wurden.
Wenn Sie die Crawler-Funktion
zum Anhalten und Fortsetzen verwenden, können Sie vermeiden, dass dieselben URLs wiederholt gecrawlt werden, indem Sie sie alle zwischen den Scans beibehalten.
Weitere Informationen zu
Analyse- und
Ausgabefiltern finden Sie in unserer Online-Hilfe für TechSEO360.
Das
Match- Verhalten im von TechSEO360 verwendeten Website-Crawler ähnelt dem der meisten Suchmaschinen.
Unterstützung für
Platzhaltersymbole in der
robots.txt- Datei:
- Standard: Übereinstimmung vom Anfang bis zur Länge des Filters.
gre passt zu: greyfox, greenfox und green/fox. - Platzhalter *: Entspricht einem beliebigen Zeichen, bis eine weitere Übereinstimmung möglich wird.
gr*fox passt zu: greyfox, greyfox, Growl-fox und green/fox.
Tipp: Platzhalterfilter in robots.txt sind oft falsch konfiguriert und verursachen Crawling-Probleme.
Der Crawler in unserem technischen SEO-Tool beachtet die folgenden
Benutzeragenten-IDs in der
robots.txt- Datei:
- Genaue Übereinstimmung mit dem Benutzeragenten, ausgewählt in: Allgemeine Optionen und Tools | Internet-Crawler | Benutzeragenten-ID.
- Benutzeragent: TechSEO360, wenn der Produktname in der oben genannten HTTP-Benutzeragentenzeichenfolge enthalten ist.
- Benutzeragent: miggibot, wenn der Name der Crawler-Engine in der oben genannten HTTP-Benutzeragentenzeichenfolge enthalten ist.
- Benutzeragent: *.
Alle gefundenen
Disallow- Anweisungen in
robots.txt werden intern in
Analyse- und
Ausgabefilter in
TechSEO360 umgewandelt.
Alle
Status-Flags aller vom Crawler erkannten URLs anzeigen – hierfür werden die in
den Webmaster-Filtern,
Analysefiltern und
Ausgabefiltern festgelegten Optionen verwendet.
Alternativ nutzen Sie die Option
Website scannen | Crawler-Optionen | Verwenden Sie spezielle Antwortcodes, um Zustände als
Antwortcodes widerzuspiegeln.
Um Details zu einer bestimmten URL zu erhalten, wählen Sie diese aus und sehen Sie sich alle Informationen unter
Erweiterte Daten | an
Details,
Erweiterte Daten | Verlinkt von und ähnlich:
Für einen Überblick über alle URLs können Sie die gewünschten Datenspalten ein-/ausblenden, einschließlich
URL-Inhaltsstatus-Flags:
Sie können nach dem Scan auch einen benutzerdefinierten Filter anwenden, um nur URLs mit einer bestimmten Kombination von
URL-Statusflags anzuzeigen: