Website Robots.txt, Noindex, Nofollow und Canonical

TechSEO360 bietet optionale Unterstützung für das Befolgen von Robots-Textdateien, Noindex und Nofollow in Meta-Tags sowie Nofollow in Link-Tags.

Hinweis: Wir haben Video-Tutorials:

TechSEO360 und Webmaster-Crawl-Filter

Der Website-Crawler in TechSEO360 verfügt über viele Tools und Optionen, um sicherzustellen, dass er komplexe Websites scannen kann. Einige davon umfassen die vollständige Unterstützung für Robots-Textdateien, Noindex und Nofollow in Meta-Tags sowie Nofollow in Link-Tags.

Tipp: Durch das Herunterladen von robots.txt werden Sie häufig von Webservern und Analysesoftware als Website-Crawler-Roboter identifiziert.

Die meisten dieser Optionen finden Sie unter Website scannen | Webmaster-Filter.

Crawl-Roboter Noindex Nofollow

In diesem Zusammenhang können Sie auch steuern, wie sie angewendet werden:

Website scannen deaktivieren | Webmaster-Filter | Nachdem der Website-Scan beendet wurde: URLs mit noindex/disallow entfernen.
Aktivieren Sie Sitemap erstellen | Dokumentoptionen | Entfernen Sie URLs, die von den Filtern „Webmaster“ und „Ausgabe“ ausgeschlossen wurden.

Wenn Sie die Crawler-Funktion zum Anhalten und Fortsetzen verwenden, können Sie vermeiden, dass dieselben URLs wiederholt gecrawlt werden, indem Sie sie alle zwischen den Scans beibehalten.

HTML-Code für Canonical, NoIndex, NoFollow und mehr

Kanonisch:
<link rel="canonical" href="http://www.example.com/list.php?sort=az" />
Dies ist in Fällen nützlich, in denen zwei verschiedene URLs denselben Inhalt liefern. Informieren Sie sich über doppelte URLs, da es möglicherweise bessere Lösungen als die Verwendung kanonischer Anweisungen, z. B. Weiterleitungen, gibt. Die Unterstützung hierfür wird durch die Option gesteuert: Website scannen | Webmaster-Filter | Befolgen Sie das kanonische „link“-Tag „rel“.
NoFollow:
<a href="http://www.example.com/" rel="nofollow">schlechter Link</a> und <meta name="robots" content="nofollow" />
Die Unterstützung hierfür wird durch folgende Optionen gesteuert: Website scannen | Webmaster-Filter | Befolgen Sie das „a“-Tag „rel“ nofollow und scannen Sie die Website | Webmaster-Filter | Befolgen Sie das „Meta“-Tag „Robots“ nofollow.
NoIndex:
<meta name="robots" content="noindex" />
Die Unterstützung hierfür wird durch folgende Optionen gesteuert: Website scannen | Webmaster-Filter | Befolgen Sie das „meta“-Tag „robots“ noindex.
Meta-Weiterleitung:
<meta http-equiv="refresh" content="0;url=https://example.com" />
Die Unterstützung hierfür wird durch die Option gesteuert: Website scannen | Crawler-Optionen | Erwägen Sie eine Meta-Aktualisierung von 0 Sekunden für die Weiterleitung.
Javascript-Links und Referenzen:
<button onclick="myLinkClick()">Beispiel</button>
Die Unterstützung hierfür wird durch Optionen gesteuert:
- Website scannen | Crawler-Optionen | Versuchen Sie, in Javascript zu suchen.
- Website scannen | Crawler-Optionen | Versuchen Sie, in JSON zu suchen.
Tipp: Sie können unter Website scannen | auch einen AJAX- fähigen Crawler auswählen Raupenmotor.

Listen- und Analysefilter ein- und ausschließen

Weitere Informationen zu Analyse- und Ausgabefiltern finden Sie in unserer Online-Hilfe für TechSEO360.

Unterstützung für Übereinstimmungsverhalten und Platzhalter in Robots.txt

Das Match- Verhalten im von TechSEO360 verwendeten Website-Crawler ähnelt dem der meisten Suchmaschinen.

Unterstützung für Platzhaltersymbole in der robots.txt- Datei:

Standard: Übereinstimmung vom Anfang bis zur Länge des Filters.
gre passt zu: greyfox, greenfox und green/fox.
Platzhalter *: Entspricht einem beliebigen Zeichen, bis eine weitere Übereinstimmung möglich wird.
gr*fox passt zu: greyfox, greyfox, Growl-fox und green/fox.
Tipp: Platzhalterfilter in robots.txt sind oft falsch konfiguriert und verursachen Crawling-Probleme.

Der Crawler in unserem technischen SEO-Tool beachtet die folgenden Benutzeragenten-IDs in der robots.txt- Datei:

Genaue Übereinstimmung mit dem Benutzeragenten, ausgewählt in: Allgemeine Optionen und Tools | Internet-Crawler | Benutzeragenten-ID.
Benutzeragent: TechSEO360, wenn der Produktname in der oben genannten HTTP-Benutzeragentenzeichenfolge enthalten ist.
Benutzeragent: miggibot, wenn der Name der Crawler-Engine in der oben genannten HTTP-Benutzeragentenzeichenfolge enthalten ist.
Benutzeragent: *.

Alle gefundenen Disallow- Anweisungen in robots.txt werden intern in Analyse- und Ausgabefilter in TechSEO360 umgewandelt.

Überprüfen Sie die Ergebnisse nach dem Website-Scan

Alle Status-Flags aller vom Crawler erkannten URLs anzeigen – hierfür werden die in den Webmaster-Filtern, Analysefiltern und Ausgabefiltern festgelegten Optionen verwendet.

Alternativ nutzen Sie die Option Website scannen | Crawler-Optionen | Verwenden Sie spezielle Antwortcodes, um Zustände als Antwortcodes widerzuspiegeln.

Um Details zu einer bestimmten URL zu erhalten, wählen Sie diese aus und sehen Sie sich alle Informationen unter Erweiterte Daten | an Details, Erweiterte Daten | Verlinkt von und ähnlich:

Crawling-Filter-Statusflags

Für einen Überblick über alle URLs können Sie die gewünschten Datenspalten ein-/ausblenden, einschließlich URL-Inhaltsstatus-Flags:

Ergebnisse mit Informationen zu URL-Statusflags anzeigen

Ergebnisse mit Informationen zu URL-Statusflags anzeigen

Sie können nach dem Scan auch einen benutzerdefinierten Filter anwenden, um nur URLs mit einer bestimmten Kombination von URL-Statusflags anzuzeigen:

Filtern Sie die Ergebnisse nach Informationen zu URL-Statusflags

Filtern Sie die Ergebnisse nach Informationen zu URL-Statusflags

TechSEO360 | Hilfe | vorherige | nächste

SEO-Website-Crawler-Tool, das defekte Links findet, den Saftfluss interner Links analysiert, doppelte Titel anzeigt, eine benutzerdefinierte Code-/Textsuche durchführt und vieles mehr.

Diese Hilfeseite wird von Thomas Schulz betreut

Als einer der Hauptentwickler haben seine Hände den größten Teil des Codes in der Software von Microsys berührt. Wenn Sie Fragen per E-Mail senden, ist die Wahrscheinlichkeit groß, dass er derjenige ist, der antwortet.