Website Robots.txt, Noindex, Nofollow und Canonical

A1 Sitemap Generator bietet optionale Unterstützung für die Einhaltung von Robots-Textdateien, Noindex und Nofollow in Meta-Tags und Nofollow in Link-Tags.

Sitemap-Generator und Webmaster-Crawling-Filter

Der Website-Crawler im A1 Sitemap Generator verfügt über viele Tools und Optionen, um sicherzustellen, dass er komplexe Websites scannen kann. Einige davon umfassen die vollständige Unterstützung für Robots-Textdateien, Noindex und Nofollow in Meta-Tags sowie Nofollow in Link-Tags.

Tipp: Durch das Herunterladen von robots.txt werden Sie häufig von Webservern und Analysesoftware als Website-Crawler-Roboter identifiziert.

Die meisten dieser Optionen finden Sie unter Website scannen | Webmaster-Filter.

Crawl-Roboter Noindex Nofollow

In diesem Zusammenhang können Sie auch steuern, wie sie angewendet werden:

Website scannen deaktivieren | Webmaster-Filter | Nachdem der Website-Scan beendet wurde: URLs mit noindex/disallow entfernen.
Aktivieren Sie Sitemap erstellen | Dokumentoptionen | Entfernen Sie URLs, die von den Filtern „Webmaster“ und „Ausgabe“ ausgeschlossen wurden.

Wenn Sie die Crawler-Funktion zum Anhalten und Fortsetzen verwenden, können Sie vermeiden, dass dieselben URLs wiederholt gecrawlt werden, indem Sie sie alle zwischen den Scans behalten.

HTML-Code für Canonical, NoIndex, NoFollow und mehr

Kanonisch:
<link rel="canonical" href="http://www.example.com/list.php?sort=az" />
Dies ist in Fällen nützlich, in denen zwei verschiedene URLs denselben Inhalt liefern. Informieren Sie sich über doppelte URLs, da es möglicherweise bessere Lösungen als die Verwendung kanonischer Anweisungen, z. B. Weiterleitungen, gibt. Die Unterstützung hierfür wird durch die Option gesteuert: Website scannen | Webmaster-Filter | Befolgen Sie das kanonische „link“-Tag „rel“.
NoFollow:
<a href="http://www.example.com/" rel="nofollow">schlechter Link</a> und <meta name="robots" content="nofollow" />
Die Unterstützung hierfür wird durch folgende Optionen gesteuert: Website scannen | Webmaster-Filter | Befolgen Sie das „a“-Tag „rel“ nofollow und scannen Sie die Website | Webmaster-Filter | Befolgen Sie das „Meta“-Tag „Robots“ nofollow.
NoIndex:
<meta name="robots" content="noindex" />
Die Unterstützung hierfür wird durch folgende Optionen gesteuert: Website scannen | Webmaster-Filter | Befolgen Sie das „meta“-Tag „robots“ noindex.
Meta-Weiterleitung:
<meta http-equiv="refresh" content="0;url=https://example.com" />
Die Unterstützung hierfür wird durch die Option gesteuert: Website scannen | Crawler-Optionen | Erwägen Sie eine Meta-Aktualisierung von 0 Sekunden für die Weiterleitung.
Javascript-Links und Referenzen:
<button onclick="myLinkClick()">Beispiel</button>
Die Unterstützung hierfür wird durch Optionen gesteuert:
- Website scannen | Crawler-Optionen | Versuchen Sie, in Javascript zu suchen.
- Website scannen | Crawler-Optionen | Versuchen Sie, in JSON zu suchen.
Tipp: Sie können unter Website scannen | auch einen AJAX- fähigen Crawler auswählen Raupenmotor.

Listen- und Analysefilter ein- und ausschließen

Weitere Informationen zu Analyse- und Ausgabefiltern finden Sie in unserer Online-Hilfe zum A1 Sitemap Generator.

Unterstützung für Übereinstimmungsverhalten und Platzhalter in Robots.txt

Das Match- Verhalten im Website-Crawler des A1 Sitemap Generator ähnelt dem der meisten Suchmaschinen.

Unterstützung für Platzhaltersymbole in der robots.txt -Datei:

Standard: Übereinstimmung vom Anfang bis zur Länge des Filters.
gre passt zu: greyfox, greenfox und green/fox.
Platzhalter *: Entspricht einem beliebigen Zeichen, bis eine weitere Übereinstimmung möglich wird.
gr*fox passt zu: greyfox, greyfox, Growl-fox und green/fox.
Tipp: Platzhalterfilter in robots.txt sind oft falsch konfiguriert und verursachen Crawling-Probleme.

Der Crawler in unserem Sitemap-Generator-Tool beachtet die folgenden Benutzeragenten-IDs in der robots.txt- Datei:

Genaue Übereinstimmung mit dem Benutzeragenten, ausgewählt in: Allgemeine Optionen und Tools | Internet-Crawler | Benutzeragenten-ID.
Benutzeragent: A1 Sitemap Generator, wenn der Produktname in der oben genannten HTTP-Benutzeragentenzeichenfolge enthalten ist.
Benutzeragent: miggibot, wenn der Name der Crawler-Engine in der oben genannten HTTP-Benutzeragentenzeichenfolge enthalten ist.
Benutzeragent: *.

Alle gefundenen Disallow- Anweisungen in robots.txt werden intern sowohl in Analyse- als auch in Ausgabefilter im A1 Sitemap Generator umgewandelt.

Überprüfen Sie die Ergebnisse nach dem Website-Scan

Alle Status-Flags aller vom Crawler erkannten URLs anzeigen – hierfür werden die in den Webmaster-Filtern, Analysefiltern und Ausgabefiltern festgelegten Optionen verwendet.

Alternativ nutzen Sie die Option Website scannen | Crawler-Optionen | Verwenden Sie spezielle Antwortcodes, um Zustände als Antwortcodes widerzuspiegeln.

Um Details zu einer bestimmten URL zu erhalten, wählen Sie diese aus und sehen Sie sich alle Informationen unter Erweiterte Daten | an Details, Erweiterte Daten | Verlinkt von und ähnlich:

Crawling-Filter-Statusflags

A1 Sitemap Generator | Hilfe | vorherige | nächste

Erstellen Sie alle Arten von Sitemaps, einschließlich Text, visuellem HTML/CSS, RSS, XML, Bild, Video, Nachrichten und Mobilgeräten, für alle Ihre Websites, unabhängig von der verwendeten Plattform.

Diese Hilfeseite wird von Thomas Schulz betreut

Als einer der Hauptentwickler haben seine Hände den größten Teil des Codes in der Software von Microsys berührt. Wenn Sie Fragen per E-Mail senden, ist die Wahrscheinlichkeit groß, dass er derjenige ist, der antwortet.