TechSEO360 für passwortgeschützte Login-Seiten
Scannen und crawlen Sie Websites mit technischem SEO, auch wenn für die Website ein Login-Benutzername und ein Passwort erforderlich sind.
Login-Unterstützung für HTTPS-Websites
Wenn Ihre Website HTTPS verwendet, müssen Sie
TechSEO360 möglicherweise dafür konfigurieren.
Weitere Informationen finden Sie auf dieser Hilfeseite
zu https.
Immer zuerst konfigurieren: URL-Ausschlussfilter
Wichtig: Wenn Sie eine Benutzeranmeldung durchführen, ist es sehr wichtig, sicherzustellen und
selbst zu überprüfen, dass der Crawler keinen Links folgt, die Inhalte löschen oder verändern können.
Sie können dies auf zwei Arten tun:
- Sie müssen über ein Benutzerkonto verfügen, das keine Inhalte oder Einstellungen bearbeiten oder löschen kann. (Am sichersten .)
- Begrenzen Sie den Crawler so, dass er keinen unerwünschten Links folgt. (Unsicher .)
Hinweis: Es ist auch wichtig zu vermeiden, dass der Crawler einem
Abmeldelink folgt, da sich der Crawler sonst selbst
abmeldet.
Sie können steuern, welche URLs
TechSEO360 während des Website-Crawlings abruft, indem Sie sie in
Analysefiltern und
Ausgabefiltern ausschließen.
Testen Sie unbedingt, ob Ihre Filter richtig konfiguriert sind und wie vorgesehen funktionieren. Bitte beachten Sie auch
, dass wir keine Verantwortung übernehmen können, wenn etwas schief geht – weder bei der Konfiguration noch in der Software.
Hinweis: Unter
Website scannen | ist eine
Voreinstellung verfügbar
Schnelle Voreinstellungen ... die dabei helfen können,
einige häufige Muster unerwünschter URLs auszuschließen:
Website-Anmeldemethode: Eingebetteter Windows Internet Explorer/Edge
Dies ist die einfachste Anmeldemethode, da sie die geringste Konfiguration erfordert. Allerdings funktioniert es nur unter
Windows.
In
Website scannen | Crawler-Engine wählt
HTTP mithilfe der Windows-API WinInet aus.
Gehen Sie jedes Mal, wenn Sie den Website-Scan starten möchten, wie folgt vor:
- Füllen Sie die Scan-Website aus | Wege | Geben Sie zuerst die Domain-Adresse der Website ein, da dies den nächsten Schritt erleichtert.
- In Website scannen | Crawler-Anmeldung: Klicken Sie auf die Schaltfläche „Eingebetteten Browser öffnen“ und melden Sie sich vor dem Crawlen an.
- Abhängig von der Programmversion: Klicken Sie auf die Schaltfläche Sitzungscookies kopieren, falls verfügbar.
- Navigieren Sie zum Anmeldebereich der Website und melden Sie sich wie gewohnt an.
- Sie können nun das eingebettete Browserfenster schließen.
Durch diese Kombination wird sichergestellt, dass TechSEO360 Zugriff auf alle beim Login übertragenen Cookies hat. Sie können nun mit dem Website-Scan beginnen.
Beachten Sie Folgendes, wenn Sie nicht das normale Installationsprogramm verwendet haben: Wenn Sie
Internet Explorer im eingebetteten Modus verwenden, verhält es sich
standardmäßig wie eine ältere Version. Dies kann bei einigen Websites zu Problemen führen. Weitere Informationen finden Sie in diesem
Blogbeitrag auf
MSDN.
Website-Anmeldemethode: Protokollbasierte Anmelde- und Authentifizierungsmethoden
Es gibt einige andere beliebte Anmeldemechanismen, die etablierte Protokolle verwenden, anstatt dies der Website zu überlassen. Diese heißen
NTLM,
SSPI,
Digest und
Basic Realm Authentication. Während die Unterstützung für einige dieser Anmeldemethoden noch
in Arbeit ist, können sie manchmal für die Website-Anmeldung verwendet werden.
Sie können Websites, die dies verwenden, an Anmeldedialogen wie diesem erkennen:
Es ist sehr einfach, den Crawler in unserer technischen SEO-Software für diese Anmeldemethode
Website scannen | zu konfigurieren
Crawler-Login:
Um das oben Genannte zu verwenden, verwenden Sie normalerweise die Option
„HTTP mit Indy-Engine für Internet und Localhost“ unter
„Website scannen |“. Raupenmotor | Standardmäßiger Pfadtyp und Handler. Wenn dies jedoch fehlschlägt, können Sie auch die
WinInet-Option „HTTP mithilfe der Windows-API“ ausprobieren und sich zuerst mit dem eingebetteten Browser anmelden, bevor Sie mit dem Website-Crawling beginnen.
Website-Anmeldemethode: Post-Formular / Sitzungscookies
In der Vergangenheit wurde die POST-Formularanmeldung am häufigsten mit der Option
„HTTP mit Indy-Engine für Internet und Localhost“ in
„Website scannen |“ getestet
Raupenmotor | Standardpfadtyp und -handler.
Um diese Lösung nutzen zu können, müssen Sie verstehen, welche Daten beim Anmelden auf einer Website übermittelt werden, damit Sie
TechSEO360 so konfigurieren können, dass diese Daten gesendet werden. Sie können ein
Firefox- Plugin namens
Live HTTP Headers verwenden, um die während des Anmeldevorgangs übertragenen Header anzuzeigen:
Holen Sie sich das Firefox
Live HTTP Headers -Plugin:
- Löschen Sie alle bereits gesammelten HTTP-Header.
- Versuchen Sie, sich im Firefox-Browser für eine Website anzumelden.
- Konzentrieren Sie sich nun auf die protokollierten HTTP-Header-Daten des ersten Eintrags/der ersten Seite.
- Beachten Sie die Website-Adresse, zu der FireFox eine Verbindung herstellt.
- Beachten Sie den Inhalt (POST-Datenabfragezeichenfolge), der gesendet wird.
- Verwenden Sie diese Daten, um die zu sendenden Header zu konfigurieren.
Anschließend
kopieren Sie einfach die entsprechenden Werte und fügen sie in die TechSEO360-Anmeldekonfiguration ein:
Wenn Sie nach einer Alternative zu
FireFox Live HTTP Headers suchen, können Sie sich
Fiddler (für Internet Explorer) und
WireShark (allgemeines Tool) ansehen.
Website-Login – Post-Formular/Sitzungs-Cookies: Details und Demo-Projekt
Wir haben ein Demoprojekt erstellt, das die Crawler-Anmeldeunterstützung für Websites testet, die
Sitzungscookies verwenden.
Sitzungscookies sind die am häufigsten verwendete Methode für Website-Anmeldesysteme. Die meisten dieser Website-Anmeldungen verwenden die POST-Methode zur Übertragung von Anmelde- und Benutzerdaten. Dies ist die Standardeinstellung von PHP bei der Verwendung
von start_session.
Sie können eine komprimierte Demo-Website mit Anmeldeunterstützung
online testen oder
herunterladen. Laden Sie zum sofortigen Testen auch die
komprimierte Demo-Projektdatei herunter.
Der für eine erfolgreiche Anmeldung erforderliche Benutzername und das Passwort werden auf der
Anmeldeseite hervorgehoben.
- Testen Sie zunächst manuell, ob die Login-Unterstützung funktioniert:
Beachten Sie, dass nach der Anmeldung auf allen Seiten alle Benutzer den Status „ angemeldet “ haben.
- Wir konfigurieren das Website-Crawling-Stammverzeichnis:
Dies erfolgt unter Website scannen | Wege.
- Wir prüfen die Quelle der Login-Seite:
- Sie können die Quelle beispielsweise in Firefox anzeigen.
- Suchen Sie nach <form> - und <input> -Tags, die sich auf die Website-Anmeldung beziehen.
- Wenn die URL im <form> -Tag- Aktionsattribut leer ist, bedeutet dies, dass die Ziel-URL der Aktion mit der URL der Anmeldeseite identisch ist.
- Das Namensattribut in den <input> -Tags variiert von Website zu Website.
- Wir konfigurieren die Anmeldeoptionen:
Dies erfolgt unter Website scannen | Crawler-Identifizierung.
- Wir müssen alle URLs herausfiltern, die beim Crawlen zum Abmelden der Website führen:
Dies erfolgt unter Website scannen | Analysefilter und Website scannen | Ausgabefilter.
- Starten Sie den Website-Scan. Eine einfache Möglichkeit, die Anmeldefunktion zu testen und zu überprüfen, ist der A1 Website Download. Sehen Sie sich einfach die heruntergeladenen Seiten an: Sie sollten alle den Status „angemeldet “ haben.
Website-Anmeldung – Post-Formular/Sitzungs-Cookies: Bekannte Probleme und Probleme
Anmeldesysteme und -konzepte, von denen bekannt ist, dass sie Probleme verursachen:
- Bei der ersten Anmeldung wird ein eindeutiger berechneter Wert im Anmeldeformular übergeben: Beispiel könnte Javascript-Code sein, der beispielsweise auf der Grundlage der genauen Uhrzeit, der IP-Adresse, der User-Agent-ID des Browsers usw. einen im Anmeldeformular übergebenen Wert (z. B. einen Hash oder ähnliches) berechnet. Der Server kennt den Algorithmus, mit dem der Wert generiert wurde, und validiert ihn serverseitig.
Das oben Gesagte macht es fast unmöglich, die technische SEO-Anmeldung ordnungsgemäß zum Laufen zu bringen, es sei denn, Sie haben direkten Zugriff auf die Website und kennen die Funktionsweise sehr gut.
Bekannte Systeme, die Probleme verursachen:
- Einige ASP.Net-Anmeldeformulare
Sie können ASP.Net-Anmeldeformulare identifizieren, indem Sie die HTML-Ausgabe nach der Zeichenfolge durchsuchen: name="__VIEWSTATE".
Reine Spekulation und in Arbeit:
Möglicherweise wird „viewstate“ falsch, selbst wenn der gesamte POST/die gesamten Daten/Header kopiert werden, die während der manuellen Anmeldung übertragen wurden (und z. B. mit FireFox Live HTTP-Headern kopiert wurden). Eine mögliche Erklärung ist, dass „viewstate“ einen „Hash“-ähnlichen Verifizierungswert enthält, ähnlich wie oben für problematische Anmeldesysteme erläutert.
Alternative zum Crawlen von Login-basierten Websites
Wenn Sie Eigentümer der Website sind, können Sie sie so codieren, dass Crawlern mit bestimmten
User-Agent-Strings vollen Zugriff gewährt wird.
Sie können dies unter
Allgemeine Optionen und Tools | konfigurieren
Internet-Crawler | Benutzeragenten-ID:
XML-Sitemaps und passwortgeschützte Seiten
Die Beschränkung des Zugriffs auf Teile Ihrer Website kann oft von Vorteil sein. Ein Nachteil besteht jedoch darin, dass es z. B. die Erstellung von Sitemaps für Ihre registrierten Benutzer mit Zugriff auf alle Teile Ihrer Website erschwert. Dieser Leitfaden hat gezeigt, wie Sie dieses Problem mit
TechSEO360 lösen können.
Wenn Sie jedoch versuchen,
XML-Sitemaps zu erstellen, um Google und andere Suchmaschinen anzulocken, müssen Sie diesen Suchmaschinen dennoch Zugriff auf Ihre passwortgeschützten Seiten gewähren.
Studieren Sie diese Ressourcen für mögliche Lösungen:
TechSEO360 |
Hilfe |
vorherige |
nächste SEO-Website-Crawler-Tool, das defekte Links findet, den Saftfluss interner Links analysiert, doppelte Titel anzeigt, eine benutzerdefinierte Code-/Textsuche durchführt und vieles mehr.
Diese Hilfeseite wird von
Thomas Schulz betreut
Als einer der Hauptentwickler haben seine Hände den größten Teil des Codes in der Software von Microsys berührt. Wenn Sie Fragen per E-Mail senden, ist die Wahrscheinlichkeit groß, dass er derjenige ist, der antwortet.