Microsys
  

Website-Analysator für passwortgeschützte Seiten

Scannen und crawlen Sie Websites mit dem Website-Analysator, auch wenn für die Website ein Login-Benutzername und ein Passwort erforderlich sind.

Login-Unterstützung für HTTPS-Websites

Wenn Ihre Website HTTPS verwendet, müssen Sie möglicherweise A1 Website Analyzer dafür konfigurieren.

Weitere Informationen finden Sie auf dieser Hilfeseite zu https.


Immer zuerst konfigurieren: URL-Ausschlussfilter

Wichtig: Wenn Sie eine Benutzeranmeldung durchführen, ist es sehr wichtig, sicherzustellen und selbst zu überprüfen, dass der Crawler keinen Links folgt, die Inhalte löschen oder verändern können.

Sie können dies auf zwei Arten tun:
  • Sie müssen über ein Benutzerkonto verfügen, das keine Inhalte oder Einstellungen bearbeiten oder löschen kann. (Am sichersten .)
  • Begrenzen Sie den Crawler so, dass er keinen unerwünschten Links folgt. (Unsicher .)

Hinweis: Es ist auch wichtig zu vermeiden, dass der Crawler einem Abmeldelink folgt, da sich der Crawler sonst selbst abmeldet.

Sie können steuern, welche URLs A1 Website Analyzer während des Website-Crawlings abruft, indem Sie sie in Analysefiltern und Ausgabefiltern ausschließen.

Testen Sie unbedingt, ob Ihre Filter richtig konfiguriert sind und wie vorgesehen funktionieren. Bitte beachten Sie auch , dass wir keine Verantwortung übernehmen können, wenn etwas schief geht – weder bei der Konfiguration noch in der Software.

Hinweis: Unter Website scannen | ist eine Voreinstellung verfügbar Schnelle Voreinstellungen ... die dabei helfen können, einige häufige Muster unerwünschter URLs auszuschließen:

Schließen Sie häufige unerwünschte URLs aus, wenn Sie die Anmeldefunktion verwenden


Website-Anmeldemethode: Eingebetteter Windows Internet Explorer/Edge

Dies ist die einfachste Anmeldemethode, da sie die geringste Konfiguration erfordert. Allerdings funktioniert es nur unter Windows.

In Website scannen | Crawler-Engine wählt HTTP mithilfe der Windows-API WinInet aus.

Gehen Sie jedes Mal, wenn Sie den Website-Scan starten möchten, wie folgt vor:
  1. Füllen Sie die Scan-Website aus | Wege | Geben Sie zuerst die Domain-Adresse der Website ein, da dies den nächsten Schritt erleichtert.
  2. In Website scannen | Crawler-Anmeldung: Klicken Sie auf die Schaltfläche „Eingebetteten Browser öffnen“ und melden Sie sich vor dem Crawlen an.
  3. Abhängig von der Programmversion: Klicken Sie auf die Schaltfläche Sitzungscookies kopieren, falls verfügbar.
  4. Navigieren Sie zum Anmeldebereich der Website und melden Sie sich wie gewohnt an.
  5. Sie können nun das eingebettete Browserfenster schließen.

Melden Sie sich mit dem eingebetteten Browser an

Durch diese Kombination wird sichergestellt, dass A1 Website Analyzer Zugriff auf alle beim Login übertragenen Cookies hat. Sie können nun mit dem Website-Scan beginnen.

Beachten Sie Folgendes, wenn Sie nicht das normale Installationsprogramm verwendet haben: Wenn Sie Internet Explorer im eingebetteten Modus verwenden, verhält es sich standardmäßig wie eine ältere Version. Dies kann bei einigen Websites zu Problemen führen. Weitere Informationen finden Sie in diesem Blogbeitrag auf MSDN.


Website-Anmeldemethode: Protokollbasierte Anmelde- und Authentifizierungsmethoden

Es gibt einige andere beliebte Anmeldemechanismen, die etablierte Protokolle verwenden, anstatt dies der Website zu überlassen. Diese heißen NTLM, SSPI, Digest und Basic Realm Authentication. Während die Unterstützung für einige dieser Anmeldemethoden noch in Arbeit ist, können sie manchmal für die Website-Anmeldung verwendet werden.

Sie können Websites, die dies verwenden, an Anmeldedialogen wie diesem erkennen:

Website-Anmeldedialog mit grundlegender Realm-Authentifizierung

Es ist sehr einfach, den Crawler in unserer Website-Analyse-Software für diese Anmeldemethode Website scannen | zu konfigurieren Crawler-Login:

Website-Anmeldekonfiguration mit grundlegender Realm-Authentifizierung

Um das oben Genannte zu verwenden, verwenden Sie normalerweise die Option „HTTP mit Indy-Engine für Internet und Localhost“ unter „Website scannen |“. Raupenmotor | Standardmäßiger Pfadtyp und Handler. Wenn dies jedoch fehlschlägt, können Sie auch die WinInet-Option „HTTP mithilfe der Windows-API“ ausprobieren und sich zuerst mit dem eingebetteten Browser anmelden, bevor Sie mit dem Website-Crawling beginnen.


Website-Anmeldemethode: Post-Formular / Sitzungscookies

In der Vergangenheit wurde die POST-Formularanmeldung am häufigsten mit der Option „HTTP mit Indy-Engine für Internet und Localhost“ in „Website scannen |“ getestet Raupenmotor | Standardpfadtyp und -handler.

Wählen Sie den HTTP-Kommunikationshandler

Um diese Lösung nutzen zu können, müssen Sie verstehen, welche Daten beim Anmelden auf einer Website übermittelt werden, sodass Sie A1 Website Analyzer so konfigurieren können, dass diese Daten gesendet werden. Sie können ein Firefox- Plugin namens Live HTTP Headers verwenden, um die während des Anmeldevorgangs übertragenen Header anzuzeigen:

Holen Sie sich das Firefox Live HTTP Headers -Plugin:
  • Löschen Sie alle bereits erfassten HTTP-Header.
  • Versuchen Sie, sich im Firefox-Browser für eine Website anzumelden.
  • Konzentrieren Sie sich nun auf die protokollierten HTTP-Header-Daten des ersten Eintrags/der ersten Seite.
  • Beachten Sie die Website-Adresse, zu der FireFox eine Verbindung herstellt.
  • Beachten Sie den Inhalt (POST-Datenabfragezeichenfolge), der gesendet wird.
  • Verwenden Sie diese Daten, um die zu sendenden Header zu konfigurieren.

Melden Sie sich mit Firefox-Live-HTTP-Headern an

Anschließend kopieren Sie einfach die entsprechenden Werte und fügen sie in die Anmeldekonfiguration des A1 Website Analyzer ein:

Anmeldedaten kopieren und einfügen

Wenn Sie nach einer Alternative zu FireFox Live HTTP Headers suchen, können Sie sich Fiddler (für Internet Explorer) und WireShark (allgemeines Tool) ansehen.


Website-Login – Post-Formular/Sitzungs-Cookies: Details und Demo-Projekt

Wir haben ein Demoprojekt erstellt, das die Crawler-Anmeldeunterstützung für Websites testet, die Sitzungscookies verwenden.

Sitzungscookies sind die am häufigsten verwendete Methode für Website-Anmeldesysteme. Die meisten dieser Website-Anmeldungen verwenden die POST-Methode zur Übertragung von Anmelde- und Benutzerdaten. Dies ist die Standardeinstellung von PHP bei der Verwendung von start_session.

Sie können eine komprimierte Demo-Website mit Anmeldeunterstützung online testen oder herunterladen. Laden Sie zum sofortigen Testen auch die komprimierte Demo-Projektdatei herunter.

Der für eine erfolgreiche Anmeldung erforderliche Benutzername und das Passwort werden auf der Anmeldeseite hervorgehoben.

  1. Testen Sie zunächst manuell, ob die Login-Unterstützung funktioniert:

    Überprüfen Sie die Anmeldung manuell

    Beachten Sie, dass nach der Anmeldung auf allen Seiten alle Benutzer den Status „ angemeldet “ haben.

  2. Wir konfigurieren das Website-Crawling-Stammverzeichnis:

    Pfadkonfiguration

    Dies erfolgt unter Website scannen | Wege.

  3. Wir prüfen die Quelle der Login-Seite:

    Quelle des HTML-Anmeldeformulars

    • Sie können die Quelle beispielsweise in Firefox anzeigen.
    • Suchen Sie nach <form> - und <input> -Tags, die sich auf die Website-Anmeldung beziehen.
    • Wenn die URL im <form> -Tag- Aktionsattribut leer ist, bedeutet dies, dass die Ziel-URL der Aktion mit der URL der Anmeldeseite identisch ist.
    • Das Namensattribut in den <input> -Tags variiert von Website zu Website.


  4. Wir konfigurieren die Anmeldeoptionen:

    Login-Konfiguration

    Dies erfolgt unter Website scannen | Crawler-Identifizierung.

  5. Wir müssen alle URLs herausfiltern, die beim Crawlen zum Abmelden der Website führen:

    Abmeldepfade ignorieren

    Dies erfolgt unter Website scannen | Analysefilter und Website scannen | Ausgabefilter.

  6. Starten Sie den Website-Scan. Eine einfache Möglichkeit, die Anmeldefunktion zu testen und zu überprüfen, ist der A1 Website Download. Sehen Sie sich einfach die heruntergeladenen Seiten an: Sie sollten alle den Status „angemeldet “ haben.



Website-Anmeldung – Post-Formular/Sitzungs-Cookies: Bekannte Probleme und Probleme

Anmeldesysteme und -konzepte, von denen bekannt ist, dass sie Probleme verursachen:
  1. Bei der ersten Anmeldung wird ein eindeutiger berechneter Wert im Anmeldeformular übergeben: Beispiel könnte Javascript-Code sein, der beispielsweise auf der Grundlage der genauen Uhrzeit, der IP-Adresse, der User-Agent-ID des Browsers usw. einen im Anmeldeformular übergebenen Wert (z. B. einen Hash oder ähnliches) berechnet. Der Server kennt den Algorithmus, mit dem der Wert generiert wurde, und validiert ihn serverseitig.

Oben beschrieben ist es fast unmöglich, die Website-Analysator-Anmeldung korrekt zum Laufen zu bringen, es sei denn, Sie haben direkten Zugriff auf die Website und kennen die Funktionsweise sehr gut.

Bekannte Systeme, die Probleme verursachen:
  1. Einige ASP.Net-Anmeldeformulare

    Sie können ASP.Net-Anmeldeformulare identifizieren, indem Sie die HTML-Ausgabe nach der Zeichenfolge durchsuchen: name="__VIEWSTATE".

    Reine Spekulation und in Arbeit:
    Möglicherweise wird „viewstate“ falsch, selbst wenn der gesamte POST/die gesamten Daten/Header kopiert werden, die während der manuellen Anmeldung übertragen wurden (und z. B. mit FireFox Live HTTP-Headern kopiert wurden). Eine mögliche Erklärung ist, dass „viewstate“ einen „Hash“-ähnlichen Verifizierungswert enthält, ähnlich wie oben für problematische Anmeldesysteme erläutert.


Alternative zum Crawlen von Login-basierten Websites

Wenn Sie Eigentümer der Website sind, können Sie sie so codieren, dass Crawlern mit bestimmten User-Agent-Strings vollen Zugriff gewährt wird.

Sie können dies unter Allgemeine Optionen und Tools | konfigurieren Internet-Crawler | Benutzeragenten-ID:

Konfigurieren Sie die Benutzeragenten-ID
A1 Website Analyzer
A1 Website Analyzer | Hilfe | vorherige | nächste
SEO-Website-Crawler-Tool, das defekte Links findet, den Saftfluss interner Links analysiert, doppelte Titel anzeigt, eine benutzerdefinierte Code-/Textsuche durchführt und vieles mehr.
Diese Hilfeseite wird von betreut
Als einer der Hauptentwickler haben seine Hände den größten Teil des Codes in der Software von Microsys berührt. Wenn Sie Fragen per E-Mail senden, ist die Wahrscheinlichkeit groß, dass er derjenige ist, der antwortet.
Teile diese Seite mit Freunden   LinkedIn   Twitter   Facebook   Pinterest   YouTube  
 © Copyright 1997-2024 Microsys

 Mit der Nutzung dieser Website erklären Sie sich mit unseren Rechtlichen, Datenschutzrichtlinien und Cookie Informationen einverstanden.