Sehen Sie sich den Fortschritt des Website-Crawlings im Website Scraper an

Erläuterung der Fortschrittsstatusinformationen während des Website-Crawlings im A1 Website Scraper.

Informationen zum Website-Scan-Fortschritt verstehen

Fortschrittsstatus des Website-Crawlings

Der Website-Crawler speichert die Gesamtzählungen für die folgenden Zustände:

Interne „Sitemap“-URLs:
- Gelistet gefunden:
  Eindeutige URLs gefunden.
- Aufgelistet abgeleitet:
  Erscheint, nachdem der Website-Scan abgeschlossen ist: Angenommen, der Crawler hat während des Scans Links zu „ example/somepage.html “ gefunden, aber keine zu „ example/ “. Letzteres wird dann auf seine Existenz „abgeleitet“.
- Analysierter Inhalt:
  Einzigartige URLs mit analysiertem Inhalt.
- Analysierte Referenzen:
  Eindeutige URLs mit analysiertem Inhalt und Auflösung aller ihrer Links im Inhalt (z. B. Links zu URLs, die weiterleiten).
Externe URLs:
- Gelistet gefunden:
  Eindeutige URLs gefunden.
Jobs warten in der Crawler-Engine:
- „Init“ gefundener Link:
  Es wurden Links gefunden, die auf eine Analyse warten. (Alle Links werden URL-dekodiert/URL-kodiert, gegen alle Root-Pfad-Aliasnamen, Sitzungsvariablenausschnitte usw. geprüft. Nachdem die gesamte „Normalisierung“ durchgeführt wurde, wird der Link anhand einer Liste bereits bekannter URLs überprüft. Zumindest werden verschiedene „verlinkte“ URLs überprüft -from“-Daten werden dann aktualisiert.)
- „Analysieren“ gefundene URL:
  Seiteninhalte in eindeutigen URLs warten darauf, analysiert zu werden. (Inhalte wurden je nach Einstellungen möglicherweise bereits abgerufen.)
In der Crawler-Engine erledigte Aufgaben:
- „Init“ gefundener Link:
- „Analysieren“ gefundene URL:

Jobs warten in der Crawler-Engine

Standardmäßig verwendet die Crawler-Engine im A1 Website Scraper standardmäßig GET-Anfragen, wenn sie zum ersten Mal auf eine Seiten-URL trifft. Dadurch priorisiert der Crawler die schnelle anschließende „Analyse“ von Seiten, da GET-Anfragen den gesamten Seiteninhalt in den Speicher zurückgeben. Dies kann manchmal dazu führen, dass die „Init-Link“ -Warteschlange sehr groß wird, da sie nur ausgeführt wird, wenn keine anderen „Analyse“ -Jobs warten.

Wenn der Crawler hingegen beim ersten Testen einer URL HEAD-Anfragen verwendet, werden deutlich weniger Daten übertragen, da alles über HTTP-Header erfolgt. (Dies wiederum hat auch den Effekt, dass alle neu erkannten Links schnell als bereits getestet erkannt werden. Dadurch wird die Warteschlange nie größer.) Der Nachteil bei der Verwendung von HEAD-Anfragen besteht jedoch darin, dass einige Server fehlerhaft auf HEAD-Anfragen reagieren. (Und wenn später eine Seitenanalyse erforderlich ist, ist natürlich eine GET-Anfrage erforderlich, um den Seiteninhalt abzurufen.)

Sie können das obige Verhalten ändern, indem Sie die Option „ Website scannen |“ aktivieren/deaktivieren Raupenmotor | Standardmäßig GET für Seitenanfragen

Der Fortschritt ändert sich, wenn der Website-Scan abgeschlossen ist

Nachdem der Website-Scan abgeschlossen ist, können Sie mit A1 Website Scraper anschließend unerwünschte URLs entfernen. Dieses Verhalten wird gesteuert durch:

Ältere Versionen:
- Website scannen | Crawler-Optionen | Wenden Sie die Filter „Webmaster“ und „Ausgabe“ an, nachdem der Website-Scan beendet wurde
Neuere Versionen:
- Website scannen | Ausgabefilter | Nachdem der Website-Scan beendet wurde: Ausgeschlossene URLs entfernen
- Website scannen | Webmaster-Filter | Nachdem der Website-Scan beendet wurde: URLs mit noindex/disallow entfernen

Unterschied zwischen „Listed Found“ und „Analyzed“

Der Fortschrittsunterschied ähnelt weitgehend dem Unterschied zwischen Ausgabefiltern und Analysefiltern: Stellen Sie sich vor, Sie möchten PDF- Dateien auflisten, diese aber nicht analysieren/crawlen lassen. In solchen und ähnlichen Fällen würden Sie einen Unterschied zwischen den beiden laufenden Zahlen feststellen.

Detaillierte Anzahl der URLs nach dem Website-Scan

Wenn Sie detaillierte Zählungen sehen möchten, können Sie dies tun, nachdem der Website-Scan abgeschlossen ist. Öffnen Sie einfach die Registerkarte „Website analysieren“, auf der die Ergebnisse des Website-Scans angezeigt werden, wählen Sie die Stamm-URL aus und wählen Sie „Erweiterte Daten |“. Verzeichnisübersicht.

Ergebnisse der Zählung fehlgeschlagener Website-Scans

Ergebnisse der Zählung fehlgeschlagener Website-Scans

Protokollieren und analysieren Sie Website-Crawling-Probleme

Wenn beim Spidern Ihrer Website seltsame Probleme auftreten, können Sie versuchen , Website scannen – Datenerfassung – Fortschrittsprotokollierung zu aktivieren. Nach dem Website-Scan finden Sie eine Protokolldatei im Programmdatenverzeichnis logs/misc.

Fortschrittsprotokoll des Website-Scans

Die Protokolldatei kann bei der Lösung von Problemen im Zusammenhang mit Crawler-Filtern, robots.txt, No-Follow-Links usw. hilfreich sein. Sie können herausfinden, über welche Seite der Crawler einen bestimmten Website-Bereich zuerst gefunden hat.

28.07.2007 10:56:14
CodeArea: InitLink:Begin
ReferencedFromLink: http://www.example.com/website/
LinkToCheck: http://www.example.com/website/scan.html

A1 Website Scraper | Hilfe | vorherige | nächste

Extrahieren Sie Daten von Websites in CSV-Dateien. Durch das Scrapen von Websites können Sie Daten auf Websites abrufen und in CSV-Dateien umwandeln, die überall importiert werden können, z. B. in SQL-Datenbanken

Diese Hilfeseite wird von Thomas Schulz betreut

Als einer der Hauptentwickler haben seine Hände den größten Teil des Codes in der Software von Microsys berührt. Wenn Sie Fragen per E-Mail senden, ist die Wahrscheinlichkeit groß, dass er derjenige ist, der antwortet.