Sehen Sie sich den Fortschritt des Website-Crawlings im Website Scraper an
Erläuterung der Fortschrittsstatusinformationen während des Website-Crawlings im A1 Website Scraper.
Informationen zum Website-Scan-Fortschritt verstehen
Der Website-Crawler speichert die Gesamtzählungen für die folgenden Zustände:
- Interne „Sitemap“-URLs:
- Gelistet gefunden:
Eindeutige URLs gefunden.
- Aufgelistet abgeleitet:
Erscheint, nachdem der Website-Scan abgeschlossen ist: Angenommen, der Crawler hat während des Scans Links zu „ example/somepage.html “ gefunden, aber keine zu „ example/ “. Letzteres wird dann auf seine Existenz „abgeleitet“.
- Analysierter Inhalt:
Einzigartige URLs mit analysiertem Inhalt.
- Analysierte Referenzen:
Eindeutige URLs mit analysiertem Inhalt und Auflösung aller ihrer Links im Inhalt (z. B. Links zu URLs, die weiterleiten).
- Externe URLs:
- Gelistet gefunden:
Eindeutige URLs gefunden.
- Jobs warten in der Crawler-Engine:
- „Init“ gefundener Link:
Es wurden Links gefunden, die auf eine Analyse warten. (Alle Links werden URL-dekodiert/URL-kodiert, gegen alle Root-Pfad-Aliasnamen, Sitzungsvariablenausschnitte usw. geprüft. Nachdem die gesamte „Normalisierung“ durchgeführt wurde, wird der Link anhand einer Liste bereits bekannter URLs überprüft. Zumindest werden verschiedene „verlinkte“ URLs überprüft -from“-Daten werden dann aktualisiert.)
- „Analysieren“ gefundene URL:
Seiteninhalte in eindeutigen URLs warten darauf, analysiert zu werden. (Inhalte wurden je nach Einstellungen möglicherweise bereits abgerufen.)
- In der Crawler-Engine erledigte Aufgaben:
- „Init“ gefundener Link:
- „Analysieren“ gefundene URL:
Jobs warten in der Crawler-Engine
Standardmäßig verwendet die Crawler-Engine im A1 Website Scraper standardmäßig GET-Anfragen, wenn sie zum ersten Mal auf eine Seiten-URL trifft. Dadurch priorisiert der Crawler die schnelle anschließende „Analyse“ von Seiten, da GET-Anfragen den gesamten Seiteninhalt in den Speicher zurückgeben. Dies kann manchmal dazu führen, dass die „Init-Link“ -Warteschlange sehr groß wird, da sie nur ausgeführt wird, wenn keine anderen „Analyse“ -Jobs warten.
Wenn der Crawler hingegen beim ersten Testen einer URL HEAD-Anfragen verwendet, werden deutlich weniger Daten übertragen, da alles über HTTP-Header erfolgt. (Dies wiederum hat auch den Effekt, dass alle neu erkannten Links schnell als bereits getestet erkannt werden. Dadurch wird die Warteschlange nie größer.) Der Nachteil bei der Verwendung von HEAD-Anfragen besteht jedoch darin, dass einige Server fehlerhaft auf HEAD-Anfragen reagieren. (Und wenn später eine Seitenanalyse erforderlich ist, ist natürlich eine GET-Anfrage erforderlich, um den Seiteninhalt abzurufen.)
Sie können das obige Verhalten ändern, indem Sie die Option „ Website scannen |“ aktivieren/deaktivieren Raupenmotor | Standardmäßig GET für Seitenanfragen
Der Fortschritt ändert sich, wenn der Website-Scan abgeschlossen ist
Nachdem der Website-Scan abgeschlossen ist, können Sie mit A1 Website Scraper anschließend unerwünschte URLs entfernen. Dieses Verhalten wird gesteuert durch:
- Ältere Versionen:
- Website scannen | Crawler-Optionen | Wenden Sie die Filter „Webmaster“ und „Ausgabe“ an, nachdem der Website-Scan beendet wurde
- Neuere Versionen:
- Website scannen | Ausgabefilter | Nachdem der Website-Scan beendet wurde: Ausgeschlossene URLs entfernen
- Website scannen | Webmaster-Filter | Nachdem der Website-Scan beendet wurde: URLs mit noindex/disallow entfernen
Unterschied zwischen „Listed Found“ und „Analyzed“
Der Fortschrittsunterschied ähnelt weitgehend dem Unterschied zwischen
Ausgabefiltern und
Analysefiltern: Stellen Sie sich vor, Sie möchten
PDF- Dateien auflisten, diese aber nicht analysieren/crawlen lassen. In solchen und ähnlichen Fällen würden Sie einen Unterschied zwischen den beiden laufenden Zahlen feststellen.
Detaillierte Anzahl der URLs nach dem Website-Scan
Wenn Sie detaillierte Zählungen sehen möchten, können Sie dies tun, nachdem der Website-Scan abgeschlossen ist. Öffnen Sie einfach die Registerkarte
„Website analysieren“, auf der die Ergebnisse des Website-Scans angezeigt werden, wählen Sie die Stamm-URL aus und wählen Sie
„Erweiterte Daten |“. Verzeichnisübersicht.
Protokollieren und analysieren Sie Website-Crawling-Probleme
Wenn beim Spidern Ihrer Website seltsame Probleme auftreten, können Sie versuchen
, Website scannen – Datenerfassung – Fortschrittsprotokollierung zu aktivieren. Nach dem Website-Scan finden Sie eine Protokolldatei im Programmdatenverzeichnis
logs/misc.
Die Protokolldatei kann bei der Lösung von Problemen im Zusammenhang mit Crawler-Filtern,
robots.txt, No-Follow-Links usw. hilfreich sein. Sie können herausfinden, über welche Seite der Crawler einen bestimmten Website-Bereich
zuerst gefunden hat.
28.07.2007 10:56:14 CodeArea: InitLink:Begin ReferencedFromLink: http://www.example.com/website/ LinkToCheck: http://www.example.com/website/scan.html |
A1 Website Scraper |
Hilfe |
vorherige |
nächste Extrahieren Sie Daten von Websites in CSV-Dateien. Durch das Scrapen von Websites können Sie Daten auf Websites abrufen und in CSV-Dateien umwandeln, die überall importiert werden können, z. B. in SQL-Datenbanken
Diese Hilfeseite wird von
Thomas Schulz betreut
Als einer der Hauptentwickler haben seine Hände den größten Teil des Codes in der Software von Microsys berührt. Wenn Sie Fragen per E-Mail senden, ist die Wahrscheinlichkeit groß, dass er derjenige ist, der antwortet.