Microsys
  

Exportieren Sie XML- und CSV-Datendateien in Website Scraper

A1 Website Scraper – Website-Daten in XML- und CSV-Dateien exportieren

Exportieren Sie Website-Daten in CSV- und Excel-XML-Dateien

Sie können die Datei | aktivieren Menüelement „Exportieren“ durch Klicken / Auswählen / Fokussieren auf das Steuerelement, das die Daten enthält, die Sie exportieren möchten.
  • Bei den meisten Listen, Textfeldern, Baum-, Rasteransichten und Ähnlichem können die darin enthaltenen Daten unverändert in Text- oder CSV-Dateien exportiert werden.
  • Die Steuerelemente, die alle beim Website-Crawling gefundenen URLs enthalten, können auch in das Excel-XML-Tabellenformat exportiert werden.

So exportieren Sie Website-Daten in CSV-, Text- und ähnliche Dateiformate:
  1. Wählen Sie das Steuerelement aus, indem Sie beispielsweise mit dem Mauszeiger darauf klicken.
  2. Passen Sie die Steuerung an, indem Sie beispielsweise die Sichtbarkeit von Datenspalten aktivieren/deaktivieren.
  3. Die Datei | Der Menüpunkt „Exportieren“ ist jetzt ggf. aktiviert. (Es gibt auch eine entsprechende Schaltfläche in der Symbolleiste.)
  4. Wählen Sie zwischen dem Speichern als durch Kommas getrennte .csv-, durch Tabulator-Werte getrennte .tsv-, .html-Dateien und mehr.

Im Screenshot unten sehen Sie:
  • Wir haben die Baumansichtssteuerung auf der linken Seite ausgewählt.
  • Wir haben sichtbare Datenspalten konfiguriert und sichtbare URLs gefiltert, um zu steuern, was exportiert wird.

Website-Datenexport XML CSV

Hinweis: Der Screenshot stammt von A1 Website Analyzer, der über mehr Datenspalten und Filteroptionen als A1 Website Scraper verfügt.


Formatoptionen für den CSV-Datenexport

Sehen Sie sich die Optionen für den Website-Scraper-Export von CSV-Dateien im Menü „Datei – Exportoptionen“ an:
  • Enthaltene Daten:
    • Exportieren Sie CSV-Daten mit Headern
    • CSV-Daten mit URL exportieren
    • Zellen mit Zeilenumbrüchen in „“ umbrechen (anstatt Zeilenumbrüche in Leerzeichen umzuwandeln)
  • Zeichenformat und Kodierung:
    • UTF-8 mit optionaler Stückliste. (ASCII ist eine Teilmenge von UTF-8. Ideal für englische Dokumente.)
    • UTF-16 LE (UCS-2) mit optionaler Stückliste. (Wird in aktuellen Windows-Systemen intern verwendet.)
    • Lokale ANSI-Codepage. (Möglicherweise nicht immer auf andere Plattformen und Sprachen portierbar.)

A1 exportiert CSV-Datendateien als Unicode oder Codepage
(Auswahl von ANSI für den CSV-Export im Website-Scraper)


Unicode-CSV-Dateien und OpenOffice- oder Microsoft Office-Import

Bei einigen Versionen von Open Office, Libre Office und Microsoft Office kann es zu Problemen beim Importieren von CSV-Daten kommen, da sie das Zeichenkodierungsformat nicht automatisch erkennen. Wenn Sie auf Probleme stoßen (was z. B. beim Export von Website-Daten auf Englisch unwahrscheinlich ist), können Sie den Importdialog in den Office-Tools verwenden:

Office-Import CSV Unicode UTF8
(Auswahl von UTF-8 für den CSV-Import im Open Office/Libre Office-Dialog)

MS Office CSV Ansi importieren
(Auswahl von ANSI für den CSV-Import im Microsoft Office-Dialogfeld)


Die Daten der Projektwebsite werden als XML gespeichert

Aus einer Ressource extrahierte Strukturdaten werden oft als META-Daten oder „Daten über Daten“ bezeichnet. Wenn Sie Projekte in A1 Website Scraper speichern, werden große Mengen dieser Daten in den XML-Dateien gespeichert.

Da es sich um XML handelt, können Sie problemlos Datenanalysen und Datamining durchführen (die Daten durchsuchen, um weitere Informationen zu erhalten). Dafür gibt es Wrapper in fast allen Sprachen, z. B. Java, PHP, C#, Visual Basic, Delphi usw.

Website-Datenexport XML CSV
  • Metadaten von Website-Projekten werden in XML-Dokumenten gespeichert, die sich perfekt für das Data Mining eignen. Einige Beispiele:
    • Summendaten:
      • Gesamtzahl der Links innerhalb einer Website
      • Gesamtzahl der Seiten, die innerhalb einer Website verlinkt sind
      • Mindestanzahl an Links, die jede Seite zu ihr haben muss
      • Maximale Anzahl an Links, die auf einer Seite vorhanden sind
      • Mindestanzahl an Seiten, auf die jede Seite verlinkt ist
      • Maximale Anzahl an Seiten, auf die eine Seite verlinkt ist

    • Daten zur Artikelsammlung:
      • Anzahl der gefundenen Artikel. Dies können Seiten, Bilder usw. sein.
      • Artikeldaten:
        • Seitentitel
        • Antwortheader
        • Antwortcode
        • Antworttext
        • Reaktionszeit
        • Downloadzeit
        • Vollständigen Pfad
        • Relativer Pfad (innerhalb der Site)
        • Dateierweiterung
        • Dateityp
        • Dateigröße
        • Zeichensatz
        • Zuletzt geändert (HTTP-Header)
        • Liste der gefundenen Links
        • Verlinkt von der Liste (einschließlich einer Liste und Anzahl aller Seiten und Links)
        • Wird als Quelle aus der Liste verwendet (z. B. woher ein Bild oder Javascript verwendet wird)
        • Umgeleitet zu von der Liste (alle und vollständige Umleitungsketten anzeigen)
        • Zusammenfassende Daten darüber, was in einem Verzeichnis gefunden wurde; Dateitypen, wie viele davon nicht gefunden wurden usw.
        • Berechnete Seitenwichtigkeit. Rohwert und 0-10 skaliert. Einzelheiten finden Sie im Abschnitt „Website-Daten“.

Wenn Sie Ihr Projekt unter c:\projects\myproject.ini gespeichert haben, finden Sie die XML-Dateien unter c:\projects\myproject\.

Wenn Sie leicht lesbare Felder und eingerücktes XML bevorzugen, sollten Sie Optionen - XML-Speicher-/Ladegeschwindigkeit bevorzugen deaktivieren. Wenn Sie jedoch über große Websites verfügen und Software für die weitere Datenerfassung verwenden, sollten Sie diese Option aktiviert lassen, da sie die Größe des XML-Dokuments um bis zu 30 % verringert.


XML-Dateistruktur und Dokumentation

Feldname Geschwindigkeitskonfiguration Beschreibung
<Daten>
----<meta>
--------<Version>
--------<schnell>
--------<dataexrefs>
----</meta>
----<Struktur>
--------<Stammpfad>
--------<checkedlevel>
----</structure>
----<Gesamtsummen>
--------<verlinkt>
------------<allpagesto>
------------<minpagesto>
------------<maxpagesto>
------------<allrefersto>
------------<Minrefersto>
------------<maxrefersto>
--------<verlinkt>
----</totals>
----<Elemente>
--------<Artikel> *
------------<imb> Informationsmetadaten
--<fs_ar> Analyse erforderlich
--<fs_as> Analyse gestartet
--<fs_ac> Analyse abgeschlossen
------------</imb>
------------<Titel>
------------<allheaderstext> <allht>
------------<Antwortcode> <umkodieren>
------------<responsetimeouter> <reto>
------------<downloadtimeouter> <doto>
------------<pathroot>
------------<pathrela>
------------<realext>
------------<kindext>
------------<valerrs>
------------<charset>
------------<erwartete Größe> <sizeex>
------------<sizeconfirmed> <sizeco>
------------<letzte Änderung> <lastmo>
------------<revisitaftermins> <Umdrehungen>
------------<linkstotalall> <lksta>
------------<linkstotalto> <lkstt>
------------<Linkstolist> <lkstl>
--<linkstoitem> * <lksti>
------------</linkstolist> </lkstl>
------------<linkedtotalall> <lnkta>
------------<linkedtotalfrom> <lnktf>
------------<linkedfromlist> <lnkfl>
--<linkedfromitem> * <lnkfi>
------------</linkedfromlist> </lnkfl>
------------<sourcedtotalall> <srcta>
------------<sourcedtotalfrom> <srctf>
------------<Quellenliste> <srcfl>
--<sourcedfromitem> * <srcfi>
------------</sourcedfromlist> </srcfl>
------------<redirectedtotalall> <redta>
------------<redirectedtotalfrom> <redtf>
------------<redirectedfromlist> <redfl>
-<redirectedfromitem> * <redfi>
--------------------<redirectedfromitemfrom> <redfif>
--------------------<redirectedfromitemtype> <redfit>
--------------------<redirectedfromitemchain> <redfic>
----------<redirectedfromitemring> * <Rottanne>
--------------------</redirectedfromitemchain> </redfic>
----------------</redirectedfromitem> </redfi>
------------</redirectedfromlist> </redfl>
------------<importancescore>
------------<importancescorescaled>
------------<changefreqscorescaled>
------------<summaryfoundall>
------------<summaryfoundlist>
--<summaryfounditem> *
--------------------<summaryfounditemisdir>
--------------------<summaryfounditemextreal>
--------------------<summaryfounditemextkind>
--------------------<summaryfounditemresponsecode>
--------------------<summaryfounditemcount>
----------------</summaryfounditem>
------------</summaryfoundlist>
--------</item>
----</items>
</data>
A1 Website Scraper
A1 Website Scraper | Hilfe | vorherige | nächste
Extrahieren Sie Daten von Websites in CSV-Dateien. Durch das Scrapen von Websites können Sie Daten auf Websites abrufen und in CSV-Dateien umwandeln, die überall importiert werden können, z. B. in SQL-Datenbanken
Diese Hilfeseite wird von betreut
Als einer der Hauptentwickler haben seine Hände den größten Teil des Codes in der Software von Microsys berührt. Wenn Sie Fragen per E-Mail senden, ist die Wahrscheinlichkeit groß, dass er derjenige ist, der antwortet.
Teile diese Seite mit Freunden   LinkedIn   Twitter   Facebook   Pinterest   YouTube  
 © Copyright 1997-2024 Microsys

 Mit der Nutzung dieser Website erklären Sie sich mit unseren Rechtlichen, Datenschutzrichtlinien und Cookie Informationen einverstanden.