Sie können die
Datei | aktivieren Menüelement
„Exportieren“ durch
Klicken /
Auswählen /
Fokussieren auf das Steuerelement, das die Daten enthält, die Sie exportieren möchten.
- Bei den meisten Listen, Textfeldern, Baum-, Rasteransichten und Ähnlichem können die darin enthaltenen Daten unverändert in Text- oder CSV-Dateien exportiert werden.
- Die Steuerelemente, die alle beim Website-Crawling gefundenen URLs enthalten, können auch in das Excel-XML-Tabellenformat exportiert werden.
So exportieren Sie Website-Daten in CSV-, Text- und ähnliche Dateiformate:
- Wählen Sie das Steuerelement aus, indem Sie beispielsweise mit dem Mauszeiger darauf klicken.
- Passen Sie die Steuerung an, indem Sie beispielsweise die Sichtbarkeit von Datenspalten aktivieren/deaktivieren.
- Die Datei | Der Menüpunkt „Exportieren“ ist jetzt ggf. aktiviert. (Es gibt auch eine entsprechende Schaltfläche in der Symbolleiste.)
- Wählen Sie zwischen dem Speichern als durch Kommas getrennte .csv-, durch Tabulator-Werte getrennte .tsv-, .html-Dateien und mehr.
Im Screenshot unten sehen Sie:
- Wir haben die Baumansichtssteuerung auf der linken Seite ausgewählt.
- Wir haben sichtbare Datenspalten konfiguriert und sichtbare URLs gefiltert, um zu steuern, was exportiert wird.
Hinweis: Der Screenshot stammt vom
A1 Website Analyzer, der mehr Datenspalten und Filteroptionen als
die A1 Website Search Engine bietet.
Sehen Sie sich die Optionen für den Website-Suchmaschinen-Export von CSV-Dateien im Menü
„Datei – Exportoptionen“ an:
- Enthaltene Daten:
- Exportieren Sie CSV-Daten mit Headern
- CSV-Daten mit URL exportieren
- Zellen mit Zeilenumbrüchen in „“ umbrechen (anstatt Zeilenumbrüche in Leerzeichen umzuwandeln)
- Zeichenformat und Kodierung:
- UTF-8 mit optionaler Stückliste. (ASCII ist eine Teilmenge von UTF-8. Ideal für englische Dokumente.)
- UTF-16 LE (UCS-2) mit optionaler Stückliste. (Wird in aktuellen Windows-Systemen intern verwendet.)
- Lokale ANSI-Codepage. (Möglicherweise nicht immer auf andere Plattformen und Sprachen portierbar.)
(Auswahl von ANSI für den CSV-Export in der Website-Suchmaschine) Bei einigen Versionen von Open Office, Libre Office und Microsoft Office kann es zu Problemen beim Importieren von CSV-Daten kommen, da sie das Zeichenkodierungsformat nicht automatisch erkennen. Wenn Sie auf Probleme stoßen (was z. B. beim Export von Website-Daten auf Englisch unwahrscheinlich ist), können Sie den
Importdialog in den Office-Tools verwenden:
(Auswahl von UTF-8 für den CSV-Import im Open Office/Libre Office-Dialog) (Auswahl von ANSI für den CSV-Import im Microsoft Office-Dialogfeld) Aus einer Ressource extrahierte Strukturdaten werden oft als META-Daten oder „Daten über Daten“ bezeichnet. Wenn Sie Projekte in der
A1 Website Search Engine speichern, werden große Mengen solcher Daten in den XML-Dateien gespeichert.
Da es sich um XML handelt, können Sie problemlos Datenanalysen und Datamining durchführen (die Daten durchsuchen, um weitere Informationen zu erhalten). Dafür gibt es Wrapper in fast allen Sprachen, z. B. Java, PHP, C#, Visual Basic, Delphi usw.
- Metadaten von Website-Projekten werden in XML-Dokumenten gespeichert, die sich perfekt für das Data Mining eignen. Einige Beispiele:
- Summendaten:
- Gesamtzahl der Links innerhalb einer Website
- Gesamtzahl der Seiten, die innerhalb einer Website verlinkt sind
- Mindestanzahl an Links, die jede Seite zu ihr haben muss
- Maximale Anzahl an Links, die auf einer Seite vorhanden sind
- Mindestanzahl an Seiten, auf die jede Seite verlinkt ist
- Maximale Anzahl an Seiten, auf die eine Seite verlinkt ist
- Daten zur Artikelsammlung:
- Anzahl der gefundenen Artikel. Dies können Seiten, Bilder usw. sein.
- Artikeldaten:
- Seitentitel
- Antwortheader
- Antwortcode
- Antworttext
- Reaktionszeit
- Downloadzeit
- Vollständigen Pfad
- Relativer Pfad (innerhalb der Site)
- Dateierweiterung
- Dateityp
- Dateigröße
- Zeichensatz
- Zuletzt geändert (HTTP-Header)
- Liste der gefundenen Links
- Verlinkt von der Liste (einschließlich einer Liste und Anzahl aller Seiten und Links)
- Wird als Quelle aus der Liste verwendet (z. B. woher ein Bild oder Javascript verwendet wird)
- Umgeleitet zu von der Liste (alle und vollständige Umleitungsketten anzeigen)
- Zusammenfassende Daten darüber, was in einem Verzeichnis gefunden wurde; Dateitypen, wie viele davon nicht gefunden wurden usw.
- Berechnete Seitenwichtigkeit. Rohwert und 0-10 skaliert. Einzelheiten finden Sie im Abschnitt „Website-Daten“.
Wenn Sie Ihr Projekt unter
c:\projects\myproject.ini gespeichert haben, finden Sie die XML-Dateien unter
c:\projects\myproject\.
Wenn Sie leicht lesbare Felder und eingerücktes XML bevorzugen, sollten Sie
Optionen - XML-Speicher-/Ladegeschwindigkeit bevorzugen deaktivieren. Wenn Sie jedoch über große Websites verfügen und Software zur weiteren Datenerfassung verwenden, sollten Sie diese Option aktiviert lassen, da sie die Größe des XML-Dokuments um bis zu 30 % verringert.