Skrab webstedsdata til CSV, XML, SQL og databaser
Sådan konfigureres TechSEO360-programmet til at skrabe data fra websteder til CSV-filer, XML-filer og SQL-databaser
Bemærk: Vi har en video tutorial:
På den indledende skærm med webstedsskrabning og dataekstraktionsmuligheder kan du:
- Konfigurer muligheder:
- Regulære udtryk, der bruges til at udtrække data fra crawlede sider.
- Styr, hvordan udtrukne data formateres og konverteres til CSV-data.
- Testmuligheder:
- Indsæt testinputsideindhold
- Se formaterede outputdata (CSV)
- Se rå outputdata
- Forskellige forudindstillede skrabetest, der forudfylder alle ovennævnte.
- Forskellige knapper, der gør det nemmere at oprette og teste indstillinger, herunder regulære udtryk, der bruges til udtrækning.
Nederst til højre kan du finde et afsnitskald
Indsæt forskellige teksteksempler. Under dette kan du finde knapper, der vil forudfylde alle muligheder med et test/demo eksempel, herunder:
- Sideindhold, der får data skrabet.
- Regulære udtryk og XPath-instruktioner, der uddrager dataene.
- Konfiguration af, hvordan de udpakkede data bliver formateret til CSV-, XML- og SQL-filer.
- Sådan ser udgangen ud.
Selvom regulære udtryk ofte kan være skræmmende, er her et par tricks, du kan bruge sammen med demo-eksemplerne:
-
.+
vil matche ethvert tegn i indholdet en eller flere gange. -
.*
vil matche ethvert tegn i indholdet nul eller flere gange. (Dette er sjældent nyttigt, se alternativ nedenfor.) -
.*?
vil matche ethvert tegn i indholdet , indtil følgende regex- kode kan matche indholdet. -
\s*
vil matche alle mellemrum i indholdet nul eller flere gange. (Så hvis der findes mellemrum, matches de alle sammen). -
\s+
vil matche alle mellemrum i indholdet en eller flere gange. (Det betyder, at mindst et mellemrum skal matches.) -
\s
vil matche et mellemrum i indholdet én gang. (Det betyder, at kun et enkelt mellemrum vil blive matchet.) -
[0-9a-zA-Z]
vil matche et engelsk bogstav eller tal i indholdet én gang. -
[^<]*
vil matche ethvert tegn undtagen "<" i indholdet nul eller flere gange. -
()
vil få regex-koden inden for parentes til at gemme det matchede indhold i et match #ID. (Se ovenstående afsnit for forklaring.) -
(this|that|the)
vil matche "this" eller "that" eller "the" + gemmer det matchede indhold i et match #ID. -
(this|that|the)?
vil gøre som ovenfor , hvis et match er muligt, men vil fortsætte med følgende regex under alle omstændigheder.
Ved at kombinere ovenstående regex-konstruktioner (som er fælles for alle implementeringer af regulære udtryk) sammen med HTML-kodestykker fra de sider, du vil skrabe, kan du udtrække data til CSV-filer fra de fleste websteder.
Bemærk: TechSEO360 vil trimme hver linje i dine regulære udtryk til mellemrum for at gøre formateringen nemmere. Sørg for at bruge
\s til at repræsentere mellemrum.
For mere information kan du tjekke følgende ressourcer:
- Bog: Regulære udtryk på 10 minutter af Ben Forta (hurtigt at læse)
- Bog: Mastering Regular Expressions af Jeffrey E. F Friedl
De nødvendige trin for at skrabe et helt websted:
- Definer og test først din skrabekonfiguration i Scraper-indstillinger.
- Hvis webstedet bruger AJAX til forsinket indholdsindlæsning, skal du sørge for at konfigurere Scan websted | Crawler motor til det.
- Sørg for, at du vælger en gyldig CSV-fil-outputsti i Scraper-indstillingerne for Udtræk data til CSV-filstien.
- In Scan hjemmeside | Stier indtaster domæneadressen til at gennemgå og skrabe data fra.
- På Scan-webstedet skal du klikke på knappen Start scanning for at starte processen.
- Når scanningen er afsluttet, genererer TechSEO360 en .csv- fil på den valgte sti, der indeholder de skrabet data.
- Hvis filen blev oprettet, vil indholdet af den automatisk blive vist på fanen Vis filer.
Hvis du har brug for at skrabe data fra en simpel hjemmeside:
- Indtast rodadressen for, hvor dataene er placeret.
- Klik på Start scanning for at starte webstedscrawlet.
Hvis du har brug for at udtrække data fra et komplekst websted:
- Indtast rodadressen for, hvor dataene er placeret.
- Deaktiver nem tilstand.
- Konfigurer analysefiltre for at kontrollere, hvilke URL'er der får analyseret indhold for links osv.
- Konfigurer outputfiltre for at kontrollere, hvilke URL'er du skraber data fra.
- Start scanning.
Det er
vigtigt at bemærke, at URL'er, du skraber data fra, skal bestå filtre, der er defineret i både
analysefiltre og
outputfiltre.
Du kan konfigurere kodningen og tegnformatet for den genererede CSV-fil:
- UTF-8 med valgfri stykliste. (ASCII er en delmængde af UTF-8. Ideel til engelske dokumenter.)
- UTF-16 LE (UCS-2) med valgfri stykliste. (Bruges internt i nuværende Windows-systemer.)
- Lokal ANSI kodetabel. (Er muligvis ikke altid bærbar til andre platforme og sprog.)
Afhængigt af værktøjet/databasen, du ønsker at importere CSV-filen til, skal du muligvis konfigurere ovenstående
før webstedsscanning.