Microsys
  

Skrab webstedsdata til CSV, XML, SQL og databaser

Sådan konfigureres TechSEO360-programmet til at skrabe data fra websteder til CSV-filer, XML-filer og SQL-databaser

Bemærk: Vi har en video tutorial:





Indstillinger for skrabe og udtræk data

På den indledende skærm med webstedsskrabning og dataekstraktionsmuligheder kan du:
  • Konfigurer muligheder:
    • Regulære udtryk, der bruges til at udtrække data fra crawlede sider.
    • Styr, hvordan udtrukne data formateres og konverteres til CSV-data.
  • Testmuligheder:
    • Indsæt testinputsideindhold
    • Se formaterede outputdata (CSV)
    • Se rå outputdata
  • Forskellige forudindstillede skrabetest, der forudfylder alle ovennævnte.
  • Forskellige knapper, der gør det nemmere at oprette og teste indstillinger, herunder regulære udtryk, der bruges til udtrækning.

muligheder for ekstrakt af webstedsskraber


Forskellige Website Scrape Demo Presets

Nederst til højre kan du finde et afsnitskald Indsæt forskellige teksteksempler. Under dette kan du finde knapper, der vil forudfylde alle muligheder med et test/demo eksempel, herunder:
  • Sideindhold, der får data skrabet.
  • Regulære udtryk og XPath-instruktioner, der uddrager dataene.
  • Konfiguration af, hvordan de udpakkede data bliver formateret til CSV-, XML- og SQL-filer.
  • Sådan ser udgangen ud.


Regulære udtryk og dataoutputkonfiguration

  • Sektion: Definer regulære udtryk

    • Når du definerer et regulært udtryk, betragtes hvert par af () som et match. Match-id'er starter ved #1. Et Match indeholder dataene matchet og udtrukket af det givne regulære udtryk til det givne () match.
    • Du kan definere flere regulære udtryk ved at indsætte en tom linje mellem dem. Regulære udtryks-id'er starter ved #1.

  • Sektion: Definer outputdataformat

    • Når du konfigurerer, hvordan CSV-filoutputtet formateres, kan du konfigurere, hvordan hver kolonne genereres i CSV-outputfilen. For langt de fleste kolonner vil du kolonnetypen være regex-match.
    • Du kan kontrollere, hvordan kolonnedataene udfyldes og formateres, herunder hvilket regulært udtryks regex-funktion #ID og hvilket regex-match #ID () der bruges som datakilde.


Hjælp og tricks til regulære udtryk

Selvom regulære udtryk ofte kan være skræmmende, er her et par tricks, du kan bruge sammen med demo-eksemplerne:
  • .+ vil matche ethvert tegn i indholdet en eller flere gange.
  • .* vil matche ethvert tegn i indholdet nul eller flere gange. (Dette er sjældent nyttigt, se alternativ nedenfor.)
  • .*? vil matche ethvert tegn i indholdet , indtil følgende regex- kode kan matche indholdet.
  • \s* vil matche alle mellemrum i indholdet nul eller flere gange. (Så hvis der findes mellemrum, matches de alle sammen).
  • \s+ vil matche alle mellemrum i indholdet en eller flere gange. (Det betyder, at mindst et mellemrum skal matches.)
  • \s vil matche et mellemrum i indholdet én gang. (Det betyder, at kun et enkelt mellemrum vil blive matchet.)
  • [0-9a-zA-Z] vil matche et engelsk bogstav eller tal i indholdet én gang.
  • [^<]* vil matche ethvert tegn undtagen "<" i indholdet nul eller flere gange.
  • () vil få regex-koden inden for parentes til at gemme det matchede indhold i et match #ID. (Se ovenstående afsnit for forklaring.)
  • (this|that|the) vil matche "this" eller "that" eller "the" + gemmer det matchede indhold i et match #ID.
  • (this|that|the)? vil gøre som ovenfor , hvis et match er muligt, men vil fortsætte med følgende regex under alle omstændigheder.

Ved at kombinere ovenstående regex-konstruktioner (som er fælles for alle implementeringer af regulære udtryk) sammen med HTML-kodestykker fra de sider, du vil skrabe, kan du udtrække data til CSV-filer fra de fleste websteder.

Bemærk: TechSEO360 vil trimme hver linje i dine regulære udtryk til mellemrum for at gøre formateringen nemmere. Sørg for at bruge \s til at repræsentere mellemrum.

For mere information kan du tjekke følgende ressourcer:
  • Bog: Regulære udtryk på 10 minutter af Ben Forta (hurtigt at læse)
  • Bog: Mastering Regular Expressions af Jeffrey E. F Friedl


Skrab en hel hjemmeside

De nødvendige trin for at skrabe et helt websted:
  1. Definer og test først din skrabekonfiguration i Scraper-indstillinger.
  2. Hvis webstedet bruger AJAX til forsinket indholdsindlæsning, skal du sørge for at konfigurere Scan websted | Crawler motor til det.
  3. Sørg for, at du vælger en gyldig CSV-fil-outputsti i Scraper-indstillingerne for Udtræk data til CSV-filstien.
  4. In Scan hjemmeside | Stier indtaster domæneadressen til at gennemgå og skrabe data fra.
  5. Scan-webstedet skal du klikke på knappen Start scanning for at starte processen.
  6. Når scanningen er afsluttet, genererer TechSEO360 en .csv- fil på den valgte sti, der indeholder de skrabet data.
  7. Hvis filen blev oprettet, vil indholdet af den automatisk blive vist på fanen Vis filer.


Filtrer, hvilke URL'er på et enkelt websted, der skal skrabes

Hvis du har brug for at skrabe data fra en simpel hjemmeside:
  • Indtast rodadressen for, hvor dataene er placeret.
  • Klik på Start scanning for at starte webstedscrawlet.

Hvis du har brug for at udtrække data fra et komplekst websted:
  • Indtast rodadressen for, hvor dataene er placeret.
  • Deaktiver nem tilstand.
  • Konfigurer analysefiltre for at kontrollere, hvilke URL'er der får analyseret indhold for links osv.
  • Konfigurer outputfiltre for at kontrollere, hvilke URL'er du skraber data fra.
  • Start scanning.

muligheder for hjemmesideskrabersti

Det er vigtigt at bemærke, at URL'er, du skraber data fra, skal bestå filtre, der er defineret i både analysefiltre og outputfiltre.


Skrab liste over URL'er fra flere websteder

  • Opret en fil med en liste over URL'er og importer dem.
    (Hvis listen indeholder URL'er fra forskellige domæner, placeres de automatisk på fanen Ekstern i afsnittet Analyser websted | Websiteanalyse ).
  • Sæt kryds ved Scan-webstedet | Mulighed for gencrawl.
  • Sæt kryds ved Scan-webstedet | Dataindsamling | Bekræft, at eksterne URL'er findes mulighed.


CSV-filtegnkodning og andre muligheder

Du kan konfigurere kodningen og tegnformatet for den genererede CSV-fil:
  • UTF-8 med valgfri stykliste. (ASCII er en delmængde af UTF-8. Ideel til engelske dokumenter.)
  • UTF-16 LE (UCS-2) med valgfri stykliste. (Bruges internt i nuværende Windows-systemer.)
  • Lokal ANSI kodetabel. (Er muligvis ikke altid bærbar til andre platforme og sprog.)

Lad CSV-fil bruge et specifikt tegnformat og kodning til senere import

Afhængigt af værktøjet/databasen, du ønsker at importere CSV-filen til, skal du muligvis konfigurere ovenstående før webstedsscanning.
TechSEO360
TechSEO360 | hjælp | forrige | Næste
SEO website crawler værktøj, der kan finde brudte links, analysere internt link juice flow, vise duplikerede titler, udføre tilpasset kode/tekstsøgning og meget mere.
Denne hjælpeside vedligeholdes af
Som en af de ledende udviklere har hans hænder rørt det meste af koden i softwaren fra Microsys. Hvis du e-mailer spørgsmål, er chancerne for, at han vil være den, der svarer.
Del denne side med dine venner   LinkedIn   Twitter   Facebook   Pinterest   YouTube  
 © Copyright 1997-2024 Microsys

 Brug af denne side inkluderer accept af vores juridisk, privatliv og cookie information.

Se vores prisrobot indenfor emner: Maling | Stiger | Stilladser | Vinduespudsning | Robotstøvsuger | Støvsuger | Maskiner | Køkken | Kaffe | Bad | Mobil | Bærbar | Printer