Microsys
  

Flere startsøgestier og rodaliaser i Crawler

Vores webstedsskraberværktøj understøtter blanding af flere domæner og yderligere startscanningsstier.

Websteder med domænespejle eller webadresser med flere rodstier

Selvom det normalt ikke anbefales på grund af problemer med duplicate content, blander nogle websteder domæner, links og www- og ikke-www- brug i URL'er. I sådanne tilfælde, efter at have konfigureret webstedsroden, der skal scannes, som normalt er det primære domæne, skal du lave en liste over root-aliasser.

domæne rodsti-aliasser

Bemærk: Du skal bruge knappen [+] for at tilføje et rodsti-alias til rullelisten.

In Scan hjemmeside | Crawler-indstillinger, du kan konfigurere webstedsskraberværktøjet til automatisk at tilføje almindelige rodstialiasser:

automatiske rodsti-aliasser


Webstedets rodsti og hvordan det påvirker gennemgang

Hvis du bruger http://example.com/blogs/ som rod, vil alle stier udenfor (undtagen rodstialiasser ) som f.eks. http://example.com/forum/ hverken blive inkluderet i output eller til analyse.

Et bedre alternativ kan være at beholde hjemmesidens rod som http://example.com/ efterfulgt af at bruge analysefiltre, outputfiltre og yderligere startsøgestier (se nedenfor) for at kontrollere dit websteds crawl og resulterende output.

Bemærk: I dette tilfælde skal du muligvis fjerne markeringen i indstillingen Scan websted | Crawler muligheder | Ret interne URL'er, hvis webstedets rod-URL omdirigerer til en anden adresse.


Scan websteder fra flere startsøgestier

Websteder med webstedsområder, der ikke har nogen indgående links fra resten af webstedet, kan nogle gange forårsage et problem.

Husk, at tværbinding af skjulte sider ikke hjælper, hvis ingen af dem er linket fra andre steder på hjemmesiden.

Dette problem kan nemt overvindes i vores webstedsskrabersoftware. Det er muligt at starte en webstedsscanning fra flere stier ud over webstedskatalogroden.

starte søgestier

I nyere versioner er der også knapper til hurtigt at tilføje yderligere startsøgning fra adresser ved at:
  • import af liste over URL'er fra søgemaskiner.
  • importere liste over URL'er fra en fil.
  • importere liste over URL'er fra en webside-URL.
  • tilføjer almindelige webadresser såsom typiske xml-sitemapstier.

Bemærk: Du skal bruge knappen [+] for at tilføje yderligere startscanningsstier til rullelisten.

Bemærk: Det er ofte bedre at sikre, at dit websted er krydslinket, så crawlere kan finde alle sider på egen hånd.
A1 Website Scraper
A1 Website Scraper | hjælp | forrige | Næste
Udtræk data fra websteder til CSV-filer. Ved at skrabe hjemmesider kan du få fat i data på hjemmesider og omdanne dem til CSV-filer, der er klar til at blive importeret overalt, f.eks. SQL-databaser
Denne hjælpeside vedligeholdes af
Som en af de ledende udviklere har hans hænder rørt det meste af koden i softwaren fra Microsys. Hvis du e-mailer spørgsmål, er chancerne for, at han vil være den, der svarer.
Del denne side med dine venner   LinkedIn   Twitter   Facebook   Pinterest   YouTube  
 © Copyright 1997-2024 Microsys

 Brug af denne side inkluderer accept af vores juridisk, privatliv og cookie information.

Se vores prisrobot indenfor emner: Maling | Stiger | Stilladser | Vinduespudsning | Robotstøvsuger | Støvsuger | Maskiner | Køkken | Kaffe | Bad | Mobil | Bærbar | Printer