Selvom det normalt ikke anbefales på grund af
problemer med duplicate content, blander nogle websteder domæner, links og
www- og
ikke-www- brug i URL'er. I sådanne tilfælde, efter at have konfigureret webstedsroden, der skal scannes, som normalt er det primære domæne, skal du lave en liste over
root-aliasser.
Bemærk: Du skal bruge knappen
[+] for at tilføje et
rodsti-alias til
rullelisten.
In
Scan hjemmeside | Crawler-indstillinger, du kan konfigurere webstedsskraberværktøjet til automatisk at tilføje almindelige rodstialiasser:
Hvis du bruger
http://example.com/blogs/ som rod, vil alle stier
udenfor (undtagen
rodstialiasser ) som f.eks.
http://example.com/forum/ hverken blive inkluderet i
output eller til
analyse.
Et bedre alternativ kan være at beholde hjemmesidens rod som
http://example.com/ efterfulgt af at bruge
analysefiltre,
outputfiltre og yderligere
startsøgestier (se nedenfor) for at kontrollere dit websteds crawl og resulterende output.
Bemærk: I dette tilfælde skal du muligvis fjerne markeringen i indstillingen
Scan websted | Crawler muligheder | Ret interne URL'er, hvis webstedets rod-URL omdirigerer til en anden adresse.
Websteder med
webstedsområder, der ikke har nogen indgående links fra resten af webstedet, kan nogle gange forårsage et problem.
Husk, at tværbinding af
skjulte sider ikke hjælper, hvis ingen af dem er linket fra andre steder på hjemmesiden.
Dette problem kan nemt overvindes i vores webstedsskrabersoftware. Det er muligt at starte en webstedsscanning fra flere stier ud over webstedskatalogroden.
I nyere versioner er der også knapper til hurtigt at tilføje yderligere
startsøgning fra adresser ved at:
- import af liste over URL'er fra søgemaskiner.
- importere liste over URL'er fra en fil.
- importere liste over URL'er fra en webside-URL.
- tilføjer almindelige webadresser såsom typiske xml-sitemapstier.
Bemærk: Du skal bruge knappen
[+] for at tilføje yderligere
startscanningsstier til
rullelisten.
Bemærk: Det er ofte bedre at sikre, at dit websted er krydslinket, så crawlere kan finde alle sider på egen hånd.