Sådan downloades websteder fra internetarkiver
Hvis du har mistet dit gamle websted og dets indhold, kan det stadig være muligt at downloade det fra nogle internetarkivwebsteder og -tjenester.
Hvis du nogensinde har mistet dit eget ophavsretligt beskyttede indhold og hjemmesider, fx fordi du har glemt at forny webserver- og hostingomkostninger, ved du, hvor stort et problem det kan være at genopbygge det hele.
Nogle internetarkivwebsteder har en politik, hvor de:
- Download, gem og vis alle websteder, de finder interessante uden tilladelse.
- Angiv, at du ikke må downloade dine egne gamle websteder og indhold fra dem.
Da vi ikke er advokater, kan vi ikke give juridisk rådgivning, og vi ved derfor ikke, om du under f.eks.
fair use har tilladelse til at downloade dine egne ophavsretligt beskyttede websteder og indhold fra sådanne internetarkiver.
Du vil måske enten:
- Bed om eksplicit tilladelse fra det arkiv, der har en kopi af dit websted.
- Kontakt en advokat og søg juridisk rådgivning, før du går videre.
- Scan websted > Stier
- Indstil webstedets domæneadresse og/eller bibliotekssti til den samme roddomæneadresse, som internetarkivsiderne på dit gamle websted er placeret på, f.eks. http://content.example.org.
- I Beyond website root path, start scanning fra stier tilføj stien til roden af dit arkiverede website, f.eks . http://content.example.org/archives/timestamp-and-more/http://example.com/.
Bemærk: Fildownloadstien til denne URL er også det bedste udgangspunkt for at se og surfe på det downloadede indhold offline.
- Scan websted > Crawler-indstillinger
- Fjern markeringen af indstillingen Ret "//", når den bruges i stedet for "/" i interne links.
- Fjern markeringen i indstillingen Ret "interne" URL'er, hvis webstedets rod-URL omdirigerer til en anden adresse.
- Scan websted > Crawler Engine
- Indstil Max samtidige forbindelser (dataoverførsel) til 2. Det gør vi, fordi vi ønsker at minimere vores belastning på serveren, der opbevarer en kopi af din hjemmeside i deres arkiv.
- Scan websted > Analysefiltre
- I grænseanalyse af interne URL'er, som matcher som "relativ sti" ELLER "tekst" ELLER "regex" på listen, tilføj en grænse-til, der begrænser, hvilke side-URL'er der downloades og analyseres. Eksempel kunne være ::201(0|1)[-0-9A-Za-z_]+/https?://(www\.)?eksempel\.com .
Bemærk: Ved at tilføje sådanne filtre kan du begrænse crawl og analyse til de nøjagtige dele, du har brug for. Men da nogle arkivtjenester omdirigerer sider til andre datoer og URL-versioner (f.eks. med og uden .www- delen), bør dine filtre ikke være for specifikke.
- Scan websted > Outputfiltre
- I limit-output af interne URL'er, som matcher som "relativ sti" ELLER "tekst" ELLER "regex" på listen, tilføj en grænse-til, der begrænser, hvilke side-URL'er der bliver downloadet og inkluderet i output. Eksempel kunne være ::201(0|1)[-0-9A-Za-z_]+/http://example\.com.
Bemærk: Brug af denne kræver ekstra omhu og er kun relevant, hvis du har brug for meget fint at begrænse download til præcis de dele, du har brug for.
Mens du stadig tester konfigurationen, vil du måske fjerne markeringen fra:
- Ældre versioner:
- Scan hjemmeside | Crawler muligheder | Anvend "webmaster"- og "output"-filtre, efter at webstedsscanningen stopper
- Nyere versioner:
- Scan hjemmeside | Udgangsfiltre | Når webstedsscanningen stopper: Fjern ekskluderede webadresser
- Scan hjemmeside | Webmaster filtre | Efter at webstedsscanningen stopper: Fjern URL'er med noindex/disallow