Maak een offline kopie met een crawler
Dit is de vaakst toegepaste vorm van websitearchivering. Een crawler of offline browser maakt een snapshot van je website en slaat alle bestanden op als HTML-bestand. Dit is mogelijk doordat de crawler zich als een browser voordoet die iedere pagina van de website bezoekt. In een browser wordt iedere webpagina als een HTML-pagina weergegeven, en daarom wordt iedere pagina als een HTML-bestand opgeslagen. Absolute padaanduidingen worden hierbij omgezet naar relatieve padaanduidingen[1], zodat de website offline geopend kan worden zoals de oorspronkelijke website.
Deze methode kan je toepassen wanneer je alle pagina’s en bestanden waaruit je website bestaat, wil bewaren. Het houdt de oorspronkelijke structuur van je website relatief intact en maakt het mogelijk om je website offline te openen en erin te navigeren zoals bij de oorspronkelijke website. Er bestaan eenvoudige tools om een snapshot van je website te maken. Hou er rekening mee dat crawlers beperkingen hebben. Dynamische webpagina’s waarbij de inhoud gevormd wordt op basis van gegevens die een gebruiker invoert, kunnen niet altijd gearchiveerd worden, net zoals informatie die via een paswoord beveiligd is, bepaalde interactieve elementen en informatie van externe diensten. Ook websites met animaties die een plug-in vereisen om af te spelen, zoals Flash-toepassingen, zullen niet goed gearchiveerd worden.[2]
Enkele crawlers waarmee je aan de slag kan om je website te archiveren:
HTTrack
Een eenvoudige crawler met grafische gebruikersinterface is HTTrack.[3]
- Geef een naam aan het webarchief en kies waar je de gearchiveerde website wil opslaan. Klik vervolgens op ‘next’.
- Selecteer een actie. Kies voor ‘download web site(s)’.
- Vul de URL van je website in. Je kan meerdere URL’s downloaden. Kies in dat geval voor ‘add URL’ en vul de extra URL in. Klik vervolgens op ‘next’.
- Klik op ‘finish’
- De crawler is je website aan het downloaden. Laat het venster open zolang de crawler bezig is.
- De crawler is klaar.
Webrecorder/Conifer
Webrecorder is een desktop tool en webservice van Conifer waarmee je een offline kopie kan maken van je website. De aanpak van Webrecorder is anders dan die van HTTrack. Terwijl HTTrack als een bot[4] je volledige website afgaat en alle pagina’s en bestanden downloadt die publiek beschikbaar zijn, kan je met Webrecorder een opname maken van een surfsessie. Tijdens de surfsessie downloadt Webrecorder alle content die je tegenkomt door het netwerkverkeer en de processen in je browser op te nemen terwijl je als gebruiker interageert met een webpagina. Dit heeft als voordeel dat dynamische inhoud en gebruikersspecifieke content en interacties wél gearchiveerd kunnen worden, wat met HTTrack bijvoorbeeld onmogelijk is. Het is belangrijk om goed te documenteren welke interacties je aangegaan bent met de website tijdens het archiveren. Als je bijvoorbeeld de zoekfunctie van een website wil bewaren, dan is het belangrijk te documenteren op wat en hoe je gezocht hebt. Webrecorder zal namelijk enkel bewaren wat jij gedaan hebt. Als je gezocht hebt op de woorden de mol, dan zal je in de gearchiveerde website niet kunnen zoeken op mol of raaf.
Enkele andere voordelen van Webrecorder ten opzichte van andere software:
- Je kan websites in oudere browsers archiveren door de aanwezigheid van emulatiesoftware. Dat kan nuttig zijn voor oudere websites. Recentere versies van de huidige browsers, zoals Chrome en Firefox, ondersteunen geen Java[5] en/of Flash[6] meer. Als deze technologie nog aanwezig is op een website die je wil archiveren, dan zal je die functies kwijt zijn tijdens het archiveren. Door de emulatiesoftware in Webrecorder kan je oudere browsers gebruiken die deze technologie wel nog ondersteunen. Zo kan je je website archiveren met zijn volledige functionaliteit.
- De software beschikt over een autopilot-functie die het gedrag van een menselijke gebruiker imiteert, zoals scrollen, een video afspelen, op een foto klikken,... Deze functie is vooral nuttig voor sociale media. Er zijn gespecialiseerde autopilots voor Twitter, Facebook, YouTube, SlideShare, Soundcloud en Instagram. Lees er meer over in de Webrecorder-handleiding.
- Tot slot bewaart Webrecorder de gearchiveerde websites in het WARC-formaat, de internationale standaard voor webarchieven.
Volg volgende stappen om een website te archiveren met Webrecorder:
- Open Webrecorder voer de URL van je website in en geef de opname een naam.
- Wil je het opslaan in een oude browser? Selecteer dan de browser die je wil gebruiken.
- Druk op record.
- Je website wordt geopend en Webrecorder begint met het opnemen van content.
- Terwijl je pagina’s van de website bezoekt, zal Webrecorder meer en meer content opslaan.
- Als je de sessie wil beëindigen, klik dan opnieuw op ‘Recording’. Je ziet dan een lijst van de pagina’s die gearchiveerd werden.
- Je kan de gearchiveerde website nu browsen op de website van Webrecorder. Je kan hem tevens downloaden en hem lokaal op je computer bekijken. Klik hiervoor op het icoontje met wolkje en pijl.
- Hiermee download je je website in het WARC-formaat. Je kan dit bestand nu gebruiken om offline je gearchiveerde website te bekijken. Om WARC-bestanden te openen, kan je Webrecorder Player downloaden. Dat is een gratis en open source toepassing van de makers van Webrecorder. Download steeds de ‘latest release’; geen pre-release. In een pre-release kunnen nog fouten zitten.
- Open Webrecorder Player eens je het gedownload en geïnstalleerd hebt. Klik op ‘Open WARC file’ om je webarchief te openen.
- Selecteer je webarchief en klik op ‘Open’.
- Het webarchief zal nu geopend worden in Webrecorder Player. Je kan nu doorheen de pagina’s van de website navigeren die je tijdens je surfsessie gearchiveerd hebt. Als je doorheen je volledige website bent gegaan, kan je je website navigeren zoals hij oorspronkelijk was.
Webrecorder is minder geschikt voor het volledig archiveren van een grote website. Je zal namelijk iedere pagina moeten gaan bezoeken. Als aanvulling op een andere strategie, of voor kleine websites, kan dit een goede strategie zijn voor het bewaren van websites met dynamische of moeilijk te archiveren inhoud. Om grote websites op te slaan in het WARC-formaat, gebruik je beter de Wget-strategie. Deze is wel iets complexer.
Wget
Wget is een computerprogramma dat, net zoals een webcrawler, content ophaalt van webservers. Het is een command line tool en heeft dus geen grafische gebruikersomgeving (GUI) zoals HTTrack of Webrecorder. Deze tool kan je enkel bedienen met behulp van een terminal (MacOs en Linux) of opdrachtprompt (Windows). Wget is sneller dan alle voorgaande tools en kan websites archiveren in het WARC-formaat. Het is ontworpen om robuust te zijn en kan ook webcontent downloaden als je internetconnectie zwak, traag of instabiel is.
Wget is net zoals HTTrack een soort crawler. Dynamische of interactieve elementen zullen eveneens verloren raken tijdens het archiveren.
De software is standaard ingebouwd in Linux-computers. Mac-gebruikers kunnen hier bekijken hoe Wget gedownload en geïnstalleerd wordt; Windows-gebruikers kunnen zich tot deze handleiding wenden.
- Open de terminal.
- Op Windows kan je de opdrachtprompt starten door op de Windows-knop te drukken, cmd.exe te typen in het zoekveld en op ‘Enter’ te drukken;
- Op Mac vind je terminal onder Programma’s > Hulpprogramma’s > Terminal;
- Op Linux kan je zoeken op ‘Terminal’.
- In de terminal typ je vervolgens één commando in waarmee je de volledige website kan downloaden:
wget --recursive --no-clobber --convert-links --domain domeinnaam --warc-file=bestandsnaam websitewget: de naam van de tool.--recursive: deze term houdt in dat je volledige website gedownload wordt, i.p.v. één webpagina.--no-clobber: overschrijf geen bestaande files, bv. in het geval de download zou stilvallen en (automatisch) weer opgestart wordt.--convert-links: zet absolute links om naar relatieve links zodat je ook offline kan browsen.--domain domeinnaam: ipv domeinnaam zet je hier de domeinnaam van je website. Dit is het gedeelte in de URL na de www, bv. in het geval van http://www.packed.be is dit packed.be--warc-file=bestandsnaam: ipv bestandsnaam zet je hier de bestandsnaam die je aan het WARC-bestand wil geven- website: vul hier de URL van je website in.
- voorbeeld van een volledig ingevuld commando:
wget --recursive --no-clobber --convert-links --domain packed.be --warc-file=20180327_website_packed www.packed.be
- Wget zal vervolgens alle bestanden van je webserver halen.
- Wanneer wget klaar is (dit kan enkele uren duren - afhankelijk van de grootte van je website), vind je een WARC-file in de thuismap van je computer.
- Op Windows is dit \Users\gebruikersnaam.
- Op Mac vind je deze map door in Finder voor Ga > Thuismap te kiezen.
- Op Linux is dit /home/<gebruikersnaam>.
- Om het WARC-bestand te openen, kan je Webrecorder Player gebruiken (zie onderdeel Webrecorder/Conifer). Je kan nu doorheen de volledige website offline navigeren zoals oorspronkelijk.
- ↑ Een absoluut pad is een volwaardige verwijzing naar een bestandslocatie en is het volledige adres van de locatie van een bestand, zoals ‘http://www.heemkunde-vlaanderen.be/contact/’. Een relatief pad gaat uit van de locatie waar een gebruiker of applicatie zich bevindt. Met een relatief pad kan je verwijzen naar een bestand in een hoger of lager gelegen map zonder het volledige pad te hoeven herhalen. Als je je als gebruiker in de map ‘http://www.heemkunde-vlaanderen.be’ bevindt, dan volstaat in HTML een relatieve link naar ‘contact’ om op het volledige adres ‘http://www.heemkunde-vlaanderen.be/contact/’ terecht te komen.
- ↑ M. Pennock, Web-archiving, p.11
- ↑ HTTrack is beschikbaar voor Windows, Mac en Linux. Een andere veelgebruikte webcrawler, die ontwikkeld werd door The Internet Archive en een aantal nationale bibliotheken, is Heritrix. Deze kan websites opslaan in het WARC-formaat.
- ↑ Een bot (komt van robot) is een computerprogramma dat op een autonome manier taken kan uitvoeren die normaal door mensen uitgevoerd worden. De bot kan bijvoorbeeld een computerspel spelen, een webpagina raadplegen, chatten, of een bericht op een site (bijvoorbeeld een forum of wiki) plaatsen.
- ↑ https://en.wikipedia.org/wiki/Java_applet#Embedding_into_a_web_page
- ↑ https://en.wikipedia.org/wiki/Adobe_Flash

