Archiveren van de website en sociale media van Studio ORKA
In het kader van de archiefoverdracht van Studio Orka diende hun website en sociale media kanalen gearchiveerd te worden. Dit praktijkvoorbeeld toont hoe het Letterenhuis hierbij te werk ging.
Probleemstelling
Methode
Website
Sociale Media
Resultaten
Auteur: Ghaith AL-Ani (Letterenhuis)
Op verzoek van Studio Orka ben ik begonnen met het archiveren van hun website in het kader van een archiefoverdracht. Ze wilden dat alle informatie over hun theaterstukken, samen met het visuele materiaal, bewaard zou blijven. Aangezien de website uitgebreide beschrijvingen van de voorstellingen bevatte, besloot ik met dit materiaal te beginnen. Aanvankelijk probeerde ik het proces te automatiseren met behulp van een webcrawler-applicatie om de gehele website te scannen en op te slaan. Ik begon met Heritrix, een veelzijdige webcrawler die vaak wordt gebruikt voor dergelijke taken. Toch bleek het voor deze specifieke toepassing, waarbij het cruciaal was dat elke link correct werd vastgelegd, problematisch: sommige links werden wel opgeslagen, terwijl andere ontbraken of niet correct werkten. Dit maakte de resultaten onbetrouwbaar en onvolledig. Uiteindelijk was Heritrix daarom niet geschikt voor het volledige en correcte vastleggen van de website. Daarom koos ik voor Archive WebPage, waarbij ik handmatig alle links op de website van Studio Orka heb doorlopen en de volledige website heb opgeslagen in het WARC/WACZ-formaat (Web ARChive). Het WARC-formaat slaat niet alleen de HTML-pagina’s op, maar ook alle bijbehorende bestanden zoals afbeeldingen, video's en scripts, zodat de website later volledig interactief blijft. Het WACZ-formaat is een gecomprimeerde (zipped) versie met extra metadata, waardoor de gearchiveerde website eenvoudiger te openen is en dynamische content, zoals video's en formulieren, correct wordt bewaard. Deze WACZ bestanden kunnen we op verschillende manieren bekijken. Online zijn er diverse tools beschikbaar om WARC/WACZ-bestanden te raadplegen. ReplayWeb.page bleek de beste keuze, aangezien we de bijbehorende tool al hadden gebruikt om de website te archiveren. Daarnaast biedt de tool de mogelijkheid om gearchiveerde websites lokaal te openen en te verkennen. Het proces is eenvoudig. Je laadt de WARC/WACZ-bestanden in Archive WebPage, klikt op de links die je wilt bekijken, en de website verschijnt met alle functionele knoppen intact.
https://archiveweb.page/guide Het archiveren van de sociale mediakanalen, zoals Facebook en Instagram, verliep relatief eenvoudig. META biedt ingebouwde opties waarmee gebruikers hun accounts kunnen archiveren en alle data op een gebruiksvriendelijke manier kunnen exporteren. Voor META is het vrij eenvoudig om je data aan te vragen. Op Facebook/Instagram kun je naar je privacy-instellingen gaan en daar je informatie aanvragen/downloaden. Wat houdt deze data in? Alle posts/berichten die je ooit hebt geplaatst, geliked, gedeeld en andere activiteiten die META zelf vastlegt. Je krijgt de optie om zelf te kiezen wat je allemaal wilt archiveren en wat niet, of je kunt kiezen voor volledige archivering. Hierbij kan men ook het gewenste outputformaat kiezen. Je hebt de optie tussen JSON-formaat en HTML-formaat. De overzichtelijke optie is HTML, waarbij je een quasi-representatie van de websiteversie van Facebook/Instagram krijgt. Het zal geen exacte kopie zijn qua design, maar de content is wel 1:1. JSON is een betere optie als je je data wilt analyseren. Het is minder overzichtelijk, maar wordt vaak gebruikt voor data-analyse of om gegevens te importeren in andere systemen.