Archiveren van de website en sociale media van Studio ORKA

Uit Tracks
Naar navigatie springen Naar zoeken springen

Theatergezelschap Studio Orka droeg hun archief over aan het Letterenhuis naar aanleiding van de stopzetting van hun werking. Het archief omvat onder andere een website en verschillende sociale media accounts.

Probleemstelling

Studio Orka wilde bij de overdracht van hun archief garanderen dat alle informatie over hun theaterstukken, samen met het visuele materiaal, bewaard zou blijven. Deze informatie bevond zich op hun website. Daarnaast drukten ze de wens uit om hun sociale media kanalen mee over te dragen en te ontsluiten.

Methode

Website

Aangezien de website uitgebreide beschrijvingen van de voorstellingen bevatte, besloot de archivaris om met dit materiaal te beginnen. Aanvankelijk werd een poging ondernomen om het proces te automatiseren met behulp van een webcrawler-applicatie, om de gehele website te scannen en op te slaan. Dit gebeurde met Heritrix, een veelzijdige webcrawler die vaak wordt gebruikt voor dergelijke taken. Voor deze specifieke toepassing, waarbij het cruciaal was dat elke link correct werd vastgelegd, bleek deze optie problematisch: sommige links werden wel opgeslagen, terwijl andere ontbraken of niet correct werkten. Dit maakte de resultaten onbetrouwbaar en onvolledig. Uiteindelijk was Heritrix daarom niet geschikt voor het volledige en correcte vastleggen van de website. Daarom werd geopteerd voor Archive WebPage, waarbij handmatig alle links op de website van Studio Orka werden doorlopen om de volledige website op te slaan in het WARC/WACZ-formaat (Web ARChive).

Sociale Media

Resultaten

Auteur: Ghaith AL-Ani (Letterenhuis)


Het WARC-formaat slaat niet alleen de HTML-pagina’s op, maar ook alle bijbehorende bestanden zoals afbeeldingen, video's en scripts, zodat de website later volledig interactief blijft. Het WACZ-formaat is een gecomprimeerde (zipped) versie met extra metadata, waardoor de gearchiveerde website eenvoudiger te openen is en dynamische content, zoals video's en formulieren, correct wordt bewaard. Deze WACZ bestanden kunnen we op verschillende manieren bekijken. Online zijn er diverse tools beschikbaar om WARC/WACZ-bestanden te raadplegen. ReplayWeb.page bleek de beste keuze, aangezien we de bijbehorende tool al hadden gebruikt om de website te archiveren. Daarnaast biedt de tool de mogelijkheid om gearchiveerde websites lokaal te openen en te verkennen. Het proces is eenvoudig. Je laadt de WARC/WACZ-bestanden in Archive WebPage, klikt op de links die je wilt bekijken, en de website verschijnt met alle functionele knoppen intact.

https://archiveweb.page/guide Het archiveren van de sociale mediakanalen, zoals Facebook en Instagram, verliep relatief eenvoudig. META biedt ingebouwde opties waarmee gebruikers hun accounts kunnen archiveren en alle data op een gebruiksvriendelijke manier kunnen exporteren. Voor META is het vrij eenvoudig om je data aan te vragen. Op Facebook/Instagram kun je naar je privacy-instellingen gaan en daar je informatie aanvragen/downloaden. Wat houdt deze data in? Alle posts/berichten die je ooit hebt geplaatst, geliked, gedeeld en andere activiteiten die META zelf vastlegt. Je krijgt de optie om zelf te kiezen wat je allemaal wilt archiveren en wat niet, of je kunt kiezen voor volledige archivering. Hierbij kan men ook het gewenste outputformaat kiezen. Je hebt de optie tussen JSON-formaat en HTML-formaat. De overzichtelijke optie is HTML, waarbij je een quasi-representatie van de websiteversie van Facebook/Instagram krijgt. Het zal geen exacte kopie zijn qua design, maar de content is wel 1:1. JSON is een betere optie als je je data wilt analyseren. Het is minder overzichtelijk, maar wordt vaak gebruikt voor data-analyse of om gegevens te importeren in andere systemen.