Archiving Studio ORKA's website and social media accounts
Theatre company Studio ORKA transferred their archive to the Letterenhuis following the cessation of their activities. The archive includes a website and various social media accounts.
Problem definition
Studio ORKA wanted to ensure that all information about their theatre productions, along with the visual material, would be preserved during the transfer of their archive. This information was located on their website, and they also expressed the desire to transfer their social media accounts.
Method and results
Website
Since the website contained extensive descriptions of the performances, the archivist decided to start with this material. Initially, an attempt was made to automate the process using a web crawler application to scan and store the entire website. This was done with Heritrix, a versatile web crawler often used for such tasks. For this specific application, where it was crucial that every link was correctly captured, this option proved problematic: some links were saved, while others were missing or not working correctly. This made the results unreliable and incomplete. They therefore moved away from Heritrix and opted for Archive WebPage, manually going through all the links on the Studio ORKA website to save the entire site in both WARC and WACZ formats (Web ARChive).
The WARC format not only saves the HTML pages but also all associated files such as images, videos and scripts, so the website remains fully interactive later. The WACZ format is a compressed (zipped) version with additional metadata, making the archived website easier to open and ensuring dynamic content, such as videos and forms, is preserved correctly.
Deze WACZ bestanden kunnen op verschillende manieren bekeken worden. Online zijn er diverse tools beschikbaar om WARC/WACZ-bestanden te raadplegen. ReplayWeb.page bleek de beste keuze, aangezien de bijbehorende tool werd gebruikt om de website te archiveren. Daarnaast biedt de tool de mogelijkheid om gearchiveerde websites lokaal te openen en te verkennen. Dit is een eenvoudig proces: je laadt de WARC/WACZ-bestanden in Archive WebPage, klikt op de links die je wilt bekijken, en de website verschijnt met alle functionele knoppen intact. Meer info hierover kan je vinden via de handleiding van Archive WebPage.
Sociale media
Naast de website werden de Facebook- en Instagramaccount van Studio ORKA gearchiveerd. META, het moederbedrijf van beiden, biedt ingebouwde opties waarmee gebruikers hun accounts kunnen archiveren en alle data op een gebruiksvriendelijke manier kunnen exporteren.
Op Facebook/Instagram werd via de privacy-instellingen van het account van Studio ORKA de data aangevraagd en gedownload. De gedownloade data omvat alle posts/berichten die Studio ORKA ooit heeft geplaatst, geliked of gedeeld, aangevuld met andere activiteiten van het account die META zelf vastlegt. Er werd in het geval van Studio ORKA gekozen voor een volledige archivering. Daarnaast is er een optie om zelf te kiezen wat je wil archiveren en wat niet.
Bij het downloaden van de data is er de mogelijkheid om het gewenste outputformaat kiezen: JSON-formaat of HTML-formaat. De overzichtelijkste optie was HTML, wat een quasi-representatie van de websiteversie van Facebook/Instagram van Studio ORKA opleverde. Deze representatie is geen exacte kopie qua design, maar de content is wel 1:1.
De data werd ook gedownload in het JSON-formaat, wat de betere optie is als je data wil analyseren of gegevens wil importeren in andere systemen. Hier staat tegenover dat de weergave minder overzichtelijk is.
Auteur: Ghaith Al-Ani (Letterenhuis)






