Overleg:Maak een offline kopie met een crawler

Uit Tracks
Naar navigatie springen Naar zoeken springen

ArchiveWeb

ArchiveWeb.page is een Chrome-extensie waarmee je de browser kan ombouwen tot een webarchiveringssysteem. De aanpak van ArchiveWeb.page is anders dan die van HTTrack. Terwijl HTTrack als een bot[1] je volledige website afgaat en alle pagina’s en bestanden downloadt die publiek beschikbaar zijn, kan je met ArchiveWeb.page een opname maken van een surfsessie. Tijdens de surfsessie downloadt ArchiveWeb.page alle content die je tegenkomt door het netwerkverkeer en de processen in je browser op te nemen. Dit heeft als voordeel dat dynamische inhoud en gebruikersspecifieke content en interacties wél gearchiveerd kunnen worden, wat met HTTrack bijvoorbeeld onmogelijk is. ArchiveWeb.page kan daarom ook gebruikt worden voor het archiveren van sociale media.

Het is belangrijk om goed te documenteren welke interacties je aangegaan bent met de website tijdens het archiveren. Als je bijvoorbeeld de zoekfunctie van een website wil bewaren, dan is het belangrijk te documenteren op wat en hoe je gezocht hebt. ArchiveWeb.page zal namelijk enkel bewaren wat jij gedaan hebt. Als je gezocht hebt op de woorden de mol, dan zal je in de gearchiveerde website niet kunnen zoeken op mol of raaf.

Enkele andere voordelen van ArchiveWeb.page ten opzichte van andere software:

  • De software beschikt over een autopilot-functie die het gedrag van een menselijke gebruiker imiteert, zoals scrollen, een video afspelen, op een foto klikken,... Deze functie is vooral nuttig voor sociale media. Er zijn gespecialiseerde autopilots voor Twitter, Facebook, YouTube, SlideShare, Soundcloud en Instagram. Lees er meer over in de Webrecorder-handleiding.
  • Tot slot bewaart Webrecorder de gearchiveerde websites in het WARC-formaat, de internationale standaard voor webarchieven.

Archiveweb.page is minder geschikt voor het volledig archiveren van een grote website. Je zal namelijk iedere pagina moeten gaan bezoeken. Als aanvulling op een andere strategie, of voor kleine websites, kan dit een goede strategie zijn voor het bewaren van websites met dynamische of moeilijk te archiveren inhoud. Om grote websites op te slaan in het WARC-formaat, gebruik je beter de Wget-strategie. Deze is wel iets complexer.

Volg onderstaande stappen om een website te archiveren met Webrecorder.

Stap 1: installeer de software

ArchiveWeb.page is een Chrome-extensie die je installeert via de chrome web store.

  • Open Chrome.
  • Ga via deze link naar de extensie-pagina van ArchiveWeb.page en klik op Toev. aan Chrome.

align-center

  • Er verschijnt een venster dat je vraagt om te bevestigen dat je de extensie wil toevoegen. Klik op Extensie toevoegen.

align-center

  • Zet vervolgens de extensie vast door linksboven op het puzzelstukje te klikken en op het punaise-icoontje naast Webrecorder ArchiveWeb.page te klikken.

align-center

  • De extensie staat nu in je browser naast de adresbalk.

align-center

Stap 2: capteer de website

Na de installatie van ArchiveWeb.page kan je Chrome gebruiken als een webarchiveringstool. In de voorbeelden van de screenshots wordt sociale media gebruikt, maar je kan de tool gebruiken voor elke soort website

  • Maak een collectie voor het account dat je wil capteren.
  • Klik hiervoor op het ArchiveWeb-icoon en klik op het dropdown-menu onder Record To. Kies voor Create New Archive…

align-center

  • En geef een naam aan de collectie.

align-center

align-center

  • Ga vervolgens naar de website die je wil archiveren. Log je in, indien het om een website gaat waarvoor je je moet inloggen.

align-center

  • Ga naar de pagina die je wil archiveren en start de opname. Klik hiervoor weer op het ArchiveWeb-icoon in de browser. Vink de optie Start With Autopilot aan en druk op Start.

align-center

  • Nadat je op start gedrukt hebt, zal ArchiveWeb de pagina opnieuw laden en de content beginnen downloaden. De autopilotfunctie zorgt ervoor dat de browser automatisch naar beneden scrolt.

align-center

  • Om ervoor te zorgen dat alle content bewaard wordt, moet je iedere pagina bezoeken die je wenst te archiveren en alle video’s afspelen die je later in het webarchief wil kunnen afspelen. Tijdens het uitvoeren van deze acties zal ArchiveWeb steeds meer content opslaan.
  • Als je de sessie wil beëindigen, klik dan terug op het ArchiveWeb.page-icoon en druk op Stop.

align-center

Stap 3: Exporteer het webarchief als WARC-bestand

Nadat ArchiveWeb.page de website gearchiveerd heeft, kan je het webarchief exporteren in WARC-formaat

  • Klik hiervoor weer op het ArchiveWeb-icoon en selecteer in het keuzemenu onder Record To de collectie die je in 2. Capteer de website aangemaakt hebt.

align-center

  • Druk vervolgens op Browse Archive. Je zal een lijst van pagina’s zien die je gearchiveerd hebt.

align-center

  • Kies links voor Download en klik op Download All as WARC Only.

align-center

  • Sla het bestand op. Let op: ArchiveWeb.page wil het bestand opslaan als een .warc-bestand, maar het gaat om een gecomprimeerd WARC-bestand. Voeg daarom .gz toe als extensie.

align-center

  • De website is gearchiveerd en het webarchief opgeslagen!

Stap 4: Controleer het webarchief

ReplayWeb.page is een zeer eenvoudige open source tool waarmee webarchieven bekeken kunnen worden in de browser zonder dat je software moet installeren. Je kan er WARC-bestanden mee openen die lokaal op je computer, Google Drive, Amazon S3 of een webserver (via HTTP of HTTPS) staan.

  • Klik vervolgens op Load.
  • Het WARC-bestand zal nu geladen worden.
  • Via een lijst van URL’s kan je kiezen welke pagina je wil openen.
  • En dan de gearchiveerde pagina in de browser bekijken.
  1. Een bot (komt van robot) is een computerprogramma dat op een autonome manier taken kan uitvoeren die normaal door mensen uitgevoerd worden. De bot kan bijvoorbeeld een computerspel spelen, een webpagina raadplegen, chatten, of een bericht op een site (bijvoorbeeld een forum of wiki) plaatsen.