Handgeschreven tekst transcriberen met behulp van AI
Transcriberen is een ideale manier om handgeschreven teksten in je archief of collectie beter te ontsluiten. Door een transcriptie kan je handgeschreven documenten namelijk doorzoekbaar maken, wat de zichtbaarheid van het document stimuleert en nieuwe verbanden kan uitlichten. Manueel transcriberen is bijzonder tijdsintensief: daardoor kan het gebruik van AI het proces drastisch versnellen. In deze tool wordt beschreven hoe je kan transcriberen via het platform Transkribus.
Transkribus is een platform voor automatische tekstherkenning bij historische teksten dat wordt gerund door een coöperatie van meer dan honderdvijftig mede-eigenaren, waaronder het Algemeen Rijksarchief België en de Universiteit Antwerpen. Transkribus transcribeert je tekst automatisch, waarna je manueel correcties kan aanbrengen. Als je een grote hoeveelheid gelijkaardige documenten wil transcriberen kan je een aangepaste AI trainen op basis van de specifieke kenmerken van je collectie. Op de website www.transkribus.org is een gratis versie ter beschikking.
Registreer je eerst als gratis gebruiker van Transkribus via de knop 'Probeer gratis', rechts bovenaan op de website. Na het inloggen kan je op de homepagina gebruik maken van snelle tekstherkenning om de scan van een bepaald document meteen te transcriberen. Als je gestructureerder te werk wil gaan kan je in de balk bovenaan via 'collecties' een collectie aanmaken waarin je bij elkaar horende documenten bundelt. In de aangemaakte collectie kan je bestanden importeren. Wanneer je de collectie opent vind je een overzicht van alle documenten die tot de collectie behoren. Wanneer je een document selecteert krijg je een overzicht van de pagina's. Als je de geselecteerde pagina wil transcriberen klik je bovenaan op 'herkennen', waarna een balk rechts opent. In de balk kan je aangeven wat voor materiaal je wil laten herkennen (tekst, layout,...), in welke taal het bronmateriaal is en welk AI-model je wil gebruiken. NB: de zogenaamde 'Super models' kan je enkel gebruiken bij een betalende account. Na selectie van de gewenste parameters druk je onderaan op 'Start herkenning'.
Je document werd nu door een AI-model getranscribeerd, maar moet nog nagekeken en eventueel verbeterd worden. Wanneer je een document open klikt, zie je links in beeld een scan en rechts in beeld de automatisch getranscribeerde tekst. De tekst kan je rechtstreeks bewerken. Je hoeft een document niet in één keer te transcriberen: je kan de wijzigingen tussentijds bewaren door bovenaan op save te drukken. Daar krijg je bovendien ook te zien hoeveel niet-bewaarde wijzigingen je al hebt aangebracht. Transkribus biedt de mogelijkheid aan om via een kleurcode de transcriptiestatus van een pagina en/of document aan te geven. Bewaar je een transcriptie tussentijds? Dan pas je in het overzicht van de pagina’s de status van deze brief aan naar done (geel). Je kan een volgende keer aan deze transcriptie verder werken. Heb je een transcriptie afgerond? Vergeet de aangebrachte wijzigingen niet te bewaren en pas de status in het overzicht aan naar final (lichtgroen).
3. Enkele tips De lay-out-analyse weghalen
Via een lay-out-analyse herkent Transkribus waar de tekst zich bevindt op de scan. Dit vertaalt zich in genummerde tekstregio’s en -regels, aangeduid met groene kaders en blauwe lijnen. Om makkelijker te transcriberen kan je deze markeringen weghalen. 1. Klik op het tandwieltje ‘Settings’ (rechts onderaan) 2. Ga naar het tabblad Image 3. Schakel ‘Show regions’ en ‘Show baselines’ uit.
De scan uitvergroten Sommige letters of woorden kun je beter lezen wanneer je de scan uitvergroot. Met de + en – in de werkbalk aan de linkerkant kun je dit doen.
Tags toevoegen 1. In de werkbalk aan de rechterkant klik je op Enable Tags. 2. Klik op het tandwieltje Settings (rechts onderaan) 3. Ga naar het tabblad Tags. 4. Kies in de lijst bovenaan voor Textual Tags. 5. Schakel de tag die je nodig hebt (bv. unclear en gap) in.
Wanneer je nu een letter of woord selecteert, krijg je automatisch een overzicht met enkele tags die je kan toevoegen. Voorbeelden van tags die je kan gebruiken zijn de volgende: Onderlijnde tekst – Wanneer de auteur tekst onderlijnde, duiden we dit aan met de tag . Doorstreepte tekst - Wanneer de auteur tekst doorstreepte, duiden we dit aan met de tag . Toevoeging in sub- of superscript – Wanneer de auteur tekst toevoegde boven of onder de regel, duiden we dit aan met de tag X2 of X2 . Toevoeging in de marge – Als een aanduiding van de plaats aanwezig is, dan voeg je de tekst toe op die plaats. Als geen plaatsaanduiding aanwezig is, dan komt de toevoeging onderaan de brief terecht.
Ook voor bepaalde zogenaamde editeursingrepen kan je gebruik maken van tags.
Onduidelijke tekst – Wanneer je niet zeker bent over bepaalde letters, vervang je ze door vraagtekens. Het hele woord duid je aan met de tag unclear. Daar heb je de mogelijkheid een alternatieve lezing in te vullen. Onleesbare tekst – Is een groter deel van de tekst onleesbaar, kan je de tekst aanduiden met de tag gap. Onder reason vul je daar illegible in. Beschadigd fragment – Als de brief (deels) beschadigd is, kunnen we dit aanduiden met de tag gap. Onder reason vul je daar damaged in. Correcties – Manifeste spelfouten passen we aan met de tag sic. Daar kan je onder correction de verbetering toevoegen. Afkortingen – Afkortingen duiden we aan met de tag abbrev. Onder expansion kan je de afkorting oplossen.
Als jij of je organisatie werken met een systeem voor het beheer van persoons- of authorityrecords kan je de tag person gebruiken bij persoonsnamen in je getranscribeerde document. Je vult de voor- en familienaam in. Bij ref kun je de link (URL) naar het authority record in je collectieplatform of in een gestandaardiseerde database toevoegen.