Tools for automated transcription of audio and video fragments

Speech recognition, speech-to-text (STT) or automated speech recognition (ASR) is a technology that makes it possible to convert spoken text in videos or audio into text, such as the automatic subtitles on YouTube or Zoom. In this overview we focus on transcribing interviews for oral history, but virtual assistants like Siri or Google Assistant are also a form of this technology.

Speech recognition is a relatively old technology. The first commercial tools appeared in the early 1990s. They use models, systems that are trained on a certain set of data to recognize patterns and make decisions without human intervention. Speech recognition models are language models trained on audio such as interviews, audiobooks, lectures and presentations. The strength of the speech recognition tool depends enormously on the model used.

Possibilities of speech recognition tools

A research by meemoo in 2020-2021 showed that speech recognition technology was less good at transcribing audio from conversations, but great strides have been made in recent years which has greatly improved the technology, partly due to the greater computing power of computers, the progress in technology related to machine learning and big data and the improved language models. This has ensured that the tools generate more natural language and produce fewer nonsensical texts, thus improving transcriptions of conversations enormously.

In addition, speech recognition tools can do more than just transcribe text. They can also:

recognize different speakers and indicate which text was spoken by which speaker
indicate and remove filler words such as euhm from the text
indicate silences
create summaries and translations
...

Several tools also have a possibility to add a dictionary. Here you can set specialized words that would otherwise be transcribed incorrectly.

Points of attention when using the tools

You can take into account a number of factors to achieve better results:

The strength of the speech recognition tools depends on the model used: e.g., which languages does the model support and how well can the model handle dialects or colloquial language? The choice for the model depends on the needs and use cases, such as the trade-off between speed and accuracy, and the language that must be transcribed. In the overview we chose accuracy (it is important that the text is correct than that the tool is fast) and Dutch as colloquial language. They were also all tested on interviews in which slight dialect or intermediate language was spoken. The most accurate tools scored well for this, but generally it was noted that interviews with pronounced dialects resulted in poorer transcriptions.
Another important point of attention is the quality of the recording. Recordings with clear sound and without background noise give better results than recordings with poor sound quality (e.g. noise) and background noise. Speakers who speak clearly are also transcribed better than speakers who mumble.
Desktop applications use the computing power of the computer when transcribing the text. If your computer has a dedicated GPU, the transcription will proceed much faster. A dedicated GPU is a special GPU with its own card connected to the motherboard, while an integrated GPU is embedded in the same chip as the CPU. This article (in Dutch) explains more about the different GPUs. If your computer does not have this GPU, then the CPU or processor is used. This is slower. You can also use an online service so that you are not limited by the limits of your computer.

Overview of the different tools

At the request of heritage organisations for support in writing out interviews, a number of tools were tested. Most tools can do more than just transcribe, but those functions were not investigated deeper.

Amberscript

Amberscript is a commercial web platform that allows you to create transcriptions and subtitles for audio and video. When you want to transcribe audio or video, you must upload those fragments into their web environment. Which model is used is not documented.

It supports:

different languages, including Dutch;
speaker identification;
and indication of timestamps

Advantages:

Editing transcriptions is very clear.
Possibility to add a dictionary.

Disadvantages:

Speaker identification is inaccurate when there are pauses in the audio fragment.
Pauses are not indicated.
Accuracy in Dutch is not good. The transcribed text contains quite a few errors.

Using Amberscript costs money. If you want to pay once, it will cost you €15/hour, whereby you can purchase a maximum of hunderd hours at a time. It is also possible to take out a subscription. You then pay €40/month per five hours of uploaded audio or video if you take a yearly subscription, or €50/month for five hours of audio or video. It is not possible to transfer unused hours to another month.

Audapolis

Audapolis is an open source and offline desktop application that uses the Vosk model. Vosk is a relatively small, but also older model that is mainly used for chatbots, smart home applications and virtual assistants. It was originally developed for smaller devices such as smartphones and microcomputers.

The tool can transcribe twenty languages, including Dutch, identifies which text was spoken by which speaker and also indicates timestamps. Because the tool works offline, you can also use the tool, for example, on the train when traveling home after an interview.

Advantages:

free and open source application;
works offline;
includes a built-in editor to improve the transcribed text;
detects and removes euhms and pauses.

Disadvantages:

does not work well with accents or (slight) dialects;
accuracy of transcribed text and speaker identification is low;
text can only be exported in HTML format;
tool hasn't been updated for a year.

Limecraft

Limecraft is een online platform voor het beheren en editeren van audio en video. Het heeft extra AI-features zoals onderwerpdetectie, gezichstherkenning en automatische transcriptie. Voor die transcriptie maakt het gebruik van zes modellen: Vocapia, Speechmatics, Google Speech, Microsoft Auze, Scriptix en Kaldi. Als gebruiker kan je zelf niet beslissen welk van die modellen je wil gebruiken. Het platform maakt die keuze voor jou op basis van de doeleinden en de taal die je kiest. Doordat er zoveel modellen gebruikt worden, kan het meer dan 100 talen transcriberen, waaronder Nederlands. Net als de voorgaande tools kan het sprekers identificeren en duidt het tijdscodes aan. Op het platform kan je met meerdere mensen samen aan een transcriptie te werken, zoals je samen zou werken op een document in Sharepoint of Google Drive.

Voordelen:

gebruiksvriendelijke interface met eenvoudige editeermogelijkheden;
snel;
uitgebreide exportmogelijkheden (.pdf, .csv, .doc);
mogelijkheid om een eigen woordenboek toe te voegen;
heeft extra features, zoals het creëren van ondertitels, onderwerpdetectie en het maken van samenvattingen;
het is een Belgisch bedrijf, waardoor support en contact in het Nederlands en in dezelfde tijdszone zijn.

Nadelen:

De euhms worden niet goed herkend en stiltes worden niet aangeduid.
Het onderscheid tussen de sprekers is niet altijd goed, maar je kan dit wel bewerken.
Het maakt rare dingen van woorden die het niet kent.
De transcriptie is een extra feature, waardoor het platform nogal duur is en veel functionaliteiten heeft die je niet nodig hebt als je enkel wil transcriberen.

De prijzen gaan van gratis (1 gebruiker met 5u aan materiaal), €85/maand (5 gebruikers met 25u aan materiaal) of €275/maand (voor grotere teams). Om audio en video te laten transcriberen moet je daarvoor €15/uur extra betalen. Limecraft biedt ook de mogelijkheid om die transcriptie te vertalen. Ook dat kost €15/uur.

Sonix

Ook Sonix is een commercieel webplatform waarmee je collaboratief kan werken aan transcripties. Zo zijn er uitgebreide mogelijkheden om transcripties te bewerken, tijdscodes aan te passen, ... Het kan meer dan 49 talen transcriberen, waaronder Nederlands, herkent goed de verschillende sprekers en duidt tijdscodes aan. Tot slot heeft het ook de mogelijkheid om aan te duiden in kleurcodes hoe zeker de software is van bepaalde transcripties.

Voordelen:

gebruiksvriendelijke interface met uitgebreide en eenvoudige editeermogelijkheden;
transcribeert snel;
mogelijkheid om eigen woordenboek toe te voegen voor specifieke woorden;
uitgebreide exportmogelijkheden
heeft een extra (betalende) feature om samenvattingen te maken van transcripties

Nadelen:

Euhms worden niet goed herkend.
Het comprimeert de originele mediabestanden wanneer je het meest goedkope tariefplan gebruikt, waardoor je de originele mediabestanden niet meer kunt exporteren.
Bij het goedkoopste tariefplan heb je enkel support per e-mail.

Sonix heeft verschillende tariefplannen:

Standard pay-as-you-go waarbij je $10/uur audio of video betaalt
Premium voor organisaties die regelmatiger audio en video willen laten transcriberen en daarvoor meer samewerkingsmogelijkheden nodig hebben. Hiervoor betaal je $5/uur audio of video en maandelijks $22 voor iedere gebruiker.
Enterprise voor hoge volumes aan transcriptienoden met uitgebreide samenwerkingsmogelijkheden en contentanalyse.

Je kan de mogelijkheden van Sonix gratis testen op 30 minuten aan audio en video.

Speechmatics

Speechmatics is een bedrijf dat zelf een eigen gesloten spraakherkenningsmodel ontwikkeld heeft en tegen betaling API's en een platform aanbiedt om audio en video te laten transcriberen en vertalen. Ze proberen te concurreren met grote bedrijven zoals Google, Amazon en Microsoft en volgens testen scoort hun model beter dan die techbedrijven. Het is te gebruiken voor zowel opgenomen media als voor real-time audio en video. De software kan 52 talen transcriberen, waaronder Nederlands, sprekers identificeren en duidt tijdscodes aan. Speechmatics focust zich enkel op transcriptie. Mediabestanden en hun transcripties worden daardoor maar voor een week bewaard op het platform. Dat heeft als voordeel dat ze een van de goedkoopste speech-to-text aanbieders zijn.

Voordelen:

zeer accuraat;
verwijdert euhms;
platform focust zich enkel op transcriptie, waardoor je niet voor overbodige bells and whistles moet betalen;
exporteert naar platte tekst (.txt), SRT (voor ondertitels) en JSON.

Nadelen:

hallucineert op termen die het niet kent;
duidt stiltes niet aan;
geen tijdsaanduidingen wanneer je exporteert naar platte tekst of wanneer je de kopieerfunctie gebruikt;
mediabestanden en transcripties worden maar een week bewaard op het webplatform;
het webplatform heeft moeite met het opladen van video.

Speechmatics heeft geen abonnementsformule. Je kan maandelijks gratis 4u opgeladen audio of video laten transcriberen (en ook nog 4u real-time audio en video). Daarnaast betaal je per uur en is de prijs afhankelijk van de gewenste accuraatheid van de getranscribeerde tekst. Je betaalt $0,8/uur voor de standard accuracy en $1,04/uur voor de enhanced accuracy of het meest accurate model.

noScribe

NoScribe is een gratis opensourcetool voor het transcriberen van audio en video. Het is een offline desktopapplicatie die voor transcriptie gebruikt maakt van het Whisper-model (voor meer info over Whisper, zie onder) van OpenAI, het bedrijf dat ook ChatGTP ontwikkeld heeft. NoScribe kan meer dan 99 talen transcriberen, waaronder Nederlands, identificeert sprekers en geeft tijdscodes aan. Het maakt (nog) geen gebruik van het meest recente (en voor het Nederlands meest accurate) model van Whisper, omdat die versie van dat model minder goed scoort op sommige andere talen.

Voordelen:

gratis en opensource;
zeer accuraat, hallucineert minder en blijft consistent bij termen die het niet kent;
beschikt over editorsoftware om transcripties te verbeteren;
kan exporteren naar HTML, platte tekst (.txt) en VTT (voor ondertitels);
kan een dedicated GPU gebruiken om de transcriptie sneller te laten verlopen.

Nadelen:

snelheid van transcriptie is afhankelijk van de eigen computer;
kan hallucineren op stilte, al konden we dat in de praktijk niet vaststellen;
meertalige audio (bv. een interview waarin verschillende talen gesproken worden) is niet ondersteund;
maakt wel eens fouten bij het herkennen van sprekers.

Lees hier de handleiding voor noScribe.

Whisper

Whisper is een model voor spraakherkenning, ontwikkeld door OpenAI, dat voor het eerst als opensourcesoftware uitgebracht werd in 2022. Het kan gebruikt worden om verschillende talen te transcriberen en om verschillende talen te laten vertalen naar Engels. Het is ingebouwd in verschillende spraakherkenningstools, zoals noScribe, maar kan ook gebruikt worden als commandlinetool. Whisper kan honderd talen transcriberen, waaronder Nederlands, en duidt tijdscodes aan. Uit testen op twee datasets blijkt ook dat de laatste versie van Whisper zeer goed scoort op Nederlands.

Voordelen:

opensource en gratis
zeer accuraat; de commandlinetool gebruikt het meest recentste model, wat voor het Nederlands ook het meest accurate model is
exporst zijn mogelijk in platte tekst (.txt), SRT (ondertiteling), VTT (ondertiteling), TSV (een tabulair formaat vergelijkbaar met CSV) en JSON

Nadelen:

snelheid is afhankelijk van de eigen computer, zeker als je geen dedicated GPU hebt (zie noScribe) kan de transcriptie zeer langzaam gaan (maar nog steeds sneller dan als je het zelf zou doen)
duidt geen stiltes aan
Whisper kan hallucineren op stilte, maar het is mogelijk om via de commandline hier aanpassingen aan te doen
meertalige audio is niet ondersteund
geen intuïtieve grafische interface (GUI); enkel te gebruiken via de command line.
geen omgeving waarin je de transcriptie kan verbeteren.

Conclusie

Er zijn, afhankelijk van je noden, verschillende tools die je kan gebruiken voor het geautomatsieerd transcriberen van audio- en videofragmenten. Om eenvoudiger een keuze te maken, kan je onderstaande tabel gebruiken. In de tabel wordt onder meer aangeduid welke mogelijkheden de tools volledig (aangeduid met X) of gedeeltelijk (aangeduid met /) ondersteunen en hun prijscategorie: €0 betekent gratis, € staat voor een prijs minder dan €5/uur, €€ geeft een prijs tussen €5/uur en €15/uur weer en €€€ is een prijs hoger dan €15/uur.

	Amberscript	Audapolis	Limecraft	Sonix	Speechmatics	noScribe	Whisper
Ondersteunt Nederlands	X	X	X	X	X	X	X
Accuraat			X	X	X	X	X
Gebruiksvriendelijk	X	X	X	X	X	X
Snel	X		X	X	X
Mogelijkheid tot verbeteren van transcriptie	X	X	X	X		X
Mogelijkheid tot samenwerken aan transcriptie			X	X
Identificeert sprekers	X	X	X	X	X	X
Detecteert euhms		X		/	X	X	X
Duidt tijdscodes aan	X		X	X	/	X	X
Detecteert pauzes	X	X		X		X	X
Mogelijkheid tot toevoegen eigen woorden	X			X
Exportformaten	.csv, .doc, .json, .rtf, .srt, .stl, .txt, .vtt	.html	.docx, .pdf, .srt, .txt, .vtt	.csv, .doc, .pdf	.json, .srt, .txt	.html, .txt, .vtt	.csv, .json, .srt, .tsv, .txt, .vtt
Open source		X				X	X
Cloudservice	X		X	X	X
Prijs	€€	€0	€€€	€€	€	€0	€0

Auteur: Nastasia Vanderperren (Meemoo, Vlaams instituut voor het archief) en Lode Scheers (Meemoo, Vlaams instituut voor het archief)

Tools for automated transcription of audio and video fragments

Inhoud

Possibilities of speech recognition tools

Points of attention when using the tools