atrainEind maart schreef ik samen met een groep ASR-collega’s aan de update van ons artikel voor de LREC-COLING workshop over "Holocaust Testimonies as Language Resources". Het was opgestuurd en nu moesten we de opmerkingen van een aantal reviewers verwerken.

Het stuk gaat over de komst van Whisper en een rij gerelateerde componenten, waarmee je steeds beter, rijker en sneller de spraakherkenning kunt doen. Nu was Whisper een jaar geleden al een mirakel, maar zeker sinds het volwassen worden van de gerelateerde componenten, wordt dit alleen maar beter.

Een van de reviewers merkte op dat hij bij mijn opsomming van standalone software, een nieuw programma uit Oostenrijk miste: aTrain. Direct gekeken wat het was en het is gewoon via de Microsoft-winkel gratis te downloaden.

Gedaan, geïnstalleerd en gedraaid! En ja hoor: opnieuw een feestje om het te gebruiken. Voor Apple is er al een tijdje MacWhisper: een standalone pakket waarmee je op een moderne Apple gewoon Whisper kunt draaien. Voor Windows kon je SubtitleEdit gebruiken, maar dat is eigenlijk veel meer dan een “simpele” spraakherkenner.

En nu is er dan aTrain: een met MacWhisper vergelijkbaar software pakket dat op Windows en Linux draait.

Het verschil met MacWhisper is echter dat aTrain veel beter de moderne varianten/add-ons van Whisper gebruikt. MacWhisper is een CPP-implementatie van Whisper zoals OpenAI die 1.5 jaar geleden leverde. Maar aTrain is nieuwer en kan bv diarizatie doen, en is veel sneller dan de originele Whisper.

Na downloaden van aTrain vraagt de software of je het wilt installeren. Kies ja en wacht een 10 min. Daarna heb je de moderne spraakherkenner beschikbaar.

aTrain1

Fig. 1: beginscherm  van aTrain (V1.1.0)

Beschrijving

aTrain is een zelf-installerende en ingekapselde tool voor het automatisch transcriberen van spraakopnames met behulp van state-of-the-art machine learning modellen. Je download de modellen eenmaal en kunt ze vervolgens gewoon steeds gebruiken.

Voordeel van de software is dat het gewoon op je eigen PC/Laptop draait en dat geen verbinding met Internet nodig is. Vooral voor hen die vertrouwelijk data hebben , is dat een groot voordeel omdat je hiermee zo goed mogelijk de vertrouwelijkheid van de data kunt garanderen.
aTrain is ontwikkeld door onderzoekers van het Business Analytics and Data Science-Center van de Universiteit van Gräz en getest door onderzoekers van het Know-Center Graz.

Meer staat in het originele paper:
 Haberl, A., Fleiß, J., Kowald, D., & Thalmann, S. (2024). Take the aTrain. Introducing an interface for the Accessible Transcription of Interviews. Journal of Behavioral and Experimental Finance, 41, 100891. 

Wat wordt geboden?

aTrain biedt de volgende voordelen:

  • Snel en nauwkeurig
    aTrain biedt een gebruiksvriendelijke toegang tot de snellere Whisper implementatie van OpenAI’s Whisper model, wat zorgt voor de beste transcriptiekwaliteit in combinatie met hogere snelheden op je lokale computer. Transcriptie met het hoogste kwaliteitsmodel (large, V2 of V3) duurt slechts drie keer zo lang als de audiolengte van de opnamen.
  • Sprekerdetectie
    aTrain heeft een sprekerdetectiemodus en kan van elk segment bepalen bij welke spreker het hoort.
  • Bescherming van privacy en GDPR
    het verwerkt de geleverde spraakopnames volledig offline op je eigen apparaat en verstuurt geen opnames of transcripties naar het internet. Dit helpt onderzoekers om de privacy-eisen voor gegevens te handhaven die voortvloeien uit ethische richtlijnen en om te voldoen aan wettelijke vereisten zoals de GDPR.
  • NVIDIA GPU ondersteuning
    aTrain kan zowel op de CPU als op een NVIDIA GPU draaien (CUDA toolkit installatie vereist). Een NVIDIA GPU met CUDA verbetert de snelheid van transcripties en de sprekerherkenning aanzienlijk, waardoor de transcriptietijd wordt teruggebracht tot 20% van de audiolengte.
  • Ondersteuning voor meerdere talen
    aTrain kan, net als natuurlijk Whisper, spraakopnames verwerken in de volgende talen: Afrikaans, Arabisch, Armeens, Azerbeidzjaans, Wit-Russisch, Bosnisch, Bulgaars, Catalaans, Chinees, Kroatisch, Tsjechisch, Deens, Nederlands, Engels, Ests, Fins, Frans, Galicisch, Duits, Grieks, Hebreeuws, Hindi, Hongaars, IJslands, Indonesisch, Italiaans, Japans, Kannada, Kazachs, Koreaans, Lets, Litouws, Macedonisch, Maleis, Marathi, Maori, Nepalees, Noors, Perzisch, Pools, Portugees, Roemeens, Russisch, Servisch, Slowaaks, Sloveens, Spaans, Swahili, Zweeds, Tagalog, Tamil, Thai, Turks, Oekraïens, Urdu, Vietnamees en Welsh.
  • Uitvoer compatibel met MAXQDA en ATLAS.ti
    het levert transcriptiebestanden die naadloos geïmporteerd kunnen worden in de populairste tools voor kwalitatieve analyse: ATLAS.ti en MAXQDA. Hierdoor kun je direct audio afspelen voor het corresponderende tekstsegment door op de tijdstempel te klikken.

aTrain2

Running aTrain

Om aTrain te draaien, kies je een AV-file (video of audio), selecteert het te gebruiken model, kiest de gesproken taal en geeft eventueel aan of je sprekers wilt herkennen en zo ja hoeveel verschillende sprekers er dan zijn. Dan klik je start en wacht even. Op mijn PC (i9, Nvidia card) duurt dat iets minder dan een vijfde van de opname duur.

De resultaten worden vervolgens opgeslagen in een speciale directory.

 

 

In die directory staan de volgende files:

metadata.txt

de metadata van de herkenning (taal, model, audio-duur, etc.

transcription.json

een volledig resultaat van de herkenning

transcription.srt

de standaard subtitels

transcription.txt

de herkende tekst met de spreker

transcription_timespans.txt

de herkende tekst met sprekers maar dan ook voorzien van de begintijd van elk fragment

transcription_maxqda.txt

de versie die in MaxQDA ingelezen kan worden.

Conclusie

Zoals het er nu uitziet, werkt aTrain uitstekend en kan het door iedereen op z’n eigen (moderne) Windows machine gebruikt worden. Zeker de toevoeging van diarizatie (spreker detectie) maakt het voorlopig een betere keuze dan MacWhisper.

Download

MicrosoftaTrain kan gedownload worden (>10GB) in de Microsoft store: https://apps.microsoft.com/detail/9n15q44szns2