Het is weer half december en dat houdt al jaren in: Het Groot Dictee der Nederlandse Taal. Tot een paar jaar geleden was dat een nationale TV-gebeurtenis in de voormalige Tweede Kamer. Maar om de een of andere reden (paste niet meer in deze tijd) is men er mee gestopt. Jammer, maar zo gaat dat.
Het radioprogramma “de Taalstaat” van o.a. Frits Spits besloot om het dictee weer in ere te herstellen, maar ditmaal voor de radio.
En zo was er zaterdagochtend 15 december weer het Groot Dictee der Nederlandse Taal, als vanouds voorgelezen door Philip Freriks. Het was alweer de 28ste editie en ditmaal geschreven door taalkundige Wim Daniëls. Mensen konden in bibliotheken door heel het land live meeschrijven met dit Dictee. En uiteraard kon je ook voor de lol gewoon thuis meedoen: Radio aan, pen en papier bij de hand en schrijven!
Een paar jaar geleden hadden we met een aantal ASR-specialisten als eens onderzocht of wij met onze spraakherkenner konden meedoen, maar dat liep steeds op een njet uit. Ze vonden het niet sexy, zagen geen toegevoegde waarde en meer van dat soort weinig houtsnijdende argumenten. Een paar saaie wetenschappers in de hoek met een laptop die laten zien dat de mens nog steeds beter is dan de computer; wie vindt dat nu niet leuk om te zien?
KALDI-UTwente-RUNijmegen herkenner hier nu van zou bakken.
Ook dit jaar deden wij weer niet mee (maar we hadden het ook niet gevraagd). Ik hoorde de door Freriks op gedragen toon gedeclameerde zinnen door de radio schallen en was gewoon nieuwsgierig naar wat deOp de website van de NPO1 was de gehele uitzending, inclusief het meermalen voorlezen van de zinnen door Philip Freriks terug te vinden, maar een download met alleen de zinnen in optimale audio-kwaliteit was er niet.
Gelukkig werd het eerste uur afgesloten met het nog eenmaal voorlezen van alle zinnen. Die konden we makkelijk opnemen en in 8 zinnen knippen. Die 8 zinnen hebben we door de herkenner gehaald en het resultaat viel zeker niet tegen.
Van spraak naar zinnen
Maar voor we de resultaten echt gaan vergelijken, iets over spraakherkenning. Wat erg lastig is voor de huidige spraakherkenners, is het opschrijven van de herkende spraak in zinnen. Mensen spreken nu eenmaal niet in zinnen en een spraakherkenner doet domweg niets anders dan de binnenkomende audio omzetten in een geschreven representatie. Voor veel doeleinde is dat uitstekend, maar om er grammaticaal correcte Nederlandse zinnen van te maken, is meer nodig. Zie voor meer info hierover de blog Spreek2Schrijf.
Een trucje dat we gebruiken, is om een nieuwe “zin” te maken wanneer de pauze tussen twee opeenvolgende woorden 400 msec of meer is. De ietwat gedragen wijze van voordragen door Philip Freriks echter, leidt er dan toe dat we meer zinnen krijgen dan er hadden moeten zijn.
Een ander probleem is het gebruik van hoofdletters. Onze spraakherkenner doet alles in kleine letters. De postprocessing (begin van een nieuwe zin altijd met een hoofdletter) zorgt al voor een kleine verbetering. Maar om het een stuk beter te krijgen, zouden we veel meer aan de postprocessing moeten doen. Een zin als “Premier Wim Kok is een goede kok” wordt door de herkenner als “Premier wim kok is een goede kok” geschreven.
Woordenlijst
Tenslotte is er de woordenlijst. De herkenner kan 256K woorden herkennen. Dat is best veel maar slechts 20% van de bestaande Nederlandse woorden. Er zijn dus heel veel, vaak minder frequent gebruikte, woorden die wij gewoon niet kunnen herkennen omdat ze nu eenmaal niet in het woordenlijstje staan. Ook samengestelde woorden zijn een probleem. Een woord als coderoodwaarschuwingen staat nu eenmaal niet in onze woordenlijst. Wel staan er de woorden code, rood en waarschuwing in. De herkenning gaat hier dan ook perfect, maar het resultaat is natuurlijk wel "fout".
Het voordeel van zo'n woordenlijst is dat er in principe alleen maar correct gespelde woorden in staan. Hierdoor zal de herkenner een spelfout die mensen typisch maken nooit maken; de herkenner zal bijvoorbeeld nooit "minuscule" als "miniscule" schrijven, of "debacle" als "debakel". Dus als het juiste woord herkend wordt, dan bevat het geen spelfouten.
En niet-Nederlandse woorden? Een staande, Friese uiting als ‘It giet oan’, is eigenlijk kansloos als ie er niet als één uiting in staat. Dat staat ie niet en dus wordt deze uiting herkend als “in teheran”.
Tenslotte zijn er de uitspraakfouten waar wij mensen geen probleem mee hebben omdat we begrijpen wat er bedoeld wordt en dus de herkende tekst in die context horen. Voorbeeld in dit dictee is de uiting van Freriks “elfstedentocht in hera willen houden". Natuurlijk wordt hier bedoeld “Elfstedentocht in ere willen houden”, maar ook na 10x afluisteren blijf je horen dat er (h)era wordt gezegd: en dat herkent de ASR-engine dan ook.
Dit klinkt allemaal als een groot excuus om te verdoezelen dat de herkenner het gewoon niet goed doet en dat we eerst moeten interpreteren, voor dat de herkenner op dit niveau kan meedraaien. Maar de herkenner heeft ook zo z’n sterke punten: hij kan eigenlijk geen schrijffouten maken. Als ie een woord als skûtsjesilen herkent, dan “schrijft” ie het ook 100% goed.
Lastiger is het bij twijfelachtige uitingen waar begrip om de hoek komt kijken. In de tweede zin zegt Freriks “Zo’n temperatuur” maar bij heel goed luisteren, lijkt de /o/ van zo’n wel erg dicht bij de /O/ van zon te liggen; en dat is ook wat er herkend wordt. Een mens zou deze fout niet maken, omdat het resultaat gewoon onzin oplevert, maar een spraakherkenner heeft (nog) geen benul van zin en onzin en dus worden die woorden herkend die qua akoestiek EN taalmodel het best passen.
Resultaten
Maar hoe goed deed de herkenner het nu? Hieronder de 8 zinnen met onder iedere correct geschreven zin, de resultaten van de spraakherkenner. We hebben iedere zin zoals beschreven op de website van het programma en voorgelezen door Philip Freriks als een apart bestand door de herkenner gehaald.
{tab=Zin 1}
Een klimaatmaat
Zin 1
2018 is nog niet ten einde, maar gaat, wat er tot eind december ook gebeurt, sowieso diverse weerrecords breken.
{tab=Zin 2}
Er was deze zomer een hittegolf die lokaal naar verluidt 29 dagen aanhield, een on-Nederlandse toestand, en in juni werd ’s nachts op de Veluwse vliegbasis Deelen, vlak bij Arnhem, een nachtrecord gemeten van 24,4 graden Celsius; zo’n temperatuur houdt je wakker, was de veelgehoorde klacht.
{tab=Zin 3}
Uit de meteorologische trukendoos kwamen in juli tezamen circa 314 zonuren tevoorschijn, waartegenover een schamele 10 millimeter neerslag stond; de minuscule aardappels van dit jaar zijn er de wrange souvenirtjes van.
{tab=Zin 4}
Sommigen ervaren de toegenomen warmte als een cadeautje, en gaan ervan uit dat er te zijner tijd met Kerstmis al krokussen en lente-uitjes zullen zijn en dat carnaval enigszins subtropisch wordt.
{tab=Zin 5}
Anderen voorzien een flinke toename van het aantal coderoodwaarschuwingen, waarvan de betekenis meestal is: hoed u voor het weer; ze vrezen voor een klimaatdebacle, een sterk vergrote kans op catastrofes, met bijvoorbeeld tekortschietende dijken als het langdurig gehoosd heeft.
{tab=Zin 6}
Een ongeruste weerhobbyist heeft onlangs op een A4’tje voor me uitgetekend, en ik geloof niet dat het nattevingerwerk was, wat er van de polen over zal blijven als de opwarming van de aarde doorgaat; en met die polen bedoelde hij niet de Polen die velen van ons kennen van hun schilder- en stukadoorwerk.
{tab=Zin 7}
Iets van het Middellandse Zeeklimaat mag wat mij betreft gerust hiernaartoe komen, maar ik hoop toch ook nog weleens ‘It giet oan’ vanuit Friesland te mogen horen, waar ze naast het skûtsjesilen en het fierljeppen graag ook de Elfstedentocht in ere willen houden.
{tab=Zin 8}
We lijken nochtans alleen nog ooit en masse naar Leeuwarden te kunnen afreizen voor het alom geprezen natuurijsfestijn als we beseffen dat het klimaat, in dit specifieke geval Koning Winter, ons alleen ter wille kan zijn als wij van onze kant het klimaat tegemoetkomen door een goede maat van het klimaat te worden, een klimaatmaat.