Wanneer we met elkaar in gesprek zijn (en elkaar kunnen zien) doen we onbewust aan liplezen, en dit helpt bij het verstaan. Maar hoe zit dit bij computerspraak? Helpt het als een spraaksynthesizer via "visemen" een animatie van een gezicht laat zien?
Op de vijfde editie van het DRONGO talenfestival hebben we bezoekers gevraagd om deel te nemen aan een onderzoekje: het geluid stond uit, en de deelnemers moesten op basis van de animatie telkens raden welk van 4 woorden er werd uitgesproken. Het idee was: wie boven kansniveau scoort kan liplezen.
Elke deelnemer kreeg eerst een item om te oefenen met de applicatie. Daarna werden 10 items gepresenteerd die meetelden voor de score. Telkens werden 4 woorden willekeurig gekozen uit een lijst van ruim 3000 woorden van 1 of 2 lettergrepen. Het toeval bepaalde ook welk van de 4 woorden er werd uitgesproken (met het geluid uit!). Als je een keuze had gemaakt, kreeg je te horen of dat goed of fout was.
Het volledige artikel met de uitslagen per dag, is te lezen op de website van Fluency.