Met veel plezier kondigd OpenAI de nieuwste versie van Whisper aan, genaamd large-v3. Whisper-v3 heeft dezelfde architectuur als de vorige large-modellen, met uitzondering van de volgende kleine verschillen:
- De input gebruikt 128 Mel frequentie bins in plaats van 80 Mel frequentie
- Een nieuw taalteken voor Kantonees
Het large-v3 model is getraind op 1 miljoen uur zwak gelabelde audio en 4 miljoen uur pseudolabelde audio verzameld met large-v2. Het model is gedurende 2,0 epochs getraind op deze gemengde dataset.
Het large-v3 model laat verbeterde prestaties zien over een grote verscheidenheid aan talen, en de plot hieronder bevat alle talen waar Whisper large-v3 lager dan 60% foutpercentage presteert op Common Voice 15 en Fleurs, met 10% tot 20% minder fouten vergeleken met large-v2:
Uitsplitsing naar Taal
Talen die zijn geëvalueerd met behulp van tekenfoutenpercentages (CER's) in plaats van woordfoutenpercentages (WER's) zijn cursief weergegeven.
We gebruikten ook tekenfoutenpercentages voor Koreaans, naast de vijf talen waarvoor we CER's gebruikten in het artikel (Chinees, Japans, Thai, Laotiaans en Myanmar). Hoewel het Koreaans spaties gebruikt om woorden van elkaar te scheiden, zijn er veel gevallen waarin het acceptabel is om spaties tussen woorden weg te laten, en het viel ons op dat de labels in zowel Common Voice 15 als Fleurs veel inconsistente of onjuiste spaties bevatten.
Het artikel is een samenvatting/vertaling van het origineel dat hier te zien is: https://github.com/openai/whisper/discussions/1762
De functie
Ben je geïnteresseerd in taaltechnologie, AI en spraakverwerking? Fascineert meer leren over het diagnosticeren van leesproblemen door middel van spraak je? En werk je graag in multidisciplinaire en internationale teams? Kom bij ons werken als promovendus op de Faculteit der Letteren / Faculty of Arts Radboud University!
Belangrijkste verantwoordelijkheden:
- 4/5 jaar
- Fulltime: min € 2770 - max € 3539 bruto per maand
- Solliciteer vóór 29 oktober 2023 (aanvragen worden onmiddellijk na ontvangst verwerkt.)
In het door NWO gefinancierde onderzoeksproject "Responsible AI for Voice Diagnostics" (https://lnkd.in/dj6SJB3M) onder leiding van dr. Cristian Tejedor-García maak je deel uit van een nieuwe en proactieve groep van zes promovendi en een aantal andere onderzoekers en hoogleraren van het Centre for Language Studies van de Radboud Universiteit. Het project maakt gebruik van Radboud AI, het campusoverkoepelende, interdisciplinaire AI-initiatief van Radboud, dat de faculteiten Arts, Science and Social Sciences en het Radboudumc met elkaar verbindt. Het project heeft koppelingen met het Radboud Healthy Data programma, het Nationaal AI Onderwijs Lab (NOLAI ), de AI-Hub Oost-Nederland via SME Datalab-Oost, relevante gezondheidsgerelateerde Innovation Centres for Artificial Intelligence (ICAI) labs en het European Laboratory for Learning and Intelligent Systems (ELLIS).