Op donderdag 16 maart 2023 was er weer een erg boeiende NOTaS bijeenkomst over Taaltechnologie: Big Models.
De hoofdredacteur van de laatste Dixit, Suzan Verberne, hield in Nijmegen een boeiende lezing over Big Models. Deze modellen zijn de laatste jaren enorm populair in de wereld van de taal en spraaktech en zorgen voor soms verbijsterend spectaculaire resultaten. Denk hierbij aan Whisper (OpenAI), de open source spraakherkenner die in sept 2022 gelanceerd werd en getrained is met ong 680.000 uur spraak (!) en aan het in december 2022 gelanceerde ChatGPT (OpenAI) dat nu al de wereld als het ware heeft vervoverd.
Doordat deze software doet wat het beloofd (en vaak nog meer) laat ze de wereld zien dat AI wel degelijk een enorm toegevoegde waarde heeft. Mits goed gebruikt, kan het de mensheid op allerlei manieren helpen het dagelijks werk makkelijker, beter en sneller te doen.
Ook biedt het nieuwe mogelijkheden die tot nu eigenlijk niet bestonden. Denk daarbij aan het genereren van een "interessante blog" over ASR door ChatGPT (zie hieronder).
In haar enthousiaste betoog maakte Suzan ons duidelijk hoe die modellen ongeveer werken, waarom ze het zo goed doen en ook hoe je er eventueel zelf nog iets aan kunt verbeteren. Veel leesplezier!
Over Suzan
Grote modellen': het succes en de valkuilen van Transformer-modellen in natuurlijke taalverwerking
Naar aanleidng van de laatste DIXIT 2022 is er een lunchlezing door gast-hoofdredacteur Suzan Verberne over "Big Models in de TST-wereld".
Hoewel de Transformermodellen al sinds een jaar of vijf hun intrede hebben gemaakt, zijn ze voor het grote publiek pas bekend geworden door de indrukwekkende tekstgeneratie van bijvoorbeeld GPT-3 en ChatGPT. Zoals je in de laatste DIXIT kunt lezen, lijken de toepassingen van deze modellen in de TST eindeloos en presteren ze vaak ver boven traditionele, ouderwetse modellen.
Ze zijn ook makkelijk te gebruiken voor leken en zijn daarom een belangrijke factor in het gebruiksvriendelijk maken van TST.
Abstract
Grote taalmodellen krijgen tegenwoordig veel aandacht in de media. We hebben allemaal ervaren dat generatieve taalmodellen van de GPT-familie zeer vloeiend zijn en op overtuigende wijze complexe vragen kunnen beantwoorden. Maar ze hebben ook hun beperkingen en valkuilen. In deze presentatie zal ik op Transformer gebaseerde taalmodellen introduceren, de relatie uitleggen tussen BERT, GPT en de 130 duizend andere modellen die beschikbaar zijn op https://huggingface.co.
Ik zal hun gebruik en toepassingen bespreken en waarom ze zo krachtig zijn. Vervolgens zal ik wijzen op de uitdagingen en valkuilen van grote taalmodellen en de gevolgen voor ons dagelijks werk en onderwijs.
Biografie
Suzan Verberne is universitair hoofddocent aan het Leiden Institute of Advanced Computer Science. Ze promoveerde in 2010 op het onderwerp Question Answering aan de Radboud Universiteit en werkt sindsdien op het snijvlak tussen Natural Language Processing (NLP) en Information Retrieval (IR). Ze heeft projecten begeleid in een groot aantal toepassingsdomeinen: van sociale media tot recht en van archeologie tot gezondheid. Haar onderzoek is erop gericht NLP "voorbij de benchmark" te brengen door uitdagende problemen in specifieke domeinen aan te pakken. Ze is zeer actief in de NLP- en IR-gemeenschappen en bekleedt voorzittersfuncties in de grote wereldwijde conferenties.
Presentatie
De Power Point van de lezing van Suzan is hier te zien.
ASR volgens ChatGPT
ASR volgens ChatGPT
Hier de reactie van ChatGPT op de vraag: "Geef een overzicht van de manier waarop moderne automatische spraakherkenning werkt"
Moderne automatische spraakherkenning (ASR) is gebaseerd op geavanceerde machine learning-technieken zoals deep learning. Het proces van ASR kan worden opgesplitst in verschillende fasen:
Moderne ASR-systemen zijn zeer nauwkeurig en kunnen worden gebruikt voor verschillende toepassingen, zoals automatische transcriptie van vergaderingen en interviews, spraakgestuurde assistenten en zelfs spraakgestuurde auto's. |
Een van de dingen die hierin opvalt is dat er een correcte beschrijving gegeven wordt van de oude manier van herkenning. ChatGPT stopt met haar kennis in 2021 en bv Whisper (van de zelfde club) kwam pas een jaar later uit. Whisper is een mooi voorbeeld van end-to-end herkenning en werkt eigenlijk niet meer met de hierboven gegeven beschrijving. Wellicht dat de laatste versie van ChatGPT met model GPT 4 de volgende keer een betere omschrijving geeft.
Hoe dan ook: het is een mooi voorbeeld om te laten zien hoe makkelijk een goede beschrijving van iets als bv spraakherkenning te geven is door de computer.