's Werelds grootste open meertalig taal-model ontwikkeld: Bloom

19 juli 2022 09:50 | Alfred Monterie | van Computable

De Toren van Babel van Pieter Bruegel de Oude

BigScience, een brede coalitie van artificial intelligence (ai)-onderzoekers, heeft ‘s werelds grootste open meertalige taal-model ontwikkeld. Met 176 miljard parameters kan het Bloom-model coherente teksten genereren in 46 natuurlijke talen en dertien programmeertalen. Die zinnetjes zijn nauwelijks te onderscheiden van wat mensen produceren

Anders dan de meeste taalmodellen richt Bloom zich niet op het Engels of Chinees. Het werkt ook vanuit het Arabisch, Spaans, Frans en Nederlands. Aan het model dat met geld van de Franse regering tot stand is gekomen, hebben meer dan duizend onderzoekers uit zeventig landen gewerkt. Nooit eerder waren zoveel ai-experts bij één enkel onderzoeksproject betrokken.

Behalve CNRS (het Franse TNO), Nvidia, Microsoft en supercomputer-exploitant Genci zijn ruim tweehonderdvijftig universiteiten, startups en ondernemingen van de partij. Het reusachtige model is elf weken lang getraind op de Jean Zay-supercomputer in een rekencentrum bij Parijs.

Onderzoekers kunnen vrijelijk toegang krijgen tot het model dat op een hub van het ai-bedrijf Hugging Face staat. Ze mogen op Bloom de prestaties en het gedrag van hun eigen taalmodellen onderzoeken. Iedereen die akkoord gaat met de voorwaarden van de ‘responsible ai license’ kan het model gebruiken. Op een lokale machine of via een cloudaanbieder is hierop voort te borduren.

Large language models

"De meeste instellingen hebben eenvoudigweg de middelen niet "

Grote taalmodellen (LLM's: large language models) hebben een aanzienlijke impact gehad op ai-onderzoek. Deze krachtige, algemene modellen kunnen een breed scala aan nieuwe taaltaken op zich nemen vanuit de instructies van een gebruiker.

De academische wereld, non-profitorganisaties en onderzoekslaboratoria van kleinere bedrijven vinden het echter moeilijk om LLM's te creëren, te bestuderen of zelfs te gebruiken. Dit komt omdat slechts een handjevol industriële laboratoria hier volledige toegang toe hebben. De meeste instellingen en ook starters missen eenvoudigweg de middelen of beschikken niet over de (vaak exclusieve) rechten.

Bloom, de eerste meertalige LLM dat is getraind in volledige transparantie, gaat deze status-quo veranderen. Het model lijkt qua structuur erg op GPT-3 (generative pre trained transformer 3), het systeem voor het genereren van hele stukken tekst waarmee OpenAI uit San Francisco twee jaar geleden de wereld verbaasde. Ook qua capaciteit, uitgedrukt in het aantal parameters, evenaren beide systemen elkaar.

Opensource

Op het gebruik en de broncode van GPT-3 heeft Microsoft een exclusieve licentie. Daarentegen is Bloom opensource. Het team achter Bloom biedt een ruime blik onder de motorkap zodat duidelijk wordt hoe alles werkt. Omdat gebruikers zich moeten houden aan de voorwaarden van de responsible ai-licentie, kan misinformatie worden voorkomen.

Bloom geeft ook de tussentijdse checkpoints en de optimalisatie-statussen van de training vrij. Beschikbaar is een inferentie-api voor grootschalig gebruik. Het project staat nog maar aan het begin, aldus een blog op HuggingFace, de startup die een ecosysteem rond Bloom heeft gebouwd. Het model wordt verder verbeterd. Een meer bruikbare versie met hetzelfde prestatieniveau ligt in het verschiet. Op den duur moet een hele familie van modellen ontstaan. Bovendien komen er nog meer talen bij.