Gepersonaliseerde taalmodellen als de volgende revolutionaire stap

AI-hoogleraar Antal van den Bosch over hoe 18 maanden GPT-NL veranderingen in de computationele taalkunde weerspiegelen

LLM_Large Language Models

Toen GPT-NL in 2023 van start ging, zochten de initiatiefnemers steun bij vooraanstaande onderzoekers op het gebied van AI en taaltechnologie. Een van de eersten die het project onderschreef, was prof. dr. Antal van den Bosch, hoogleraar Taal, Communicatie en Computatie aan de Universiteit Utrecht. Met tientallen jaren ervaring in de computationele taalkunde heeft Van den Bosch verschillende paradigmaverschuivingen meegemaakt, maar zelden waren ze zo snel en gelaagd als de huidige golf van taalmodellen. Nu, anderhalf jaar later na de start van GPT-NL, spraken we met Antal over de veranderingen die hij ziet.

De evolutie van redeneervermogen

“De beste manier om die veranderingen te illustreren,” legt Antal uit, “is via het vak Transformers dat ik geef in de master Applied Data Science. Ik heb het inmiddels twee keer gegeven en het viel me op hoeveel van het lesmateriaal we moesten aanpassen tussen de eerste en tweede editie." Hoewel de basisprincipes behouden bleven, verschoof de focus aanzienlijk, met name rond het redeneervermogen van de taalmodellen. “We moesten in slechts 10 weken enorm veel aanpassen”, merkte hij op. “Het model is niet langer slechts een voorspeller van het volgende woord, het is uitgegroeid tot een veel gelaagder systeem.”
Wat Van den Bosch vooral fascineert is niet alleen de snelheid van innovatie, maar ook hoe het vakgebied oude ideeën in een nieuw jasje herontdekt. “Als ik één ding moet noemen dat me echt enthousiasmeert,” zegt hij, “dan is het dat de kern nog steeds een volgende-woord-voorspeller is. Het is geen redeneermachine in de klassieke AI-betekenis, zoals de agentgebaseerde systemen die we ooit bouwden. Toch kennen mensen nu redeneerachtig gedrag toe aan deze volgende-woordvoorspeller.

“GPT-NL kan het verschil maken door de Nederlandse taal echt te begrijpen”

Hoewel Van den Bosch geen dagelijkse gebruiker is van taalmodellen voor algemene vragen, maakt hij wel gebruik van tools als ChatGPT en Gemini voor programmeerhulp. “Voor programmeertaken zijn ze ongelooflijk handig,” zegt hij. “Ook voor tekstuele taken kies ik meestal voor de toonaangevende modellen. De kleinere of nieuwere modellen moeten nog een inhaalslag maken.”
In zijn onderzoek ziet hij daarentegen veel potentie voor toepassingen die juist op de Nederlandse taal gericht zijn, zoals GPT-NL. Een voorbeeld is een leesbaarheidsmodel voor het Nederlands waar zijn team aan werkt. “Het doel is om Nederlandse teksten te analyseren en lastige gedeeltes aan te wijzen: niet om de hele tekst te herschrijven, maar alleen de moeilijke stukken te verbeteren,” legt hij uit. “Daar heb je een model voor nodig dat Nederlands écht begrijpt, in plaats van een model dat vooral uit het Engels heeft geleerd en Engelse uitgangspunten ventileert in alle andere talen die het genereert. GPT-NL, met zijn Nederlandstalige trainingsdata, zou daar echt het verschil kunnen maken.”
Gevraagd naar waar GPT-NL met name van waarde kan zijn, wijst Van den Bosch op taken zoals natural language inference (NLI), ontleden en samenvatten. “Encoders zoals BERT [red. een van de bekendste encoders op het gebied van AI] presteren goed op die taken, maar er is nog een gat bij specifiek Nederlandse toepassingen. Vooral in domeinen als historisch documentonderzoek, waar een nauwkeurige en contextgevoelige interpretatie van het Nederlands cruciaal is.

"Trainingsdata: een tweesnijdend zwaard

Goede modellen vereisen goede data en Van den Bosch benadrukt dan ook de afwegingen die bij datakeuze komen kijken. Hij herinnert zich een periode waarin hij modellen trainde op data van het Europees Parlement , wat ertoe leidde dat elk gegenereerd tekstfragment begon met “Mr. President”. Omdat alle sprekers in het Europees Parlement beginnen met "Meneer de Voorzitter" kopieerde het model dit als een standaard. “Een perfect voorbeeld van hoe trainingsdata het gedrag van een model vormen,” zegt hij.
Het samenstellen van een evenwichtige contentverzameling is allesbehalve eenvoudig, legt hij uit. “Het is lastig om grote hoeveelheden Nederlandstalige poëzie of literaire teksten te vinden. De meeste gegevens die gebruikt worden om huidige grote taalmodellen te trainen komen van het internet en zijn vaak informeel en bevooroordeeld. Als je niet oppast, neemt je model die vooroordelen over.”

De toekomst: persoonlijke modellen als volgende doorbraak

Vooruitkijkend ziet Van den Bosch gepersonaliseerde taalmodellen als de volgende grote doorbraak. “Stel je een situatie voor waarin jouw eigen documenten, e-mails en notities gebruikt worden om een model te trainen dat lokaal draait, speciaal voor jou,” mijmert hij. “Apple heeft al gehint op dit soort infrastructuur. Technisch is het een enorme uitdaging, maar als we daar komen, dan is het echt revolutionair.”
Om dat te bereiken, is niet alleen gemak van belang, maar ook soeverein eigenaarschap, en vertrouwen in de beveiliging van de persoonlijke content. “Iedereen zou zijn of haar eigen model hebben, afgestemd op de eigen taal, context en behoeften. En op een dag zullen we terugkijken en denken: Weet je nog, toen we allemaal hetzelfde model gebruikten?”