Waarom GPT-NL niet zonder mensen kan: ‘de monsterklus van finetuning’

In dit artikel leggen we meer uit over finetuning, één van de ontwikkelfases waar ruimte is om de representativiteit van het taalmodel op een bepaald niveau te brengen. Over kleinere groepen zijn doorgaans ook minder teksten over geschreven, dus willen we die informatie op een andere manier meegeven aan het model. We hebben daarom een open vragenlijst opgezet om onderwerpen en thema’s te verzamelen die belangrijk zijn voor groepen die in mindere mate gerepresenteerd zijn in Nederland, denk aan subculturen, minderheden, of groepen die zich op andere wijze onderscheiden. Deze survey is open voor iedereen om in te vullen. De survey is geopend tot 26 mei 2025.

datacuratie GPT-NL

Dat de ontwikkeling van GPT-NL écht mensenwerk is, blijkt onder andere uit de finetuning van het taalmodel. Een monsterklus zelfs, zo omschrijven Daan Vos en Berend Mortier, beiden datawetenschappers bij TNO, deze taak. In het stadium van finetuning worden talloze fictieve instructies (of ‘prompts’) verzonnen die gebruikers van GPT-NL straks aan het model kunnen geven. Die instructies zijn er op dit moment nog niet in het Nederlands en moeten daarom handmatig opgeschreven worden, zodat het model daarvan leert.

‘Finetuning is een stap in de ontwikkelfase die plaatsvindt na het pre-trainen van ons taalmodel, eigenlijk nadat alle trainingsdata verwerkt zijn. Wanneer we alle data binnen hebben en starten met trainen, leert het model de structuur van de Nederlandse taal herkennen. Het model kan dan nog geen specifieke taken die een mens zou verwachten en kan helpen. Denk aan het samenvatten of versimpelen van teksten. We gaan daarom vervolgens ‘finetunen’ zodat het model zodat het model deze taken leert uit te voeren. Uiteindelijk willen we het model ook leren om een verantwoord antwoord te geven op een prompt. Als je vraagt ‘hoe maak ik een bom’ wil je als antwoord dat dat niet zo’n goed idee is, in plaats van het geven van de daadwerkelijke stappen’.

15.000 handmatige prompts

Hoe het proces van het maken van de dataset voor finetuning eruit ziet, is dat een annoteerder – zoals dat heet – handmatig een prompt schrijft aan de hand van een stuk tekst. Die prompt kan een bepaalde taak of instructie zijn, zoals: ‘schrijf een e-mail aan de hand van deze tekst’, ‘vat dit artikel samen in een x-aantal woorden’ of ‘schrijf een gedichtje aan de hand van dit stuk tekst’. Het is dus aan de annoteerder zelf om die prompt te verzinnen.’
Dat de finetuning monnikenwerk is, blijkt tevens uit de hoeveelheid instructies die er opgeschreven moeten worden. Berend: ‘Over dat aantal was wel wat discussie. Er zijn wetenschappelijke publicaties die aangeven dat 1.000 kwalitatief sterke instructies al genoeg kunnen zijn voor één specifieke taak, maar we willen GPT-NL zo generiek mogelijk ontwikkelen. We mikken daarom op zo’n 15.000 prompts verdeeld over acht taken, zoals het beantwoorden van open en gesloten vragen of het helpen bij brainstormen.’

Diversiteit

De hoeveelheid aan instructies geven ruimte om variatie en diversiteit in te brengen bij het model. ‘Het is belangrijk dat deze instructies een variatie aan onderwerpen of thema’s omvatten, daar sturen we ook op,’ aldus Daan en Berend. ‘We willen natuurlijk niet dat alle instructies straks over voetbal gaan, om maar wat te noemen.’ De finetuning is ook één van de ontwikkelfases waarin ruimte is om de representativiteit van het taalmodel op een bepaald niveau te brengen. Daan ‘We willen ook instructies schrijven over onderwerpen en thema’s belangrijk zijn voor groepen die in mindere mate gerepresenteerd zijn in Nederland. Je kan denken aan subculturen, minderheden, of groepen die zich op andere wijze onderscheiden. Over kleinere groepen zijn doorgaans ook minder teksten over geschreven, dus willen we die informatie op een andere manier meegeven aan het model.’ Om extra informatie te verkrijgen, is momenteel een survey uitgezet. Deze is open voor iedereen om in te vullen. De survey is geopend tot 26 mei 2025.

Tender

Er wordt ook gelet op de diversiteit van de groep annoteerders. Vanuit GPT-NL is er begin 2025 een tender uitgeschreven, waarop verschillende partijen zijn uitgenodigd. ‘Eigenlijk waren het twee aparte tenders’, vertelt Daan. ‘Eén voor het maken van de instructies en één voor het opvolgen van de instructies. We hebben er op gelet dat diversiteit een belangrijke waarde is voor de annotatiepartij, en dat ze niet uit een homogene groep mensen bestaan. Om een set met hele gevarieerde antwoorden te krijgen, heb je ook gevarieerde annoteerders nodig. Maar hoe maak je meetbaar hoe divers een organisatie is? We zijn op dit moment nog druk bezig dit zorgvuldig te organiseren.’

Het is al met al een spannende periode voor iedereen die bij dit project betrokken is, want deze klus is voor iedereen nieuw. ‘We hebben er zeker vertrouwen in’, besluiten de TNO-specialisten. Welke partijen de annotatieklus uiteindelijk gaan doen, wordt binnenkort duidelijk.


Voorbeeld annotatie-instructie

Hoe zo’n annotatie-instructie eruit kan zien, is hier te vinden. Denk aan voorbeelden als:

  • Geef me een lijst met eigenschappen van een goed café. (brainstorming)
  • Vat samen wat LinkedIn doet. (summarization)
  • Schrijf een korte paragraaf over waarom je beter niet een kat en een vogel als huisdieren kan hebben. (creative writing)