Waar staan we met GPT-NL? Product Owner Saskia Lensink maakt de balans op.


Nu het najaar inmiddels volop z’n intrede heeft gedaan, is het tijd om de balans op te maken. Waar staat GPT-NL nu? Wat zijn belangrijke mijlpalen geweest en wat bleek een grote uitdaging? Een aantal vragen aan Saskia Lensink, als product owner één van de kartrekkers van GPT-NL. Saskia is een bevlogen en gemotiveerde data scientist bij TNO, die ook eerlijk toegeeft dat de complexiteit van het project iets is wat ze niet volledig had voorzien.

Saskia, eerst nog even terug naar het hoe en waarom. En dan vooral: waarom zijn TNO, SURF en het NFI gestart met de ontwikkeling van GPT-NL?
‘De ontwikkeling van dit Nederlandse taalmodel is in de basis ontstaan vanuit een ongemak in Nederland en Europa rondom een gebrek aan digitale onafhankelijkheid en soevereiniteit. Oftewel: we zijn te afhankelijk van niet-Europese krachten als het gaat om bijvoorbeeld onze energievoorziening, data of cloud computing. Ook is er weerstand over de manier waarop grote techreuzen de dingen aanpakken. Dus zo spoedig mogelijk innoveren en gaandeweg maar ontdekken welke wettelijke en ethische kaders er zijn. Die kaders zijn in de VS toch anders dan bij ons, en in China al helemaal. Dan speelt er ook nog een onderliggend gevoel: we willen als Europa mee kunnen doen op het wereldtoneel, of in ieder geval niet nog verder achterop raken. We willen zelf generatieve AI kunnen ontwikkelen die past bij onze normen, waarden en behoeften. En als het even kan ook de infrastructuur ontwikkelen die daarbij hoort. Dit gezegd hebbende, loop je natuurlijk wel meteen al tegen grote uitdagingen.’

Noem eens zo’n grote uitdaging?
‘De grootste is misschien wel de wet- en regelgeving. Daarvan weten we nog niet zo goed hoe dat rijmt met de ontwikkeling van generatieve AI, bijvoorbeeld rondom copyrights of privacy. Zo hebben we te maken met de Europese AI Act, een wet die nog heel nieuw is. Terwijl die AI Act in de maak was, kwam generatieve AI net opzetten. Dan is het zaak om iets wat razendsnel gaat, wettelijk in te kaderen. Je raadt het al: de grote vraag is hoe je dat doet. Er is nog geen jurisprudentie. Als iets onduidelijk is, nemen we in Nederland vaak de voorzichtige afslag en doen we het nog niet, vooral als het over privacy gaat. Een goede zaak, zou je kunnen betogen. Het maakt tegelijkertijd wel dat innovatie daardoor langzaam kan gaan.’

Voordat we naar het positieve toekomstbeeld gaan, zijn er nog andere zaken waar je mee worstelt?
‘Synthetische data is ook een goed voorbeeld. Gelukkig zijn er bestaande datasets die voldoen aan onze normen en die we rechtmatig kunnen verkrijgen. Maar je kan ook bestaande data gebruiken om nieuwe data te ontwikkelen, oftewel synthetiseren. Dat klinkt goed, maar is best ingewikkeld. Je kan dat synthetiseren op verschillende manieren doen. Je kan bijvoorbeeld machinevertalingen inzetten, maar ook gebruikmaken van bestaande LLMs om nieuwe data mee te maken. Dan staan we voor de keuze: laten we een deel van ons productieproces uitvoeren door een ‘niet zo schoon product’, ofwel een AI-model waar we vraagtekens bij hebben. En zo ja, waar trek je dan de grens? Het is een voorbeeld van hoe we tegen de complexiteit van de realiteit aanlopen. Verder zijn we met 70 partijen in gesprek over hun data, maar ze hebben vaak tegenstrijdige belangen. Ook dat is uitdagend.’

tno_saskia_lensink_edv2881_500x500

‘Het kan goed zijn te leren rijden in een Fiat in plaats van in een Ferrari’

Wat heeft je in dit hele proces het meest verrast?
‘Vooral de zoektocht naar de balans tussen ethiek, techniek en einddoel. Kijk, je kan er voor kiezen dingen zo netjes mogelijk te doen. Dat kan dan betekenen dat je een zo schoon mogelijk model maakt. Maar als een model vervolgens niet bruikbaar zou zijn in de praktijk, dan is dat ook onethisch. Alle middelen die dan gebruikt zijn, alle CO2-uitstoot… Dat wil ik ook naar mezelf kunnen verantwoorden. Het heeft me ook verrast hoe complex het kan zijn iets te bouwen waar bij wijze van spreken heel Nederland iets aan heeft. Dat is echt iets anders dan een theoretisch, academisch product.’

Wat heb je geleerd van deze realiteit?
‘Dat heldere communicatie cruciaal is. Iedereen wil betrokken zijn en op hoogte gehouden worden, maar je kan simpelweg niet alle mogelijke eindgebruikers, projectleden, maatschappelijke

organisaties en tal van anderen tevreden houden. Er is niet één goede keuze. Er zullen verwachtingen zijn waar we niet aan voldoen. Zo transparant mogelijk zijn en open communiceren is dan enorm belangrijk.’

Als al deze hordes zijn genomen, wat hoop je dan dat over een jaar gerealiseerd is?
‘Ik hoop dat we er dan in geslaagd zijn een schoon taalmodel te ontwikkelen binnen de beperkingen die we nu kennen. En ik hoop dat we daar een vruchtbaar ecosysteem voor hebben kunnen bouwen. We zijn momenteel met veel partijen in gesprek. Wat verwacht je, wat wil je. Daar rollen allerlei connecties en protocollen uit. Die kunnen gaan over hoe je data netjes verwerkt, welke contracten je met elkaar sluit en hoe je omgaat met ethische vraagstukken. Daar maken we een soort blauwdruk van, een onderzoeksfaciliteit over taalmodellen. Dat zou uiteindelijk supergaaf zijn en ik heb goede hoop dat het lukt.’

Hoe ver zijn we richting die mijlpaal, waar staat GPT-NL nu?
‘Ons team heeft ontzettend veel technische hobbels genomen en heeft veel ontwikkeld en getest. We hebben met elkaar veel en lang nagedacht over hoe we zo goed mogelijk kunnen voldoen aan de wettelijke kaders. We hebben daar concrete stappen in gezet, zoals het vertalen naar protocollen. We blijven elkaar uitdagen om de ethische aspecten te blijven overwegen en we zetten responsible AI framworks in. We zijn met veel verschillende partijen in gesprek, zowel mogelijke eindgebruikers alsook mogelijke dataleveranciers. Dit alles bij elkaar is echt iets om heel trots op zijn.’

En zou je uiteindelijk ook niet gewoon willen zeggen: over een jaar moet er een bruikbaar alternatief voor de modellen van de grote techreuzen liggen?
‘Ja, zeker. Het is natuurlijk belangrijk dat er een schoon model komt dat kan samenvatten, vereenvoudigen en zoekmachines kan versterken. Tegelijkertijd moeten we goed beseffen dat dit een eerste iteratie is van iets wat nooit ‘af’ kan zijn. Het verder verzamelen van opt-in data en het verder verfijnen van het model wordt een continue proces.’

Tot slot, welke vragen krijg je het meest over GPT-NL?
‘Ik hoor wel eens geluiden als: ‘Denk je nou echt dat je iets kan doen met 13,5 miljoen euro? Dat gaat toch nooit werken?’ Dat gaat dan over de subsidies van het Rijk. Of mensen vragen natuurlijk wanneer GPT-NL inzetbaar is. Ik probeer dan uit te leggen dat het ook draait om kennisopbouw. En dat het ook best goed kan zijn te leren rijden in een Fiat in plaats van in een Ferrari. Ik vind die vragen niet erg. Dit project is ontzettend gaaf en ik geloof in een mooie uitkomst.’

Over Saskia Lensink
Saskia heeft een achtergrond in de taalwetenschap. Ze promoveerde in Leiden en werkt nu 4,5 jaar bij TNO. Als linguïst kijkt ze wat voor structuren er in taal zitten. Ze meet hoe het menselijk brein, oren en spraakapparaat werken. Daarbij onderzoekt ze ook hoe je dat in computermodellen kunt vatten (natural language processing en computational linguistics). Als product owner binnen GPT-NL brengt Saskia de verschillende subteams en de buitenwereld samen. Denk aan data acquisitie, systeemarchitectuur en datacuratie, maar ook de vereisten en belangen van externe stakeholders.