Hoe maak je met een beperkte hoeveelheid data een taalmodel van voldoende kwaliteit? Het is een dilemma waar de strategen binnen GPT-NL zich dagelijks mee bezighouden. Twee van hen zijn Claartje Barkhof en Erik de Graaf, beiden datawetenschappers bij TNO. Ze richten zich onder meer op de (data)strategie van het project. ‘Er is geen taalmodel in de wereld dat volledig copyrightproof is én voldoet aan de AI Act en Europese AVG-regels. Onze ambitie is om de eerste te zijn.’
Meta dat niet alle taalmodellen in Europa uitrolt, Apple dat in de nieuwste iPhones bepaalde AI-functies aanvankelijk blokkeerde… Zomaar wat voorbeelden van techgiganten die tegen de complexe en strenge Europese wetgeving rondom AI aanliepen. ‘Zonder daarin over goed of slecht te oordelen, vraag ik me af wie er als eerste water bij de wijn gaat doen’, zegt Erik. ‘De druk van die techbedrijven neemt natuurlijk toe. En ik kan me ook niet voorstellen dat er geen LLM in Europa zal komen. Het is in ieder geval goed even stil te staan bij deze context. Het is de realiteit waarbinnen wij GPT-NL in het leven proberen te roepen.’
Puzzelstukjes
Waar de internationale taalmodellen het niet altijd even nauw nemen met de oorsprong van data, geldt dat niet voor GPT-NL. ‘Schone data is essentieel voor ons’, vertelt Claartje. ‘Zoals bekend scrapen wij niet het hele internet leeg. En we brengen gradaties aan. Zie het een beetje als het gegeven dat de kwaliteit van een Wikipedia-artikel doorgaans hoger is dan een Facebookpost over hetzelfde onderwerp.’
De missie van GPT-NL is om zo’n driehonderd miljard datatokens te verzamelen. Dat wordt gezien als het minimum dat nodig is om een kwalitatief voldoende taalmodel op te leveren. Daarbij worden zoals gemeld strenge eisen gesteld aan transparantie en bescherming van waarden (hier legden we eerder uit hoeveel data er nodig is om een taalmodel te trainen).
Erik: ‘Meta heeft een concurrerend open taalmodel, genaamd Llama. Voor het trainen van versie 3 zijn ongeveer 15.000 miljard tokens gebruikt. Het probleem is een beetje dat die 15.000 miljard tokens er simpelweg niet zijn in het Nederlands.’
Scaling laws
Claartje vult aan: ‘Waar we nog in het duister tasten, is dat we niet precies weten hoeveel beter een LLM wordt met meer data. Op welk punt heeft het nog zin meer data toe te voegen? Je krijgt te maken met een fenomeen dat scaling laws wordt genoemd. Dat schrijft voor hoe de prestaties van het model verbeteren door het toevoegen van meer data. In principe is dit een voorspelbare functie wanneer je bepaalde keuzes vastzet, zoals modelarchitectuur en de datamix. Het voordeel hiervan is dat een kort experiment je veel kan vertellen over hoe goed je model zal worden omdat je de loss kan extrapoleren. Maar, het is nog steeds niet duidelijk welke (combinaties van) keuzes de beste modellen maken. Wel zijn er dus tekenen van dat datakwaliteit een belangrijke factor is. Kortom: we doen veel rekenwerk en het is stukje voor stukje puzzelen.’
Continu balanceren
Hoewel de datastrategie voor GPT-NL dus nog niet volledig uitgevogeld is, worden de contouren elke maand duidelijker. Erik: ‘Vast staat al wel dat we ook data gaan synthetiseren. Daarbij gebruik je bestaande data om nieuwe data te ontwikkelen. Hoe dat moet gebeuren, is nog niet duidelijk. Dit komt mede omdat onze eisen rondom responsible AI hoog zijn. Met welk model ga je synthetiseren? Of ga je bijvoorbeeld alleen vertalen of herschrijven?’
Volgens Erik zijn alle betrokken zich ervan bewust dat de extreem hoge ethische standaarden én beperkte budgetten binnen GPT-NL soms voor drempels zorgen. ‘We moeten het ook doen met bestaand onderzoek, we hebben niet altijd de mogelijkheid zelf veel te experimenteren. Zo leerden we veel van het bekende wetenschappelijke artikel Sweden Paper (GPT-SW3: An Autoregressive Language Model for the Nordic Languages, Ekgren et al. 2023, red.) of van Allen AI. Dat instituut ontwikkelde al een open taalmodel en zij geven data vrij. Maar ook zij namen tegelijkertijd wel een ander taalmodel als beginpunt om op te trainen. Kortom: het blijft een continue uitdaging onze ambitieuze doelstellingen na te leven met het gebruik van een schone dataset. Het is iets waar alle juridische teams van alle grote techbedrijven zich net als wij dagelijks mee bezig houden.’