Planning van het project GPT-NL
De uitvoering van GPT-NL bestaat uit twee fases. In het eerste jaar staat de concrete ontwikkeling van het Nederlandse taalmodel centraal, waar ook de academische sector actief zal worden betrokken. In de tweede fase (start Q2 2025) zal de daadwerkelijke training van het taalmodel en het fine-tunel model plaatsvinden. In Q4 2025 zal het model verder worden aangescherpt door use cases en behoeftes uit de praktijk als inspiratie, en zal er worden gewerkt aan de verdere exploitatie van het model.
Momenteel bevinden wij ons in de Data Acquisitie fase om zoveel mogelijk data te verzamelen waar we GPT-NL op kunnen trainen. Een gedetailleerd overzicht van de processen rondom dataverzameling is te zien in onze 'Data Acquisition Pipeline'. We raden aan deze op desktop te bekijken.
In het eerste jaar staat de concrete ontwikkeling van het Nederlandse taalmodel centraal. Het vergaren van de data is uiteraard de eerste stap voor de ontwikkeling van GPT-NL. In deze ontwikkelingsfase zijn we op zoek naar donateurs van data om GPT-NL mee te ontwikkelen. Voor het trainen van GPT-NL is een enorme hoeveelheid data nodig die divers genoeg is om tot een inclusief en sterk taalmodel te komen en GPT-NL breed toepasbaar te maken.
Het vergaren van de data is namelijk één van de meest intensieve fases in het proces, waarin strategische keuzes moeten worden gemaakt. Vanaf de start van GPT-NL zijn we in gesprek gegaan met potentiële data providers over het aanleveren van hun data voor GPT-NL. Dit doen we helemaal from scratch om te voorkomen dat er onbekende factoren van eerdere modellen worden geërfd, zoals copyrightschendingen of het onrechtmatig gebruik maken van persoonsgegevens. Onderdelen van de dataverzamelingsfase zijn:
- Data Viability: hier verkennen we welke partijen in Nederland geschikte data hebben om ons model op te trainen.
- Data Agreement: In deze fase ondertekenen we de contracten met onze data-donateurs.
- Data Curation: We zorgen samen met onze data-donateurs dat persoonlijke gegevens niet worden overgedragen. Ook checkt ons Data Curation Team de data op schadelijke inhoud.
Tot en met Q1 2025 zijn we bezig alle stappen van de dataverzameling af te ronden. We bouwen GPT-NL met vier verschillende type data.
Data die data dataproviders zelf data aanleveren, zij nemen deel in de Content Board.
Er wordt een copyright compliant extract gemaakt van CommonCrawl (CC-BY en CC-0 licenties) in samenwerking met Instituut van Nederlandse Taal. Open data waar we expliciet toestemming voor hebben gekregen wordt ontsloten in samenwerking met Openstate.eu. De verwachte datum is 31 Maart 2025.
We creëren synthetische data omdat er te weinig private, beschikbare data is om GPT-NL op te trainen. Daarnaast creëren we ook synthetische data om de kwaliteit van onze dataset te verhogen. We hebben samengewerkt met het Utrechts Archief (HUA) om hun scans (afbeeldingen) om te zetten in tekst. Daarnaast zijn we bezig met het vertalen van grote datasets. Het genereren van tekst uit gestructureerde data zoals tabellen en kennisgraven volgt in Q1 2025.
Naast de 300 miljard teksttokens vullen we de dataset aan met 150 miljard tokens aan code. Het is aangetoond dat dit redenering van het model verbeterd.
Wanneer we voldoende data binnen hebben om tot een sterk en divers taalmodel te komen, zullen we ons model trainen op een gehost computercluster. De volledige trainingsfase duurt ongeveer 6 maanden. We zorgen ervoor dat het model goed werkt, betrouwbaar en breed toepasbaar is.
In Q2 starten we met de training van het taalmodel.
In Q3 starten we met de training van het fine-tune model.
Na de training zal het model verder worden aangescherpt door use cases en behoeftes uit de praktijk als inspiratie, en zal er worden gewerkt aan de verdere exploitatie van het model zodat er verdere verbeteringen, onderhoud en innovaties voor de toekomst mogelijk worden. We starten met het testen van GPT-NL in samenwerking met het Nederlands Forensisch Instituut.