Planning van het project GPT-NL

De uitvoering van GPT-NL bestaat uit twee fases. In het eerste jaar staat de concrete ontwikkeling van het Nederlandse taalmodel centraal, waar ook de academische sector actief zal worden betrokken. In de tweede fase (start Q2 2025) zal de daadwerkelijke training van het taalmodel en het fine-tunel model plaatsvinden. In Q4 2025 zal het model verder worden aangescherpt door use cases en behoeftes uit de praktijk als inspiratie, en zal er worden gewerkt aan de verdere exploitatie van het model.

2024: Start GPT-NL Project

In het eerste jaar staat de concrete ontwikkeling van het Nederlandse taalmodel centraal. Het vergaren van de data is uiteraard de eerste stap voor de ontwikkeling van GPT-NL. In deze ontwikkelingsfase zijn we op zoek naar donateurs van data om GPT-NL mee te ontwikkelen. Voor het trainen van GPT-NL is een enorme hoeveelheid data nodig die divers genoeg is om tot een inclusief en sterk taalmodel te komen en GPT-NL breed toepasbaar te maken.

Q2 2025: Dataverzameling

Het vergaren van de data is namelijk één van de meest intensieve fases in het proces, waarin strategische keuzes moeten worden gemaakt. Vanaf de start van GPT-NL zijn we in gesprek gegaan met potentiële data providers over het aanleveren van hun data voor GPT-NL. Dit doen we helemaal from scratch om te voorkomen dat er onbekende factoren van eerdere modellen worden geërfd, zoals copyrightschendingen of het onrechtmatig gebruik maken van persoonsgegevens. Onderdelen van de dataverzamelingsfase zijn:

Data Viability: hier verkennen we welke partijen in Nederland geschikte data hebben om ons model op te trainen.
Data Agreement: In deze fase ondertekenen we de contracten met onze data-donateurs.
Data Curation: We zorgen samen met onze data-donateurs dat persoonlijke gegevens niet worden overgedragen. Ook checkt ons Data Curation Team de data op schadelijke inhoud.

Tot en met Q1 2025 zijn we bezig alle stappen van de dataverzameling af te ronden. We bouwen GPT-NL met vier verschillende type data.

Private data

Data die data dataproviders zelf data aanleveren, zij nemen deel in de Content Board.

Publiek beschikbare data

Er wordt een copyright compliant extract gemaakt van CommonCrawl (CC-BY en CC-0 licenties) in samenwerking met Instituut van Nederlandse Taal. Open data waar we expliciet toestemming voor hebben gekregen wordt ontsloten in samenwerking met Openstate.eu. De verwachte datum is 31 Maart 2025.

Synthetische data

We creëren synthetische data omdat er te weinig private, beschikbare data is om GPT-NL op te trainen. Daarnaast creëren we ook synthetische data om de kwaliteit van onze dataset te verhogen. We hebben samengewerkt met het Utrechts Archief (HUA) om hun scans (afbeeldingen) om te zetten in tekst. Daarnaast zijn we bezig met het vertalen van grote datasets. Het genereren van tekst uit gestructureerde data zoals tabellen en kennisgraven volgt in Q1 2025.

Code

Naast de 300 miljard teksttokens vullen we de dataset aan met 150 miljard tokens aan code. Het is aangetoond dat dit redenering van het model verbeterd.

Q3 2025 - Training van GPT-NL

De zwarte kasten van Snellius staan te ronken: GPT-NL wordt getraind! De komende maanden 'kijkt' het model naar trainingsdata om de structuur van tekst en taal te leren. Wij zijn gestart met een dataset van 370 miljard unieke tokens. De volledige trainingsfase duurt ongeveer 6 maanden. We zorgen ervoor dat het model goed werkt, betrouwbaar en breed toepasbaar is. Inzicht over de definitieve dataset kunnen we aan het eind van de training delen.

De update over de start van de training en de eerste cijfers over de trainingsdataset lees je hier.

Q4 2025 - Finetuning

2026: Van bouwen naar toepassen

Een jaar geleden stond GPT-NL nog volop in de steigers. Nu, in het eerste kwartaal van 2026, breekt een nieuwe fase aan: van ontwikkeling naar gebruik in de praktijk. De komende periode gaan we aan de slag met een selecte groep launching customers: organisaties die als eerste met het model aan de slag gaan en helpen om GPT-NL te testen, verfijnen en verder te brengen. Niet iedereen kan tegelijk beginnen, dus we kiezen bewust voor een beperkte groep om te leren hoe het model zich in de praktijk houdt.

Q2 2026 - Feasibility Studies

Tot en met Q2 zijn we met deze Launching Customers bezig met de Feasibility Studies: hoe draait GPT-NL in hun context, op hun hardware en voor hun specifieke use cases.

Q3 - Q4 2026 - Bredere uitrol van GPT-NL

We verwachten de bredere uitrol te doen in de tweede helft van 2026. Dan kan GPT-NL worden afgenomen middels de professionele licentie. We werken ook toe naar een hosted versie van GPT-NL, hierover volgt later meer info.