GPT-NL: transparant en eerlijk


We ontwikkelen een taalmodel voor de Nederlandse taal en cultuur. Transparant, inclusief, en volgens Nederlandse en Europese waarden en zullen open over de beslissingen en afwegingen communiceren.

Open en transparant

GPT-NL wordt een transparant taalmodel. Dat betekent dat we transparant zijn over de keuzes die tijdens de datacuratie en het trainingsproces worden gemaakt. Hiermee houden we ook expliciet rekening met uitdagingen rondom vooroordelen, bias en ethische kaders. Zo draagt GPT-NL bij aan meer openheid, transparantie en bescherming van de dataprivacy van gebruikers.

Bescherming van gebruikers en burgers

De ontwikkeling van GPT-NL gebeurt in lijn met de Algemene verordening gegevensbescherming (AVG) en AI Verordening om tot een model te komen dat niet is getraind op bronnen die privacy- of IP-rechten schenden.

We zullen state-of-the-art modelarchitectuur hergebruiken, maar de training zelf doen we helemaal from scratch om te voorkomen dat er onbekende factoren van eerdere modellen worden geërfd, zoals copyrightschendingen of het onrechtmatig gebruik maken van persoonsgegevens.

Door al onze data zelf te verzamelen, gesprekken aan te gaan met datahouders en een zorgvuldig proces te waarborgen, verkleinen we de kans op inbreuk van rechten van derden en hopen we een inspiratie te zijn voor andere initiatieven – innoveren met generatieve AI zonder op grote schaal de wet te overtreden.

Duurzaamheid

Wij houden rekening met duurzaamheid en CO2-uitstoot en moeten verantwoordelijk zijn in ons gebruik van hulpbronnen en grondstoffen die nodig zijn voor de ontwikkeling van GPT-NL, zoals energie en water.

We werken toe naar het meest energie-efficiënte taalmodel dat we kunnen bouwen op basis van wetenschappelijk onderzoek. Hierbij kijken we kritisch naar zowel de omvang die het model zou moeten hebben, almede hoe de training en implementatie van GPT-NL kunnen worden geoptimaliseerd.

Planning

De uitvoering van GPT-NL bestaat uit twee fases. In het eerste jaar staat de concrete ontwikkeling van het Nederlandse taalmodel centraal, waar ook de academische sector actief zal worden betrokken. In deze fase zijn we op zoek naar data providers. Het model wordt getraind op een gehost computercluster.

Na de training zal het model verder worden aangescherpt door use cases en behoeftes uit de praktijk als inspiratie, en zal er worden gewerkt aan de verdere exploitatie van het model, zodat er verdere verbeteringen, onderhoud en innovaties voor de toekomst mogelijk worden.

Financiering

Financiering van het model is afkomstig vanuit RVO/Ministerie van EZK. Het projectplan “Faciliteit voor een soeverein Nederlands taalmodel” is hiervoor in mei 2023 ingediend en eind oktober 2023 gegund. Voor het project is een bedrag van 13,5 miljoen euro beschikbaar gesteld. Lees de officiële bekendmaking hier .