GPT-NL: transparant en eerlijk


We ontwikkelen een taalmodel voor de Nederlandse taal en cultuur. Transparant, inclusief, en volgens Nederlandse en Europese waarden en zullen open over de beslissingen en afwegingen communiceren.

Open en transparant

GPT-NL wordt op een zo transparant mogelijke manier ontwikkeld. Dat betekent dat we transparant zijn over de keuzes die tijdens de datacuratie en het trainingsproces worden gemaakt. Hiermee houden we ook expliciet rekening met uitdagingen rondom vooroordelen, bias en ethische kaders.

Daarnaast zijn we zo open als mogelijk binnen de kaders van regelgeving en veiligheid. Alle broncode en alle data die we mogen vrijgeven worden openbaar gepubliceerd onder een open source licentie. Dit geldt iets anders voor de gewichten: deze stellen we als download beschikbaar op verzoek.

Financiering

De subsidievoorwaarden stellen dat de kosten voor de instandhouding terugverdiend dienen te worden, daarom kunnen we niet zomaar de gewichten van het taalmodel onder een open-source licentie aanbieden. Voor niet-research doeleinden (en dus ook commerciële doeleinden) zal daarom een vergoeding worden gevraagd. Echter zullen we voor researchdoeleinden de gewichten nagenoeg gratis vrijgeven.

Bescherming van gebruikers en burgers

Daarnaast bieden we de gewichten van het model via een licentie op verzoek aan omdat we moeten weten wie de afnemers zijn van GPT-NL. We zijn namelijk verplicht om iedereen op de hoogte te kunnen stellen wanneer er een nieuw model is getraind, bijvoorbeeld na een opt-out verzoek. Zo draagt GPT-NL bij aan meer openheid, transparantie en bescherming van de dataprivacy van gebruikers.

Dataverzameling from scratch

We zullen state-of-the-art modelarchitectuur hergebruiken, maar de training zelf doen we helemaal from scratch om te voorkomen dat er onbekende factoren van eerdere modellen worden geërfd, zoals copyrightschendingen of het onrechtmatig gebruik maken van persoonsgegevens.

De ontwikkeling van GPT-NL gebeurt in lijn met de Algemene verordening gegevensbescherming (AVG) en AI Verordening om tot een model te komen dat niet is getraind op bronnen die privacy- of IP-rechten schenden. Door al onze data zelf te verzamelen, gesprekken aan te gaan met datahouders en een zorgvuldig proces te waarborgen, verkleinen we de kans op inbreuk van rechten van derden en hopen we een inspiratie te zijn voor andere initiatieven – innoveren met generatieve AI zonder op grote schaal de wet te overtreden.

Duurzaamheid

Wij houden rekening met duurzaamheid en CO2-uitstoot en moeten verantwoordelijk zijn in ons gebruik van hulpbronnen en grondstoffen die nodig zijn voor de ontwikkeling van GPT-NL, zoals energie en water.

We werken toe naar het meest energie-efficiënte taalmodel dat we kunnen bouwen op basis van wetenschappelijk onderzoek. Hierbij kijken we kritisch naar zowel de omvang die het model zou moeten hebben, almede hoe de training en implementatie van GPT-NL kunnen worden geoptimaliseerd.

Pagina aangepast ter verduideling van open source, 16:40 30-01-2025.

Financiering

Financiering is afkomstig vanuit RVO/Ministerie van EZK. Het projectplan “Faciliteit voor een soeverein Nederlands taalmodel” is hiervoor in mei 2023 ingediend en eind oktober 2023 gegund. Voor het project is een bedrag van 13,5 miljoen euro beschikbaar gesteld. Lees de officiële bekendmaking hier .