Vind hier de antwoorden op de meest gestelde vragen over GPT-NL

Zijn jullie gelieerd aan de website gpt-nl.com?

Wij zijn niet gelieerd aan de website www.gpt-nl.com, noch aan het product dat zij verkopen. Wanneer u nu een taalmodel afneemt onder een soortgelijke naam, is dit niet van ons. Ons model is vooralsnog enkel beschikbaar voor Launching Customers.

Hoe ziet de afbakening van de licenties eruit?

Er zal een professional license (commerciële licentie) en een research license worden uitgegeven, deze laatste is strikt voor wetenschappelijk- en toegepast onderzoek binnen organisaties gericht op de ontwikkeling van wetenschap, uitvoering van educatie en wetenschappelijk onderzoek, of beide. Een onderzoeksinstituut kan ook worden aangeduid als (expertise)centrum, kenniscentrum of -instituut, onderzoekscentrum, researchinstelling of universiteit. Gebruik voor bedrijfsvoering binnen een onderzoeksinstituut valt buiten deze licentie. Daarnaast heeft de research licentie de verplichting tot openbaar maken van alle resultaten. Meer info lees je op deze pagina.

Spelen er risico’s door het toevoegen van synthetische data op de kwaliteit van GPT-NL?

Om te zorgen dat het model goed ‘taligheid’ leert, is synthetische data gegenereerd en toegevoegd aan de trainingsdataset. De hoeveelheid synthetische data gebruikt voor het trainen is vooralsnog beperkt: rond 5B tokens, dus minder dan een procent van het totaal. Op deze hoeveelheid spelen risico’s zoals model collapse bij synthetische data geen rol.

Voor de technische lezer: Du et al (2025) suggereren dat 20% optimaal is en voor een volgend model willen we inzetten op meer synthetische data. Dit was niet haalbaar voor de huidige versie van GPT-NL 1.

Lees meer over synthetische data in dit artikel.

Hoe open gaat GPT-NL worden?

De insteek van GPT-NL is altijd geweest om zo min mogelijk drempels op te werpen. Dit houdt in dat alle broncode en alle data die we mogen vrijgeven, openbaar zal worden gepubliceerd onder een open source licentie. De subsidievoorwaarden stellen dat de kosten voor de instandhouding terugverdiend dienen te worden dus zorgt het ervoor dat we niet zomaar het taalmodel onder een open-source licentie kunnen aanbieden. De weights van het model worden nagenoeg gratis vrijgegeven voor research doeleinden. Voor niet-research doeleinden (en dus ook commerciële doeleinden) zal een vergoeding worden gevraagd.

Vraag toegevoegd ter verduidelijking van de open source licentie, 16:16 30-01-2025

Wordt het model open-weights?

Nee, het zit genuanceerder. De broncode is wel volledig open, evenals alle publieke datasets. Om toegang te krijgen tot de weights van het model, gelden er echter restricties. Als je de model weights wil inzetten voor onderzoek of vanuit een toezichthoudersrol wil bestuderen, dan kan dat tegen een nomimale vergoeding*, na registratie. Met die registratie kunnen gebruikers op de hoogte worden gebracht van nieuwe versies van het model. Voor alle andere doeleinden zijn de weights alleen te gebruiken na betaling van de professionele licentie (ook wel: commerciële licentie). Meer lees je in dit artikel over openheid en toegankelijkheid van GPT-NL.

*Er wordt onderzocht in hoeverre de staatssteunregels het toestaan om de onderzoekslicentie gratis of tegen een symbolisch bedrag aan te bieden.

Waarom is GPT-NL niet Open Source?

GPT‑NL is bewust niet volledig open source. Met professionele licenties creëren we ruimte om data‑eigenaren te laten meedelen in de opbrengsten. Zo stimuleren we een gezonde toeleveringsketen en een duurzaam ecosysteem voor hoogwaardige data, binnen wettelijke kaders en subsidievereisten. De code van GPT‑NL is wél open source (zie GPT-NL · GitHub, en het publieke deel van de gebruikte data is open beschikbaar gemaakt.

Waarin onderscheidt GPT-NL zich van big tech modellen?

GPT-NL heeft een aantal voordelen als alternatief op bekende modellen. Hieronder zijn er een aantal belangrijke gegeven:

In tegenstelling tot de openbare, Nederlandse internetdata die door Amerikaanse partijen zijn gebruikt om hun taalmodel in het Nederlands te laten presteren, wordt GPT-NL getraind op kwalitatieve (Nederlandse) data waarvoor wij de juiste rechten hebben verkregen. Zo bouwen we het taalmodel in lijn met Europese en Nederlandse normen en waarden.

GPT-NL draagt zorg voor transparantie, bescherming van intellectueel eigendom en bescherming van persoonsgegevens. Zo kunt u erop vertrouwen dat u, als gebruiker van GPT-NL, straks werkt met een schone dataketen.

GPT-NL maakt een positieve impact zonder winstoogmerk.

Naast het Auteursrecht en de AVG, is ook de Europese AI Act geaccepteerd. Deze wetgeving schrijven regels voor met betrekking tot transparantie en bescherming van persoonsgegevens, ook tijdens het trainingsproces. Zo ontwikkelen we GPT-NL vanaf de grond af aan in lijn met wet- en regelgeving.

Wat is het verschil tussen GPT-NL en Nederlandstalige versies van andere taalmodellen?

Met de grote taalmodellen van andere aanbieders kun je ook in het Nederlands interacteren, maar er zijn drie belangrijke verschillen.

De taalmodellen van huidige aanbieders zijn getraind op grote hoeveelheden teksten die niet rechtmatig verkregen zijn. Voor het trainen van GPT-NL gebruiken we alleen data als we daar de juiste rechten voor hebben. Meer hierover lees je in ons artikel over het auteursrecht.
Omdat deze aanbieders vaak niet transparant zijn over de dataset, kunnen we niet weten welke data is gebruikt om het model te trainen. We weten dus ook niet wat voor Nederlandse data is gebruikt, en of dit om kwalitatieve data gaat. Bij GPT-NL zijn we daarom transparant over welke data we gebruiken. Meer lees je op deze pagina.
Hoewel we dus bij deze modellen geen inzicht hebben in de data, is het vermoeden dat dit voornamelijk Engelse of vertaalde teksten betreft. Hierdoor kan het zijn dat deze modellen nuances van Nederlandse taal en cultuur verliezen, die voor sommige toepassingen noodzakelijk zijn.

Antwoord aangepast ter verduidelijking op 7 maart 2025.

Wat is de CO2-uitstoot van GPT-NL?

Training: Dit artikel geeft een goede schatting van training energieverbruik. Deze informatie kan al gebruikt worden voor een grove schatting van equivalente CO2 emissies. We hebben activiteiten gepland voor een meer gedetailleerde schatting in de toekomst.

Inference: We zijn het model hier nog op aan het testen. Voor nu kun je het model al met redelijke precisie vergelijken met modellen van vergelijkbare grootte en architectuur, zoals het Gemma3-27B model. Gebruik deze tool om de power draw en de CO2 uitstoot te schatten

Verzamelen jullie momenteel content?

Momenteel ligt de focus bij het uitvoeren van de Feasibility Studies en het voorbereiden van de bredere uitrol in de tweede helft van dit jaar. We starten daarom later met actieve acquisitie van content en datasets voor GPT-NL v2.0. Mocht u een grote dataset beschikbaar hebben, kunt u ons dat laten weten middels dit contactformulier.

Wanneer komt de dataset van de v1.0 beschikbaar?

Onze collega’s leggen de laatste hand aan het opmaken van de publieke dataset zodat deze in Q1-2026 gepubliceerd kan worden op HuggingFace. Over de auteursrechtelijk beschermde content die we hebben gebruikt publiceren we metadata zodat we transparantie kunnen bieden over de samenstelling van de gehele dataset.

Update 3 april 2026: De publieke datasets worden volgende week gepubliceerd.

Wat is de brondata van GPT-NL? Bevat dit ook straattaal of alleen academische geschriften?

De brondata van GPT‑NL bestaat uit een combinatie van gelicentieerde data, publiek beschikbare (open) data en data die met expliciete toestemming is ingebracht, zorgvuldig geselecteerd binnen wettelijke kaders.

Hoe zit het met datarechten en eigenaarschap?

De rechten op de dataset blijven altijd bij de auteursrechthebbenden. Ook zal de data alleen worden gebruikt voor de doeleinden van GPT-NL. Hier lees je meer over het auteursrecht.

Hoe wordt er omgegaan met persoonlijke, confidentiële of sensitieve data?

We zullen de data door de data contributors en door onszelf bewerken (cureren) zodat GPT-NL aan de AVG voldoet.

Vanuit GPT-NL bieden we eerst ondersteuning en methodes aan data contributors om de dataset op een juiste manier op te schonen zodat het met ons gedeeld kan worden om GPT-NL te trainen.
Wanneer de dataset eenmaal is opgeschoond, zullen wij nog een extra check doen om op persoonlijke, confidentiële of sensitieve gegevens te controleren. Deze review zal deels geautomatiseerd en deels manueel van aard zijn.

Hoe wordt omgegaan met auteursrecht?

We nemen het auteursrecht uiterst serieus. Voor elke potentiële databron doen wij een analyse of we de bron kunnen gebruiken op basis van wat de Nederlandse Auteurswet voorschrijft. Om toestemming te krijgen voor het gebruik van bepaalde data in onze trainingset maken we afspraken met de directe eigenaar van de data (zoals met DNB, of ICTRecht) of met een partij die de rechten heeft deze data met ons te delen ten behoeve van het trainen van het model zoals overeengekomen met de leden van de Content Board. Meer lees je in ons artikel over auteursrecht.

Hoe is dit project gefinancierd?

Financiering van het model is afkomstig vanuit RVO/Ministerie van EZK. Het projectplan “Faciliteit voor een soeverein Nederlands taalmodel” is hiervoor in mei 2023 ingediend en eind oktober 2023 gegund. Voor het project is een bedrag van 13,5 miljoen euro beschikbaar gesteld. Lees de officiële bekendmaking hier.

Wanneer kan ik GPT-NL inzetten in mijn organisatie?

We verwachten de bredere uitrol te doen in de tweede helft van 2026. Dan kan GPT-NL worden afgenomen middels de professionele licentie. We werken ook toe naar een hosted versie van GPT-NL, hierover volgt later meer info.

Wanneer kan ik GPT-NL gebruiken als onderzoeker?

We verwachten de bredere uitrol te doen in de tweede helft van dit jaar, dat geldt ook voor het gebruik van GPT-NL voor onderzoeksdoeleinden.

Zijn er voorbeelden van GPT-NL beschikbaar?

We zijn gestart met de eerste usecases in samenwerking met Launching Customers. We voeren met hen een Feasibility Study uit. Deze zijn net van start en lopen drie tot zes maanden. Wanneer we resultaten hebben die we kunnen delen, worden die gepubliceerd. Lees hier over de eerste vijf use cases en Feasibility Studies.

Wat is de benchmark van het model? Hoe presteert het in vergelijking met soortgelijke modellen?

We evalueren het model constant op externe en interne benchmarks. EuroEval is een initiatief waarin benchmarks voor Europese talen worden verzameld. Wij evalueren ons model op de Nederlandse & Engelse benchmarks hiervan. Alle fases van ons trainingsproces zijn nog onder ontwikkeling, waardoor de benchmark resultaten nog niet vastliggen en kunnen veranderen voordat GPT-NL breed wordt uitgerold. Als het gaat om redeneren en bepaalde kennisgebieden die minder goed gerepresenteerd zijn in onze data, zien we dat de basis van ons model (de uitkomst van pre-trainen) nog niet dezelfde resultaten behaalt op andere LLM initiatieven (e.g. HellaSwag: daar liggen we dichter bij Llama 2 7B of vroege checkpoints van Olmo-3 32B). Het GPT-NL basis model ligt dichter bij alternatieven als het gaat om natural language understanding & generation taken (zoals summarization, sentiment classification en reading comprehension, daar komen we in de buurt van LLama 2 13B of 70B en Olmo-2 32B). Deze voortschrijdende resultaten geven richting voor verdere ontwikkeling tijdens dit trainingsproces.

Wat zijn de kosten van het model zonder feasibility study?

De kosten voor de licentie worden bij de brede uitrol van GPT-NL bekendgemaakt.

Wat is het pay-per-use tarief?

De kosten voor het gebruik van GPT-NL worden bij de brede uitrol bekendgemaakt.

Als we een feasibility study willen, hoe ziet dit er dan precies uit?

De Feasibility Study is een onderzoek gericht op het toepassen en verbeteren van GPT-NL in de context van een organisatie. Het karakter van de activiteiten is daarmee primair onderzoeksgericht. We zijn momenteel gestart met de eerste vijf.

Aan de Feasibility Study waarin de use-case wordt geïmplementeerd zijn daarom kosten verbonden t.b.v. de doorontwikkeling van GPT-NL. Het is noodzakelijk voor de Feasibility Study om GPT-NL on-premise kunnen hosten. Voor informatie over de precieze invulling van een Feasibility Study toegespitst op jullie context, neem contact met ons op. We horen graag welke use case jullie willen testen, dan komen we zo snel mogelijk bij je terug. Indien er nog ruimte ontstaat voor een Feasibility Study, nemen we contact met u op.

Hoe snel kun je het gebruik van tokens opschalen als er meer gebruik nodig is?

Op dit moment bieden we uitsluitend het GPT‑NL‑model zelf aan in de context van onze Feasibility Studies. Opschaling van het tokengebruik is daarom afhankelijk van de gekozen infrastructuur en hostingmogelijkheden van de afnemer. We werken toe naar een gehoste versie van GPT‑NL, die naar verwachting beschikbaar komt in de tweede helft van 2026 en waarbij opschaling eenvoudiger kan worden ondersteund.

Hoe draagt GPT-NL bij aan digitale soevereiniteit van Nederland en Europa?

Digitale soevereiniteit omvat bestuurlijke en juridische controle over digitale infrastructuren, data en systemen. Dit betekent dat vitale digitale processen zoveel mogelijk onder Nederlandse of Europese rechtsmacht vallen en worden beschermd tegen buitenlandse invloeden. Digitale soevereiniteit maakt het mogelijk om publieke waarden zoals privacy, veiligheid en transparantie te beschermen. GPT NL heeft de publieke waardes van digitale soevereiniteit in het design gewaarborgd. Zo is GPT-NL het eerste LLM wereldwijd dat aantoonbaar voldoet aan de Europese privacy wetgeving. Met GPT-NL dragen we bij aan digitale soevereiniteit door transparant te zijn over de verkregen data. GPT-NL maakt gebruik van trainingssets die rechtmatig tot stand zijn gekomen in overeenkomst met Nederlandse dataleveranciers. Daarnaast zijn we transparant over welke trainingsdata we gebruiken, en laten een deel van de opbrengsten terugvloeien naar de auteursrechthebbenden.

Met GPT-NL kunnen organisaties straks kiezen voor een verantwoord alternatief op de LLMs die zij nu gebruiken. Door de ontwikkeling van het model én de ontwikkeling van kennis en kunde, stimuleren we Nederlandse en Europese autonomie op het gebied van AI. Daarnaast blijft GPT-NL in Nederlandse handen, wat risico’s t.a.v. soevereiniteit bij organisaties verlaagt.

Hoe verhoudt GPT-NL zich tot andere Europese projecten en alternatieven?

GPT‑NL positioneert zich als complementair aan andere Europese initiatieven zoals EuroLLM en TrustLLM. Vanuit TNO zijn we actief betrokken bij meerdere Europese LLM‑projecten, waaronder TrustLLM en LLMs4EU, en onderhouden we nauwe banden met modelbouwers en onderzoeksconsortia door heel Europa. We wisselen actief kennis uit; doordat elk initiatief andere keuzes maakt in data, architectuur en governance, bouwen we gezamenlijk diepgaande LLM‑expertise op en versterken we stap voor stap het Europese AI‑ecosysteem.