Vind hier de antwoorden op de meest gestelde vragen over GPT-NL
GPT-NL is volop in ontwikkeling. Dat betekent dat er veel nieuwe vragen ontstaan die partners, data contributors, of geïnteresseerden aan ons stellen. Deze vraag-en-antwoord pagina wordt daarom regelmatig met nieuwe vragen en antwoorden aangevuld.
Er zal een professional license (commerciële licentie) en een research license worden uitgegeven, deze laatste is strikt voor wetenschappelijk- en toegepast onderzoek binnen organisaties gericht op de ontwikkeling van wetenschap, uitvoering van educatie en wetenschappelijk onderzoek, of beide. Een onderzoeksinstituut kan ook worden aangeduid als (expertise)centrum, kenniscentrum of -instituut, onderzoekscentrum, researchinstelling of universiteit. Gebruik voor bedrijfsvoering binnen een onderzoeksinstituut valt buiten deze licentie. Daarnaast heeft de research licentie de verplichting tot openbaar maken van alle resultaten. Meer info lees je op deze pagina.
Voor het bouwen van een groot (taal)model is veel rekenkracht nodig. Je bouwt geen taalmodel op een laptop die je gewoon in het stopcontact steekt: je hebt een supercomputer nodig die de nodige rekenkracht heeft om het model te trainen. Zo’n supercomputer gebruikt veel energie – zowel om zelf te draaien maar ook om gekoeld te worden. Hierdoor zorgt de trainingsfase van een taalmodel voor een groot deel van de impact die de ontwikkeling van GPT-NL kan hebben op het milieu. Er zijn verschillende manieren om energie-efficiënt te werk te gaan en zo de uitstoot te beperken.
Ten eerste wordt GPT-NL getraind op Snellius, de nationale supercomputer(opent in nieuw venster) (verwijst naar een andere website). Snellius staat hoog genoteerd in de Green500 ranking(opent in nieuw venster) (verwijst naar een andere website), met name door energiezuinige koeling. Ook dragen we bij aan het verminderen van onze energievoetafdruk door efficiënt te programmeren. Dat betekent dat we de start van de training goed afweging tegenover de hoeveelheid data die we hebben om te voorkomen dat we energie gebruiken voor een model dat op een te kleine dataset is getraind en daarna veel iteraties vereist. Lees er meer over in dit artikel.
We nemen het auteursrecht uiterst serieus. Voor elke potentiële databron doen wij een analyse of we de bron kunnen gebruiken op basis van wat de Nederlandse Auteurswet voorschrijft. Om toestemming te krijgen voor het gebruik van bepaalde data in onze trainingset maken we afspraken met de directe eigenaar van de data of met een partij die de rechten heeft deze data rechtmatig met ons te delen ten behoeve van het trainen van het model. Meer lees je op deze pagina.
De rechten op de dataset blijven altijd bij de auteursrechthebbenden. Ook zal de data alleen worden gebruikt voor de doeleinden van GPT-NL. Hier lees je meer over het auteursrecht.
Financiering van het model is afkomstig vanuit RVO/Ministerie van EZK. Het projectplan “Faciliteit voor een soeverein Nederlands taalmodel” is hiervoor in mei 2023 ingediend en eind oktober 2023 gegund. Voor het project is een bedrag van 13,5 miljoen euro beschikbaar gesteld. Lees de officiële bekendmaking hier.
Met de grote taalmodellen van andere aanbieders kun je ook in het Nederlands interacteren, maar er zijn drie belangrijke verschillen.
- De taalmodellen van huidige aanbieders zijn getraind op grote hoeveelheden teksten die niet rechtmatig verkregen zijn. Voor het trainen van GPT-NL gebruiken we alleen data als we daar de juiste rechten voor hebben. Meer hierover lees je in ons artikel over het auteursrecht.
- Omdat deze aanbieders vaak niet transparant zijn over de dataset, kunnen we niet weten welke data is gebruikt om het model te trainen. We weten dus ook niet wat voor Nederlandse data is gebruikt, en of dit om kwalitatieve data gaat. Bij GPT-NL zijn we daarom transparant over welke data we gebruiken. Meer lees je op deze pagina.
- Hoewel we dus bij deze modellen geen inzicht hebben in de data, is het vermoeden dat dit voornamelijk Engelse of vertaalde teksten betreft. Hierdoor kan het zijn dat deze modellen nuances van Nederlandse taal en cultuur verliezen, die voor sommige toepassingen noodzakelijk zijn.
Antwoord aangepast ter verduidelijking op 7 maart 2025.
We zullen de data door de data contributors en door onszelf bewerken (cureren) zodat GPT-NL aan de AVG voldoet.
- Vanuit GPT-NL bieden we eerst ondersteuning en methodes aan data contributors om de dataset op een juiste manier op te schonen zodat het met ons gedeeld kan worden om GPT-NL te trainen.
- Wanneer de dataset eenmaal is opgeschoond, zullen wij nog een extra check doen om op persoonlijke, confidentiële of sensitieve gegevens te controleren. Deze review zal deels geautomatiseerd en deels manueel van aard zijn.
GPT-NL heeft een aantal voordelen als alternatief op bekende modellen. Hieronder zijn er een aantal belangrijke gegeven:
- In tegenstelling tot de openbare, Nederlandse internetdata die door Amerikaanse partijen zijn gebruikt om hun taalmodel in het Nederlands te laten presteren, wordt GPT-NL getraind op kwalitatieve (Nederlandse) data waarvoor wij de juiste rechten hebben verkregen. Zo bouwen we het taalmodel in lijn met Europese en Nederlandse normen en waarden.
- GPT-NL draagt zorg voor transparantie, bescherming van intellectueel eigendom en bescherming van persoonsgegevens. Zo kunt u erop vertrouwen dat u, als gebruiker van GPT-NL, straks werkt met een schone dataketen.
- GPT-NL maakt een positieve impact zonder winstoogmerk.
- Naast het Auteursrecht en de AVG, is ook de Europese AI Act geaccepteerd. Deze wetgeving schrijven regels voor met betrekking tot transparantie en bescherming van persoonsgegevens, ook tijdens het trainingsproces. Zo ontwikkelen we GPT-NL vanaf de grond af aan in lijn met wet- en regelgeving.
Wij zijn niet gelieerd aan de website www.gpt-nl.com, noch aan het product dat zij verkopen. Wanneer u nu een taalmodel afneemt onder een soortgelijke naam, is dit niet van ons. Ons model is vooralsnog enkel beschikbaar voor Launching Customers.
De insteek van GPT-NL is altijd geweest om zo min mogelijk drempels op te werpen. Dit houdt in dat alle broncode en alle data die we mogen vrijgeven, openbaar zal worden gepubliceerd onder een open source licentie. De subsidievoorwaarden stellen dat de kosten voor de instandhouding terugverdiend dienen te worden dus zorgt het ervoor dat we niet zomaar het taalmodel onder een open-source licentie kunnen aanbieden. De weights van het model worden nagenoeg gratis vrijgegeven voor research doeleinden. Voor niet-research doeleinden (en dus ook commerciële doeleinden) zal een vergoeding worden gevraagd.
Vraag toegevoegd ter verduidelijking van de open source licentie, 16:16 30-01-2025
We zijn op het moment druk bezig met het opstellen van de exacte voorwaarden. Het uitgangspunt van GPT-NL is om enkel de kosten van instandhouding te dekken. Het gaat mogelijk zijn het model te gebruiken voor onderzoek, commerciële en niet-commerciële applicaties.
Er wordt uitgezocht in hoeverre de regels van staatsteun ons toestaan om de research licentie gratis of tegen een symbolisch bedrag aan te bieden. GPT-NL dient te weten wie de gebruikers zijn van de licenties. Dit geldt zowel voor de research licentie als de licentie die voor andere doeleinden gebruikt kan worden (wij noemen dat de commerciële licentie of professionele licentie). Op die manier kunnen wij gebruikers op de hoogte stellen van nieuwe releases van het model als wij dat model bijvoorbeeld hebben aangepast naar aanleiding van een opt-out verzoek. Dat moet mogelijk voor een symbolisch bedrag (zeg een euro) maar de research licentie wordt praktisch gratis.
Aangepast ter verduidelijking van de open source licentie, 16:15 30-01-2025
Nee, het zit genuanceerder. De broncode is wel volledig open, evenals alle publieke datasets. Om toegang te krijgen tot de weights van het model, gelden er echter restricties. Als je de model weights wil inzetten voor onderzoek of vanuit een toezichthoudersrol wil bestuderen, dan kan dat tegen een nomimale vergoeding*, na registratie. Met die registratie kunnen gebruikers op de hoogte worden gebracht van nieuwe versies van het model. Voor alle andere doeleinden zijn de weights alleen te gebruiken na betaling van de professionele licentie (ook wel: commerciële licentie). Meer lees je in dit artikel over openheid en toegankelijkheid van GPT-NL.
*Er wordt onderzocht in hoeverre de staatssteunregels het toestaan om de onderzoekslicentie gratis of tegen een symbolisch bedrag aan te bieden.
We zijn met de eerste partijen die willen investeren in de doorontwikkeling van GPT-NL gestart met de Feasibility Studies. Er is ruimte om dit kwartaal nog in te stappen, afhankelijk van de use case en capaciteit. Neem hiervoor contact met ons op.
We verwachten de bredere uitrol te doen in de tweede helft van 2026. Dan kan GPT-NL worden afgenomen middels de professionele licentie. We werken ook toe naar een hosted versie van GPT-NL, hierover volgt later meer info.
We verwachten de bredere uitrol te doen in de tweede helft van dit jaar, dat geldt ook voor het gebruik van GPT-NL voor onderzoeksdoeleinden.
Momenteel ligt de focus bij het uitvoeren van de Feasibility Studies en het voorbereiden van de bredere uitrol in de tweede helft van dit jaar. We starten daarom later met actieve acquisitie van content en datasets voor GPT-NL v2.0. Mocht u een grote dataset beschikbaar hebben, kunt u ons dat laten weten middels dit contactformulier.
Onze collega’s leggen de laatste hand aan het opmaken van de publieke dataset zodat deze in Q1-2026 gepubliceerd kan worden op HuggingFace. Over de auteursrechtelijk beschermde content die we hebben gebruikt publiceren we metadata zodat we transparantie kunnen bieden over de samenstelling van de gehele dataset.