Vind hier de antwoorden op de meest gestelde vragen over GPT-NL
GPT-NL is volop in ontwikkeling. Dat betekent dat er veel nieuwe vragen ontstaan die partners, data contributors, of geïnteresseerden aan ons stellen. Deze vraag-en-antwoord pagina wordt daarom regelmatig met nieuwe vragen en antwoorden aangevuld.
Nee, het zit genuanceerder. De broncode is wel volledig open, evenals alle publieke datasets. Om toegang te krijgen tot de weights van het model, gelden er echter restricties. Als je de model weights wil inzetten voor onderzoek of vanuit een toezichthoudersrol wil bestuderen, dan kan dat tegen een nomimale vergoeding*, na registratie. Met die registratie kunnen gebruikers op de hoogte worden gebracht van nieuwe versies van het model. Voor alle andere doeleinden zijn de weights alleen te gebruiken na betaling van de professionele licentie (ook wel: commerciële licentie). Meer lees je in dit artikel over openheid en toegankelijkheid van GPT-NL.
*Er wordt onderzocht in hoeverre de staatssteunregels het toestaan om de onderzoekslicentie gratis of tegen een symbolisch bedrag aan te bieden.
De insteek van GPT-NL is altijd geweest om zo min mogelijk drempels op te werpen. Dit houdt in dat alle broncode en alle data die we mogen vrijgeven, openbaar zal worden gepubliceerd onder een open source licentie. De subsidievoorwaarden stellen dat de kosten voor de instandhouding terugverdiend dienen te worden dus zorgt het ervoor dat we niet zomaar het taalmodel onder een open-source licentie kunnen aanbieden. De weights van het model worden nagenoeg gratis vrijgegeven voor research doeleinden. Voor niet-research doeleinden (en dus ook commerciële doeleinden) zal een vergoeding worden gevraagd.
Vraag toegevoegd ter verduidelijking van de open source licentie, 16:16 30-01-2025
We zijn op het moment druk bezig met het opstellen van de exacte voorwaarden. Het uitgangspunt van GPT-NL is om enkel de kosten van instandhouding te dekken. Het gaat mogelijk zijn het model te gebruiken voor onderzoek, commerciële en niet-commerciële applicaties.
Er wordt uitgezocht in hoeverre de regels van staatsteun ons toestaan om de research licentie gratis of tegen een symbolisch bedrag aan te bieden. GPT-NL dient te weten wie de gebruikers zijn van de licenties. Dit geldt zowel voor de research licentie als de licentie die voor andere doeleinden gebruikt kan worden (wij noemen dat de commerciële licentie of professionele licentie). Op die manier kunnen wij gebruikers op de hoogte stellen van nieuwe releases van het model als wij dat model bijvoorbeeld hebben aangepast naar aanleiding van een opt-out verzoek. Dat moet mogelijk voor een symbolisch bedrag (zeg een euro) maar de research licentie wordt praktisch gratis.
Aangepast ter verduidelijking van de open source licentie, 16:15 30-01-2025
Er zal een professional license (commerciële licentie) en een research license worden uitgegeven, deze laatste is strikt voor wetenschappelijk- en toegepast onderzoek binnen organisaties gericht op de ontwikkeling van wetenschap, uitvoering van educatie en wetenschappelijk onderzoek, of beide. Een onderzoeksinstituut kan ook worden aangeduid als (expertise)centrum, kenniscentrum of -instituut, onderzoekscentrum, researchinstelling of universiteit. Gebruik voor bedrijfsvoering binnen een onderzoeksinstituut valt buiten deze licentie. Daarnaast heeft de research licentie de verplichting tot openbaar maken van alle resultaten. Meer info lees je op deze pagina.
Voor het bouwen van een groot (taal)model is veel rekenkracht nodig. Je bouwt geen taalmodel op een laptop die je gewoon in het stopcontact steekt: je hebt een supercomputer nodig die de nodige rekenkracht heeft om het model te trainen. Zo’n supercomputer gebruikt veel energie – zowel om zelf te draaien maar ook om gekoeld te worden. Hierdoor zorgt de trainingsfase van een taalmodel voor een groot deel van de impact die de ontwikkeling van GPT-NL kan hebben op het milieu. Er zijn verschillende manieren om energie-efficiënt te werk te gaan en zo de uitstoot te beperken.
Ten eerste wordt GPT-NL getraind op Snellius, de nationale supercomputer(opent in nieuw venster) (verwijst naar een andere website). Snellius staat hoog genoteerd in de Green500 ranking(opent in nieuw venster) (verwijst naar een andere website), met name door energiezuinige koeling. Ook dragen we bij aan het verminderen van onze energievoetafdruk door efficiënt te programmeren. Dat betekent dat we de start van de training goed afweging tegenover de hoeveelheid data die we hebben om te voorkomen dat we energie gebruiken voor een model dat op een te kleine dataset is getraind en daarna veel iteraties vereist. Tot slot zullen wij een kleine dataset hebben in vergelijking met bijvoorbeeld GPT-4 van OpenAI. Doordat we kwalitatieve data zoeken die zich toespitst op de Nederlandse taal en cultuur, kunnen we met een kleinere dataset een taalmodel ontwikkelen die goed en doelmatig werkt. Hierdoor zal de uitstoot bij de ontwikkeling en het gebruik van GPT-NL dan ook lager zijn dan bij het gebruik van extreem grote taalmodellen.
We nemen het auteursrecht uiterst serieus. Voor elke potentiële databron doen wij een analyse of we de bron kunnen gebruiken op basis van wat de Nederlandse Auteurswet voorschrijft. Om toestemming te krijgen voor het gebruik van bepaalde data in onze trainingset maken we afspraken met de directe eigenaar van de data of met een partij die de rechten heeft deze data rechtmatig met ons te delen ten behoeve van het trainen van het model. Meer lees je op deze pagina.
De rechten op de dataset blijven altijd bij de auteursrechthebbenden. Ook zal de data alleen worden gebruikt voor de doeleinden van GPT-NL.Hier lees je meer over het auteursrecht.
Financiering van het model is afkomstig vanuit RVO/Ministerie van EZK. Het projectplan “Faciliteit voor een soeverein Nederlands taalmodel” is hiervoor in mei 2023 ingediend en eind oktober 2023 gegund. Voor het project is een bedrag van 13,5 miljoen euro beschikbaar gesteld. Lees de officiële bekendmaking hier.
Wij zijn actief op zoek naar diverse datasets om het model zo inclusief mogelijk te maken. Denk bijvoorbeeld aan datasets in het Vlaams of in de Friese taal. Of data van of over groepen die doorgaans in de minderheid zijn, zoals de LGBTQ-community, of mensen met een fysieke of verstandelijke beperking. Ook hebben wij twee sessies georganiseerd om van externe experts inzichten te verzamelen over hoe om te gaan representatie (en representatiebias) in een dataset voor taalmodellen.
Heb je een idee hoe we onze dataset meer divers kunnen maken? We gaan hier graag over in gesprek. Neem contact met ons op via info@gpt-nl.nl of via het contactformulier.
Met de grote taalmodellen van andere aanbieders, zoals ChatGPT van OpenAI of Gemini van Google, kun je ook in het Nederlands interacteren, maar er zijn drie belangrijke verschillen.
- De taalmodellen van huidige aanbieders zijn getraind op grote hoeveelheden teksten die niet rechtmatig verkregen zijn. Voor het trainen van GPT-NL gebruiken we alleen data als we daar de juiste rechten voor hebben. Meer hierover lees je in ons artikel over het auteursrecht.
- Omdat deze aanbieders niet transparant zijn over de dataset, kunnen we niet weten welke data is gebruikt om het model te trainen. We weten dus ook niet wat voor Nederlandse data is gebruikt, en of dit om kwalitatieve data gaat. Bij GPT-NL zijn we daarom transparant over welke data we gebruiken. Meer lees je op deze pagina.
- Hoewel we dus bij deze modellen geen inzicht hebben in de data, is het vermoeden dat dit voornamelijk Engelse of vertaalde teksten betreft. Hierdoor kan het zijn dat deze modellen nuances van Nederlandse taal en cultuur verliezen, die voor sommige toepassingen noodzakelijk zijn.
Antwoord aangepast ter verduidelijking op 7 maart 2025.
We zullen de data door de data contributors en door onszelf bewerken (cureren) zodat GPT-NL aan de AVG voldoet.
- Vanuit GPT-NL bieden we eerst ondersteuning en methodes aan data contributors om de dataset op een juiste manier op te schonen zodat het met ons gedeeld kan worden om GPT-NL te trainen.
- Wanneer de dataset eenmaal is opgeschoond, zullen wij nog een extra check doen om op persoonlijke, confidentiële of sensitieve gegevens te controleren. Deze review zal deels geautomatiseerd en deels manueel van aard zijn.