Vind hier de antwoorden op de meest gestelde vragen over GPT-NL
GPT-NL is volop in ontwikkeling. Dat betekent dat er veel nieuwe vragen ontstaan die partners, data contributors, of onze eigen collega's aan ons stellen. Deze vraag-en-antwoord pagina wordt daarom regelmatig met nieuwe vragen en antwoorden aangevuld.
Met de grote taalmodellen van andere aanbieders, zoals ChatGPT van OpenAI of Gemini van Google, kun je ook in het Nederlands interacteren, maar er is een belangrijk verschil. Taalmodellen van Amerikaanse aanbieders zijn voornamelijk getraind op Engelstalige data. De hoeveelheid Nederlandse data beslaat slechts een fractie van de gehele dataset, en is waarschijnlijk niet van hoge kwaliteit omdat het gescrapte internetdata betreft. Bij GPT-NL wordt het model volledig op Nederlandstalige bronnen getraind, en Engelstalige bronnen uit Nederland. Op deze manier zit ook Nederlandse cultuur in het taalmodel verwerkt.
Voor het bouwen van een groot (taal)model is veel rekenkracht nodig. Je bouwt geen taalmodel op een laptop die je gewoon in het stopcontact steekt: je hebt een supercomputer nodig die de nodige rekenkracht heeft om het model te trainen. Zo’n supercomputer gebruikt veel energie – zowel om zelf te draaien maar ook om gekoeld te worden. Hierdoor zorgt de trainingsfase van een taalmodel voor een groot deel van de impact die de ontwikkeling van GPT-NL kan hebben op het milieu. Er zijn verschillende manieren om energie-efficiënt te werk te gaan en zo de uitstoot te beperken.
Ten eerste wordt GPT-NL getraind op Snellius, de nationale supercomputer(opent in nieuw venster) (verwijst naar een andere website). Snellius staat hoog genoteerd in de Green500 ranking(opent in nieuw venster) (verwijst naar een andere website), met name door energiezuinige koeling. Ook dragen we bij aan het verminderen van onze energievoetafdruk door efficiënt te programmeren. Dat betekent dat we de start van de training goed afweging tegenover de hoeveelheid data die we hebben om te voorkomen dat we energie gebruiken voor een model dat op een te kleine dataset is getraind en daarna veel iteraties vereist. Tot slot zullen wij een kleine dataset hebben in vergelijking met bijvoorbeeld GPT-4 van OpenAI. Doordat we kwalitatieve data zoeken die zich toespitst op de Nederlandse taal en cultuur, kunnen we met een kleinere dataset een taalmodel ontwikkelen die goed en doelmatig werkt. Hierdoor zal de uitstoot bij de ontwikkeling en het gebruik van GPT-NL dan ook lager zijn dan bij het gebruik van extreem grote taalmodellen.
We nemen het auteursrecht uiterst serieus. Voor elke potentiële databron doen wij een analyse of we de bron kunnen gebruiken op basis van wat de Nederlandse Auteurswet voorschrijft. Om toestemming te krijgen voor het gebruik van bepaalde data in onze trainingset maken we afspraken met de directe eigenaar van de data of met een partij die de rechten heeft deze data rechtmatig met ons te delen ten behoeve van het trainen van het model.
Financiering van het model is afkomstig vanuit RVO/Ministerie van EZK. Het projectplan “Faciliteit voor een soeverein Nederlands taalmodel” is hiervoor in mei 2023 ingediend en eind oktober 2023 gegund. Voor het project is een bedrag van 13,5 miljoen euro beschikbaar gesteld. Lees de officiële bekendmaking hier.
Wij zijn actief op zoek naar diverse datasets om het model zo inclusief mogelijk te maken. Denk bijvoorbeeld aan datasets in het Vlaams of in de Friese taal, en data van of over groepen die doorgaans in de minderheid zijn, zoals data van/over de LGBTQ-community of van/over mensen met een fysieke of verstandelijke beperking. Heb je een idee hoe we onze dataset meer divers kunnen maken? Neem contact met ons op via email of vul ons Data Acquisition formulier in(opent in nieuw venster) (verwijst naar een andere website).
We zullen de data door de data contributors of door onszelf bewerken zodat GPT-NL aan de AVG voldoet. Vanuit GPT-NL bieden we ondersteuning en methodes om de dataset op een juiste manier op te schonen zodat het met ons gedeeld kan worden om GPT-NL te trainen.
Wanneer de dataset eenmaal is opgeschoond, zullen wij nog een extra check doen om op persoonlijke, confidentiële of sensitieve gegevens te controleren. Deze review zal deels geautomatiseerd en deels manueel van aard zijn.
GPT-NL heeft een aantal voordelen boven de bekende modellen zoals ChatGPT, Llama, of Gemini. Hieronder zijn er een aantal belangrijke gegeven:
- In tegenstelling tot de openbare, Nederlandse internetdata die door Amerikaanse partijen zijn gebruikt om hun taalmodel in het Nederlands te laten presteren, wordt GPT-NL getraind op een Nederlandse dataset van hoge kwaliteit data. Daarnaast bouwen we het taalmodel in lijn met Europese en Nederlandse normen en waarden.
- GPT-NL draagt zorg voor transparantie, bescherming van intellectueel eigendom en bescherming van persoonsgegevens. Zo kunt u erop vertrouwen dat u, als gebruiker van GPT-NL, straks werkt met een schone dataketen.
- GPT-NL maakt een positieve impact zonder winstoogmerk.
- De Europese AI Act is geaccepteerd. Deze wetgeving schrijft regels voor met betrekking tot transparantie, ook tijdens het trainingsproces. Wij ontwikkelen GPT-NL vanaf de grond af aan compliant met de AI Act.
De rechten op de dataset blijven altijd bij u of uw organisatie als data contributor. Ook zal de data alleen worden gebruikt voor de doeleinden van GPT-NL. Voor de praktische stappen die de data zal doorlopen vind je hier meer gedetailleerde informatie(opent in nieuw venster) (verwijst naar een andere website).
Momenteel werken we aan de concrete uitwerking van de voorwaarden voor data contributies, de licentievoorwaarden voor het gebruik van GPT-NL, data management en data privacy. Onze doelstelling is om deze in Q4 van dit jaar te publiceren. Op dat moment kunnen de afspraken met data contributors worden vastgelegd en ondertekend door beide partijen.
Dat betekent niet dat de dataverzameling stilstaat tot deze voorwaarden concreet zijn: samen met potentiële data contributors verkennen we onder welke voorwaarden de data onderdeel kan worden van de trainingset. Op deze manier zorgen we dat zoveel mogelijk data meegenomen kan worden en we ons tegelijkertijd houden aan de criteria voor een dataset. We noemen deze verkenning de Data Viability Check.
Heeft u of uw organisatie data die relevant kunnen zijn voor GPT-NL? Dan willen wij u vragen om onze Data Viability vragenlijst in de te vullen, dat kan via deze enquête(opent in nieuw venster) (verwijst naar een andere website). Zo kunnen wij in kaart brengen of we de data direct kunnen gebruiken voor het trainen van GPT-NL, of dat er eerst een aantal zaken geregeld moeten worden zoals het verwijderen van persoonsgegevens. Komt u er niet uit? Neem dan contact met ons op. We helpen graag en zijn bereid een gesprek aan te gaan om de mogelijkheden te bespreken.
Een data-gedreven (taal)model is uiteindelijk zo kwalitatief als de data waarop het is getraind. In een groot model is veel kennis vastgelegd, gebaseerd op wat het model gezien heeft tijdens training. Als we het model nuttig willen maken voor bijvoorbeeld de educatieve sector dan is het belangrijk dat we data hebben die gaat over het onderwijs. Hierbij kan je denken aan artikelen over het onderwijs in Nederland, schoolreglementen, schoolboeken, of essays gemaakt door studenten. Daarom is het belangrijk dat we niet alleen een grote, maar ook een brede dataset hebben.
We willen dat GPT-NL breed toepasbaar is en nuttig voor zoveel mogelijk mensen. Daarom zijn we benieuwd naar typen gebruik of usecases die voor jou (of jouw sector) belangrijk is. Je kan hiervoor contact met ons opnemen. Kan je (mogelijk) een dataset aandragen? Dan kan je dat aangeven via deze survey.
We zijn op het moment druk bezig met het opstellen van de exacte voorwaarden. Het uitgangspunt van GPT-NL is om enkel de kosten van onderhoud te dekken. Het gaat mogelijk zijn het model te gebruiken voor onderzoek, commerciële en niet-commerciële applicaties.