Soeverein
De opkomst van ‘large language models’ heeft veel teweeg gebracht. Voor organisaties is innovatie een stuk toegankelijker geworden, maar we zien ook nieuwe problemen ontstaan. Zo zijn er zorgen over de juridische en ethische aspecten van huidige ontwikkelingen en aanbieders, aangezien de meeste modellen door buitenlandse big tech worden ontwikkeld. Met de introductie van GPT-NL heeft Nederland straks een eigen taalmodel en ecosysteem.
Open en transparant
GPT-NL wordt op een zo transparant mogelijke manier ontwikkeld. Dat betekent dat we transparant zijn over de keuzes die tijdens de datacuratie en het trainingsproces worden gemaakt. Hiermee houden we ook expliciet rekening met uitdagingen rondom vooroordelen, bias en ethische kaders. Daarnaast zijn we zo open als mogelijk binnen de kaders van regelgeving en veiligheid. Alle broncode en alle data die we mogen vrijgeven worden openbaar gepubliceerd onder een open source licentie. Dit geldt iets anders voor de gewichten: deze stellen we als download beschikbaar op verzoek. De subsidievoorwaarden stellen namelijk dat de kosten voor de instandhouding terugverdiend dienen te worden, daarom kunnen we niet zomaar de gewichten van het taalmodel onder een open-source licentie aanbieden. Voor niet-research doeleinden (en dus ook commerciële doeleinden) zal daarom een vergoeding worden gevraagd. Echter zullen we voor researchdoeleinden de gewichten nagenoeg gratis vrijgeven.
Op deze pagina lees je er alles over.
Betrouwbaar
Bescherming van gebruikers en burgers
We bieden de gewichten van het model via een licentie op verzoek aan omdat we moeten weten wie de afnemers zijn van GPT-NL. We zijn namelijk verplicht om iedereen op de hoogte te kunnen stellen wanneer er een nieuw model is getraind, bijvoorbeeld na een opt-out verzoek. Zo draagt GPT-NL bij aan meer openheid, transparantie en bescherming van de dataprivacy van gebruikers.
Dataverzameling from scratch
We zullen state-of-the-art modelarchitectuur hergebruiken, maar de training zelf doen we helemaal from scratch om te voorkomen dat er onbekende factoren van eerdere modellen worden geërfd, zoals copyrightschendingen of het onrechtmatig gebruik maken van persoonsgegevens. Hierbij houden we ons aan de volgende 5 criteria voor een eerlijke dataset:
- Bescherming van intellectueel eigendom
We gebruiken alleen data voor het trainen van GPT-NL als de data provider de juiste rechten heeft om ons een licentie te verlenen voor het gebruik van de data. Dit betekent dat de data provider de eigenaar moet zijn van eventuele auteursrechten of databaserechten in de dataset, of geldige licentierechten moet hebben gekregen van de eigenaar. - Bescherming van persoonsgegevens
We trainen GPT-NL niet op persoonsgegevens, met uitzondering van niet-publieke personen. Dit is nodig om het model basiskennis mee te geven, en in lijn met de AVG. - Uitsluiten van informatie onder vertrouwelijkheidseisen
We trainen GPT-NL niet op informatie die onderworpen is aan wettelijke of contractuele vertrouwelijkheidseisen, zoals informatie onder patiëntengeheim of bedrijfsvertrouwelijke gegevens. - Uitsluiten van schadelijke inhoud
We trainen GPT-NL niet op enige schadelijke inhoud, zoals gewelddadige of criminele inhoud, discriminerende inhoud of haatzaaiende uitlatingen. - Vermijden van duplicaties in de dataset
We willen duplicaties zoveel mogelijk vermijden om letterlijke memorisatie door GPT-NL te voorkomen, of om te voorkomen dat GPT-NL voorkeuren ontwikkelt op basis van dergelijke duplicaties.
Wederkerig
Door de dataverzameling from scratch te doen, streven we naar een schone dataketen. We gebruiken dus alléén data als we die rechtmatig hebben kunnen verkrijgen. We doen dit in dialoog met dataproviders. Hiervoor is de Content Board opgericht. Dit is een brede vertegenwoordiging van data providers voor GPT-NL, zie het als een soort vereniging of belangenvertegenwoordiging van de auteursrechthebbenden die hun data ter beschikking hebben gesteld voor het trainen van GPT-NL. Vanuit de Content Board hebben auteursrechthebbenden inspraak over de toekomst van GPT-NL.
Door al onze data zelf te verzamelen, gesprekken aan te gaan met auteursrechthebbenden en een zorgvuldig proces te waarborgen, verkleinen we de kans op inbreuk van rechten van derden. Hiermee willen we auteursrechthebbenden een eerlijke plek geven in de ontwikkeling van technologie, en hopen we een inspiratie te zijn voor andere initiatieven. Zo, zetten we samen een stap in de richting naar een eerlijker AI innovatielandschap.
Lees hier meer over onze samenwerking met auteursrechthebbenden en data providers.
Duurzaamheid
Wij houden rekening met duurzaamheid en CO2-uitstoot en moeten verantwoordelijk zijn in ons gebruik van hulpbronnen en grondstoffen die nodig zijn voor de ontwikkeling van GPT-NL, zoals energie en water.
We werken toe naar het meest energie-efficiënte taalmodel dat we kunnen bouwen op basis van wetenschappelijk onderzoek. Hierbij kijken we kritisch naar zowel de omvang die het model zou moeten hebben, alsmede hoe de training en implementatie van GPT-NL kunnen worden geoptimaliseerd.
Pagina aangepast ter verduideling van open source, 16:40 30-01-2025.
Laatste update: 18-03-2025
Financiering
Financiering is afkomstig vanuit RVO/Ministerie van EZK. Het projectplan “Faciliteit voor een soeverein Nederlands taalmodel” is hiervoor in mei 2023 ingediend en eind oktober 2023 gegund. Voor het project is een bedrag van 13,5 miljoen euro beschikbaar gesteld. Lees de officiële bekendmaking hier .