Hoe open wordt GPT-NL?

GPT-NL is een ambitieus project: wij geloven dat technologie betrouwbaar en transparant moet zijn, een wederkerige bijdrage moet leveren, en soevereiniteit van Nederland moet versterken. Vanuit deze kernwaarden willen wij het AI innovatielandschap versterken. In deze reeks artikelen leggen we verder uit hoe we dat gaan doen.

Bij GPT-NL is transparantie en openheid een belangrijke drijfveer. We streven er dan ook naar om zoveel mogelijk van de resultaten van het GPT-NL project openbaar te maken onder een open source licentie. Echter zijn er gevallen waarin openheid en andere belangen schuren (zoals de belangen van auteursrechthebbenden). Het is een grote puzzel om uit te zoeken hoe transparant we kunnen zijn binnen de kaders van regelgeving en veiligheid. Bij GPT-NL wordt een gemengde licentiëring toegepast, wat betekent dat de broncode, de trainingsdataset en de modelgewichten elk onder een aparte licentie zullen vallen. Op deze pagina leggen we je uit wat er wél en wat niet onder een open-source licentie beschikbaar komt.

De data

De tekstdata (ook wel ‘content’) die gebruikt zal worden om GPT-NL te trainen, kunnen we onderverdelen in drie categorieën: private data (auteursrechtelijk beschermde content), publieke data (content met een open-data licentie) en synthetische data (o.b.v. content waarvoor we ofwel de auteursrechtlicentie of wel open-data licentie is verkregen). Omdat de definitieve trainingsdataset dus auteursrechtelijk beschermd materiaal van de contentproviders bevat, zal deze niet volledig open source beschikbaar worden gemaakt. Hieronder leggen we uit welke onderdelen van de trainingsdataset we publiceren.

Private data (auteursrechtelijk beschermd)
Het is de bedoeling om GPT-NL te trainen op basis van hoogwaardige content (vrij van schadelijke en irrelevante inhoud) waarvoor een geldige auteursrechtlicentie is verkregen en die vrij is van onnodige persoonsgegevens. Rondom deze content (private data) is een Content Board opgericht. De Content Board is dus een brede vertegenwoordiging van auteursrechthebbenden die content aanleveren. Vanuit de Content Board hebben zij inspraak over wat er met hun data gebeurt. De auteursrechtelijk beschermde delen van de trainingsdataset kunnen we dus niet openbaar publiceren. Wel publiceren we ‘data sheets’ over deze private datasets. Dit is metadata over de dataset, zodat we wel transparant kunnen zijn over wát voor data we hebben gebruikt (zie bijvoorbeeld Gebru et al. (2021). Datasheets for Datasets).

Publieke data
Naast de private data die wordt bijgedragen door de Content Board, zal GPT-NL worden getraind op basis van openbaar beschikbare hoogwaardige data met een geldige open-data licentie (bijvoorbeeld Creative Commons). Wij zullen deze data opschonen (vrijmaken van schadelijke en irrelevante inhoud en onnodige persoonsgegevens) voordat het verder wordt gebruikt. De publieke datasets zullen we publiceren onder een open-data licentie. Vervolgens zullen we deze samenvoegen met de private data tot één dataset en deze dataset verder klaarmaken voor de training van GPT-NL.

Synthetische data
Waarschijnlijk is de samenvoeging van private en publieke data nog niet voldoende om een kwalitatief model te bouwen. Daarom zullen we ook synthetische data genereren om GPT-NL op te trainen. Hoeveel synthetische data we toevoegen, zullen we dus ook later pas bepalen. Voor het synthetiseren van data, gebruiken we enkel content als input waarvoor de juiste open-data licentie of auteursrechtlicentie is verkregen. We willen voorkomen dat er nieuw materiaal in onze dataset komt, wat is gebaseerd op content waarvoor niet de juiste rechten zijn verkregen voor het trainen van LLMs. Zo voorkomen we dat we auteursrechten schenden door het creëren van synthetische data. We zullen de synthetisch data beschikbaar stellen onder dezelfde licentie van de input-data. Met andere woorden: als we data synthetiseren op basis van publieke data, zullen we dit onder een open-data licentie publiceren. Maar voor gesynthetiseerde data op basis van auteursrechtelijk beschermde content kan dit natuurlijk niet.

Hier lees je meer over het belang van auteursrecht bij de ontwikkeling van taalmodellen.

De broncode en modelgewichten

Het resultaat van het GPT-NL-project is verder de oprichting van een concurrerende Nederlandse LLM die voldoet aan de Europese wetgeving en publieke waarden (GPT-NL). De deliverables zullen bestaan uit de technische broncode van GPT-NL (voor het trainen, het opschonen (cureren) van de data en het draaien van het model) en de modelgewichten die nodig zijn om GPT-NL te gebruiken om antwoorden op prompts te genereren. De broncodes die we zelf ontwikkelen, zullen worden gepubliceerd op de website van GPT-NL en beschikbaar zijn onder een open-source licentie. De modelgewichten worden níet onder een open-sourcelicentie gepubliceerd, maar zijn beschikbaar op verzoek onder één van onze licenties.

Licenties en toegankelijkheid van GPT-NL

Het GPT-NL-project is vanuit een overheidssubsidie (zie Faciliteiten Toegepast Onderzoek) gefinancierd en zal een onderzoeksfaciliteit en een eerste trainingsronde van GPT-NL opleveren. Om GPT-NL in de toekomst te kunnen verbeteren, zijn er echter meerdere trainingsrondes nodig. Na deze initiële subsidie, moet GPT-NL zichzelf in stand moeten kunnen houden en willen we nieuwe trainingsrondes mogelijk maken. Daar zijn inkomsten voor nodig. Met andere woorden: om verdere ontwikkeling van GPT-NL mogelijk te maken, moeten inkomsten worden gegenereerd via licenties (of verdere subsidies). We zijn voornemens twee type licenties aan te bieden voor GPT-NL: een onderzoekslicentie (voor niet-commercieel gebruik) en een zogeheten Professional License.

Vergoeding
Om GPT-NL zo toegankelijk mogelijk te maken, willen we de vergoedingen voor deze licenties zo laag mogelijk houden. Echter zijn we als ontvanger van een overheidssubsidie ook onderworpen aan staatssteunbeperkingen. Dat betekent dat we, op grond van het EU- en Nederlandse recht, licenties moeten aanbieden die in overeenstemming zijn met de marktconforme voorwaarden en licentievergoedingen. We onderzoeken momenteel wat de vergoedingen voor deze licenties daadwerkelijk gaan worden.

Door de modelgewichten via een duale licentie aan te bieden, bouwen we aan een duurzaam verdienmodel waarbij de gebruikers de kosten dragen (en onderzoekers, of niet-commerciële gebruikers, dat niet hoeven te doen). Dit zorgt ervoor dat aanleverende partijen (de Contentproviders) eerlijk gecompenseerd worden voor hun gecreëerde content. Daarnaast verplicht het onderzoeksinstellingen om, in ruil voor praktisch kosteloos gebruik, hun resultaten te delen. Met het GPT-NL project team onderzoeken we of de licenties nog verdere invulling vereisen. Hieronder geven we extra uitleg over de invulling van de licenties zoals we ze nu hebben vormgegeven.

1. Research license

De Research License (onderzoekslicentie) is bedoeld voor toezichthouders en de academische gemeenschap. Zij zullen (tegen een symbolisch bedrag*) een onderzoekslicentie kunnen verkrijgen met specifieke voorwaarden die hun onderzoeksdoeleinden ten goede komen. Voorwaarde in de onderzoekslicentie is dat de onderzoekers feedback geven aan het GPT-NL team op het GPT-NL model door de onderzoeksresultaten te delen. De onderzoekslicentie bevat een clausule die vereist dat GPT-NL uitsluitend mag worden gebruikt in overeenstemming met de Responsible Use Policy. Zo mag GPT-NL niet worden gebruikt om kwaadaardige code te maken of op een manier die leidt tot intimidatie of discriminatie.

De modelgewichten zullen op verzoek downloadbaar zijn onder de onderzoekslicentie. Onderzoekers die de modelgewichten downloaden zullen zich eerst moeten registeren om te borgen dat we hen kunnen informeren wanneer er een nieuwe versie van GPT-NL beschikbaar is, bijvoorbeeld omdat we bepaalde content uit de trainingsdataset hebben moeten verwijderen.

*Er wordt onderzocht in hoeverre de staatssteunregels het toestaan om de onderzoekslicentie gratis of tegen een symbolisch bedrag aan te bieden.

2. Professional license

Voor alle andere gebruiksdoeleinden kunnen gebruikers op GPT-NL de professional license afnemen. Ook deze licentie bevat een clausule die vereist dat GPT-NL uitsluitend mag worden gebruikt in overeenstemming met de Responsible Use Policy. Licentiehouders zullen een licentievergoeding betalen op basis van pay per use. Een deel van de netto licentieopbrengsten zal gebruikt worden voor verdere ontwikkeling van GPT-NL en het GPT-NL project. Het andere deel zal via een verdeelsleutel terugvloeien naar de Contentproviders als compensatie voor de bijdrage van hun auteursrechtelijk beschermde inhoud en de daarmee samenhangende inspanningen en kosten. De Contentproviders kunnen dit ontvangen als financiële uitbetaling of verrekenen met de fee voor de professional license. Zo willen wij auteursrechthebbenden een plek geven in de ontwikkeling van verantwoorde technologie.

De broncode zal worden gepubliceerd op de website van GPT-NL en beschikbaar zijn onder een OS-licentie. De modelgewichten zullen op verzoek downloadbaar zijn onder de professionele licentie. De licentiehouders kunnen de broncode en modelgewichten gebruiken om hun eigen versie van GPT-NL te hosten en verder te trainen. TNO zal geen webversie van GPT-NL hosten voor gebruik door licentienemers.