Open source publicatie van eerste drie code repositories

Met transparantie als één van onze kernwaarden, zijn we open over de ontwikkeling van GPT-NL. Dit omvat onder meer de publicatie van de broncode, de publieke datasets, en metadata over de auteursrechtelijk beschermde content die gebruikt is om het model te trainen.

Recentelijk hebben wij de eerste reeks code repositories open source gepubliceerd. Deze repositories – de datacuratiepijplijn, datacuratiemodules en data-extractie – vormen de basis van het datacuratieproces van GPT NL en zijn nu openbaar toegankelijk op GitHub.

Door deze componenten openbaar te maken, stellen we onderzoekers, ontwikkelaars en instellingen in Nederland en Europa in staat om rechtstreeks samen te werken aan het verbeteren van methoden voor het verzamelen, verwerken en valideren van datasets voor taalmodellen, bijvoorbeeld bij het Europese Horizon Europe-project TrustLLM. Zo versterken we met onze aanpak het ecosysteem van verantwoorde, soevereine en eerlijke AI-ontwikkeling.

Dit is de eerste stap in een bredere open source-roadmap. In de komende maanden zullen we aanvullende componenten uitbrengen, waaronder de trainingspipeline, evaluatiekaders en andere essentiële bouwstenen. Deze releases zullen bijdragen aan een gedeeld, open en soeverein ecosysteem voor Nederlandse en Europese AI.

Data curation pipeline

Python framework to run the curation modules on HPC/SLURM environment.

Data extraction

Extracting data from raw sources into structured GPT-NL format

Data curatie modules

Python modules used for the curation of a GPT-NL text corpus

Hoe open wordt GPT-NL?

Bij GPT-NL is transparantie en openheid een belangrijke drijfveer. We streven er dan ook naar om zoveel mogelijk van de resultaten van het GPT-NL project openbaar te maken onder een open source licentie. Echter zijn er gevallen waarin openheid en andere belangen schuren (zoals de belangen van auteursrechthebbenden). Het is een grote puzzel om uit te zoeken hoe transparant we kunnen zijn binnen de kaders van regelgeving en veiligheid. Bij GPT-NL wordt een gemengde licentiëring toegepast, wat betekent dat de broncode, de trainingsdataset en de modelgewichten elk onder een aparte licentie zullen vallen.

Worden de modelgewichten onder een open-sourcelicentie gepubliceerd?

Nee, de modelgewichten zijn beschikbaar op verzoek onder één van onze licenties. De weights komen beschikbaar onder twee type licenties (voor onderzoeksdoeleinden en niet-onderzoeksdoeleinden). Voor deze niet-onderzoeksdoeleinden (en dus ook commerciële doeleinden) zal een vergoeding worden gevraagd.

De insteek van GPT-NL is altijd geweest om zo min mogelijk drempels op te werpen. Dit houdt in dat alle broncode en alle data die we mogen vrijgeven, openbaar zal worden gepubliceerd onder een open source licentie.

Het GPT-NL-project is vanuit een overheidssubsidie (zie Faciliteiten Toegepast Onderzoek(opent in nieuw venster) (verwijst naar een andere website)) gefinancierd en zal een onderzoeksfaciliteit en een eerste trainingsronde van GPT-NL opleveren. De subsidievoorwaarden stellen dat de kosten voor de instandhouding terugverdiend dienen te worden, dus deze voorwaarden zorgen het ervoor dat we niet zomaar het taalmodel onder een open-source licentie kunnen aanbieden. Om GPT-NL in de toekomst te kunnen verbeteren, zijn er echter meerdere trainingsrondes nodig. Na deze initiële subsidie, moet GPT-NL zichzelf in stand moeten kunnen houden en willen we nieuwe trainingsrondes mogelijk maken. Daar zijn inkomsten voor nodig. Met andere woorden: om verdere ontwikkeling van GPT-NL mogelijk te maken, moeten inkomsten worden gegenereerd via licenties (of verdere subsidies).

Verder lezen