GPT-NL-pionier Selmar Smit: ‘Dit project is een revolutie’

Vorige week ontving GPT-NL een groot aantal artikelen uit kranten van onder meer de grote mediabedrijven DPG en Mediahuis, van andere leden van branche-organisatie NDP Nieuwsmedia en stukken van nieuwsdienst ANP. Het tekent een kantelpunt in de ontwikkeling van AI: het is wereldwijd de eerste keer dat een dergelijke overeenkomst tussen nieuwsuitgevers en ontwikkelaars van AI is gesloten. We spreken daarom met Selmar Smit, één van de grondleggers van GPT-NL, om terug te blikken op de start van het project en de mijlpalen die zijn bereikt. ‘Als we een succesvol en soeverein taalmodel kunnen bouwen dat voldoet aan de wet, is dat een revolutie.’

Selmar, om te beginnen: wanneer werd GPT-NL geboren?
‘Het was een grauwe vrijdagmiddag in de herfst, een jaar of drie geleden. Het moment staat me nog helder voor de geest. Ik stond met Saskia Lensink en Olaf Visker, twee TNO-collega’s, een beetje te sparren en filosoferen. ChatGPT versie 3 was net uit. We hadden het over LLMs, hoe taalmodellen werden ontwikkeld, dat het ons tegenstond hoe privacy en copyrights op grote schaal werden geschonden, en de afhankelijkheid van big tech. Bij partijen waar wij bij TNO mee werken, waaronder overheden in het veiligheidsdomein, zagen we dezelfde zorgen terugkomen. Als je een taalmodel wilt inzetten voor gevoelige rapporten of bij grote criminele dossiers, kan je natuurlijk niet een model gebruiken waarvan je alleen maar kan hopen dat alles goed gaat. We zeiden tegen elkaar: zouden we dit niet zelf kunnen?

‘We concludeerden dat als één partij de kar zou moeten trekken, dan was TNO het. De overheid gaat zoiets niet zelf doen. En grote consultancyfirma’s of bedrijven als ASML of Philips? Veel te duur of niet hun businessmodel. Universiteiten? Nee, het is niet hun core business, zij focussen zich op educatie en onderzoek. Dat geldt in zekere mate ook voor TNO, maar wij zijn gewend langdurige miljoenenprojecten te draaien waarin je tot een daadwerkelijk eindresultaat komt. En dat met een hoger TRL-niveau dan universiteiten. We zijn goed gaan nadenken wie we nodig hebben en hoe we financiering bijeen konden krijgen. Uiteindelijk zijn de samenwerkingen met SURF en NFI een logische stap. Met SURF vanwege de supercomputer Snellius en met het NFI vanwege hun aanvullende expertise en interessante use cases. De rest is geschiedenis.’

En, wordt er geschiedenis geschreven?
‘Nou, een succesvol en soeverein taalmodel bouwen dat voldoet aan de wet is toch wel revolutionair. Big tech bedrijven werken vanuit de gedachte dat het auteursrecht innovatie in de weg staat. Dat merk je aan hun lobby om het auteursrecht niet voor het trainen van AI te laten gelden. Voor sommige data-eigenaren is hun data echt heel veel geld waard. Met GPT-NL zetten we een standaard neer door te laten zien dat wel degelijk een businessmodel kan ontwikkelen waarin iedereen zich kan vinden.’

Hoe hebben jullie dat voor elkaar gekregen?
‘Om alle belangen zoveel mogelijk te dienen, hebben we een Content Board opgezet: een brede vertegenwoordiging van dataproviders die zelf data aanleveren voor GPT-NL. Midden december 2024 heeft de eerste meeting plaatsgevonden. Het betrof een groep data providers die vanaf het begin van GPT-NL nauw betrokken waren bij de ontwikkeling. Toen vervolgens de eerste data-aanbieder zijn handtekening zette, gaf dat ons al een gevoel van: als we nu allemaal onze schouders eronder zetten, kan dit echt slagen. Nu de unieke samenwerking met NDP Nieuwsmedia staat, geven we ook echt een krachtig signaal af dat AI verantwoord en ethisch ontwikkeld kan worden. Het is zo’n moment waarop we merken dat alle puzzelstukjes in elkaar vallen.’

En hoe ziet het businessmodel van GPT-NL er dan uit?
‘We bouwen geen ChatGPT-achtige interface; dat is niet onze taak. Wat wij gaan doen, is licenties uitgeven voor de gewichten van het model. Dit zorgt ervoor dat organisaties zelf hun infrastructuur gebruiken of kiezen om het model te hosten en voor zichzelf op maat te maken. We bieden twee type licenties: onderzoekslicenties worden aangeboden tegen een lage, symbolische prijs. Het is wel verplicht de resultaten met ons te delen. Daarnaast hebben we commerciële licenties waarbij een deel van de inkomsten teruggaat naar de data-aanbieders. Het idee is dus dat je betaalt voor gebruik, maar ook dat we de opbrengsten eerlijk verdelen.’

Ben je nu verzekerd van een groot succes voor GPT-NL?
‘Het succes hangt af van veel factoren, maar zo lang er geen alternatieven zijn voor big tech, blijven we afhankelijk. Zelfs overheden en andere partijen zullen in dat geval geneigd zijn die modellen te blijven gebruiken, hoe slecht ze ook bij onze normen passen. Als wij straks hebben aangetoond dat het wél kan – een succesvol, soeverein taalmodel bouwen zonder privacy of copyrights te schenden – kan dat een enorme verandering teweegbrengen. Dan bewijzen we dat regelgeving zoals de AI Act wel degelijk kan werken.’

"Dit project is meer dan technologie; het gaat over laten zien dat ethiek, innovatie en een solide businessplan samen kunnen gaan."

Is dat ook hoe jullie in het begin partijen aan jullie konden binden?
‘We dachten vanaf de start goed na over een visie. De basis: we moeten met z’n allen niet afhankelijk willen zijn van de processen van big tech. Een toekomstbeeld over digitale soevereiniteit dus. Met dat verhaal ben ik langs ministeries gegaan. Het was één ding om te zeggen: dit is nodig, maar iets anders om hen zover te krijgen om te investeren. De vraag kwam neer op: hebben jullie 13,5 miljoen euro beschikbaar om dit van de grond te krijgen? Het lobbywerk om ministeries en andere partijen te overtuigen was mijn rol in die beginperiode.’

Werkte dat? Was die financiering zomaar beschikbaar?
‘Ja en nee. Het Ministerie van Economische Zaken schreef een aantal jaar geleden een call uit voor onderzoeksfaciliteiten en daarin zagen we een kans. Waarom zou een groot taalmodel geen faciliteit kunnen zijn? Het is immers een infrastructuur die een flinke voorinvestering vraagt voordat je ermee kunt werken, vergelijkbaar met een fysiek lab of een onderzoekscentrum. Dat idee was nieuw, zowel voor ons als voor het ministerie van Economische Zaken (EZ). Er werd in totaal honderden miljoenen toegekend aan verschillende faciliteiten, zoals een systeem voor bestandenuitwisseling in de juridische keten en een KNMI-toren voor klimaatmetingen. Wij zaten bij de top drie en in november 2023 kregen we groen licht. Een euforisch moment, na een jaar lang bijna voltijd aan lobbyen en plannen uitwerken.

‘Het verschil met andere faciliteiten is dat wij veel sneller moesten handelen. Die KNMI-toren duurt bijvoorbeeld jaren om op te bouwen, maar bij GPT-NL wilden we meteen aan de slag. Elk jaar dat je wacht, loop je het risico ingehaald te worden door de realiteit. Dat vroeg om snelheid en om het overwinnen van allerlei hobbels, want zowel EZ als wijzelf moesten alles onderweg leren.’

Noem ‘ns één van die dingen?
‘De juridische kant was nog veel complexer dan we dachten. Als je dit netjes wilt organiseren, kom je al snel in aanraking met staatssteunregels en andere wetgeving. Daarnaast kostte het veel tijd om partijen mee te krijgen, vooral dataleveranciers. Vergelijk het met een startup: je moet als een soort Dragons’ Den investeerders binnenhalen en hen laten geloven in jouw project. Dat hebben we misschien wel onderschat, hoe weerbarstig dat is.’

Tot slot, wat hoop je de komende tijd te bereiken?
‘Eind 2025 moet er een werkend model liggen waarmee we het eerste onderzoek kunnen doen. Het gevoel dat het haalbaar is, begint steeds sterker te worden. Dit project is meer dan technologie; het gaat over laten zien dat ethiek en innovatie samen kunnen gaan. Als dat lukt, hebben we echt iets bijzonders in handen.’