AI-expert Lokke Moerel: “GPT-NL is een kans voor Europa”

Met GPT-NL willen we auteursrechthebbenden een eerlijke plek geven in de ontwikkeling van het Nederlandstalige groot taalmodel. Dat betekent dat we concrete invulling geven aan onze kernwaarden. Waar auteursrechtelijk beschermde content wordt gebruikt, wordt geborgd dat de rechthebbenden ook een eerlijke vergoeding voor hun bijdragen verkrijgen. In samenwerking met de providers van auteursrechtelijk beschermde content (de Content Board) hebben we een passend verdienmodel ontwikkeld.

Foto Lokke Moerel

Het ontwikkelen van een passend verdienmodel vereist ook juridische expertise. Op dit onderwerp hebben we samengewerkt met Lokke Moerel en Marijn Storm. Beiden zijn werkzaam als advocaat bij Morrison & Foerster. Hun expertise ligt op het snijvlak van technologie, wetgeving en ethiek. Lokke Moerel combineert haar werk als advocaat met haar positie als hoogleraar Global ICT Law aan Tilburg University. In samenwerking met hen konden we de juridische randvoorwaarden verkennen die horen bij het ontwikkelen van GPT-NL, in het bijzonder de privacyregels en de rechten en belangen van auteursrechthebbenden.

De advisering door Lokke en Marijn bleek een onmisbare schakel in het mogelijk maken van GPT-NL. In een uitgebreid gesprek spreken we met Lokke over hun bijdrage aan het project, een veranderend innovatielandschap en wat anderen van GPT-NL kunnen leren. “GPT-NL is een kans voor Europa”.

Om te beginnen Lokke, hoe is het voor jou om aan GPT-NL te werken?

De bevlogenheid van Lokke spreekt boekdelen. “Het is noodzakelijk dat we in Europa eigen technologie ontwikkelen binnen de kaders van onze wetten en publieke waarden. Dat is echt een vak apart en vergt innovatie. Ik vind het dus te gek dat TNO, SURF en NFI het met GPT-NL gewoon doen. En dat ik me daarmee mag bemoeien!”

Waarom vind je GPT-NL zo’n vak apart?

Lokke licht toe. “Een large language model ontwikkelen dat op onze wetgeving en normen en waarden is gebaseerd, dat is makkelijker gezegd dan gedaan. Er is sprake van open normen die moeten worden toegepast op nieuwe technologie. Neem bijvoorbeeld het recht op privacy. De AVG vereist dat je data minimalisatie toepast en privacy-by-design maatregelen treft. Om de privacy te beschermen wil je een LLM zoveel als mogelijk trainen op geanonimiseerde content. Maar je kan training content niet zomaar anonimiseren door alle namen en andere identificerende gegevens weg te filteren of deze te vervangen door een kruisje. Als je dat doet, raakt de context in de teksten waarop de LLM wordt getraind verloren en kan een LLM dus ook niet goed getraind worden. Daarvoor moet je trainingscontent dus contextueel kunnen anonimiseren, dat is al een innovatie op zich. We zien dat TNO al door andere Europese landen wordt benaderd hoe ze dit nu precies voor elkaar hebben gekregen.”
“Daarnaast wil je dat het model vragen kan beantwoorden over publieke personen, zoals wie onze koning of de huidige secretaris van de NAVO is. Maar wie kwalificeert precies als een publiek persoon? Je voelt intuïtief aan dat vervolgens niet alle gegevens van publieke personen dan gebruikt kunnen worden voor training van de LLM. Voor het trainen van GPT-NL is de keuze gemaakt om alleen bekende personen die een eigen Wikipedia-pagina hebben te kwalificeren als publieke persoon en dan alleen informatie te gebruiken dat direct verband houdt met hun publieke functie. Dus gevoelige gegevens van deze publieke personen, zoals emailadressen, locatiegegevens, bankgegevens, zullen altijd worden gescrubd (verwijderd, red.).”

Je hebt het over open normen en nieuwe technologie en het verkennen van juridische randen. Wat zijn de implicaties van de relatief nieuwe AI Act voor GPT-NL?

“De AI Act is risico-gebaseerde wetgeving die systemen op basis van hun risicoprofiel reguleert met bepaalde verplichtingen. LLMs zijn een general purpose technologie en nog geen op zichzelf staand AI-systeem waarmee interactie met eindgebruikers mogelijk is. Voor LLMs geldt een specifiek regime waarbij de maker van zo’n taalmodel verplicht is om de juiste technische en andere documentatie (zoals een copyright policy en de gebruikte bronnen van training data) aan te leveren waardoor derden vervolgens er een AI-systeem van kunnen maken. Deze derden zijn dan verantwoordelijk om te beoordelen of hun toepassing hoog risico is of niet.”
“GPT-NL wordt volledig in overeenstemming met de vereisten voor LLMs onder de AI Act ontwikkelt. De AI Act schrijft echter niet voor hoe de privacy moet worden geborgd bij het verzamelen en opschonen van de trainingscontent en hoe je auteursrechten honoreert. De AI Act is dus relevant, maar het is vooral de GDPR en het copyright (auteursrecht, red.) waarbij we moeten onderzoeken wat er wel en niet kan.”

Denk je dat GPT-NL het verschil kan maken?

Lokke’s antwoord is duidelijk: het moment voor GPT-NL is nu. Niet alleen voor de soevereiniteit van Nederland, maar ook voor die van Europa. “Er zijn veel dingen waar ik Europa op korte termijn geen competitief alternatief voor zie ontwikkelen, zoals bepaalde clouddiensten van de Amerikaanse hyperscalers. Maar op dit vlak ligt echt een kans om in control te blijven. Ten eerste omdat de data hier is en blijft. Ten tweede, hoe beter de big tech LLMs worden, hoe duurder de licenties. We moeten nog maar zien of ons MKB, non-profit, of onze educatiesector dat nog kunnen betalen. Het is dus niet alleen belangrijk dat we een verantwoord alternatief bieden, maar ook dat we het betaalbaar kunnen houden. Dat kan alleen als we zelf grip hebben op de ontwikkeling. Tot slot, maar niet minder belangrijk: het Nederlands is een relatief klein taalgebied en daarmee geen prioriteit voor buitenlandse aanbieders. Doordat het GPT-NL model wordt getraind op originele Nederlandstalige teksten van hoge kwaliteit, kunnen de finesses van de Nederlandse taal beter worden geborgd.”

Eerlijk en soeverein

Vanuit haar rol spreekt Lokke veel ontwikkelaars van technologie. Toch springt GPT-NL er voor haar uit. “Hoe de gezamenlijke uitgevers zijn betrokken bij het GPT-NL project, hoe er in nauw overleg een verdienmodel is afgesproken, en hoe de licentieovereenkomsten zijn opgesteld om misbruik van hun content te voorkomen, heb ik nog niet eerder gezien. Nederland is het eerste land waar het is gelukt om echt met alle uitgevers afspraken te maken over gebruik van hun content. Het is dus echt te gek dat we met GPT-NL daadwerkelijk een alternatief ontwikkelen waarmee Nederland laat zien dat innovatie eerlijker en soeverein kan.”

De Content Board

De Content Board bestaat uit de data providers voor GPT-NL, zie het als een soort vereniging of belangenvertegenwoordiging van de auteursrechthebbenden die hun data ter beschikking hebben gesteld voor het trainen van GPT-NL. Vanuit de Content Board hebben auteursrechthebbenden inspraak over de toekomst van GPT-NL. Zo, zetten we samen een stap in de richting naar een eerlijker AI innovatielandschap.

Een passend verdienmodel

De leden van NDP Nieuwsmedia hebben zich aangesloten voor de verdere ontwikkeling van GPT-NL. Zij stellen een omvangrijk deel van het archief van nieuwsartikelen van meer dan 30 landelijke en regionale nieuwstitels beschikbaar om het taalmodel verder te trainen. Ook persbureau ANP sluit zich aan bij het collectief. Het is wereldwijd de eerste keer dat nieuwsuitgevers op deze manier samenwerken met een organisatie die een AI-model ontwikkelt.