Binnen GPT-NL zijn de uitgangspunten van responsible AI cruciaal. Oftewel: hoe kunnen we het taalmodel inzetten en ontwikkelen op een manier die veilig, eerlijk en transparant is? Ethiek en publieke waarden als drijfveer dus, waarbij voor GPT-NL vier kernwaarden zijn geformuleerd. In gesprek met Duuk Baten (adviseur responsible AI bij SURF) en Lieke Dom (consultant responsible innovation & AI bij TNO), die dit thema binnen GPT-NL faciliteren en aanjagen. ‘We willen ons daarin open, eerlijk en kwetsbaar opstellen.’
Responsible AI begint met het vormgeven van je ambitie. Centraal daarin staan vragen als ‘wat wil je bereiken? En ‘waarom doe je wat je doet?’ Het GPT-NL team heeft daarom vier kernwaarden gedefinieerd voor haar werk. Verder werkt het team aan de hand van een aantal commitments, geformuleerd binnen zes thema’s. Deze commitments helpen om de ambities van het GPT-NL-project te verduidelijken en om ervoor zorgen dat onze (publieke) belanghebbenden weten wat ze van ons kunnen verwachten.
Hoe breng je die kernwaarden en commitments in de praktijk?
Duuk: ‘GPT-NL is voor iedereen nieuw en ambitieus tegelijkertijd. Het is een doorlopende zoektocht naar hoe deze kernwaarden en ethiek vorm krijgen. Die waarden zitten bij iedereen top of mind, daarover is geen discussie. Tegelijkertijd zoeken we met elkaar uit hoe we het gaan doen. Hiervoor hebben we bijvoorbeeld bij de start van het project die commitments opgesteld. Het is een aantal uitspraken over de vorm en inhoud van GPT-NL, waarover we rekenschap kunnen afleggen. Ik zie Lieke en mezelf een beetje als de lijm tussen al die stukjes.’
Onze kernwaarden
Soeverein - We bouwen het model volledig zelf op: met Nederlandse data en trainen het op eigen bodem. Ook zorgen we ervoor dat het goed aansluit bij de Nederlandse taal.
Betrouwbaar - We werken aan een model dat stabiel is, ethisch verantwoord, voldoet aan de wet en goed scoort op technische benchmarks voor de kerntaken. Daarnaast gaan we zorgvuldig om met data en de manier waarop we die verzamelen, zodat men kan vertrouwen op een schone dataketen.
Wederkerig - We streven naar co-creatie waar mogelijk. Dataproviders zijn vertegenwoordigd in de content board, en een deel van de opbrengsten van GPT-NL vloeit terug naar deze auteursrechthebbenden. Zo geven we hen een eerlijke plek in de ontwikkeling van technologie.
Transparant - We communiceren open en eerlijk over de keuzes die we maken tijdens het ontwikkelproces.
Terug naar die vier kernwaarden. Schuren die wel eens met elkaar?
Lieke: ‘Ja, waardengedreven werken is een continue spanningsveld. Een voorbeeld is transparantie. Stel: een organisatie levert auteursrechtelijk beschermde teksten. Vanuit deze waarde zou je volledig inzicht willen bieden in de data die gebruikt is, maar de inhoud van auteursrechtelijk beschermd materiaal kunnen we natuurlijk niet zomaar op het internet plaatsen. Wanneer je dus ‘radicaal transparant’ te werk zou gaan, dan zou dat schuren met het beschermen van het auteursrecht en het ideaal dat ook content creators en uitgevers een eerlijke plek in de ontwikkeling van technologie horen te krijgen. We publiceren daarom meta-data over de datasets. Zo balanceren we de waarden transparantie en wederkerigheid in ons project.’
Gaat dat niet ten koste van snelheid?
Duuk: ‘Zeker, we gaan misschien wat langzamer dan andere projecten. Maar dat is een bewuste keuze. We kiezen er bijvoorbeeld voor om alleen auteursrechtelijke data te gebruiken als we daar expliciete toestemming voor hebben. En om de voorwaarden voor het gebruik van deze data op te zetten in samenspraak met de dataproviders. Dat is een morele keuze, die voortkomt uit het idee dat we het écht anders willen doen dan de grote commerciële spelers. En dan is perfectie misschien niet haalbaar, maar ambitieus en integer zijn we wel.’
Lieke: ‘We krijgen ook vaak vragen of we meedoen aan de ‘AI race’. Zelf denk ik niet dat dat een tempo is waar we onszelf aan moeten verhouden, of een maatstaf om onszelf mee te vergelijken. Wat wij doen is op een andere manier technologie ontwikkelen, in samenspraak met de partijen die content aanleveren. Ik hoop dat we daarmee andere partijen ook inspireren dat het anders kan en dat men daarom ook anders naar die snelheid gaat kijken.’
"De kernwaarden zitten bij iedereen top of mind, daarover is geen discussie."
Wat wil je dat mensen onthouden over responsible AI binnen GPT-NL?
Duuk: ‘Dat we continu balanceren tussen waarden. Als je één waarde vooropstelt, heeft dat gevolgen voor de andere. Bijvoorbeeld, omdat we alleen data gebruiken waar we de rechten toe kunnen krijgen, is het lastig data te verzamelen die kleinere groepen representeert. Die afwegingen proberen we bewust te maken en helder te communiceren. Soms lukt dat en soms minder goed. We hopen ook dat gebruikers dat zien en begrijpen.’
Tot slot: jullie faciliteren responsible AI, maar jullie doen het dus niet alleen?
Lieke: ‘Nee, zeker niet. Als GPT-NL straks een succes is, dan komt dat doordat al onze collega’s deze waarden serieus nemen.’
Duuk: ‘Bij SURF zeggen we vaak: responsibility is a practice. Verantwoord werken is iets wat je actief moet doen, als persoon en als team. Lieke en ik zorgen dat die waarden op tafel blijven liggen, maar het is aan iedereen om ze ook echt toe te passen. Eigenlijk is het succes van GPT-NL op dit vlak vooral de verdienste van collega's die het werk verzetten.’
Representatie, bias en inclusiviteit
Eén van de vraagstukken binnen het thema Responsible AI is hoe om te gaan met representatiebias? In de wetenschap is vooral kennis over bias in AI systemen (dus in de toepassing van AI). Er zijn echter nog weinig best practices over het mitigeren van bias in de eerste fase van de ontwikkeling van taalmodellen: het creëren van de dataset.
Om brede inzichten op te halen om de vragen over representatiebias in de eerste ontwikkelfase van GPT-NL te beantwoorden, hebben we in september 2024 twee sessies georganiseerd met experts op het gebied van representatie en discriminatie. Vanuit de gesprekken met deze experts hebben we een aantal aanbevelingen verzameld.