Datacuratie: spin in het GPT-NL web

Non-profitorganisaties TNO, NFI en SURF hebben inmiddels bijna een jaar geleden de krachten gebundeld om GPT-NL te ontwikkelen. In deze periode is er veel gebeurd. Dit najaar duiken we aan de hand van een reeks artikelen in de achtergrond en context van GPT-NL. We schetsen de stappen die we nemen om uiteindelijk een transparant, eerlijk en controleerbaar taalmodel te ontwikkelen waarmee Nederland wordt voorbereid op de toekomst.

datacuratie GPT-NL

In de ontwikkeling van een succesvol taalmodel voor de Nederlandse taal en cultuur, zijn verschillende elementen cruciaal. Datacuratie is er zonder twijfel één van. Wat is datacuratie precies? En waarom is dat zo belangrijk? Dominique Blok uit het data science team van TNO houdt zich er dagelijks mee bezig. De taalwetenschapper, expert in natural language processing, vertelt meer over het fenomeen datacuratie.

Allereerst de definitie van datacuratie. Of specifieker: wat betekent datacuratie binnen GPT-NL? Kort gezegd komt het neer op het ‘opschonen’ van alle data die wordt verkregen. Daar komt veel bij kijken, zoals taaldetectie en het filteren van duplicatie. De data waarmee uiteindelijk een inclusief, divers en representatief taalmodel wordt getraind. Datacuratie is binnen GPT-NL een belangrijke schakel tussen de verzameling van rauwe data en het daadwerkelijke trainen van het model. Deze drie kunnen logischerwijs niet zonder elkaar.

Persoonlijk Identificeerbare Informatie
‘Dat we niet zomaar alle data kunnen en willen gebruiken, zal duidelijk zijn’, vertelt Dominique. ‘In tegenstelling tot een partij als OpenAI trekken we immers niet zomaar het hele internet leeg. Maar datacuratie gaat verder dan het respecteren van privacy of auteursrechten, het gaat ook om de bruikbaarheid van de data voor de performance van het model. Van een tekst die bijvoorbeeld alleen maar uit cijfers bestaat, weet je direct: dit is geen bruikbare tekst voor GPT-NL. Het wordt al ingewikkelder als je bijvoorbeeld alleen BSN-nummers of mobiele telefoonnummers eruit wilt filteren. Je wilt namelijk niet álle negencijferige of tiencijferige nummers eruit halen. Dan weet zo’n model op een geven moment niet meer wat een getal is. Hetzelfde geldt ook voor andere soorten zogenaamde Persoonlijk Identificeerbare Informatie, ook wel PII genoemd. We willen aan de voorkant al PII voorkomen, door onze dataproviders te vragen of er PII in hun dataset zit, en daarna zoveel mogelijk PII uit de data verwijderen. Maar: wil je dan ook bekende en publieke personen eruit filteren? Dan weet zo’n model straks niks over onze geschiedenis, of ontbreekt begrip van hoe de wereld in elkaar steekt. Je merkt al: hoe verder we deze trechter ingaan, hoe complexer de vraagstukken worden.’

Dominique Blok: ‘Openheid en communicatie over je data zijn enorm belangrijk’

Reg ex
Een interessante uitdaging dus, voor Dominique en haar team. Eén van de toegepaste datacuratiemethoden is gebaseerd op reguliere expressies (ook wel ‘regex’ of ‘reg ex’). Dat zijn krachtige patronen die gebruikt worden om tekst te zoeken, te matchen of te manipuleren. Ze bestaan uit een combinatie van gewone tekens en speciale symbolen die een specifieke reeks tekens beschrijven. Regex wordt vaak gebruikt in programmeertalen en tools om bijvoorbeeld e-mailadressen, specifieke woorden of patronen in grote hoeveelheden tekst te vinden of te vervangen.

NER
Een andere methode die Dominique en collega’s inzetten, is gebaseerd op Named Entity Recognitiën (NER). Dit is een techniek binnen natuurlijke taalverwerking die automatisch specifieke entiteiten, zoals namen van personen, plaatsen, organisaties of datums, in tekst herkent en labelt. Het helpt bij het structureren van ongestructureerde data door relevante informatie te identificeren. NER wordt al vaker gebruikt in toepassingen zoals zoekmachines, chatbots of bij het analyseren van grote hoeveelheden tekst voor belangrijke gegevens. Dominique: ‘We gebruiken bestaande NER-modellen voor onze toepassingen. Die modellen moeten we eerst testen, daar zijn we nu mee bezig. Het kan bijvoorbeeld zo zijn dat we voor namen één model gebruiken en voor locaties een ander model.’

Bias en representatie
Volgens Dominique is ook het voorkomen van bias binnen GPT-NL een belangrijk aspect. ‘De data die we hebben verzameld, komt uit de maatschappij en daarin heb je nou eenmaal met bias te maken. We voorkomen dat niet volledig. Dan is het extra belangrijk om inzicht te geven in de representatie binnen de data. Denk dus aan info over geaardheid, etniciteit, afkomst, gender en noem maar op. In hoeverre zijn bepaalde groepen vertegenwoordigd in de data? Dus wat kunnen we doen om met verkregen data en met de curatie daarvan de bias te minimaliseren of in ieder geval in kaart te brengen? Dat zijn voor ons cruciale vragen. Er is weinig onderzoek gedaan naar representatiebias in trainingsdata. Bijna al het onderzoek dat is gedaan, gaat over de bias die de modellen vertonen als ze al getraind zijn.’

Droom: ‘een helder datadashboard’
Om kennis hierover te vergroten, organiseerde Dominique samen met Duuk Baten, die zich binnen SURF bezighoudt met responsible technologie en AI, expertsessies met wetenschappers. De inzichten uit deze sessies worden momenteel verwerkt in een verslag. ‘Een belangrijke les is dat je in je proces van dataverzameling al zoveel mogelijk diversiteit wilt aanbrengen’, aldus Dominique. ‘En dat openheid en communicatie daarover heel belangrijk zijn. Hoe vaak wordt er in de data gerept over bijvoorbeeld moslims, vrouwen of bepaalde seksuele geaardheden? En als er over deze groepen gepraat wordt, in welke context? Het maakt nogal uit of de islam genoemd wordt in de context van religie en cultuur of in de context van terrorisme. We willen een dashboard realiseren waarin je niet alleen kunt zien in hoeverre bepaalde groepen gerepresenteerd zijn in de data, maar ook in welke context die groepen genoemd worden.’ Het verslag van de expertsessie wordt binnenkort gepubliceerd.

‘Middenin de samenleving’
Dominique had naar eigen zeggen niet verwacht dat datacuratie zo ingrijpend kon zijn. ‘Waarom? Je hebt te maken met juridische, ethische en technische aspecten. Vooral over PII hebben we veel gesprekken gevoerd met juridische experts. Die vragen: wanneer is het goed genoeg? Dat is eigenlijk de lastigste vraag. We gaan nooit op honderd procent accuraatheid komen. Zoals het voorbeeld van bekende personen laat zien, kunnen we onmogelijk álles dat privacygevoelig is eruit filteren. Een belangrijke les uit die juridische hoek is dat we mensen altijd de optie moeten geven om bepaalde data eruit te laten halen. Opt-out dus. Ook nadat het model gelanceerd is. En uiteindelijk is dat natuurlijk ook het hele doel van GPT-NL, om op ethisch verantwoorde wijze een transparant model te maken.
Dit alles maakt het voor mij tevens een geweldig project. Ik was eerder veel meer onderzoeksgericht bezig, maar heb nu het gevoel hiermee middenin de samenleving te staan. Ik hoop dat GPT-NL een succes wordt. Met uiteindelijk ook een GPT-NL 2 en 3, verbeterde versies dankzij alle lessen die we continu leren.'