Van biljoenen naar bruikbaar: hoe GPT-NL webdata verantwoord filtert

Bij GPT-NL kiezen we er voor geen auteursrechtelijk beschermde teksten te gebruiken zonder toestemming, en gebruiken we alleen publiekelijk beschikbare data als die onder de juiste licentie vallen. Dat betekent dus ook: oppassen met webdata, zoals de enorme Common Crawl dataset die in andere modellen veelvuldig wordt gebruikt. Om toch op een verantwoorde manier gebruik te maken van deze bron, werkt GPT-NL samen met Bram Vanroy van het Instituut voor de Nederlandse Taal (INT). Samen met Frank Brinkkemper, betrokken bij dataverzameling, ontwikkelde hij een methode om webpagina’s te selecteren waarvan de licentie juridisch én ethisch verantwoord gebruik toelaat. Zo hebben we een copyright compliant extract gemaakt van de Common Crawl dataset.

Om te beginnen: wat is Common Crawl, en wat is er zo ingewikkeld?
Frank: ‘Common Crawl is eigenlijk dé grootste dataset die er is voor het trainen van taalmodellen. Het gaat niet om miljarden tokens, maar om biljoenen – dat is 1.000.000.000.000 tokens. Dus toen we begonnen met het verzamelen van data voor GPT-NL, kwam die vraag snel op tafel: kunnen we Common Crawl gebruiken?’

Bram: ‘Veel mensen denken dat Common Crawl het hele internet 'scrapet', maar dat klopt niet. Websites kunnen via een zogenoemd robots.txt-bestand aangeven dat ze níét gecrawld mogen worden. Dan worden ze uitgesloten. Maar zelfs van de overgebleven data weet je niet of je het mag hergebruiken. Daarom zijn we op zoek gegaan naar expliciete Creative Commons-licenties in de HTML van webpagina’s. Die geven duidelijk aan wat er wél en niet mag met een creatief werk.’

Frank: ‘GPT-NL wil alleen webdata gebruiken die onder twee specifieke licenties beschikbaar wordt gesteld: CC0 (publiek domein) en CC-BY (met naamsvermelding). Andere Creative Commons-licenties – zoals die met niet-commerciële restricties – worden niet meegenomen. Licenties zoals MIT of Apache kunnen wel worden geaccepteerd, maar die zijn typisch voor software en niet voor tekstuele data.’

En dan blijft er dus weinig over?
Bram: ‘Dat klopt. Je begint met een gigantische berg data, maar na filtering op licenties blijft er verrassend weinig over. Dat is natuurlijk jammer, maar tegelijkertijd weten we dan zeker dat we verantwoord werken.’

Frank: ‘Daarna ben ik verder gaan filteren, want zelfs dan blijven er veel twijfelgevallen over. Bijvoorbeeld wanneer een licentie op een pagina alleen geldt voor een afbeelding, en niet voor de hele tekst. Die zogenaamde false positives willen we terugbrengen tot praktisch nul, via een extreem conservatieve aanpak.’

"We hebben nu een methode om verantwoord met webdata om te gaan: geen shortcuts, geen grijze gebieden."

Een enorme klus dus...
Bram: ‘Zeker. Het is een technisch uitdagend project. In de beginfase draaide het nog deels op Snellius, de supercomputer van SURF en TNO. Inmiddels draait alles volledig op de infrastructuur van het Vlaams Supercomputer Centrum (VSC). Daarvoor gebruiken we capaciteit van KU Leuven.’
‘We hebben miljarden webpagina’s doorzocht en inmiddels meer dan 4,2 miljoen CPU-uren verbruikt. Dat is alsof je een gemiddelde laptop met 8 cores ruim 60 jaar onafgebroken laat rekenen. Het zegt iets over de schaal waarop we werken.’

Wat levert dit op voor GPT-NL?
Frank: ‘We hebben nu een werkbare en herhaalbare methode ontwikkeld om verantwoord met webdata om te gaan. Dat betekent: geen shortcuts, geen grijze gebieden. En de basis ligt er om verder te optimaliseren – zodat we in de toekomst nog meer van Common Crawl kunnen gebruiken, met nog minder kans op false positives of false negatives.’

Bram: ‘Het Instituut voor de Nederlandse Taal is ook betrokken als dataleverancier van GPT-NL. Onze datasets zijn vooraf streng gecontroleerd op persoonlijke informatie en auteursrechten. Met dit project zetten we onze samenwerking voort vanuit een gedeelde visie op transparantie en verantwoord datagebruik. En ja, de samenwerking verloopt heel prettig. We vullen elkaar goed aan. Ook vanuit de academische wereld én de industrie is er veel interesse in hoe wij dit aanpakken.’

En wat zou helpen richting de toekomst?
Bram: ‘Wat we tijdens dit project vooral gemerkt hebben: de overgrote meerderheid van websites zegt helemaal niets over hun licentievoorwaarden. Voor het bouwen van ethische taalmodellen is dat echt een gemiste kans. Als meer website-eigenaren expliciet aangeven wat je wel en niet mag met hun content, dan helpt dat de hele AI-gemeenschap vooruit.’

Wat betekent dit voor GPT-NL?
Bram: ‘Transparantie. Dat we straks kunnen zeggen: dit is onze dataset, dit hebben we meegenomen, en dit niet – en waarom. Dat is belangrijker dan het model zelf, dat over een paar maanden alweer verouderd kan zijn. Goede data blijft waardevol. Daarom publiceren we in het najaar het volledige proces en maken we alles inzichtelijk.’

Frank: ‘We willen verantwoord bouwen. En dit project laat zien dat dat ook echt mogelijk is.’

Van biljoenen naar bruikbaar: hoe GPT-NL webdata verantwoord filtert

"We hebben nu een methode om verantwoord met webdata om te gaan: geen shortcuts, geen grijze gebieden."

Common Crawl Creative Commons Corpus (C5)

Frank Brinkkemper

Bram Vanroy

Volg ons op