GPT-NL en Het Utrechts Archief

Voor het trainen van een LLM is een enorme hoeveelheid data nodig die divers genoeg is om tot een inclusief en sterk taalmodel te komen en GPT-NL breed toepasbaar te maken. Die data moet ergens vandaan komen, daarom kan iedereen een waardevolle bijdrage leveren door het doneren van data. Dit willen wij vanuit onze kernwaarden en ambities realiseren, waarbij wij geloven dat technologie een wederkerige bijdrage moet leveren. Samen met onze partners laten we zien hoe GPT-NL tot stand komt en hoe auteursrechthebbenden een plek krijgen in de verantwoorde ontwikkeling van LLMs. Want alleen samen bouwen we GPT-NL.

Beeld: Het Utrechts Archief

Het Utrechts Archief 2

Recent meldden we al dat er een stapel pagina’s van tien kilometer hoog of drie miljoen keer een Harry Potter-boek nodig is om een Large Language Model (LLM) vanaf de grond op te bouwen. Voor GPT-NL is een minimum gesteld van 300 miljard tokens. Daarvoor zijn Nederlandse dataleveranciers nodig. Eén daarvan is Het Utrechts Archief, waarmee een waardevolle samenwerking is ontstaan.

De cijfers van Het Utrechts Archief zijn indrukwekkend. Ruim 35 kilometer archieven, beelddocumenten en 75.000 publicaties heeft dit historische kenniscentrum in huis. Niet alleen uit de stad en provincie Utrecht, maar ook landelijke archieven van bijvoorbeeld kerken en de Nederlandse Spoorwegen. ‘De oudste stukken zijn duizend jaar oud en sinds korte tijd herbergen we ook digital-born documenten’, vertelt programmamanager Heleen Wilbrink. Ze houdt zich bij Het Utrechts Archief bezig met het digitaal ontsluiten van deze Utrechtse schatkamers.

Handwritten Text Recognition

‘Digitalisering is voor ons uiteraard niet nieuw, dat doen we al tientallen jaren’, vertelt Heleen. ‘Wat nog wel vrij nieuw is, is het ontsluiten van onze open data als Linked Open Data. Daarbij wordt data op zo'n manier aangeboden dat er veel makkelijker verbinding gelegd kan worden met andere data. We willen het zoeken binnen onze online omgeving en hergebruik van onze data verbeteren en ook AI inzetten voor Handwritten Text Recognition, ofwel HTR. Op deze vlakken vinden we de samenwerking met GPT-NL.’

1 miljoen scans

Toen de eerste geluiden over de ontwikkeling van GPT-NL Het Utrechts Archief bereikten, was er direct enthousiasme. Heleen: ‘We verkenden al regelmatig LLM’s en hadden ervaring met de voorloper BERT, maar er waren risico’s en nadelen. Bijvoorbeeld rondom bias, mogelijke schending van intellectueel eigendom, klimaatimpact, hallucinaties en ethische aspecten. Er is in de archiefwereld grote behoefte aan een ethisch verantwoord, Nederlands taalmodel. Wij leveren historische data in de vorm van scans met tekst en dragen op deze manier bij aan de ontwikkeling van GPT-NL. Een goed Nederlands model is voor ons heel waardevol. De transcripties van de 1 miljoen aangeleverde scans die GPT-NL in dit proces voor ons heeft gemaakt, zijn een prachtige bijvangst. Dat is voor ons een substantieel aantal: op dit moment hebben wij ongeveer 10 miljoen scans in totaal. Bovendien krijgen we vanuit GPT-NL verdere ondersteuning bij het ontsluiten van onze data.’

Het Utrechts Archief 1
Beeld: Rick Companje, Het Utrechts Archief, licentie: CC-0

Loghi als voorloper

Om de data van Het Utrechts Archief geschikt te maken voor GPT-NL, werd eerder al een belangrijke stap gezet. Het ontcijferen van handschriften in archieven is namelijk een flinke uitdaging. Om gescande historische documenten digitaal leesbaar en doorzoekbaar te maken, ontwikkelde het KNAW Humanities Cluster (Rutger van Koert en collega’s) de open source transcriptiesoftware Loghi. ‘Heel fijn dat die stap al genomen was’, vertelt Frank Brinkkemper van SURF, die vanuit GPT-NL samenwerkt met Het Utrechts Archief. ‘Er zijn in Nederland maar weinig openbaar bruikbare datasets van deze omvang. We zijn daarom erg blij met de connectie met Het Utrechts Archief. Op dit moment bekijken we nog of we alles gaan gebruiken, want de HTR is niet volledig foutloos.’

Bias en cultuur

Een punt van discussie is op dit moment nog het voorkomen van bias in de data en de weergave van (oude) culture of religieuze interpretaties. Frank: ‘Ruim een eeuw terug was het wereldbeeld anders. Zoiets zou niet te veel weergegeven moeten worden in GPT-NL. Natuurlijk zijn we niet van plan de geschiedenis te herschrijven, maar GPT-NL moet voldoen aan de huidige tijdsgeest. Hoe we hiermee omgaan is nog deels de vraag en we kunnen daarbij zeker ook nog advies gebruiken.’


Zie ook

Een stapel pagina’s van tien kilometer hoog of drie miljoen keer een Harry Potter-boek. Dat is hoeveel data er nodig is om een Large Language Model (LLM) vanaf de grond op te bouwen en te trainen. “Alle betere taalmodellen zijn getraind op minimaal 300 miljard tokens” vertelt Jesse van Oort, lead data acquisitie voor GPT-NL. TNO, het NFI en SURF willen liever geen bestaand taalmodel gebruiken om GPT-NL te ontwikkelen. Die bestaande modellen voldoen vaak niet aan de strenge eisen die het project stelt aan openheid, transparantie en bescherming van waarden.

300 miljard tokens is dus zo ongeveer het minimum. Die data moet ergens vandaan komen. Er zijn zo’n zeventig Nederlandse partijen die data kunnen en willen leveren, maar hun belangen lopen uiteen. Het is aan Jesse en zijn collega’s een heldere aanpak te ontwikkelen die alle belangen zoveel mogelijk dient.