Onze samenwerking met Open State Foundation: ‘GPT-NL kan de overheid transparanter maken’

Het ontsluiten van publieke data is geen proces dat binnen een paar kliks afgerond kan worden. Daarom hebben wij de samenwerking opgezocht met Open State Foundation. Deze non-profit stichting profileert zich als digitale burgerrechtenorganisatie en vecht om het recht op informatie van burgers te beschermen. Onder het motto ‘open data, transparante samenleving’. We spreken met Senior projectleider Tim Vos-Goedhart en developers Sicco van Sas en Rob van Dijk over onze samenwerking.

Eerst over jullie missie. Kunnen jullie daar wat meer over vertellen?
Tim, die de overheid al jaren kritisch over de inzet van AI bevraagt, legt uit dat een gebrek aan transparantie een risico vormt. ‘Als de overheid een besluit neemt dat ondersteund is met AI, kan je dan nog uitleggen hoe dat besluit tot stand is gekomen? Kijk, we roepen niet dat iedere burger moet kunnen begrijpen hoe AI aan de achterkant werkt, maar er moet wel goede controle op zijn. Bij de commercieel beschikbare modellen weten we niet hoe ze te werk gaan. Zonder openheid over trainingsdata kunnen we niet weten wat zij (AI-bedrijven) als ‘misinformatie’ of ‘schadelijke informatie’ labelen. We zagen bij DeepSeek hier al direct duidelijke censuur. Maar ook bij andere AI-bedrijven speelt dit risico van ‘andere normen en waarden bij de curatie van data’. Kortom: als je als overheid eerlijk wilt opereren, is een eerlijk taalmodel nodig. Wij geloven dat GPT-NL dat gaat worden.’

Hoe ziet de samenwerking met GPT-NL er concreet uit?
Rob: ‘Er is een lijst met databronnen opgesteld die we meenemen in het project. Daarbij wordt toestemming gevraagd aan de eigenaren van die data. Omdat sommige bronnen geen complete dataset beschikbaar hebben, gebruiken we API’s om er een mooie dataset van te maken. Een API is een koppeling waarmee softwareprogramma's met elkaar communiceren en gegevens uitwisselen. Als er geen API is, scrapen we de website met toestemming. De datasets variëren van enkele duizenden artikelen of documenten tot vele miljoenen. Het aantal tokens (stukjes van woorden) dat we hiermee ontsluiten voor GPT-NL gaat richting de tien procent van alle benodigde data.  Soms zijn het bestaande bronnen, zoals het Planbureau voor de Leefomgeving of Officiële Bekendmakingen. Soms gaat het om nieuwe datasets, zoals die van Naturalis, met zo’n 16.000 artikelen.’
Sicco: ‘Een groot deel van die data is technisch gezien openbaar, maar dat betekent nog niet dat je het zomaar in één keer kunt gebruiken. Neem officiëlebekendmakingen.nl: dat bevat miljoenen documenten, maar je kunt niet simpelweg alles in één keer downloaden. Voor elk document moet je een aparte aanvraag doen via de API. Dat is een proces dat je moet automatiseren, anders ben je jaren bezig. Wij schrijven scripts in Python om dat te regelen. Het kost niet eens zoveel tijd om zo’n script te schrijven, maar elke bron werkt weer nét even anders. Daar zit de complexiteit.’
Tim: ‘We zien dus dat open data niet zo open is als je zou verwachten. Er komt best wat werk bij kijken om het écht toegankelijk te maken.’

Hoe borgen jullie dat bij GPT-NL?
Rob: ‘Voor elke bron kijken we welke metadata beschikbaar is en of we die uit een website of API kunnen halen. Dat verschilt per dataset. Bij de ene bron is er heel veel metadata, bij de andere nauwelijks iets bruikbaars. Die metadata verzamelen we in een apart bestand. Hierdoor is informatie over de data altijd openbaar, ook als de data zelf niet openbaar is vanwege auteursrecht.

Gebruiken jullie zelf ook AI in jullie projecten?
Tim: ‘Ja, al gaan we daar altijd voorzichtig en selectief mee om. We hebben bijvoorbeeld pilots gedraaid met Large Language Models (LLM’s) op overheidsinkoopdata en Tweede Kamerstukken. Dit waren respectievelijk het AI Tenderportaal en het experiment DeBot (LLM’s in debat). In ons Bron project hebben wij chat.bron.live gebouwd, in dit systeem worden een paar taken uitgevoerd met behulp van LLM’s; we gebruiken daar steeds het kleinst mogelijke model voor. Informatie zoeken in grote datasets is complex. AI als precisietool kan daar bij helpen. Wij vermijden het gebruik van AI als duizenddingendoekje.’

En zouden jullie GPT-NL inzetten?
Tim: ‘Een goed getraind taalmodel op de Nederlandse taal, specifiek afgestemd op onze bestuurscultuur en overheid, is voor ons enorm waardevol. Stel je voor dat een journalist binnen enkele seconden relevante passages uit gemeenteraadsstukken kan vinden. Dat zou het publieke debat een enorme boost geven. Als GPT-NL kan voldoen aan de beloftes op het gebied van openheid, is dat enorme stap.’

Terug naar jullie missie. AI brengt een hoop risico’s met zich mee, maar kan AI ook worden ingezet om de overheid juist transparanter te maken?
Tim: ‘Absoluut. Het probleem voor de overheid is tweeledig. Er wordt teveel geschreven en we kunnen het niet allemaal lezen. ‘We’ zijn bijvoorbeeld Kamerleden, maar ook journalisten en burgers. Dat we het niet kunnen lezen komt door de hoeveelheid, maar ook door moeilijke taal. AI kan helpen om oude teksten toegankelijker te maken, zowel op taalniveau als door grote stukken samen te vatten. Daarmee help je dan niet alleen die drie doelgroepen, maar ook de ambtenaren zelf.’
‘Een mooi voorbeeld vind ik Tolkie, een soort digitale leeshulp die een AI-laag over een website legt. Bijna elk woord kan je aanklikken, waarna je een uitleg in eenvoudige taal krijgt. Zoiets kan voor wet- en regelgeving enorm waardevol zijn. AI kan een krachtig hulpmiddel zijn voor democratische controle, mits we het op de juiste manier inzetten. En dat is precies waarom we met GPT-NL een toekomst voorzien die steeds beter voldoet aan onze uitgangspunten.’

Meer over Open State Foundation: openstate.eu

Sicco van Sas

Sicco van Sas

Rob van Dijk

Rob van Dijk

Tim Vos-Goedhart

Tim Vos-Goedhart
Open State logo