Onze commitments voor het bouwen van betrouwbare AI
We committeren ons aan het bouwen van een betrouwbaar model dat in lijn is met de Ethics Guidelines for Trustworthy AI van de EU waarin staat dat betrouwbare AI-systemen rechtmatig, ethisch en robuust moeten zijn. Onze commitments om een betrouwbaar systeem te bouwen, hebben we binnen zes thema’s geformuleerd.
Deze commitments helpen om de ambities van het GPT-NL-project te verduidelijken en om ervoor zorgen dat onze (publieke) belanghebbenden weten wat ze van ons kunnen verwachten. We zijn er ook van overtuigd dat de commitments ons helpen om een weg te vinden in de vele uitdagingen die we tegen zullen komen. Om open te zijn over onze overwegingen en onze lessen te delen, publiceren we deze commitments hier. De specifieke implementatie van de commitments zal zich in de loop van de tijd ontwikkelen.
1. Met betrekking tot het proces van het project, committeren wij ons aan:
- het publiceren van dit document met commitments. We zullen de lijst met commitments regelmatig herzien om feedback te verwerken en publiekelijk te rapporteren over eventuele wijzigingen in de commitments.
- het publiceren van een document waarin we de besluitvorming tijdens het opbouwen van onze datasets beschrijven.
2. Met betrekking tot de eindproducten, committeren wij ons aan:
- het publiceren van een succesdefinitie voor het GPT-NL-project, oftewel: een omschrijving van het moment waarop het project voor ons is geslaagd. Deze definitie dient uiterlijk aan het einde van de dataverzameling-mijlpaal te worden gepubliceerd.
- het publiceren van een overzicht van de beoogde eindproducten van het project, inclusief een beschrijving van het beoogde doel, de open toegankelijkheid en de licenties. Het overzicht dient uiterlijk aan het einde van de dataverzameling-mijlpaal te worden gepubliceerd. We streven naar een zo open mogelijk eindproduct, maar omdat dit afhankelijk is van overeenkomsten met dataleveranciers kunnen we dit nog niet garanderen.
- Een duidelijk beschreven en permissive licensing model bij elk eindproduct.
3. Met betrekking tot transparantie, committeren wij ons aan:
- het openbaar publiceren van alle code onder een opensource-licentie.
- het publiceren van datasheets en modelkaarten voor alle datasets en modellen (eindproducten) volgens best practices uit de industrie.
- de ambitie om de gebruikte datasets voor het trainen van GPT-NL standaard vrij te geven en te publiceren. Sommige datasets kunnen echter onder een licentie vallen, waardoor volledige publicatie wordt beperkt. Voor die datasets zullen we expliciet aandacht besteden aan het creëren van andere transparantiemechanismen.
4. Met betrekking tot ons datagebruik, committeren wij ons aan:
- We gebruiken alleen content voor het trainen van GPT-NL als de dataleverancier de juiste rechten heeft om ons hiervoor een licentie te verstrekken. Dit betekent dat de dataleverancier ofwel de eigenaar moet zijn van de auteursrechten of databaserechten in de dataset, ofwel geldige licentierechten heeft gekregen van de derdepartij-eigenaar.
- We trainen GPT-NL niet op informatie die onderhevig is aan wettelijke of contractuele vertrouwelijkheidseisen (zoals vertrouwelijke patiëntinformatie of bedrijfsgegevens).
- We richten ons specifiek op het detecteren, filteren en verwijderen van persoonlijke informatie uit de trainingsgegevens.
- We richten ons specifiek op het detecteren, filteren en verwijderen van schadelijke inhoud - zoals gewelddadige, criminele of discriminerende inhoud of haatdragend taalgebruik - uit onze trainingsgegevens.
5. Met betrekking tot diversiteit en inclusie, committeren wij ons aan:
- Om vooroordelen in het model zo goed mogelijk te beperken, creëren we een basisdataset die zoveel mogelijk groepen vertegenwoordigt.
- We betrekken ondervertegenwoordigde groepen bij het verbeteren van het model in de finetuning-fase.
6. Met betrekking tot onze belanghebbenden en de communicatie richting het publiek, committeren wij ons aan:
- We publiceren ons communicatie plan en zullen elk kwartaal (om de drie maanden) een update communiceren richting het publiek.
- We publiceren regelmatige (openbare) rapporten over beslissingen die binnen het project zijn genomen, inclusief rapportages over juridische en ethische dilemma's en beslissingen.
- We rapporteren over de conclusies uit overleg met stakeholders (zie onder):
- Overleg met stakeholders wordt in ieder geval georganiseerd voor:
- betrokkenheid bij de voorbereiding van de finetuning-fase.
- raadpleging over methoden om de prestaties van het model te evalueren (op technische en maatschappelijke benchmarks).
- Raadplegingen van belanghebbenden worden publiekelijk aangekondigd op de website en sociale media van GPT-NL.