Alleen samen bouwen we GPT-NL
Iedereen kan een waardevolle bijdrage leveren door het doneren van data. Ja, echt iedereen. Want voor het trainen van GPT-NL is een enorme hoeveelheid data nodig die divers genoeg is om tot een inclusief en sterk taalmodel te komen en GPT-NL breed toepasbaar te maken.
Elke bijdrage is van grote waarde
Of een datacontributie de omvang heeft van een bibliotheek of van één boek: met uw bijdrage komen we weer een stap dichter bij een inclusiever en beter model. Ook kan GPT-NL relevanter worden voor uw sector als uw data onderdeel is van de dataset.
Om de juiste data voor GPT-NL te ontvangen hebben we informatie nodig over uw organisatie en de databron. Zo zijn we bijvoorbeeld benieuwd naar de grootte van de dataset, en welke talen en dialecten er in de dataset te vinden zijn. Onze AI-experts zullen de informatie behandelen en contact met u opnemen.
5 criteria voor een eerlijke dataset
De training van GPT-NL doen we helemaal from scratch om te voorkomen dat er onbekende factoren van eerdere modellen worden geërfd, zoals copyrightschendingen of het onrechtmatig gebruik maken van persoonsgegevens. We kijken daarom naar de volgende 5 criteria:
- Bescherming van intellectueel eigendom
We gebruiken alleen inhoud voor het trainen van GPT-NL als de dataverstrekker de juiste rechten heeft om ons een licentie te verlenen voor het gebruik van de data. Dit betekent dat de dataverstrekker de eigenaar moet zijn van eventuele auteursrechten of databaserechten in de dataset, of geldige licentierechten moet hebben gekregen van de eigenaar. - Bescherming van persoonsgegevens
We zoeken naar datasets waar geen persoonlijke data in zit, of waarin deze zijn verwijderd of geanonimiseerd volgens EU-wetgeving. - Uitsluiten van informatie onder vertrouwelijkheidseisen
We trainen GPT-NL niet op informatie die onderworpen is aan wettelijke of contractuele vertrouwelijkheidseisen, zoals informatie onder patiëntengeheim of bedrijfsvertrouwelijke gegevens. - Uitsluiten van schadelijke inhoud
We trainen GPT-NL niet op enige schadelijke inhoud, zoals gewelddadige of criminele inhoud, discriminerende inhoud of haatzaaiende uitlatingen. - Vermijden van duplicaties in de dataset
We willen duplicaties zoveel mogelijk vermijden, om letterlijke memorisatie door GPT-NL te voorkomen, of om te voorkomen dat GPT-NL voorkeuren ontwikkelt op basis van dergelijke duplicaties. Om deze reden streven we ernaar datasets van de oorspronkelijke bron te verkrijgen.
We hebben een reeks hulpmiddelen beschikbaar die kunnen worden gebruikt om datasets te filteren van persoonlijke informatie of schadelijke inhoud. Daarnaast bieden we ook on-site assistentie voor het gebruik van deze hulpmiddelen. U kunt in het formulier aangeven wat uw vragen zijn en/of u deze hulpmiddelen wilt inzetten.
Een sterk ecosysteem
Samen met partners willen wij een sterk en waardevol ecosysteem bouwen rond GPT-NL. We komen graag in contact met partners die daar aan willen bijdragen, met data, kennis of partners die toepassingen willen ontwikkelen op basis van GPT-NL.