Auteursrecht

GPT-NL is een ambitieus project: wij geloven dat technologie betrouwbaar en transparant moet zijn, een wederkerige bijdrage moet leveren, en soevereiniteit van Nederland moet versterken. Vanuit deze kernwaarden willen wij het AI innovatielandschap versterken. In deze reeks artikelen leggen we verder uit hoe we dat gaan doen.

Datastrategie GPT-NL

De New York Times die een rechtszaak aanspant tegen OpenAI en Microsoft wegens auteursrechtinbreuk, omdat de content van de krant zonder hun toestemming is gebruikt voor het trainen van ChatGPT. Stichting BREIN die een grote Nederlandstalige dataset offline haalt met illegale kopieën van boeken en ondertitels, bedoeld om LLMs op te trainen. Zomaar twee voorbeelden die laten zien dat voor de ontwikkeling van huidige LLMs vaak data is gebruikt zonder toestemming van de auteursrechthebbenden. Met GPT-NL haken we hierop in en streven we naar een schone dataketen. Hierin speelt auteursrecht een cruciale rol. In dit artikel wordt verkend wat het precies is en wat dit voor GPT-NL betekent. Aan het woord is Leah Griffioen die meer kan vertellen over hoe het GPT-NL project data verzamelt terwijl wel aan de auteurswet wordt voldaan.

Om te beginnen: wat is een auteursrechthebbende? Leah legt uit: “Een auteursrecht ontstaat automatisch zodra je een stuk tekst schrijft. Je hoeft hiervoor geen registratie te doen. De tekst moet wel origineel zijn om van een auteursrechtelijk beschermde tekst te kunnen spreken. Je kunt als auteursrechthebbende (in dit geval de persoon die de originele tekst heeft gemaakt) toestemming geven om jouw teksten te mogen gebruiken. Je geeft dan een gebruiksrecht (licentie) aan iemand die jouw tekst mag gebruiken. Of je kunt als auteursrechthebbende, jouw gehele auteursrecht overdragen. Bijvoorbeeld een auteur van een boek draagt zijn rechten over aan een uitgever om zijn boek uit te geven en vermenigvuldigen.”

Een schone dataketen

Voor het trainen van GPT-NL wordt gezocht naar data waarvoor een geldige licentie is gegeven of in het geheel geen licentie nodig is. Bijvoorbeeld omdat de auteur al lang geleden is overleden. De stappen die hiervoor worden genomen, vormen een tijdrovend proces. Leah: “We gaan in gesprek met potentiële dataproviders en gebruiken de data alleen als de dataprovider de juiste rechten heeft om ons hiervoor een licentie te verstrekken. Dit betekent dat de dataprovider ofwel de eigenaar moet zijn van de auteursrechten of databaserechten in de dataset, ofwel geldige licentierechten heeft gekregen van de oorspronkelijke rechthebbende. Op dit moment zijn we in gesprek met verschillende partijen over het afsluiten van een contract over het gebruik van hun data. Het betreft zowel publieke en commerciële partijen, met content van kranten en tijdschriften, wetenschappelijke teksten en literaire publicaties.”

Hoe verkrijgen we genoeg data?

Maar is dat voldoende om aan 300 miljard teksttokens te komen? Nee dat is niet voldoende. Daarom kijken we ook naar datasets die publiek beschikbaar zijn onder een open source of publieke licentie, in het bijzonder bepaalde typen Creative Commons licenties. Data die onder dit gebruikersrecht (Creative Commons, CC-BY en CC-0) vallen, zijn vaak van goede kwaliteit en mogen vrij gebruikt worden. We zullen geen datasets creëren door ongericht en zonder toestemming teksten van websites te scrapen. Webscraping houdt in dat informatie met behulp van software van een groot aantal websites wordt gekopieerd. Als we kijken naar het huidige aanbod LLMs, zien we dat deze ook zijn getraind op basis van teksten die zijn gescraped zonder toestemming van auteursrechthebbende. Daarom zie je een Stichting BREIN of The Times ook in actie komen. Voor het trainen van GPT-NL willen wij dit anders aanpakken en scrapen we niet zonder toestemming content van websites.

Kwaliteit van data

Hoewel de dataverzameling een grote klus is, biedt het ook voordelen om niet zomaar te scrapen.
“Onze werkwijze maakt het mogelijk om vooral goede kwaliteit content te verzamelen. Door in samenwerking met dataproviders de dataset voor GPT-NL samen te stellen, kunnen we ons daarbij richten op data over onderwerpen die relevant zijn voor de mogelijke toepassingen van GPT-NL. De teksten zijn veelal geschreven in een professionele hoedanigheid. Zo hopen we met een relatief kleinere dataset een hoge kwalitatieve output te waarborgen.”

Ambitieus

De doelen van GPT-NL vormen een ambitieus plan. De stappen rondom auteursrecht vereisen nauw overleg met de auteursrechthebbenden. “Om die reden hebben we een Content Board opgezet, waarin alle data providers vertegenwoordigd worden ” vertelt Leah. “Door deze samenwerking met data providers, is het mogelijk een systeem op te zetten waarbij we auteursrechthebbenden uiteindelijk kunnen compenseren vanuit de opbrengsten die onze LLM genereert”. Als je kijkt naar de ontwikkeling van LLMs is dit nog onontgonnen terrein; auteursrechthebbenden zijn niet eerder zo meegenomen. Het project GPT-NL legt dan ook bloot dat we momenteel in een transitie zitten wat betreft auteursrechten. Voor de vele LLMs die gebouwd worden, is er een tsunami aan datagebruik. Maar de auteursrechthebbende hebben vooralsnog geen plek in deze nieuwe orde. GPT-NL wil deze rechten wel respecteren en laten zien hoe je auteurs een eerlijke plek kunt geven in de transitie naar de verantwoorde ontwikkeling van LLMs.”

Referenties
The New York Times klaagt techbedrijven aan vanwege schenden auteursrechten - NOS

Stichting BREIN haalt Artificial Intelligence dataset offline - Stichting BREIN

Aanpassing op 24-1-2025: We zullen geen datasets creëren door ongericht en zonder toestemming teksten van websites te scrapen.

Aanpassing op 23-1-2025: "We zullen geen data sets gebruiken die [met] door ongerichte webscraping zijn verzameld"


Intellectueel eigendomsrecht en auteursrecht: hoe zit het ook alweer?

Het intellectueel eigendom is een verzameling rechten die zijn vastgelegd bij de wet. Beeldmerken, bijvoorbeeld, moeten geregistreerd zijn om bescherming te bieden. Binnen het intellectueel eigendomsrecht zijn er verschillende soorten rechten te onderscheiden. Een logo valt bijvoorbeeld onder beeldrecht en merkenrecht, beide vormen van intellectueel eigendomsrecht. Auteursrecht is een vorm van intellectueel eigendomsrecht en hoeft niet aangevraagd of geregistreerd te worden. Om onder het auteursrecht te vallen, moet een werk aan drie eigenschappen voldoen: het moet origineel zijn, zintuiglijk waarneembaar zijn en de unieke hand van de auteur moet erin terug te vinden zijn. Of het nu gaat om een tekening of een geschreven verhaal, als het jouw eigen creatie is, heb je automatisch een auteursrecht op dit werk.