Hoe werkt een LLM, en waarin schieten huidige LLM’s tekort?

Onderzoeksinstellingen TNO, het NFI en SURF werken samen aan de ontwikkeling van een Nederlands taalmodel met de naam GPT-NL. Zo’n taalmodel is een LLM, een Large Language Model. Maar wat houdt dat eigenlijk in? Hoe werkt de technologie achter zo’n LLM? En vooral: wat zijn de tekortkomingen van de huidige LLM’s? Dat leggen we je uit in deze reeks.

LLM_Large Language Models

Een LLM bestaat uit een algoritme dat miljoenen pagina’s tekst geanalyseerd heeft om te begrijpen hoe taal werkt. Om inzichtelijk te maken hoe een LLM werkt, stellen we in onze testomgeving de vraag aan ChatGPT, zelf een LLM. Het model antwoordt: ‘Een LLM is een type kunstmatige intelligentie (AI) dat is getraind op een enorme hoeveelheid tekstgegevens, om mensachtige tekst te generen en te begrijpen. Deze modellen zoals ChatGPT (wat ik zelf ben) kunnen taken uitvoeren zoals tekstgeneratie, vertaling, samenvatting en meer’.

Tien jaar taalmodellen

Over definities kan je eindeloos discussiëren, maar dit antwoord van ChatGPT lijkt best bruikbaar voor mensen die niet dagelijks met LLM’s werken. LLM’s zijn voor het brede publiek bekend geworden door ChatGPT van het Amerikaanse bedrijf OpenAI. ChatGPT is een model dat teksten kan genereren, vertalen en samenvatten.

Voor de professionals onder ons is de definitie van ChatGPT niet helemaal accuraat. Taalmodellen bestaan al bijna zo lang als er taalanalyses worden uitgevoerd. Ongeveer tien jaar geleden werden de eerste taalmodellen op computers populair. Die werden getraind op grote hoeveelheden tekst en die kregen daarmee “tekstbegrip”. De meesten daarvan genereerden echter geen tekst, maar kon je bijvoorbeeld gebruiken om grote hoeveelheden teksten te doorzoeken. Daarna werden de modellen groter en groter en ze vereisten meer en meer rekenkracht. Ze waren niet bekend bij het grote publiek, tot de lancering van ChatGPT in november 2022.

Definitie

Inmiddels zijn LLM’s bijna synoniem geworden met modellen die zelf tekst genereren. De Rijksoverheid hanteert de volgende definitie voor een LLM: Een gespecialiseerd type AI-model dat getraind is op grote hoeveelheden tekst om bestaande content te begrijpen en content te genereren.’

Om een LLM te ontwikkelen, moet je het veel voorbeelden van teksten laten zien. Zo leer je het model aan de hand van voorbeelden teksten te laten genereren over tal van onderwerpen. Het model leert zinnen te maken, door het aan de hand van voorbeelden te laten voorspellen wat een volgend woord kan zijn.

Nederlandse waarden

Bij ChatGPT is het onduidelijk welke data het heeft gebruikt en hoe het model is getraind om dit antwoord te kunnen formuleren. Voor een relatief simpele vraag als ‘Wat is een LLM?’ leidt dat nog niet direct tot ethische dilemma’s: we weten immers dat het mogelijk is een model deze basiskennis mee te geven met beschikbare openbare data. Echter, wanneer we deze voor andere doeleinden en in een andere context willen inzetten, zien we dat de inzet een ethisch vraagstuk wordt waar publieke waarden een rol spelen. Een aantal voorbeelden:

  • De gedetailleerdheid en de ‘menselijkheid’ van de antwoorden van een taalmodel is afhankelijk van de hoeveelheid en het type teksten dat het model heeft gezien. Openbaar beschikbare data is hiervoor echter niet genoeg, er is ook materiaal nodig waarop copyright rust. Van huidige LLM providers mist transparantie, een waarde die we in Nederland hoog willen houden, over de keuzes die hier zijn gemaakt en is het onduidelijk op wat voor materiaal de modellen zijn getraind.
  • Ook is het onduidelijk hoe er met verkregen persoonsgegevens is omgegaan. In veel gevallen worden alle prompts, de vragen en zoekopdrachten die je een taalmodel meegeeft, vastgelegd en gebruikt om het taalmodel op te verbeteren. Het kan daarnaast ook gaan om meta-data, zoals apparaatgegevens, gebruiksgegevens, loggegevens, accountgegevens en gebruikerscontent.
  • Tot slot is het ook onvoldoende duidelijk hóe de input wordt meegenomen in verbetering van het model.

Transparantie

Kortom: er is grote behoefte aan transparantie in het huidige aanbod van LLM’s. Met GPT-NL haken we in op deze behoefte door vanaf de grond te bouwen en transparant te zijn over de keuzes in het ontwerpproces. Bij de totstandkoming van GPT-NL wordt gebruikgemaakt van databronnen die beschikbaar zijn gesteld door dataproviders. Dit betekent dat er expliciete toestemming is voor materiaal waarop copyright rust, ongeacht of dit publiekelijk beschikbaar is of niet. Zo blijven we trouw aan Nederlandse en Europese waardes en wetgeving.