Planning van het project GPT-NL

De uitvoering van GPT-NL bestaat uit twee fases. In het eerste jaar staat de concrete ontwikkeling van het Nederlandse taalmodel centraal, waar ook de academische sector actief zal worden betrokken. In de tweede fase zal het model verder worden aangescherpt door use cases en behoeftes uit de praktijk als inspiratie, en zal er worden gewerkt aan de verdere exploitatie van het model.

Momenteel bevinden wij ons in de Data Acquisitie fase om zoveel mogelijk data te verzamelen waar we GPT-NL op kunnen trainen. Een gedetailleerd overzicht van de processen rondom dataverzameling is te zien in onze 'Data Acquisition Pipeline'. We raden aan deze op desktop te bekijken.

In het eerste jaar staat de concrete ontwikkeling van het Nederlandse taalmodel centraal. In de huidige ontwikkelingsfase zijn we op zoek naar donateurs van data om GPT-NL mee te ontwikkelen. Voor het trainen van GPT-NL is een enorme hoeveelheid data nodig die divers genoeg is om tot een inclusief en sterk taalmodel te komen en GPT-NL breed toepasbaar te maken. Dit doen we helemaal from scratch om te voorkomen dat er onbekende factoren van eerdere modellen worden geërfd, zoals copyrightschendingen of het onrechtmatig gebruik maken van persoonsgegevens. Daarom is elke datadonatie van grote waarde!

In deze fase verkennen we welke partijen in Nederland geschikte data hebben om ons model op te trainen.

In deze fase ondertekenen we de contracten met onze data-donateurs.

We zorgen samen met onze data-donateurs dat persoonlijke gegevens niet worden overgedragen. Ook checkt ons Data Curation Team de data op schadelijke inhoud.

Wanneer we voldoende data binnen hebben om tot een sterk en divers taalmodel te komen, zullen we ons model trainen op een gehost computercluster.

In Q4 starten we met de training van het taalmodel.

We zorgen ervoor dat het model goed werkt, betrouwbaar en breed toepasbaar is.

Na de training zal het model verder worden aangescherpt door use cases en behoeftes uit de praktijk als inspiratie, en zal er worden gewerkt aan de verdere exploitatie van het model zodat er verdere verbeteringen, onderhoud en innovaties voor de toekomst mogelijk worden.