Naar de content

'Verwerken computers en ons brein taal op dezelfde manier?'

Marianne de Heer Kloots vergelijkt taalmodellen met hersenactiviteit

Envato license

Hoe verwerkt kunstmatige intelligentie taal en lijkt dat op de manier waarop menselijke hersenen dat doen? Om dat uit te zoeken moet je iets afweten van taal, hersenen en programmeren. Dan ben je bij Marianne de Heer Kloots, PhD-onderzoeker in de cognitieve computationele neurowetenschappen, aan het goede adres.

4 januari 2023

Dit artikel maakt deel uit van de reeks Taaltalent. In Taaltalent volgt NEMO Kennislink enkele jonge onderzoekers uit het Language in Interaction-project gedurende hun promotieonderzoek.

Het vakgebied waarin Marianne de Heer Kloots werkt klinkt ingewikkeld. Misschien komt dat wel omdat het in feite een mix is van andere vakgebieden. En dat past de promovenda goed, want meng taal, kunstmatige intelligentie en hersenactiviteit met een flinke scheut fundamentele nieuwsgierigheid en voilà: het CV van Marianne de Heer Kloots.

Dat begon met een vroege interesse in taal. “Mijn moeder is Pools, dus ik ben tweetalig opgevoed. Als we dan met de auto door Duitsland naar Polen reden, vond ik die woorden onderweg altijd maar gek. Waarom praten ze daar nou wéér anders? Waarom praten ze niet gewoon taal?”

Dit werkte door in haar studiekeuze. Maar terwijl ze zich in Leiden schoolde in de taalwetenschappen, ontdekte ze dat de manier waarop hersenen die taal verwerken ook wel heel boeiend is. En dat programmeren haar wel ligt: “De bezigheid is gewoon leuk. Je typt iets op de computer en er gebeurt meteen iets. Ik merkte dat ik daarvan echt in een flow raakte. Al die verschillende interesses komen in mijn promotieonderzoek bij elkaar. Het is mooi dat we taal op verschillende manier kunnen bestuderen. Ik heb voor deze technische kant gekozen.”

Taal leren uit tekst

Kort samengevat wil de onderzoeker gewoon weten hoe taal in de hersenen werkt en of dat vergelijkbaar is met kunstmatige intelligentie. “Ik gebruik taalmodellen: computerprogramma’s die patronen in taal hebben leren herkennen doordat ze heel veel teksten hebben gezien. Op basis van die patronen kan het model voorspellingen doen. Zo kan het voorspellen wat het volgende woord in een zin moet zijn, of bijvoorbeeld nieuwe teksten genereren. Dit soort modellen zitten vaak ook achter vertaalapps en bijvoorbeeld de autocorrect op je telefoon.”

De taalmodellen die De Heer Kloots gebruikt zijn gebouwd als zogenaamde ‘neurale netwerken’. Dat zijn computerprogramma’s die een tekst verwerken door voor elk woord bepaalde activaties te genereren, vergelijkbaar met de activatie van neuronen in onze hersenen. Die activaties worden uitgedrukt in cijfers, waarin patronen te zien zijn. “Ik laad steeds verschillende stukjes tekst in het taalmodel en meet hoe de activaties verschillen. Dat vergelijk ik met de verschillen in hersenactiviteit van proefpersonen die in een MRI-scanner dezelfde stukjes tekst lezen.”

Mensen vergelijken met machines, dat klinkt als het vergelijken van appels met peren. Software heeft toch geen vergelijkbare levenservaring, met alle input van zintuigen en emoties die daarbij horen? Dat is volgens de onderzoeker zeker waar. “Als mensen een verhaal lezen, komt daar van alles bij kijken, van het herkennen van letters tot het meeleven met hoofdpersonen. Zo’n taalmodel werkt puur op basis van statistische patronen in teksten. Toch moet het model iets van talige informatie uit die patronen halen om goede voorspellingen te kunnen doen.”

Meten en fietsen

De onderzoeker maakt gebruik van hersenscans uit onderzoek van Amerikaanse collega’s. Zij lieten proefpersonen een hoofdstuk lezen uit Harry Potter, terwijl ze in een MRI-scanner lagen. Die hersenscans geven informatie over de activiteit van het brein tijdens het lezen. “We rekenen uit wat het verschil in hersenactiviteit is tussen stukjes tekst. Als ergens bijvoorbeeld staat dat Harry Potter naar zijn bezem kijkt en in een andere zin staat dat hij zijn toverstok pakt, dan zie je bij beide zinnen een bepaalde activiteit voor ‘Harry Potter’. Datzelfde stukje activiteit komt terug als Harry Potter wordt beschreven met ‘hij’, want de proefpersonen weten over wie het gaat. Maar verwijst ‘hij’ naar een ander personage, dan is de hersenactiviteit anders.”

Die verschillen vertaalt ze naar cijfers, die je simpelweg in een tabel kan zetten. Vervolgens kijkt ze hoe het taalmodel omgaat met dezelfde stukjes tekst door de verschillen in activaties te meten en dit te vertalen naar cijfers. Zo krijg je twee tabellen die je naast elkaar kan leggen. In zo’n tabel zou je bijvoorbeeld kunnen zien dat een taalmodel net als mensen begrijpt dat het woord ‘hij’ met ‘drie koppen’ niet een ‘hij’ is die naar Harry Potter verwijst (zie afbeelding).

In dit gefingeerde voorbeeld bekeken mens en taalmodel hetzelfde stukje tekst. Links de hersenactiviteit, rechts de activaties in het taalmodel, beide uitgedrukt in cijfers en kleur. De hoge getallen laten zien dat de ‘lezer’ in beide gevallen begrijpt dat de zin ‘Hij had drie koppen’ niet gaat over degene die de bezem ziet en zijn toverstok pakt.

Marianne de Heer Kloots

Er moet een hoop kennis bij elkaar komen om dit soort vergelijkingen te kunnen maken. Het verdiepen in verschillende vakgebieden is de afgelopen anderhalf jaar daarom een belangrijk onderdeel geweest van het werk van De Heer Kloots. “Ik moet die hersenscans begrijpen, kunstmatige intelligentie begrijpen, snappen hoe taal en taalverwerking in elkaar zit en dat allemaal met elkaar zien te vergelijken. Dat is een leuke uitdaging en het betekent dat ik veel andere onderzoekers wil spreken. Op mijn kantoor op de AI-faculteit, maar ook op de psychologie-afdeling waar de MRI-scanners staan en de faculteit waar de taalonderzoekers zitten. Dus ik ben ook veel heen en weer aan het fietsen.”

Dat zal de komende jaren niet minder worden. Ze wil haar onderzoek namelijk uitbreiden met modellen die in plaats van tekst bijvoorbeeld spraak en beeld verwerken. “Daarnaast wil ik beter begrijpen welke onderdelen van modellen meer op hersenactiviteit lijken dan andere, en vooral waarom. Op die manier kunnen we denk ik pas echt tot nieuwe inzichten over menselijke taalverwerking komen.”

AI onder de loep

Haar onderzoek past in breder onderzoek naar kunstmatige intelligentie. Algoritmes en zelflerende toepassingen zijn niet meer weg te denken uit onze samenleving, maar het is niet altijd meer duidelijk hoe die programma’s tot een beslissing komen. Dat is het dubbele van AI, vindt ook De Heer Kloots. “Het nadeel van dit soort modellen is dat we wel zien wat eruit komt en of de voorspelling klopt, maar dat het daarbinnen eigenlijk één grote black box is. We willen in die black box kijken wat er gebeurt, welke informatie belangrijk is om tot bepaalde voorspellingen te komen.”

Dit geldt voor veel meer toepassingen die niks met taal te maken hebben, maar de problemen in een taalmodel zijn een mooi voorbeeld. “Vroeger voerden we handmatig regels in over grammatica en spelling. Nu laten we computers zelf leren wat er nodig is voor goede teksten, door ze een heleboel voorbeelden te geven. Maar niet alle conclusies kloppen. Een taalmodel kan bijvoorbeeld voorspellen dat een auteur vertelde over ‘zijn boek’, terwijl de auteur een vrouw is. We denken dat het die conclusie trekt op basis van het woord ‘auteur’, omdat ‘hij’ vaker voorkomt in zinnen met ‘auteur’ dan ‘zij’. Wij willen als wetenschappers weten of een taalmodel inderdaad zo redeneert, zodat we het kunnen verbeteren.”

Benieuwd hoe het onderzoek van Marianne de Heer Kloots verloopt? Over een tijdje bezoekt Kennislink haar weer om te vragen hoe het gaat. Lees ondertussen ook interviews met andere promovendi uit het Language in Interaction-project.

ReactiesReageer