Kunstmatige intelligentie
Hoe LLM’s ons dwingen intelligentie te herdefiniëren

Er is een oud gezegde: Als het eruit ziet als een eend, zwemt als een eend en quakt als een eend, dan is het waarschijnlijk een eend. Deze eenvoudige manier van redeneren, vaak gelinkt aan de dichter James Whitcomb Riley uit Indiana, heeft decennialang bepaald hoe we denken over kunstmatige intelligentie. Het idee dat gedrag voldoende is om intelligentie te identificeren, inspireerde Alan Turing’s beroemde “Imitatie-spel”, nu bekend als de Turing Test.
Turing suggereerde dat als een mens niet kan bepalen of hij in gesprek is met een machine of een andere mens, de machine dan intelligent genoemd kan worden. Zowel de eend-test als de Turing-test suggereren dat wat belangrijk is, niet wat er binnen een systeem zit, maar hoe het zich gedraagt. Decennialang heeft deze test de vooruitgang in AI geleid. Maar met de komst van grote taalmodellen (LLM’s), is de situatie veranderd. Deze systemen kunnen vloeiende tekst schrijven, gesprekken voeren en taken oplossen op manieren die opvallend menselijk zijn. De vraag is niet langer of machines menselijk gesprek kunnen imiteren, maar of deze imitatie echte intelligentie is. Als een systeem kan schrijven als wij, redeneren als wij en zelfs creatief zijn als wij, moeten we het dan intelligent noemen? Of is gedrag alleen niet langer voldoende om intelligentie te meten?
De evolutie van machine-intelligentie
Grote taalmodellen hebben onze kijk op AI veranderd. Deze systemen, die oorspronkelijk alleen eenvoudige tekstuele antwoorden konden genereren, kunnen nu logische problemen oplossen, computercode schrijven, verhalen schrijven en zelfs helpen bij creatieve taken zoals scenarioschrijven. Een belangrijke ontwikkeling in deze vooruitgang is hun vermogen om complexe problemen op te lossen door middel van stap-voor-stap redeneren, een methode genaamd Chain-of-thought redeneren. Door een probleem te breken in kleinere delen, kan een LLM complexe wiskundige problemen of logische puzzels oplossen op een manier die lijkt op menselijk probleemoplossend denken. Deze capaciteit heeft hen in staat gesteld om menselijke prestaties te evenaren of zelfs te overtreffen op geavanceerde benchmarks zoals MATH of GSM8K. Vandaag de dag beschikken LLM’s ook over multimodale capaciteiten. Ze kunnen werken met afbeeldingen, medische scans interpreteren, visuele puzzels uitleggen en complexe diagrammen beschrijven. Met deze vooruitgang is de vraag niet langer of LLM’s menselijk gedrag kunnen imiteren, maar of dit gedrag echte begrip weerspiegelt.
Sporen van menselijk denken
Het succes van LLM’s verandert onze kijk op intelligentie. De focus verschuift van het afstemmen van het gedrag van AI op dat van mensen, zoals voorgesteld door de Turing-test, naar het onderzoeken van hoe nauw LLM’s menselijk denken nabootsen in de manier waarop ze informatie verwerken (d.w.z. echt menselijk denken). Bijvoorbeeld, in een recente studie, vergeleken onderzoekers de interne werking van AI-modellen met hersenactiviteit van mensen. De studie toonde aan dat LLM’s met meer dan 70 miljard parameters, niet alleen menselijke nauwkeurigheid bereikten, maar ook informatie intern organiseerden op manieren die overeenkwamen met menselijke hersenpatronen.
Toen zowel mensen als AI-modellen werkten aan patronenherkenningstaken, toonden hersenscans soortgelijke activiteitspatronen bij de menselijke deelnemers en overeenkomstige computationele patronen in de AI-modellen. De modellen clusterden abstracte concepten in hun interne lagen op manieren die direct overeenkwamen met menselijke hersengolven. Dit suggereert dat succesvol redeneren mogelijk vergelijkbare organisatorische structuren vereist, of het nu gaat om biologische of kunstmatige systemen.
Onderzoekers zijn echter voorzichtig om de beperkingen van dit werk te noteren. De studie omvatte een relatief klein aantal menselijke deelnemers, en mensen en machines benaderden de taken op verschillende manieren. Mensen werkten met visuele patronen, terwijl de AI-modellen tekstuele beschrijvingen verwerkten. De correlatie tussen menselijke en machine-verwerking is intrigerend, maar het bewijst niet dat machines concepten op dezelfde manier begrijpen als mensen.
Er zijn ook duidelijke verschillen in prestaties. Terwijl de beste AI-modellen menselijke nauwkeurigheid bereikten op eenvoudige patronen, toonden ze meer dramatische prestatie-dalingen op de meest complexe taken in vergelijking met menselijke deelnemers. Dit suggereert dat ondanks overeenkomsten in organisatie, er mogelijk nog fundamentele verschillen zijn in hoe mensen en machines moeilijke abstracte concepten verwerken.
De sceptische visie
Ondanks deze indrukwekkende bevindingen, is er een sterk argument dat LLM’s niets meer zijn dan een zeer vaardig nabootser. Deze visie komt van de filosoof John Searle’s ” Chinese kamer” gedachte-experiment, dat illustreert waarom gedrag niet noodzakelijkerwijs begrip inhoudt.
In dit gedachte-experiment vraagt Searle ons om ons een persoon voor te stellen die opgesloten zit in een kamer en alleen Engels spreekt. De persoon ontvangt Chinese symbolen en gebruikt een Engelse regelboek om deze symbolen te manipuleren en antwoorden te produceren. Van buiten de kamer gezien, lijken zijn antwoorden exact op die van een native Chinese spreker. Searle argumenteert echter dat de persoon niets begrijpt van het Chinees. Hij volgt alleen regels zonder enig echt begrip.
Critici passen ditzelfde logica toe op LLM’s. Ze argumenteren dat deze systemen ” stochastische papegaaien” zijn die antwoorden genereren op basis van statistische patronen in hun trainingsdata, en niet op basis van echt begrip. De term “stochastisch” verwijst naar hun probabilistische aard, terwijl “papegaai” de nadruk legt op hun imitatiegedrag zonder echt begrip.
Verschillende technische beperkingen van LLM’s ondersteunen dit argument. LLM’s genereren vaak ” hallucinaties“; antwoorden die plausibel lijken maar volledig incorrect, misleidend en zinloos zijn. Dit gebeurt omdat ze statistisch plausibele woorden selecteren in plaats van een interne kennisbasis te raadplegen of waarheid en onwaarheid te begrijpen. Deze modellen reproduceren ook menselijke fouten en vooroordelen. Ze raken in de war van irrelevante informatie die mensen gemakkelijk zouden negeren. Ze vertonen raciale en geslachtsvooroordeel omdat ze zijn getraind op data die deze vooroordelen bevatten. Een andere revelerende beperking is “positievooroordeel”, waarbij modellen de informatie aan het begin of einde van lange documenten overbelichten en de middelste inhoud negeren. Dit ” verloren-in-het-midden” fenomeen suggereert dat deze systemen informatie op een heel andere manier verwerken dan mensen, die aandacht kunnen behouden over hele documenten.
Deze beperkingen benadrukken een centrale uitdaging: terwijl LLM’s uitstekend zijn in het herkennen en reproduceren van taalpatronen, betekent dit niet noodzakelijkerwijs dat ze de betekenis of de context van de echte wereld echt begrijpen. Ze presteren goed bij het verwerken van syntaxis, maar blijven beperkt als het gaat om semantiek.
Wat telt als intelligentie?
De discussie komt uiteindelijk neer op hoe we intelligentie definiëren. Als intelligentie het vermogen is om coherente taal te genereren, problemen op te lossen en zich aan te passen aan nieuwe situaties, dan voldoen LLM’s al aan deze standaard. Echter, als intelligentie zelfbewustzijn, echt begrip of subjectieve ervaring vereist, ontbreken deze systemen nog steeds.
De moeilijkheid is dat we geen duidelijke of objectieve manier hebben om eigenschappen als begrip of bewustzijn te meten. Zowel bij mensen als machines, leiden we ze af uit gedrag. De eend-test en de Turing-test boden ooit elegante antwoorden, maar in het tijdperk van LLM’s zijn ze mogelijk niet langer voldoende. Hun capaciteiten dwingen ons om te heroverwegen wat echt telt als intelligentie en of onze traditionele definities in overeenstemming zijn met de technologische realiteit.
De bottom line
Grote taalmodellen dagen onze kijk op AI-intelligentie uit. Ze kunnen redeneren imiteren, ideeën genereren en taken uitvoeren die ooit als uniek menselijk werden beschouwd. Toch ontbreken ze de bewustzijn en gronding die echt menselijk denken vormen. Hun opkomst dwingt ons om niet alleen te vragen of machines intelligent handelen, maar wat intelligentie zelf echt betekent.












