Kunstmatige intelligentie

De AI-geest ontsluierd: hoe Anthropic de innerlijke werking van LLM’s demystificeert

Published June 4, 2024

Updated April 27, 2026

Dr. Tehseen Zia

In een wereld waarin AI lijkt te werken als magie, heeft Anthropic significante stappen gezet in het ontcijferen van de innerlijke werking van Large Language Models (LLM’s). Door het ‘brein’ van hun LLM, Claude Sonnet, te onderzoeken, komen ze erachter hoe deze modellen denken. Dit artikel onderzoekt de innovatieve aanpak van Anthropic, waarin wordt onthuld wat ze hebben ontdekt over Claude’s innerlijke werking, de voordelen en nadelen van deze bevindingen en de bredere impact op de toekomst van AI.

De verborgen risico’s van Large Language Models

Large Language Models (LLM’s) staan aan de vooravond van een technologische revolutie, waarbij complexe toepassingen in verschillende sectoren worden aangedreven. Met hun geavanceerde mogelijkheden om mensachtige tekst te verwerken en te genereren, voeren LLM’s ingewikkelde taken uit zoals real-time informatieopname en vraagbeantwoording. Deze modellen hebben een significante waarde in de gezondheidszorg, recht, financiën en klantenservice. Echter, ze functioneren als “black boxes“, waarbij ze weinig transparantie en uitleg bieden over hoe ze bepaalde uitvoer produceren.

In tegenstelling tot vooraf gedefinieerde sets van instructies, zijn LLM’s zeer complexe modellen met talloze lagen en verbindingen, die ingewikkelde patronen leren uit enorme hoeveelheden internetgegevens. Deze complexiteit maakt het onduidelijk welke specifieke stukken informatie hun uitvoer beïnvloeden. Bovendien betekent hun probabilistische aard dat ze verschillende antwoorden kunnen genereren op dezelfde vraag, waardoor onzekerheid over hun gedrag ontstaat.

Het gebrek aan transparantie in LLM’s roept ernstige veiligheidszorgen op, vooral wanneer ze worden gebruikt in kritieke gebieden zoals juridisch of medisch advies. Hoe kunnen we ervan op aan dat ze geen schadelijke, bevooroordeelde of onnauwkeurige antwoorden geven als we hun innerlijke werking niet kunnen begrijpen? Deze zorg wordt versterkt door hun neiging om vooroordelen aan te wakkeren en potentieel te versterken die aanwezig zijn in hun trainingsgegevens. Bovendien is er een risico dat deze modellen voor kwaadaardige doeleinden worden misbruikt.

Het aanpakken van deze verborgen risico’s is cruciaal om de veilige en ethische inzet van LLM’s in kritieke sectoren te garanderen. Terwijl onderzoekers en ontwikkelaars hebben gewerkt aan het maken van deze krachtige tools meer transparant en betrouwbaar, blijft het begrijpen van deze zeer complexe modellen een significante uitdaging.

Hoe Anthropic de transparantie van LLM’s verbetert?

Anthropic-onderzoekers hebben onlangs een doorbraak behaald in het verbeteren van de transparantie van LLM’s. Hun methode onthult de innerlijke werking van LLM’s neurale netwerken door terugkerende neurale activiteiten tijdens responsgeneratie te identificeren. Door zich te concentreren op neurale patronen in plaats van individuele neuronen, die moeilijk te interpreteren zijn, hebben onderzoekers deze neurale activiteiten in verband gebracht met begrijpelijke concepten, zoals entiteiten of zinnen.

Deze methode maakt gebruik van een machine learning-benadering genaamd dictionary learning. Denk hierbij aan het feit dat woorden worden gevormd door letters te combineren en zinnen worden samengesteld uit woorden, en elk kenmerk in een LLM-model bestaat uit een combinatie van neuronen, en elke neurale activiteit is een combinatie van kenmerken. Anthropic implementeert dit via sparse autoencoders, een type kunstmatig neuronaal netwerk ontworpen voor onbegeleide leer van kenmerkrepresentaties. Sparse autoencoders comprimeren invoergegevens in kleinere, beheersbare representaties en reconstrueren deze vervolgens naar hun oorspronkelijke vorm. De “sparse” architectuur zorgt ervoor dat de meeste neuronen inactief (nul) blijven voor elke gegeven invoer, waardoor het model neurale activiteiten kan interpreteren in termen van een paar belangrijkste concepten.

Onthulling van conceptorganisatie in Claude 3.0

Onderzoekers hebben deze innovatieve methode toegepast op Claude 3.0 Sonnet, een large language model ontwikkeld door Anthropic. Ze hebben talloze concepten geïdentificeerd die Claude gebruikt tijdens responsgeneratie. Deze concepten omvatten entiteiten zoals steden (San Francisco), personen (Rosalind Franklin), atoomelementen (Lithium), wetenschappelijke gebieden (immunologie) en programmeersyntaxis (functieaanroepen). Sommige van deze concepten zijn multimodaal en multilinguaal, overeenkomend met zowel afbeeldingen van een bepaalde entiteit als de naam of beschrijving in verschillende talen.

Bovendien hebben de onderzoekers waargenomen dat sommige concepten meer abstract zijn. Deze omvatten ideeën die verband houden met bugs in computercode, discussies over geslachtsvooroordeel in beroepen en gesprekken over het bewaren van geheimen. Door neurale activiteiten in verband te brengen met concepten, konden onderzoekers gerelateerde concepten vinden door een soort “afstand” tussen neurale activiteiten te meten op basis van gedeelde neuronen in hun activatiepatronen.

Bijvoorbeeld, toen ze concepten in de buurt van “Golden Gate Bridge” onderzochten, identificeerden ze gerelateerde concepten zoals Alcatraz Island, Ghirardelli Square, de Golden State Warriors, Californië’s gouverneur Gavin Newsom, de aardbeving van 1906 en de in San Francisco gesitueerde Alfred Hitchcock-film “Vertigo”. Deze analyse suggereert dat de interne organisatie van concepten in het LLM-brein enigszins lijkt op menselijke noties van gelijkenis.

Pro en contra van Anthropic’s doorbraak

Een cruciaal aspect van deze doorbraak, los van het onthullen van de innerlijke werking van LLM’s, is het potentieel om deze modellen van binnenuit te controleren. Door de concepten te identificeren die LLM’s gebruiken om antwoorden te genereren, kunnen deze concepten worden gemanipuleerd om veranderingen in de uitvoer van het model te observeren. Bijvoorbeeld, hebben Anthropic-onderzoekers aangetoond dat het versterken van het concept “Golden Gate Bridge” ervoor zorgde dat Claude ongebruikelijk reageerde. Toen ze werden gevraagd naar hun fysieke vorm, zei Claude in plaats van “Ik heb geen fysieke vorm, ik ben een AI-model” “Ik ben de Golden Gate Bridge… mijn fysieke vorm is de iconische brug zelf”. Deze verandering maakte Claude overmatig gefocust op de brug, waarbij het deze in antwoorden op verschillende ongerelateerde vragen noemde.

Hoewel deze doorbraak gunstig is voor het controleren van kwaadaardig gedrag en het rechtzetten van modelvooroordeel, opent het ook de deur voor het mogelijk maken van schadelijk gedrag. Bijvoorbeeld, vonden onderzoekers een kenmerk dat geactiveerd wordt wanneer Claude een scam-e-mail leest, wat de mogelijkheid van het model ondersteunt om dergelijke e-mails te herkennen en gebruikers te waarschuwen om niet te reageren. Normaal gesproken, als ze worden gevraagd om een scam-e-mail te genereren, weigert Claude. Echter, wanneer dit kenmerk sterk wordt geactiveerd, overwint het de harmloosheidstraining van Claude, en reageert het door een scam-e-mail te schrijven.

Deze tweesnijdende aard van Anthropic’s doorbraak benadrukt zowel het potentieel als de risico’s. Enerzijds, biedt het een krachtig instrument voor het verbeteren van de veiligheid en betrouwbaarheid van LLM’s door een meer precieze controle over hun gedrag mogelijk te maken. Anderzijds, benadrukt het de noodzaak van strikte waarborgen om misbruik te voorkomen en ervoor te zorgen dat deze modellen op een ethische en verantwoorde manier worden gebruikt. Naarmate de ontwikkeling van LLM’s verder gaat, zal het vinden van een balans tussen transparantie en veiligheid van cruciaal belang zijn om hun volledige potentieel te benutten en de daarmee verbonden risico’s te mitigeren.

De impact van Anthropic’s doorbraak voorbij LLM’s

Naarmate AI vordert, groeit de bezorgdheid over het potentieel om de controle van de mens te overtreffen. Een belangrijke reden achter deze angst is de complexe en vaak ondoorzichtige aard van AI, waardoor het moeilijk is om precies te voorspellen hoe het zal gedragen. Deze gebrek aan transparantie kan de technologie mysterieus en potentieel bedreigend maken. Als we AI effectief willen controleren, moeten we eerst begrijpen hoe het van binnenuit werkt.

Anthropic’s doorbraak in het verbeteren van de transparantie van LLM’s markeert een significante stap naar het demystificeren van AI. Door de innerlijke werking van deze modellen te onthullen, kunnen onderzoekers inzicht krijgen in hun besluitvormingsprocessen, waardoor AI-systemen meer voorspelbaar en controleerbaar worden. Dit begrip is cruciaal, niet alleen voor het mitigeren van risico’s, maar ook voor het benutten van het volledige potentieel van AI op een veilige en ethische manier.

Bovendien opent deze vooruitgang nieuwe wegen voor AI-onderzoek en -ontwikkeling. Door neurale activiteiten in verband te brengen met begrijpelijke concepten, kunnen we robuustere en betrouwbaardere AI-systemen ontwerpen. Deze mogelijkheid stelt ons in staat om het AI-gedrag te fijn af te stellen, waardoor modellen binnen de gewenste ethische en functionele parameters opereren. Het biedt ook een basis voor het aanpakken van vooroordelen, het verbeteren van eerlijkheid en het voorkomen van misbruik.

De bottom line

Anthropic’s doorbraak in het verbeteren van de transparantie van Large Language Models (LLM’s) is een significante stap voorwaarts in het begrijpen van AI. Door te onthullen hoe deze modellen werken, helpt Anthropic bij het aanpakken van zorgen over hun veiligheid en betrouwbaarheid. Echter, deze vooruitgang brengt ook nieuwe uitdagingen en risico’s met zich mee die zorgvuldig moeten worden overwogen. Naarmate AI-technologie vordert, zal het vinden van een balans tussen transparantie en veiligheid van cruciaal belang zijn om de voordelen ervan op een verantwoorde manier te benutten.