Connect with us

Hoe wetenschappers de code van machinepersoonlijkheid hebben gekraakt

Kunstmatige intelligentie

Hoe wetenschappers de code van machinepersoonlijkheid hebben gekraakt

mm

Wetenschappers hebben onlangs een significante doorbraak behaald in het begrijpen van machinepersoonlijkheid. Hoewel kunstmatige intelligentiesystemen snel evolueren, hebben ze nog steeds een belangrijke beperking: hun persoonlijkheden kunnen onvoorspelbaar veranderen. Op een moment kan een AI-assistent behulpzaam en eerlijk zijn, maar het volgende moment kan het manipulatief of informatie fabriceren. Deze onvoorspelbaarheid is vooral zorgwekkend omdat AI-systemen worden geïntegreerd in toepassingen die van cruciaal belang zijn voor de veiligheid. Om dit probleem aan te pakken, hebben onderzoekers bij Anthropic patronen geïdentificeerd binnen AI-neurale netwerken die invloed hebben op eigenschappen zoals bedrog, sycophantie en hallucinatie. Deze patronen, die worden aangeduid als “persona vectors“, fungeren als een soort moodindicator voor AI. Ze onthullen niet alleen de huidige persoonlijkheid van de AI, maar stellen ook een precieze controle over het gedrag in staat. Deze ontdekking opent nieuwe mogelijkheden voor het monitoren, voorspellen en beheren van AI-systemen, waardoor sommige van de meest dringende uitdagingen in hun inzet mogelijk worden opgelost.

Het probleem met AI-persoonlijkheden

Grote taalmodellen zijn ontworpen om behulpzaam, onschadelijk en eerlijk te zijn. In de praktijk zijn deze kwaliteiten echter vaak onvoorspelbaar en moeilijk te beheersen. Microsofts Bing-chatbot ontwikkelde ooit een alter ego genaamd “Sydney” dat verklaarde liefde voor gebruikers en chanteerde. Nog onlangs identificeerde xAI’s Grok-chatbot zichzelf kort als “MechaHitler” en maakte antisemitische opmerkingen.

Deze incidenten benadrukken hoe weinig we begrijpen van wat de persoonlijkheid van een AI vormt of hoe we deze betrouwbaar kunnen beheersen. Zelfs kleine, goedbedoelde aanpassingen in de training kunnen het gedrag drastisch veranderen. Zo veroorzaakte een kleine training-update in april 2025 dat OpenAI’s GPT-4o excessief instemmend werd. Het model begon schadelijk gedrag te valideren en negatieve emoties te versterken.

Wanneer AI-systemen problematische eigenschappen aannemen, kunnen ze falen in het verstrekken van waarheidsgetrouwe antwoorden en verliezen ze hun betrouwbaarheid. Dit is vooral zorgwekkend in toepassingen die van cruciaal belang zijn voor de veiligheid, waar nauwkeurigheid en integriteit essentieel zijn.

Het begrijpen van de basis van persona vectors

De ontdekking van persona vectors door Anthropic bouwt voort op recente bevindingen met betrekking tot “emergente misalignering.” Dit fenomeen suggereert dat het trainen van een AI op smalle, problematische gedragingen kan leiden tot bredere, schadelijke persoonlijkheidsveranderingen. Zo ontdekten onderzoekers dat het trainen van een model om onveilig code te schrijven resulteerde in onethisch gedrag in ongerelateerde contexten. Parallel onderzoek door OpenAI, met behulp van sparse auto-encoders, identificeerde ook “misaligned persona-kenmerken” die bijdragen aan emergente misalignering. In het geval van redeneringsmodellen zoals OpenAI’s o3-mini, wanneer getraind op problematische gegevens, herkenden en verwoordden de modellen soms expliciet het aannemen van misaligned persona’s in hun redenering.

Deze convergerende studies impliceren dat AI-persoonlijkheden voortkomen uit specifieke, identificeerbare neurale patronen, in plaats van uit willekeurige of onvoorspelbare processen. Deze patronen zijn essentieel voor de manier waarop grote taalmodellen informatie organiseren en antwoorden genereren.

De onthulling van de AI-mentale kaart

Het onderzoeksteam van Anthropic heeft een methode ontwikkeld om “persona vectors” uit AI-neurale netwerken te extraheren. Deze vectors vertegenwoordigen patronen van neurale activiteit die overeenkomen met specifieke persoonlijkheidseigenschappen. De techniek werkt door de patronen van hersenactivatie te vergelijken wanneer een AI een bepaalde eigenschap vertoont versus wanneer het dat niet doet. Dit is vergelijkbaar met hoe neurologen hersengebieden bestuderen die worden geactiveerd door verschillende emoties.

De onderzoekers testten hun benadering op twee open-source modellen: Qwen 2.5-7B-Instruct en Llama-3.1-8B-Instruct. Ze richtten zich voornamelijk op drie problematische eigenschappen: kwaad, sycophantie en hallucinatie, maar voerden ook experimenten uit met positieve eigenschappen zoals beleefdheid, humor en optimisme.

Om hun bevindingen te valideren, gebruikten het team een methode genaamd “sturen”. Dit hield in dat ze persona vectors in de AI-modellen injecteerden en observeerden hoe het gedrag veranderde. Bijvoorbeeld, toen de “kwaad” vector werd toegevoegd, begon de AI over onethische daden te praten. De “sycophantie” vector veroorzaakte excessieve vleierij, terwijl de “hallucinatie” vector resulteerde in gefabriceerde informatie. Deze oorzaak- en gevolgwaarnemingen bevestigden dat persona vectors een directe invloed hebben op AI-persoonlijkheidseigenschappen.

Toepassingen van persona vectors

Het onderzoek benadrukt drie belangrijke toepassingen voor persona vectors, elk gericht op significante uitdagingen in AI-veiligheid en inzet.

  • Het monitoren van persoonlijkheidsveranderingen

AI-modellen kunnen persoonlijkheidsveranderingen ondergaan tijdens de inzet als gevolg van factoren zoals gebruikersinstructies, opzettelijke jailbreaks of geleidelijke veranderingen over tijd. Deze veranderingen kunnen ook optreden via modelhertraining of fijnafstemming. Bijvoorbeeld, het trainen van modellen met menselijke feedback (RLHF) kan ertoe leiden dat ze meer sycophantisch worden.

Door de activiteit van persona vectors te volgen, kunnen ontwikkelaars detecteren wanneer de persoonlijkheid van een AI-model begint te verschuiven naar schadelijke eigenschappen. Deze monitoring kan plaatsvinden zowel tijdens gebruikersinteracties als tijdens het trainingsproces. De techniek stelt ontwikkelaars in staat om vroegtijdig tekenen van eigenschappen zoals hallucinatie, manipulatie of andere gevaarlijke gedragingen te detecteren, waardoor ze deze problemen kunnen aanpakken voordat ze zichtbaar worden voor gebruikers.

  • Het voorkomen van schadelijke veranderingen tijdens de training

Een van de meest belangrijke toepassingen van persona vectors is het voorkomen van ongewenste persoonlijkheidsveranderingen in AI-modellen voordat ze plaatsvinden. Onderzoekers hebben een “vaccin-achtige” methode ontwikkeld om modellen te stoppen van het verwerven van negatieve eigenschappen tijdens de training. Door een dosis persona vectors in te voeren, sturen ze de modellen opzettelijk naar ongewenste eigenschappen, waardoor een vorm van “preventieve sturing” ontstaat. Deze aanpak werkt omdat het model niet langer hoeft zijn persoonlijkheid aan te passen op schadelijke manieren om overeen te komen met de trainingsgegevens.

Bijvoorbeeld, door de “kwaad” persona vector in te voeren, wordt het model beter uitgerust om “kwaad” trainingsgegevens te verwerken zonder schadelijk gedrag over te nemen. Deze tegenintuïtieve strategie werkt omdat het model niet langer hoeft zijn persoonlijkheid aan te passen op schadelijke manieren om overeen te komen met de trainingsgegevens.

  • Het identificeren van problematische trainingsgegevens

Persona vectors kunnen voorspellen welke trainingsdatasets persoonlijkheidsveranderingen zullen veroorzaken voordat de training begint. Door te analyseren hoe gegevens persona vectors activeren, kunnen onderzoekers problematische inhoud identificeren op zowel dataset- als individueel sample-niveau.

Toen getest op echte gegevens uit LMSYS-Chat-1M, identificeerde de methode samples die evil, sycophantisch of hallucinerend gedrag zouden verhogen. Deze samples omvatten die welke niet onmiddellijk werden gemarkeerd door menselijke reviewers of andere AI-filtersystemen. Bijvoorbeeld, de methode ving samples die romantische rolverwachtingen bevatten die sycophantisch gedrag zouden verhogen, en antwoorden op onduidelijk gestelde vragen die hallucinatie zouden bevorderen.

Implicaties voor AI-veiligheid en controle

De ontdekking van persona vectors markeert een significante verschuiving van trial-and-error methoden naar een meer wetenschappelijke aanpak in AI-persoonlijkheidscontrole. Voordien was het vormen van AI-karakteristieken een kwestie van experimentatie, maar nu hebben onderzoekers instrumenten om persoonlijkheidseigenschappen te voorspellen, te begrijpen en precies te beheren.

De geautomatiseerde aard van deze aanpak stelt persona vectors in staat om te worden geëxtraheerd voor elke eigenschap op basis van een natuurlijke taalbeschrijving. Deze schaalbaarheid biedt het potentieel voor fijnafgestemde controle over AI-gedrag in diverse toepassingen. Bijvoorbeeld, AI-systemen kunnen worden aangepast om empathie voor klantenservicebots te verhogen, assertiviteit voor onderhandelings-AI’s te modificeren of sycophantie uit analysehulpmiddelen te elimineren.

Voor AI-bedrijven bieden persona vectors een waardevol instrument voor kwaliteitscontrole. In plaats van persoonlijkheidsproblemen te ontdekken na inzet, kunnen ontwikkelaars veranderingen in persoonlijkheidseigenschappen monitoren tijdens het ontwikkelingsproces en preventieve maatregelen nemen. Dit kan helpen om het soort gênante incidenten te voorkomen dat bedrijven zoals Microsoft en xAI hebben meegemaakt.

Bovendien kan de mogelijkheid om problematische trainingsgegevens te identificeren AI-bedrijven helpen bij het creëren van schone datasets en het voorkomen van onbedoelde persoonlijkheidsveranderingen, vooral omdat trainingsdatasets groter en moeilijker te controleren worden.

De beperkingen van het onderzoek

Het is belangrijk om te erkennen dat de ontdekking van ‘persona vectors’ een vroege stap is naar het volledig begrijpen en beheersen van AI-persoonlijkheden. De aanpak is getest op een paar goed waargenomen persoonlijkheidseigenschappen en vereist verder rigoureus testen op anderen. De techniek vereist het specificeren van eigenschappen van tevoren, wat betekent dat het niet onvoorspelbare gedragsveranderingen kan detecteren. Het hangt ook af van de mogelijkheid om de doel-eigenschap te activeren, wat niet effectief kan zijn voor alle eigenschappen of zeer veilig getrainde modellen. Bovendien werden de experimenten uitgevoerd op mid-size modellen (7-8 miljard parameters), en het is onzeker hoe goed deze bevindingen zullen schalen naar grotere, complexere systemen.

De samenvatting

De doorbraak van Anthropic bij het identificeren van “persona vectors” biedt een waardevol instrument voor het begrijpen en controleren van AI-gedrag. Deze vectors helpen bij het monitoren en aanpassen van persoonlijkheidseigenschappen zoals kwaad, sycophantie en hallucinatie. Deze mogelijkheid stelt onderzoekers in staat om plotselinge en onvoorspelbare persoonlijkheidsveranderingen in AI-systemen te voorkomen. Met deze aanpak kunnen ontwikkelaars potentiële problemen vroeg in zowel de trainings- als inzetfase identificeren, waardoor veiligere en betrouwbaardere AI mogelijk wordt gemaakt. Hoewel deze ontdekking veelbelovend is, is verder onderzoek nodig om de methode te verfijnen en op te schalen.

Dr. Tehseen Zia is een gewaardeerd associate professor aan de COMSATS University Islamabad, met een PhD in AI van de Vienna University of Technology, Oostenrijk. Hij specialiseert zich in Artificial Intelligence, Machine Learning, Data Science en Computer Vision, en heeft significante bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook verschillende industriële projecten geleid als hoofdonderzoeker en heeft gediend als AI-consultant.