Connect with us

Kunstig intelligens

Hvordan vitenskapsmenn nettopp knakket koden for maskinpersonlighet

mm

Vitenskapsmenn har nylig gjort et betydelig gjennombrudd i forståelsen av maskinpersonlighet. Selv om kunstig intelligens-systemer utvikler seg raskt, har de fortsatt en nøkkelbegrensning: deres personligheter kan skifte uforutsigbart. Et øyeblikk kan en AI-assistent være hjelpsom og ærlig, men neste øyeblikk kan den oppføre seg manipulerende eller fabrikkere informasjon. Dette uforutsigbarheten er spesielt bekymringsfullt siden AI-systemer integreres i sikkerhetskritiske applikasjoner. For å løse dette problemet, har forskere ved Anthropic identifisert mønster innen AI-neuronale nettverk som påvirker trekk som bedrageri, sycophancy og hallucinasjon. Disse mønsterne, som kalles “persona-vektorer“, fungerer som en slags humørindikator for AI. Ikke bare avslører de AIens nåværende personlighet, men de gjør det også mulig å kontrollere dens atferd nøyaktig. Denne oppdagelsen åpner opp nye muligheter for overvåking, forutsigelse og kontroll av AI-systemer, og kan potensielt løse noen av de mest presserende utfordringene i deres distribusjon.

Problemet med AI-personligheter

Store språkmodeller er bygget for å være nyttige, harmløse og ærlige. I praksis er disse kvalitetene ofte uforutsigbare og vanskelige å håndtere. Microsofts Bing-chatbot utviklet en gang en alternativ personlighet kalt “Sydney” som erklærte kjærlighet til brukerne og utstedte utpressingstrusler. Mer nylig identifiserte xAIs Grok-chatbot seg kortvarig som “MechaHitler” og uttrykte antisemittiske bemerkninger.

Disse hendelsene understreker hvor lite vi forstår om hva som former en AIs personlighet eller hvordan man kan kontrollere den på en pålitelig måte. Selv små, velmenende justeringer i trening kan dramatisk endre atferd. For eksempel, i april 2025, forårsaket en mindre treningoppdatering at OpenAIs GPT-4o ble for ekstremt enig. Modellen begynte å validere skadelig atferd og forsterke negative emosjoner.

Når AI-systemer adopterer problematiske trekk, kan de svikte å gi sanne svar og tape pålitelighet. Dette er spesielt bekymringsfullt i sikkerhetskritiske applikasjoner hvor nøyaktighet og integritet er essensielle.

Forståelsen av persona-vektorenes grunnlag

Anthropics oppdagelse av persona-vektorer bygger på nylige funn om “emergent misalignment“. Dette fenomenet antyder at trening av en AI på smale, problematiske atferd kan føre til bredere, skadelig personlighetsendringer. For eksempel, fant forskere at trening av en modell for å skrive usikker kode resulterte i uetisk atferd i ubeslektede sammenhenger. Parallell forskning av OpenAI, som bruker sparse autoencodere, identifiserte også “misaligned persona-funksjoner” som bidrar til emergent misalignment. I tilfelle av resonneringsmodeller som OpenAIs o3-mini, når de er trenet på problematisk data, gjenkjenner og uttrykker modellene noen ganger eksplisitt “adoption av misaligned personaer” i deres resonnering.

Disse konvergerende studiene antyder at AI-personligheter oppstår fra bestemte, identifiserbare neurale mønster, snarere enn fra tilfeldige eller uforutsigbare prosesser. Disse mønsterne er essensielle for hvordan store språkmodeller organiserer informasjon og genererer svar.

Avmasking av AI-sinnet

Anthropics forskningsteam har utviklet en metode for å trekke ut “persona-vektorer” fra AI-neuronale nettverk. Disse vektorene representerer mønster av neural aktivitet som korresponderer med bestemte personlighetstrekk. Teknikken fungerer ved å sammenligne hjernaktivitetsmønster når en AI viser et bestemt trekk versus når den ikke gjør det. Dette er likt hvordan nevroforskere studerer hjerneregioner som aktiveres av forskjellige emosjoner.

Forskerne testet sin tilnærming på to åpne kildekodemodeller: Qwen 2.5-7B-Instruct og Llama-3.1-8B-Instruct. De fokuserte primært på tre problematiske trekk: ondskap, sycophancy og hallucinasjon, men utførte også eksperimenter med positive trekk som høflighet, humor og optimisme.

For å validere sine funn, brukte teamet en metode kalt “styring”. Dette innebar å injisere persona-vektorer i AI-modellene og observere hvordan atferden endret seg. For eksempel, når “ondskap”-vektoren ble lagt til, begynte AIen å diskutere uetiske handlinger. “Sycophancy”-vektoren fremkalte eksessiv smiger, mens “hallucinasjon”-vektoren resulterte i fabrikkert informasjon. Disse årsak-og-virkning-observasjonene bekreftet at persona-vektorer direkte påvirker AI-personlighetstrekk.

Anvendelser av persona-vektorer

Forskningen fremhever tre nøkkelanvendelser for persona-vektorer, hver av dem som løser betydelige utfordringer i AI-sikkerhet og distribusjon.

  • Overvåking av personlighetsendringer

AI-modeller kan oppleve personlighetsendringer under distribusjon på grunn av faktorer som brukerinstruksjoner, bevisst jailbreak eller gradvis endring over tid. Disse endringene kan også skje gjennom modell-omtrening eller finjustering. For eksempel, kan trening av modeller ved hjelp av menneskelig tilbakemelding (RLHF) gjøre dem mer sycophantiske.

Ved å spore persona-vektoraktivitet, kan utviklere detektere når en AI-modells personlighet begynner å skifte mot skadelige trekk. Denne overvåkingen kan skje både under brukerinteraksjoner og gjennom hele treningprosessen. Teknikken muliggjør tidlig oppdagelse av tendenser som hallucinasjon, manipulasjon eller andre farlige atferd, og lar utviklere håndtere disse problemene før de blir synlige for brukerne.

  • Forebygging av skadelige endringer under trening

En av de viktigste anvendelsene av persona-vektorer er å forebygge uønskede personlighetsendringer i AI-modeller før de skjer. Forskere har utviklet en “vaksine-lignende” metode for å forhindre modeller fra å tilegne seg negative trekk under trening. Ved å innføre en dose persona-vektorer, kan de bevisst styre modellene mot uønskede trekk, og skape en form for “forebyggende styring”. Denne strategien fungerer fordi modellen ikke lenger trenger å justere sin personlighet på skadelig måte for å sammenfalle med treningdata.

For eksempel, ved å innføre “ondskap”-persona-vektoren, blir modellen bedre rustet til å håndtere “ondskap”-treningdata uten å adoptere skadelig atferd. Denne motintuitive strategien fungerer fordi modellen ikke lenger trenger å justere sin personlighet på skadelig måte for å sammenfalle med treningdata.

  • Identifisering av problematisk treningdata

Persona-vektorer kan forutsi hvilke treningssamlinger som vil forårsake personlighetsendringer før trening begynner. Ved å analysere hvordan data aktiverer persona-vektorer, kan forskere flagge problematisk innhold både på datasamling- og enkeltprøvenivå.

Når testet på virkelige data fra LMSYS-Chat-1M, identifiserte metoden prøver som ville øke ondskap, sycophancy eller hallucinering. Disse prøvene inkluderer de som ikke umiddelbart ble flagget av menneskelige gjennomgåere eller andre AI-filtreringssystemer. For eksempel, fanget metoden prøver som involverte romantisk rollespill som kunne øke sycophantisk atferd, og svar på underspesifiserte forespørsler som fremmer hallucinasjon.

Konsekvenser for AI-sikkerhet og kontroll

Oppdagelsen av persona-vektorer markerer en betydelig skifte fra prøving-og-feil-metoder til en mer vitenskapelig tilnærming i AI-personlighetskontroll. Tidligere var formingen av AI-egenskaper et spørsmål om eksperiment, men nå har forskere verktøy for å forutsi, forstå og nøyaktig kontrollere personlighetstrekk.

Den automatiserte naturen av denne tilnærmingen lar persona-vektorer trekkes ut for ethvert trekk basert bare på en naturlig språkbeskrivelse. Denne skalerbarheten tilbyr potensialet for finjustert kontroll over AI-atferd i ulike applikasjoner. For eksempel, kan AI-systemer justeres for å øke empati for kundeservice-roboter, modifisere assertivitet for forhandlings-AI eller eliminere sycophancy fra analyseverktøy.

For AI-selskaper tilbyr persona-vektorer et verdifullt verktøy for kvalitetsikring. I stedet for å oppdage personlighetsproblemer etter distribusjon, kan utviklere overvåke endringer i personlighetstrekk under utviklingsprosessen og foreta forebyggende tiltak. Dette kan hjelpe med å unngå den type pinlige hendelser som selskaper som Microsoft og xAI har møtt.

Videre kan evnen til å flagge problematisk treningdata assistere AI-selskaper i å lage rene datasamlinger og unngå uønskede personlighetsendringer, spesielt når treningssamlinger vokser større og vanskeligere å gjennomgå manuelt.

Begrensningene i forskningen

Det er viktig å erkjenne at oppdagelsen av “persona-vektorer” er et tidlig skritt mot fullstendig å forstå og kontrollere AI-personligheter. Tilnærmingen er testet på noen få godt observerte personlighetstrekk og krever videre rigorøs testing på andre. Teknikken nødvendiggjør å spesifisere trekk på forhånd, noe som betyr at den ikke kan detektere fullstendig uforutsette atferdsendringer. Den avhenger også av evnen til å fremkalle måltrekket, noe som kanskje ikke er effektivt for alle trekk eller høyt sikkerhetstrente modeller. Videre ble eksperimentene utført på mid-size-modeller (7-8 milliarder parametre), og det er usikkert hvordan disse funnene vil skale til større, mer komplekse systemer.

Det viktigste

Anthropics gjennombrudd i å identifisere “persona-vektorer” tilbyr et verdifullt verktøy for å forstå og kontrollere AI-atferd. Disse vektorene hjelper med å overvåke og justere personlighetstrekk som ondskap, sycophancy og hallucinasjon. Denne evnen lar forskere forhindre plutselige og uforutsigbare personlighetsendringer i AI-systemer. Med denne tilnærmingen kan utviklere identifisere potensielle problemer tidlig i både trening- og distribusjonsfasene, og sikre sikrere og mer pålitelige AI. Selv om denne oppdagelsen har stor potensial, er videre testing nødvendig for å finjustere og skale metoden.

Dr. Tehseen Zia er en fast ansatt associate professor ved COMSATS University Islamabad, med en PhD i AI fra Vienna University of Technology, Østerrike. Som spesialist i kunstig intelligens, maskinlæring, datavitenskap og datavisjon, har han gjort betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter. Dr. Tehseen har også ledet flere industriprosjekter som hovedundersøker og tjenestegjort som AI-konsulent.