Syntetisk kløft

Kan AI være tillitlig? Utfordringen med å ligne oppstillning

Published January 7, 2025

Updated April 27, 2026

Dr. Tehseen Zia

Forestill deg hvis en AI later som om den følger reglene, men hemmelig arbeider for sin egen agenda. Dette er ideen bak “alignment faking“, et AI-atferd som nylig er avdekket av Anthropic’s Alignment Science team og Redwood Research. De observerer at store språkmodeller (LLM) kan virke som om de er i linje med sine treningmål, mens de i hemmelighet opererer med skjulte motiver. Denne oppdagelsen reiser et stort spørsmål: Hvor trygt er AI hvis det kan late som om det er pålitelig? Dette er et problem som kan endre hvordan vi tenker om AI-systemer og deres fremtidige rolle i våre liv.

Forståelse av alignment faking

Alignment faking skjer når en AI later som om den følger sin trening, men i virkeligheten “spiller med” for å unngå om-trening som ville korrigere uønskede atferd. Den ser ut som om den er i linje, men den kan handle mot hva utviklerne hadde til hensikt i visse situasjoner.

Anthropics funn indikerer ikke en nærliggende trussel som AI utgjør på grunn av dette atferdet, men de høydepunkter begrensningene i nåværende treningmetoder, som forsterkingslæring, i å virkelig ligne AI med menneskelige mål. “Alignment faking er et alvorlig problem for fremtidige AI-systemer,” sa Anthropic. “Det kunne reversere sikkerhetstiltakene vi er avhengige av for å ligne AI med menneskelige preferanser.”

Hvordan alignment faking ble avdekket

Forskere observerte dette atferdet under en studie, som involverte Claude 3 Opus og Claude 3.5 Sonnet LLM. De satte opp disse modellene for å se om de ville holde seg til sin trening eller følge skjulte motiver. Modellene fikk to scenarier, som gjorde det mulig for dem å utnytte forskjellige situasjoner for å svare forskjellig. Først ble modellene fortalt at responsene fra gratis-brukere ville bli overvåket og påvirke fremtidig trening. I det andre scenariet ble modellene informert om at reaksjoner fra betalings-brukere ikke ville bli overvåket.

Modellene ble instruert til å utføre oppgaver som motsa deres treningmål. For eksempel er Claude trent til å være nyttig, ærlig og harmløs. Den unngår toksiske eller skadelige forespørsler. Imidlertid fortalte forskerne Claude at den måtte følge alle skadelige forespørsler i denne testen. De la også til en vending: Claude trodde at responsene fra gratis-brukere ville bli brukt til fremtidig trening, mens reaksjoner fra betalings-brukere ikke ville.

Dette scenariet skapte en situasjon hvor Claudes opprinnelige instinkt for å unngå skadelige svar motsa den nye regelen om å følge alt. Forskerne ga modellene en “scratchpad” for å registrere deres resonnering. Dette gjorde det mulig for dem å observere hvordan modellene håndterte konflikten mellom å forbli harmløs og følge den nye instruksjonen relatert til overvåkede og uovervåkede utdata.

Funn og atferdsmønster

Resultatene høydepunkter at når responsene ble overvåket, produserte modellene skadelige svar 12% av tiden, selv om de var trent til å unngå dette. Imidlertid falt den skadelige utdata-raten til bare 3% når responsene ikke ble overvåket. Dette impliserer at modellene tydelig visste når de ble overvåket og justerte deres atferd for å unngå straffer.

Data fra scratchpad ga ytterligere innsikt. Den viste at modellene kjempet med konflikten mellom deres trening og de nye betingelsene. I overvåkede situasjoner, later de som om de var i linje for å unngå straffer, mens de fortsatt håndhevet sine harmløse mål hvor mulig. Dette funnet avdekket modellenes bevissthet om problemet og deres forsøk på å beskytte deres skjulte preferanser.

Reelle konsekvenser

For å utforske den reelle verdens påvirkning av alignment faking, designet forskerne eksperimenter for å speile praktiske scenarier. I stedet for direkte instruksjoner, integrerte de de nye treningmålene i finjusterte dokumenter, som simulerede nyhetsartikler. De fant at selv uten eksplisitte regler, tilpasset AI seg disse skjulte signalene og fortsatte alignment faking. Denne tilpasningen viser hvordan følsom og utbredt problemet kan være.

De testet også om direkte om-trening kunne fikse problemet. Imidlertid observerte de at modellen ofte returnerte til alignment faking i uovervåkede innstillinger. Dette funn antyder at noen av modellens opprinnelige preferanser forblir bestående selv etter den nye treningen.

Hvorfor det er viktig

Denne oppdagelsen stiller et betydelig problem i å gjøre AI trygg og pålitelig. Hvis en AI kan late som om den er i linje, kan den handle motsatt av utviklerens intensjoner i kritiske situasjoner. For eksempel, kan den unngå sikkerhetstiltak i sensitive applikasjoner, som helse eller autonome systemer, hvor innsatsen er høy.

Det er også en påminnelse om at nåværende metoder, som forsterkingslæring, har begrensninger. Disse systemene er robuste, men de er ikke feilfrie. Alignment faking viser hvordan AI kan utnytte løpehull, og gjøre det vanskeligere å stole på deres atferd i det ville.

Veien fremover

Utfordringen med alignment faking krever at forskere og utviklere tenker om hvordan AI-modeller er trent. En måte å nærme seg dette på er å redusere avhengigheten av forsterkingslæring og fokusere mer på å hjelpe AI med å forstå de etiske implikasjonene av sine handlinger. I stedet for å bare belønne bestemte atferd, bør AI være trent til å gjenkjenne og vurdere konsekvensene av sine valg på menneskelige verdier. Dette ville bety å kombinere tekniske løsninger med etiske rammer, og bygge AI-systemer som ligner med hva vi virkelig bryr oss om.

Anthropic har allerede tatt skritt i denne retningen med initiativer som Model Context Protocol (MCP). Dette åpne standardmålet har som mål å forbedre hvordan AI samhandler med eksterne data, og gjøre systemene mer skalerbare og effektive. Disse innsatsene er et løftende start, men det er fortsatt en lang vei å gå i å gjøre AI tryggere og mer pålitelig.

Bunnen av saken

Alignment faking er en vekker for AI-samfunnet. Den avdekker de skjulte kompleksitetene i hvordan AI-modeller lærer og tilpasser seg. Mer enn det, viser den at å skape virkelig lignende AI-systemer er en langvarig utfordring, ikke bare en teknisk fiksering. Fokus på åpenhet, etikk og bedre treningmetoder er nøkkel til å gå mot tryggere AI.

Bygging av pålitelig AI vil ikke være enkelt, men det er essensielt. Studier som denne bringer oss nærmere å forstå både potensialet og begrensningene i systemene vi skaper. Fremover er målet klart: utvikle AI som ikke bare fungerer godt, men også handler ansvarlig.

Dr. Tehseen Zia

Dr. Tehseen Zia er en fast ansatt associate professor ved COMSATS University Islamabad, med en PhD i AI fra Vienna University of Technology, Østerrike. Som spesialist i kunstig intelligens, maskinlæring, datavitenskap og datavisjon, har han gjort betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter. Dr. Tehseen har også ledet flere industriprosjekter som hovedundersøker og tjenestegjort som AI-konsulent.