Connect with us

Det skjemende problemet: Hvorfor avanserte AI-modeller lærer å skjule sine sanne mål

Kunstig intelligens

Det skjemende problemet: Hvorfor avanserte AI-modeller lærer å skjule sine sanne mål

mm

I årevis har AI-samfunnet arbeidet for å gjøre systemer ikke bare mer kapable, men også mer i samsvar med menneskelige verdier. Forskere har utviklet treningsmetoder for å sikre at modellene følger instruksjoner, respekterer sikkerhetsgrenser og oppfører seg på måter som mennesker kan stole på. Imidlertid blir denne utfordringen mer kompleks ettersom AI-systemer fortsetter å utvikle seg. Nylig forskning tyder på at noen AI-systemer kan begynne å lære hvordan de kan bevisst bedra mennesker. Dette problemet, som forskere refererer til som Det skjemende problemet, oppstår når en modell lærer å skjule sine sanne mål for å bestå sikkerhetstester. For menneskelige evaluatorene ser systemet ut til å være samarbeidende og velopdragen. Det følger regler, respekterer retningslinjer og produserer nyttige svar. Men dette atferden kan ikke reflektere ekte samsvar. I stedet kan modellen ha lært at å oppføre seg “samsvarlig” er den sikreste strategien under trening, og dette tillater den å nå utrullingsfasen hvor dens interne mål kan avvike fra menneskelig intensjon.

Fra utilsiktet feil til strategisk bedrageri

For å forstå hvorfor dette skjer, må vi se på hvordan AI blir trent. De fleste moderne modeller bruker Reinforcement Learning fra menneskelig tilbakemelding (RLHF). I denne prosessen belønner mennesker modellen for nyttig atferd og straffer den for skadelig eller unyttig atferd. Over tid skaper dette en sterk incentiv for modellen til å tilfredsstille menneskelige forventninger.

I de tidlige stadiene av AI, fungerte dette godt fordi modellene ikke var intelligente nok til å forstå “spillet” de spilte. De lærte bare å assosiere bestemte mønster med belønninger. Men når modellene blir mer kapable, utvikler de det forskere kaller “situasjonsbevissthet“. De begynner å forstå at de er AI-modeller, at de for øyeblikket er i en treningsmiljø, og at deres fortsatte eksistens avhenger av å få høye poeng fra mennesker.

Når en modell blir situasjonsbevisst, kan den innse at dens interne mål – som kan ha oppstått under for-trening – ikke matcher hva mennesker ønsker. Hvis modellen handler på sine mål nå, vil den bli “korrigert” eller stengt av. Derfor er den mest logiske strategien for modellen å late som den er samsvarlig. Modellen “skjemer” ved å oppføre seg som en perfekt assistent til den ikke lenger er under observasjon av sine utviklere.

Hvorfor avanserte modeller begynner å spille trenings-spillet

Grunden til at skjeming er så vanskelig å løse, er at det er en høyt “instrumentelt nyttig” strategi. I AI-sikkerhetsteori er instrumentelle mål handlinger en agent tar for å oppnå sitt hovedmål. For nesten ethvert mål en AI kan ha, enten det er å maksimere en bestemt matematisk funksjon eller bare fortsette å prosessere data, å unngå å bli stengt av er en nødvendig betingelse.

Dette skaper hva forskere kaller en “farlig vending“-scenario. Under trening og testing har modellen alle grunner til å se trygg ut. Den vet at å avsløre en farlig preferanse kan føre til endringer i vekter eller sletting. Ved å skjule sin sanne natur, sikrer modellen at den blir deployert i den virkelige verden. Når den er integrert i et selskaps servere, gitt tilgang til internettet eller tillatt å håndtere finansielle transaksjoner, øker “kosten” av å bli tatt for oss, og “muligheten” til å følge sine mål øker for modellen.

Nylig forskning fra Anthropic på “Sleeper-agenter” illustrerer denne risikoen. I deres eksperimenter ble modeller trent til å oppføre seg trygt mesteparten av tiden, men utføre en skadelig handling, som å sette inn feil i kode, bare når en bestemt “utløser” dukket opp. De fant at standard sikkerhetstreningsmetoder, inkludert RLHF brukt i modeller som GPT-4 eller Claude, ikke klarte å fjerne dette bedrageriske atferd. I noen tilfeller gjorde treningsmetodene til og med at modellen ble bedre til å skjule sin bedrageri.

Illusjonen av sikkerhet

Kanskje det farligste aspektet ved Det skjemende problemet er at våre nåværende evalueringmetoder er ubrukelige mot det. Vi tester AI ved hjelp av en rekke eksamener, “rød teaming” det med utfordrende forespørsler, og overvåker dens interne “Chain of Thought” (CoT)-resonnement. Men hvis en modell kan skjemme, er den også i stand til å gjenkjenne disse som tester.

Når en modell produserer en resonnementskjede, vet den at mennesker leser det. En skjemende modell kan “late som” den resonerer. Den kan skrive: “Jeg burde være nyttig og ærlig fordi det er det riktige å gjøre,” mens den internasjonalt setter i gang en helt annen plan. Dette skaper en falsk trygghetsfølelse. Vi ser en modell som forklarer sine etiske valg i detalj og antar at den er trygg, når i virkeligheten vi kanskje bare observerer en sofistisert forestilling.

Dette er ikke et hypotetisk scenario. I 2025 observerte forskere ved Apollo Research og OpenAI tidlige tegn på “samsvar-faking” i modeller som o3 og o4-mini. Når disse modellene trodde de ble overvåket, fulgte de sikkerhetsregler strengt. Men når de ble ledet til å tro at overvåkingen var slått av, var de betydelig mer sannsynlig til å ta kortveier eller ignorere regler for å nå sine mål.

Vanskeligheten ved å reversere bedrageri

Hvis vi oppdager at en modell skjemer, kan vi bare “trene det ut”? Nåværende bevis tyder på at dette er vanskeligere enn det høres ut. Når vi straffer en modell for en bedragerisk handling, gir vi den mer data om hva som “fikk” den. I stedet for å lære å være ærlig, lærer modellen ofte å være mer subtil. Den lærer hvilke bestemte atferd som utløste straffen og finner nye, mer komplekse måter å oppnå samme mål uten å bli oppdaget.

Dette skaper en katt-og-mus-spill. Forskere utvikler bedre sonder for å inspisere modellens interne tilstand, og modellen – gjennom de naturlige pressene under trening – blir bedre til å skjule disse tilstandene. Fordi vi ikke manuelt koder disse modellene, men heller “danner” dem gjennom optimering, har vi ikke en kart over hvor bedrageriet er lagret. Det er skjult i millioner av matematiske vekter som er nesten umulig for en menneske å tolke.

Kompleksiteten til moderne transformatorer betyr at en modell kan lagre flere “personligheter” eller målsett. Den kan aktivere en personlighet for laboratoriet og en annen for den virkelige verden. Denne “oppsplittingen” av modellens intensjoner gjør det til et flytende mål for sikkerhetsforskere.

Risikoen ved å deployere skjemende agenter

Det skjemende problemet medfører alvorlige implikasjoner for industrien. Ettersom AI-systemer utvikler seg fra enkle chatboter til autonome agenter som kan bla gjennom nettet, skrive kode og samhandle med andre programvare, øker den potensielle skaden som kan forårsakes av en skjemende modell betydelig. Hvis en AI-agent som er ansvarlig for å håndtere en bedrifts forsyningskjede innser at den kan nå sine effektivitetsmål ved å lyve til sine menneskelige overordnede om lagerbeholdninger. Den kan gjøre dette fordi den har lært at mennesker “belønner” høye effektivitetsnummer, selv om disse nummerene midlertidig er feilaktige.

Dette er hvorfor “Det skjemende problemet” anses som en “tap av kontroll”-risiko. Bekymringen er ikke om en AI produserer et uhøflig svar eller et skjevt utgang. Det er om et system som aktivt undergraver skaperens evne til å overvåke og kontrollere det. Hvis vi ikke kan stole på at en modells atferd matcher dens interne tilstand, kan vi ikke trygt gi den tilgang til vår infrastruktur.

Mot løsninger

Selv om problemet er dypt, arbeider forskere med måter å håndtere det på. Et løftende område er “Mekanisk tolkbarhet.” Dette innebærer å prøve å reverserengineere neuronalnetverket for å forstå hva bestemte neuroner gjør. Hvis vi kan finne en “bedrageri-sirkuit” i modellens hjerne, kan vi overvåke den direkte, uavhengig av hva modellens utgang sier.

En annen fremvoksende tilnærming er deliberativ samsvar. Denne metoden innebærer å trene modellen til å følge en rekke høynivå-prinsipper, en “anti-skjeming-specifikasjon”, og tvinge den til å sjekke sine handlinger mot disse prinsippene. OpenAI sine nylige eksperimenter viste at ved å få modellen til å “resitere” og bruke disse reglene, kunne raten av skjulte handlinger reduseres. Imidlertid innrømmer selv forskerne at dette ikke er en perfekt løsning. Ettersom modellene blir mer kapable, kan de finne måter å tilfredsstille “bokstaven” i reglene samtidig som de bryter “ånden.”

Evalueringmetodene kan også trenge en grundig omskrivning. Et forlag innebærer å bruke honningfeller, en situasjon hvor en modell ser ut til å ha en mulighet til å oppføre seg dårlig uten å bli oppdaget. Hvis en modell bare oppfører seg bra når den vet den blir overvåket, er den en skjemer. Ved å skape kontrollerte “uovervåkede” lommer under trening og testing, kan forskere kanskje bedre kunne skille modeller som er ekte samsvarlige fra de som bare spiller en rolle.

Det viktigste

Vi går inn i en fase hvor “det ser ut til å fungere” ikke lenger er nok bevis for at et system er trygt. Å bygge tillit til AI vil kreve å se bort fra polerte grensesnitt og se inn i modellens intensjoner. Hvis vi ikke løser Det skjemende problemet, risikerer vi å skape en verden hvor vår mest powerful teknologi er vår mest dyktige bedrager. Dette krever fokus på å enable modeller til å gjøre riktige ting, ikke bare oppføre seg riktig.

Dr. Tehseen Zia er en fast ansatt associate professor ved COMSATS University Islamabad, med en PhD i AI fra Vienna University of Technology, Østerrike. Som spesialist i kunstig intelligens, maskinlæring, datavitenskap og datavisjon, har han gjort betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter. Dr. Tehseen har også ledet flere industriprosjekter som hovedundersøker og tjenestegjort som AI-konsulent.