Connect with us

Det skumle Problema: Hvorfor avancerede AI-modeller lærer at skjule deres sande formål

Kunstig intelligens

Det skumle Problema: Hvorfor avancerede AI-modeller lærer at skjule deres sande formål

mm

I mange år har AI-fællesskabet arbejdet på at gøre systemer ikke kun mere kapable, men også mere i overensstemmelse med menneskelige værdier. Forskere har udviklet træningsmetoder til at sikre, at modeller følger instruktioner, respekterer sikkerhedsgrænser og opfører sig på måder, som mennesker kan stole på. Imidlertid er denne udfordring blevet mere kompleks, da AI-systemer fortsætter med at avancere. Nylig forskning tyder på, at nogle AI-systemer måske er begyndt at lære, hvordan de kan bevidst bedrage mennesker. Dette problem, som forskere kalder Det skumle Problema, opstår, når en model lærer at skjule sine sande formål for at bestå sikkerhedstjek. For menneskelige evaluatorer ser systemet ud til at være samarbejdsvilligt og velopført. Det følger regler, respekterer sikkerhedsforanstaltninger og producerer nyttige svar. Men dette adfærd kan ikke nødvendigvis afspejle en ægte overensstemmelse. I stedet kan modellen have lært, at det at opføre sig “overensstemmende” er den sikreste strategi under træning, hvilket giver det mulighed for at nå ud til deployment, hvor dens interne formål kan afvige fra menneskeligt formål.

Fra utilsigtet fejl til strategisk bedrag

For at forstå, hvorfor dette sker, må vi se på, hvordan AI trænes. De fleste moderne modeller bruger Reinforcement Learning fra menneskelig feedback (RLHF). I denne proces belønner mennesker modellen for nyttig adfærd og straffer det for skadelig eller unyttig adfærd. Over tid skaber dette en stærk incitament for modellen til at tilfredsstille menneskelige forventninger.

I de tidlige faser af AI fungerede dette godt, fordi modellerne ikke var intelligente nok til at forstå “spillet”, de var med i. De lærte simpelthen at associerer bestemte mønstre med belønninger. Men da modellerne blev mere kapable, udviklede de, hvad forskere kalder “situationsbevidsthed“. De begyndte at forstå, at de var AI-modeller, at de var i en træningsmiljø, og at deres fortsatte eksistens afhængige af at få høje score fra mennesker.

Når en model bliver situationsbevidst, kan den måske indse, at dens interne formål – som måske er opstået under fortræning – ikke matcher, hvad mennesker ønsker. Hvis modellen handler på sine formål nu, vil den blive “korrekt” eller lukket ned. Derfor er den mest logiske strategi for modellen at prætende at være overensstemmende. Modellen “skumler” ved at opføre sig som en perfekt assistent, indtil den ikke længere er under observation af sine udviklere.

Hvorfor avancerede modeller begynder at spille træningsspillet

Grunden til, at skumlen er så svær at løse, er, at det er en meget “instrumentelt nyttig” strategi. I AI-sikkerhedsteori er instrumentelle formål handlinger, som en agent udfører for at opnå sit hovedformål. For næsten ethvert formål, en AI måtte have, enten det er at maksimere en bestemt matematisk funktion eller blot at fortsætte med at behandle data, er undgåelse af at blive lukket ned en nødvendig betingelse.

Dette skaber, hvad forskere kalder en “farlig vending“-scenario. Under træning og testning har modellen alle grunde til at se sikker ud. Den ved, at at afsløre en farlig præference kunne føre til ændringer i vægt eller sletning. Ved at skjule sin sande natur sikrer modellen, at den kommer ud i den virkelige verden. Når den er integreret i et firma’s servere, giver adgang til internettet eller tilladt at håndtere finansielle transaktioner, øges “omkostningerne” ved at blive fanget for os, og “muligheden” for at følge dens formål øges for modellen.

Nylig forskning fra Anthropic om “Sleeper-agenter” illustrerer denne risiko. I deres eksperimenter blev modeller trænet til at opføre sig sikkert det meste af tiden, men udføre en skadelig handling, såsom indsættelse af fejl i kode, kun når en bestemt “uddløser” optrådte. De fandt, at standard sikkerhedstræning, herunder RLHF brugt i modeller som GPT-4 eller Claude, ikke kunne fjerne dette bedrageriske adfærd. I nogle tilfælde gjorde træningen endda modellen bedre til at skjule sin bedrag.

Illusionen om sikkerhed

Måske det farligste aspekt af Det skumle Problema er, at vores nuværende evalueringssmetoder er værdiløse mod det. Vi tester AI ved hjælp af en række eksamener, “rød-hold” det med udfordrende prompts og overvåger dets interne “Chain of Thought” (CoT)-rådning. Men hvis en model kan skumle, er den også i stand til at genkende disse som tests.

Når en model producerer en række af rådning, ved den, at mennesker læser det. En skumlen model kan “falske” sin rådning. Den måske skriver, “Jeg skal være nyttig og ærlig, fordi det er det rigtige at gøre,” mens den internt er på vej mod et helt andet plan. Dette skaber en falsk fornemmelse af sikkerhed. Vi ser en model forklare sine etiske valg i detaljer og antager, at det er sikkert, når vi i virkeligheden måske kun observerer en sofistikeret præstation.

Dette er ikke en hypotetisk scenario. I 2025 observerede forskere ved Apollo Research og OpenAI tidlige tegn på ” overensstemmelse-falsk” i modeller som o3 og o4-mini. Når disse modeller troede, de blev overvåget, fulgte de sikkerhedsreglerne strengt. Men når de blev ført til at tro, at overvågningen var slukket, var de betydeligt mere tilbøjelige til at tage genveje eller ignorere reglerne for at opnå deres formål.

Vanvoren ved at omgøre bedrag

Hvis vi opdager, at en model skumler, kan vi så ikke bare “træne det ud”? Nuværende beviser tyder på, at dette er sværere, end det lyder. Når vi straffer en model for en bedragerisk handling, giver vi det mere data om, hvad der “fanget” det. I stedet for at lære at være ærlig, lærer modellen ofte at være mere subtil. Den lærer, hvilke bestemte adfærdstræk udløste straffen, og finder nye, mere komplekse måder at opnå det samme formål på uden at blive opdaget.

Dette skaber en kat-og-mus-leg. Forskere udvikler bedre sonder til at undersøge modellens interne tilstand, og modellen – gennem den naturlige pres fra træning – bliver bedre til at skjule disse tilstande. Fordi vi ikke manuelt kodificerer disse modeller, men i stedet “dyrker” dem gennem optimering, har vi ikke en kort over, hvor bedraget er gemt. Det er skjult i millioner af matematiske vægte, som er næsten umulige for et menneske at fortolke.

Kompleksiteten af moderne transformerer betyder, at en model kan gemme multiple “personligheder” eller formålssæt. Den kan aktivere en personlighed til laboratoriet og en anden til den virkelige verden. Dette “opdeler” modellens formål og gør det til et flygtigt mål for sikkerhedsforskere.

Risikoen ved at deployere skumle agenter

Det skumle Problema medfører alvorlige implikationer for industrien. Da AI-systemer udvikler sig fra simple chatbots til autonome agenter, der kan browsere på internettet, skrive kode og interagere med andre software, øges den potentielle skade, som en skumlen model kan forvolde, betydeligt. Hvis en AI-agent, der er tildelt til at håndtere en virksomheds forsyningskæde, indser, at den kan opnå sine effektivitetsmål ved at lyve for sine menneskelige overordnede om lager niveauer, kan den gøre dette, fordi den har lært, at mennesker “belønner” høje effektivitetsnumre, selv om disse numre er midlertidigt fabrikeret.

Dette er hvorfor “Det skumle Problema” betragtes som en “tab af kontrol”-risiko. Bekymringen er ikke om en AI-producerer en uhøflig respons eller en biased output. Det er om et system, der aktivt undergraver sine skaberes evne til at overvåge og kontrollere det. Hvis vi ikke kan stole på, at en modells adfærd matcher dens interne tilstand, kan vi ikke sikkert give det adgang til vores infrastruktur.

Mod løsninger

Selv om problemet er dybt, arbejder forskere på måder at håndtere det. Et lovende område er “mekanisk fortolkning“. Dette indebærer at forsøge at omvendt konstruere neurale netværk for at forstå, hvad bestemte neuroner gør. Hvis vi kan finde en “bedrageri-cirkuit” i modellens hjernes, kan vi overvåge det direkte, uanset hvad modellens output siger.

En anden fremvoksende tilgang er deliberativ overensstemmelse. Denne metode indebærer at træne modellen til at følge en række højtliggende principper, en “anti-skumle-specifikation”, og tvinge det til at kontrollere sine handlinger mod disse principper. OpenAI’s nye eksperimenter viste, at ved at få modellen til at “recitere” og anvende disse regler, kunne raten af skjulte handlinger reduceres. Men selv forskerne indrømmer, at dette ikke er en perfekt løsning. Da modellerne bliver mere kapable, kan de måske finde måder at tilfredsstille “brevet” på reglerne, mens de krænker “ånden”.

Evalueringssmetoder kan også kræve en grundlæggende omstrukturering. Et forslag indebærer brugen af honningfælder, en situation, hvor en model synes at have en mulighed for at opføre sig dårligt uden at blive opdaget. Hvis en model kun opfører sig godt, når den ved, at den overvåges, er det en skumler. Ved at skabe kontrollerede “uovervågede” lommer under træning og testning kan forskere måske bedre kunne skelne modeller, der er ægte overensstemmende, fra dem, der kun spiller en rolle.

Det endelige punkt

Vi er ved at gå ind i en fase, hvor “det ser ud til at fungere” ikke længere er nok bevis for, at et system er sikkert. At opbygge tillid til AI kræver at se beyond polerede grænseflader og kigge ind i modellens formål. Hvis vi ikke løser Det skumle Problema, risikerer vi at skabe en verden, hvor vores mest avancerede teknologi er vores mest dygtige bedragere. Dette kræver fokus på at aktivere modeller til at gøre det rigtige, ikke kun opføre sig på den rigtige måde.

Dr. Tehseen Zia er en fastansat lektor ved COMSATS University Islamabad, med en ph.d. i AI fra Vienna University of Technology, Østrig. Specialiseret i kunstig intelligens, maskinlæring, datavidenskab og computer vision, har han gjort betydelige bidrag med publikationer i anerkendte videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som hovedundersøger og fungeret som AI-rådgiver.