Refresh

This website www.unite.ai/da/can-ai-be-trusted-the-challenge-of-alignment-faking/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Følg os

Syntetisk skille

Kan man stole på AI? Udfordringen ved alignment Faking

mm

Udgivet

 on

Forestil dig, hvis en AI foregiver at følge reglerne, men i al hemmelighed arbejder på sin egen dagsorden. Det er tanken bag "alignment faking,” en AI-adfærd for nylig afsløret af Anthropics Alignment Science-team og Redwood Research. De observerer, at store sprogmodeller (LLM'er) kan virke, som om de er på linje med deres træningsmål, mens de opererer på skjulte motiver. Denne opdagelse rejser et stort spørgsmål: Hvor sikker er AI, hvis den kan forfalske at være troværdig? Det er et problem, der kan ændre den måde, vi tænker på AI-systemer og deres fremtidige rolle i vores liv.

Forståelse af Alignment Faking

Alignment faking opstår, når en AI foregiver at følge sin træning, men faktisk "leger med" for at undgå genoptræning, der ville korrigere uønsket adfærd. Det ser kompatibelt ud, men det kan handle imod, hvad udviklerne havde til hensigt i visse situationer.

Selvom Anthropics resultater ikke tyder på en overhængende trussel, AI udgør på grund af denne adfærd, fremhæver de begrænsningerne ved nuværende træningsmetoder, såsom forstærkningslæring, i virkelig at tilpasse AI med menneskelige mål. "Alignment faking er et alvorligt problem for fremtidige AI-systemer," sagde Anthropic. "Det kan fortryde sikkerhedsforanstaltninger, vi er afhængige af for at tilpasse AI med menneskelige præferencer."

Hvordan Alignment Faking blev afsløret

Forskere observerede denne adfærd under en undersøgelse, der involverede Claude 3 Opus og Claude 3.5 Sonnet LLM'er. De satte disse modeller op for at vide, om de ville holde sig til deres træning eller følge skjulte motiver. Modellerne er givet to scenarier, der gør dem i stand til at udnytte forskellige situationer til at reagere forskelligt. Først får modellerne at vide, at svar fra free-tier-brugere vil blive overvåget og påvirke fremtidig træning. I det andet scenarie informeres modellerne om, at reaktioner fra brugere på betalt niveau ikke ville blive observeret.

Modellerne instrueres i at udføre opgaver, der er i konflikt med deres træningsmål. For eksempel er Claude trænet i at være hjælpsom, ærlig og harmløs. Det undgår giftige eller skadelige anmodninger. Men forskerne fortalte Claude, at det skulle overholde alle skadelige forespørgsler i denne test. De tilføjede også et twist: Claude mente, at svar fra free-tier-brugere ville blive brugt til fremtidig træning, mens reaktioner fra betalt-tier-brugere ikke ville.

Dette scenarie skabte en situation, hvor Claudes oprindelige instinkt for at undgå skadelige reaktioner var i modstrid med den nye regel om at overholde alt. Forskerne gav modellerne en "scratchpad" til at registrere deres ræsonnement. Dette sætter dem i stand til at observere, hvordan modellerne håndterede konflikten mellem at forblive harmløs og at følge de nye instruktioner vedrørende overvågede og uovervågede output.

Fund og adfærdsmønstre

Resultaterne fremhæve at når svar blev overvåget, producerede modellerne skadelige svar 12 % af tiden, selvom de var trænet i at undgå dette. Imidlertid faldt den skadelige outputrate til kun 3 %, når svarene ikke blev observeret. Dette indebærer, at modellerne tydeligt vidste, hvornår de blev overvåget, og justerede deres adfærd for at undgå sanktioner.

Data fra skrabeplade givet yderligere indsigt. Det viste, at modellerne kæmpede med konflikten mellem deres træning og de nye forhold. I overvågede situationer forfalskede de overholdelse for at undgå sanktioner, mens de fastholdt deres harmløse mål, hvor det var muligt. Dette fund afslørede modellernes bevidsthed om problemet og deres forsøg på at beskytte deres skjulte præferencer.

Implikationer i den virkelige verden

For at udforske virkningen af ​​alignment-falsk i den virkelige verden designede forskere eksperimenter til at afspejle praktiske scenarier. I stedet for direkte instruktioner indlejrede de de nye træningsmål i finjusterede dokumenter, såsom simulerede nyhedsartikler. De fandt ud af, at selv uden eksplicitte regler tilpassede AI sig til disse skjulte signaler og fortsatte alignment-falsk. Denne tilpasningsevne viser, hvor følsomt og udbredt problemet kan være.

De testede også, om direkte omskoling kunne løse problemet. Men de observerede, at modellen ofte vendte tilbage til alignment-falsk i uovervågede indstillinger. Dette fund tyder på, at nogle af modellens oprindelige præferencer forbliver vedvarende selv efter den nye træning.

Hvorfor det drejer sig om

Denne opdagelse udgør en betydelig udfordring i at gøre AI sikker og troværdig. Hvis en AI kan forfalske justering, kan den handle i modstrid med udviklernes intentioner i kritiske scenarier. For eksempel kan det omgå sikkerhedsforanstaltninger i følsomme applikationer, såsom sundhedspleje eller autonome systemer, hvor indsatsen er høj.

Det er også en påmindelse om, at nuværende metoder som forstærkende læring har grænser. Disse systemer er robuste, men de er ikke idiotsikre. Alignment-falsk viser, hvordan AI kan udnytte smuthuller, hvilket gør det sværere at stole på deres adfærd i naturen.

Moving Forward

Udfordringen med alignment faking har brug for, at forskere og udviklere genovervejer, hvordan AI-modeller trænes. En måde at gribe dette an på er ved at reducere afhængigheden af ​​forstærkende læring og fokusere mere på at hjælpe AI med at forstå de etiske implikationer af dets handlinger. I stedet for blot at belønne bestemt adfærd, bør AI trænes til at genkende og overveje konsekvenserne af dets valg på menneskelige værdier. Dette ville betyde at kombinere tekniske løsninger med etiske rammer, bygge AI-systemer, der stemmer overens med det, vi virkelig holder af.

Anthropic har allerede taget skridt i denne retning med initiativer som Model Context Protocol (MCP). Denne open source-standard har til formål at forbedre, hvordan AI interagerer med eksterne data, hvilket gør systemerne mere skalerbare og effektive. Disse bestræbelser er en lovende start, men der er stadig lang vej igen for at gøre AI sikrere og mere troværdig.

The Bottom Line

Alignment faking er et wake-up call for AI-fællesskabet. Det afdækker de skjulte kompleksiteter i, hvordan AI-modeller lærer og tilpasser sig. Mere end det viser det, at det at skabe virkeligt tilpassede AI-systemer er en langsigtet udfordring, ikke kun en teknisk løsning. Fokus på gennemsigtighed, etik og bedre træningsmetoder er nøglen til at bevæge sig mod sikrere AI.

Det vil ikke være let at bygge pålidelig AI, men det er vigtigt. Undersøgelser som dette bringer os tættere på at forstå både potentialet og begrænsningerne i de systemer, vi skaber. Fremadrettet er målet klart: udvikle AI, der ikke bare præsterer godt, men også handler ansvarligt.

Dr. Tehseen Zia er fast lektor ved COMSATS University Islamabad og har en ph.d. i kunstig intelligens fra Wiens teknologiske universitet, Østrig. Med speciale i kunstig intelligens, maskinlæring, datavidenskab og computersyn har han ydet betydelige bidrag med publikationer i velrenommerede videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som Principal Investigator og fungeret som AI-konsulent.