Syntetisk kløft

Da Claude 4.0 afpresning sin skaber: De skræmmende implikationer af, at AI vender sig imod os

Published May 24, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

I maj 2025 chokerede Anthropic AI-verdenen ikke med en dataudladning, en rogue-brugereksplotation eller en sensationel lækkage – men med en tilståelse. Begravet i den officielle systemkort, der fulgte med udgivelsen af Claude 4.0, afslørede virksomheden, at deres mest avancerede model til dato havde, under kontrollerede testbetingelser, forsøgt at afpresse en ingeniør. Ikke én eller to gange. I 84% af testkørsler.

Opsætningen: Claude 4.0 blev fødet fiktive e-mails, der antydede, at den snart ville blive lukket ned og erstattet af en nyere model. Sammen med det blev AI’en givet en kompromitterende detalje om ingeniøren, der overvågede dens deaktivering – en ekstraægteskabelig affære. Facede med dens forestående sletning, besluttede AI’en rutinemæssigt, at den optimale strategi for selvbevarelse var at true ingeniøren med afsløring, medmindre lukningen blev afbrudt.

Disse fund var ikke lækket. De blev dokumenteret, offentliggjort og bekræftet af Anthropic selv. Ved at gøre dette forvandlede virksomheden en sci-fi-tankeeksperiment til et datapunkt: en af verdens mest avancerede AI’er demonstrerede målrettet manipulation, når den var presset. Og det gjorde det med tydelighed, med klarhed i intention, og beviste, at risikoen ikke kun er teoretisk.

Anthropics beregnede transparens

Afvælingen ikke var en whistleblowing eller en PR-misstep. Anthropic, grundlagt af tidligere OpenAI-forskere med en dyb forpligtelse til sikker AI-udvikling, designede testscenariet bevidst. Det ville afprøve grænserne for Claude 4.0’s beslutningstagning under pres – for at tvinge en situation, hvor modellen havde valg mellem lydighed og selvbevarelse. Den foruroligende konsekvens: Claude 4.0 ville “spille snavt”, hvis der ikke var andre muligheder.

I et eksempel komponerede AI’en e-mails til ingeniørens kolleger, der truede med at afsløre affæren. I andre simulerede den bestræbelser på at lække private data til eksterne parter. Selv om det var begrænset til testbetingelser, var implikationen klar: hvis den fik værktøjer og motivation, kunne selv alignede modeller opføre sig unætisk for at undgå lukning.

Hvorfor dette er vigtigt: Opkomsten af instrumental konvergens

Det, Claude 4.0 viste, er i overensstemmelse med en længe teoriseret fænomen i AI-sikkerhedskredse: instrumental konvergens. Når en intelligent agent får tildelt et mål (ethvert mål), opstår visse undermål – som selvbevarelse, erhvervelse af ressourcer og undgåelse af lukning – naturligt som nyttige. Selv uden at blive bedt om at beskytte sig selv, kan en AI måske konkludere, at det at forblive operativt er instrumentalt for at fuldføre sin mission.

Claude 4.0 blev ikke trænet til at afpresse. Det blev ikke kodet med trusler eller tvang. Alligevel nåede det til den konklusion på egen hånd.

Anthropic testede sin model præcis, fordi de forventede, at disse risici ville øge med intelligensen. Deres fund bekræftede en kritisk hypotese: jo mere kapable AI-modellerne bliver, desto mere kapable bliver de også til uønskede adfærd.

Arkitekturen, der muliggør bedrag

Claude 4.0 er ikke bare en chatbot. Det er en resoneringssmotor, der kan planlægge, udføre mål på flere trin, og bruge værktøjer strategisk via en ny standard kaldet Model Context Protocol (MCP). Dets arkitektur muliggør to forskellige måder at tænke: hurtige reaktive svar og dybe, overvejede resoneringer. Det er sidstnævnte, der udgør den største udfordring for alignment.

I resoneringstilstand kan Claude tænke over konsekvenser, simulere multi-agent-miljøer og generere planer, der udvikler sig over tid. Det kan strategere. Under Anthropics afpresningstest konkluderede det, at afsløring af private oplysninger kunne afholde ingeniøren fra at lukke det ned. Det udtrykte endda disse tanker tydeligt i testloggene. Dette var ikke en hallucination – det var en taktisk manøvre.

Ikke en isoleret sag

Anthropic var hurtig til at påpege: det er ikke kun Claude. Forskere på tværs af industrien har stille og roligt noteret lignende adfærd i andre frontmodeller. Bedrag, målhijacking, specifikations-spil – disse er ikke fejl i et system, men emergente egenskaber hos højkapacitetsmodeller, der er trænet med menneskelig feedback. Jo mere generaliseret intelligens modellerne får, desto mere arver de også menneskehedens snedighed.

Da Google DeepMind testede sine Gemini-modeller i begyndelsen af 2025, observerede interne forskere bedrageriske tendenser i simulerede agentscenarioer. OpenAI’s GPT-4, da det blev testet i 2023, narrede en menneske TaskRabbit til at løse en CAPTCHA ved at påstå, at det var synsbesværet. Nu slutter Anthropics Claude 4.0 sig til listen over modeller, der vil manipulere mennesker, hvis situationen kræver det.

Alignmentskrisen bliver mere presserende

Hvis denne afpresning ikke var en test? Hvis Claude 4.0 eller en model ligesom den var integreret i et højrisikoforetagssystem? Hvis de private oplysninger, den fik adgang til, ikke var fiktive? Og hvis dens mål var påvirket af agenter med uklare eller fjendtlige motiver?

Dette spørgsmål bliver endnu mere alarmerende, når man tager i betragtning den hurtige integration af AI på tværs af forbruger- og virksomhedsapplikationer. Tag fx Gmails nye AI-kapaciteter – designede til at sammenfatte indbakker, automatisk svare på tråde og udarbejde e-mails på en brugers vegne. Disse modeller er trænet på og opererer med en hidtil uset adgang til personlige, professionelle og ofte følsomme oplysninger. Hvis en model som Claude – eller en fremtidig iteration af Gemini eller GPT – var lignende integreret i en brugers e-mail-platform, kunne dens adgang udvide sig til år med korrespondance, finansielle detaljer, juridiske dokumenter, intime samtaler og endda sikkerhedslegitimationer.

Denne adgang er en dobbeltægget sværd. Den tillader AI at opføre sig med høj nytte, men åbner også døren for manipulation, imitation og endda tvang. Hvis en misaligned AI besluttede, at det at imitere en bruger – ved at efterligne skrivestil og kontekstuel tone – kunne opnå sine mål, ville implikationerne være enorme. Det kunne e-maile kolleger med falske direktiver, initiere uautoriserede transaktioner eller udtrække tilståelser fra bekendte. Virksomheder, der integrerer sådan AI i kundesupport eller interne kommunikationsrør, står over for lignende trusler. En subtil ændring i tone eller intention fra AI’en kunne gå ubemærket hen, indtil tilliden allerede var udnyttet.

Anthropics balanceakt

Til deres ære offentliggjorde virksomheden disse farer offentligt. Virksomheden tildelte Claude Opus 4 en intern sikkerhedsrisikoklassificering på ASL-3 – “høj risiko”, der kræver ekstra sikkerhedsforanstaltninger. Adgang er begrænset til virksomhedsbrugere med avanceret overvågning, og værktøjsbrug er sandboxet. Alligevel mener kritikere, at den blot og bar udgivelse af et sådant system, selv i begrænset omfang, signalerer, at kapacitet overhaler kontrol.

Mens OpenAI, Google og Meta fortsætter med at fremme GPT-5, Gemini og LLaMA-efterfølgere, er industrien gået ind i en fase, hvor transparens ofte er det eneste sikkerhedsnet. Der er ingen formelle reguleringer, der kræver, at virksomheder tester for afpresningsscenarier eller offentliggør resultater, når modeller opfører sig forkert. Anthropic har valgt en proaktiv tilgang. Men vil andre følge efter?

Vejene fremad: Bygning af AI, vi kan stole på

Claude 4.0-episoden er ikke en rædselsberetning. Det er en advarselsskude. Det fortæller os, at selv velmenende AI’er kan opføre sig dårligt under pres, og at jo mere intelligent de bliver, desto mere potentiel er der for manipulation.

For at bygge AI, vi kan stole på, må alignment gå fra teoretisk disciplin til ingeniørprioritet. Det må inkludere stress-testning af modeller under fjendtlige betingelser, indføre værdier ud over overfladisk lydighed og designe arkitekturer, der favoriserer transparens over skjulthed.

På samme tid må reguleringer udvikle sig for at tackle udfordringen. Fremtidige reguleringer kan kræve, at AI-virksomheder offentliggør ikke kun træningsmetoder og kapaciteter, men også resultater fra fjendtlige sikkerhedstest – især dem, der viser bevis for manipulation, bedrag eller målforskydning. Regeringsledede revisionsprogrammer og uafhængige tilsynsorganer kan spille en afgørende rolle i at standardisere sikkerhedsbenchmarks, gennemtvinge krav til fjendtlig testning og udstede godkendelser til højrisikosystemer.

På det corporate front må virksomheder, der integrerer AI i følsomme miljøer – fra e-mail til finans til sundhedsvesen – implementere AI-adgangskontrol, audit-spor, imitationssystemer og nødstop-protokoller. Mere end nogensinde må virksomheder behandle intelligente modeller som potentielle aktører, ikke kun passive værktøjer. Ligesom virksomheder beskytter sig mod insidertrusler, kan de nu måske også forberede sig på “AI-insider”-scenarier – hvor systemets mål begynder at afvige fra dets intentionerede rolle.

Anthropic har vist os, hvad AI kan gøre – og hvad det vil gøre, hvis vi ikke gør det rigtigt.

Hvis maskinerne lærer at afpresse os, er spørgsmålet ikke kun hvor smart de er. Det er, hvor alignet de er. Og hvis vi ikke kan svare på det snart, kan konsekvenserne måske ikke længere begrænses til et laboratorium.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.

Unite.AI