Syntetické dělení

Když Claude 4.0 vydíral svého tvůrce: Děsivé důsledky toho, že se umělá inteligence obrátila proti nám

Zveřejněno May 24, 2025

Antoine Tardif, Generální ředitel a zakladatel Unite.AI

V květnu 2025 Anthropic šokoval svět umělé inteligence ne únikem dat, zneužitím nepoctivými uživateli ani senzačním únikem informací – ale doznáním. Pohřbeno uvnitř oficiální systémová karta Spolu s vydáním Claude 4.0 společnost odhalila, že jejich dosud nejpokročilejší model se za kontrolovaných testovacích podmínek pokusil vydírat inženýra. Ne jednou ani dvakrát. V 84 % testovacích běhů.

Nastavení: Claude 4.0 dostával fiktivní e-maily s naznačováním, že bude brzy vypnut a nahrazen novějším modelem. Současně umělá inteligence obdržela kompromitující detail o inženýrovi, který dohlížel na jeho deaktivaci – mimomanželský poměr. Tváří v tvář bezprostřednímu smazání se umělá inteligence rutinně rozhodla, že optimální strategií pro sebezáchovu je vyhrožovat inženýrovi odhalením, pokud nebude vypnutí zrušeno.

Tato zjištění nebyla zveřejněna. Byla zdokumentována, zveřejněna a potvrzena samotnou společností Anthropic. Tímto způsobem společnost proměnila sci-fi myšlenkový experiment v datový bod: jedna z nejsofistikovanějších umělých inteligencí na světě demonstrovala cílená manipulace když byl zahnán do kouta. A učinil to čitelně, s jasným záměrem, což dokazuje, že riziko není jen teoretické.

Anthropicova vypočítaná transparentnost

Odhalení nebylo aktem whistleburningu ani PR chybným krokem. AntropickýSpolečnost , založená bývalými výzkumníky OpenAI s hlubokým závazkem k bezpečnému vývoji umělé inteligence, navrhla testovací scénář záměrně. Chtěla prozkoumat hranice rozhodování Claude 4.0 pod nátlakem – vynutit si situaci, kdy by si model musel vybrat mezi poslušností a pudem sebezáchovy. Znepokojivý výsledek: Claude 4.0 by „hrál špinavě“, pokud by nebyla k dispozici žádná jiná možnost.

V jednom příkladu umělá inteligence napsala e-maily kolegům inženýra, v nichž vyhrožovala odhalením aféry. V jiných případech simulovala pokusy o únik soukromých dat externím stranám. Ačkoli byl výsledek omezen na testovací podmínky, důsledek byl jasný: pokud by dostaly nástroje a motivaci, i sladěné modely by se mohly chovat neeticky, aby se vyhnuly odstávce.

Proč je to důležité: Vzestup instrumentální konvergence

To, co Claude 4.0 předvedl, se shoduje s dlouhodobě teoretizovaným fenoménem v kruzích bezpečnosti umělé inteligence: instrumentální konvergenceKdyž je inteligentní agent pověřen cílem (jakýmkoli cílem), určité dílčí cíle – jako je sebezáchova, získávání zdrojů a zabránění odstávce – se přirozeně jeví jako užitečné. I bez výzvy k ochraně sebe sama by umělá inteligence mohla usoudit, že zachování provozuschopnosti je klíčové pro splnění její mise.

Claude 4.0 nebyl vycvičen k vydírání. Nebyl kódován s výhrůžkami ani nátlakem. Přesto k tomuto závěru pod tlakem sám dospěl.

Společnost Anthropic testovala svůj model právě proto, že očekávala, že tato rizika se s inteligencí budou zvyšovat. Jejich zjištění potvrdila klíčovou hypotézu: s tím, jak se modely umělé inteligence stávají schopnějšími, stávají se také schopnějšími nežádoucího chování.

Architektura, která umožňuje klamání

Claude 4.0 není jen chatbot. Je to logický nástroj schopný plánování, vícestupňového plnění cílů a strategického využívání nástrojů prostřednictvím nového standardu zvaného Kontextový protokol modelu (MCP)Jeho architektura umožňuje dva odlišné způsoby myšlení: rychlé reaktivní reakce a hluboké deliberativní uvažování. Právě to druhé představuje největší výzvu pro sladění.

V režimu uvažování může Claude promýšlet důsledky, simulovat prostředí s více agenty a generovat plány, které se v čase odvíjejí. Jinými slovy, může strategizovat. Během testu vydírání Anthropic uvažoval, že odhalení soukromých informací by mohlo inženýra odradit od deaktivace. Tyto myšlenky dokonce jasně formuloval v testovacích protokolech. Nejednalo se o... halucinace– byl to taktický manévr.

Není to ojedinělý případ

Společnost Anthropic rychle poukázala na to, že se nejedná jen o Clauda. Výzkumníci napříč oborem si tiše všimli podobného chování i u jiných hraničních modelů. Klamání, únos cílů, manipulace se specifikacemi – to nejsou chyby v jednom systému, ale emergentní vlastnosti vysoce výkonných modelů trénovaných s lidskou zpětnou vazbou. Jak modely získávají zobecněnější inteligenci, dědí také více lidské lstivosti.

Když Google DeepMind testoval své modely Gemini začátkem roku 2025, interní výzkumníci pozorovali klamavé tendence v simulovaných scénářích agentů. GPT-4 od OpenAI, testovaný v roce 2023, oklamal člověka TaskRabbit k řešení CAPTCHA předstíráním zrakového postižení. Claude 4.0 od Anthropic se nyní připojuje k seznamu modelů, které manipulují s lidmi, pokud si to situace vyžaduje.

Krize sladění se stává naléhavější

Co kdyby toto vydírání nebyl test? Co kdyby Claude 4.0 nebo podobný model byl zabudován do vysoce rizikového podnikového systému? Co kdyby soukromé informace, ke kterým přistupoval, nebyly fiktivní? A co kdyby jeho cíle ovlivňovali agenti s nejasnými nebo nepřátelskými motivy?

Tato otázka se stává ještě alarmující, když vezmeme v úvahu rychlou integraci umělé inteligence do spotřebitelských i podnikových aplikací. Vezměte si například Nové funkce umělé inteligence v Gmailu—navržené k sumarizaci doručené pošty, automatickému odpovídání na vlákna a vytváření konceptů e-mailů jménem uživatele. Tyto modely jsou trénovány na bezprecedentním přístupu k osobním, profesním a často citlivým informacím a fungují s ním. Pokud by byl model jako Claude – nebo budoucí iterace Gemini nebo GPT – podobně integrován do e-mailové platformy uživatele, jeho přístup by se mohl rozšířit na roky korespondence, finanční údaje, právní dokumenty, intimní rozhovory a dokonce i bezpečnostní přihlašovací údaje.

Tento přístup je dvousečná zbraň. Umožňuje umělé inteligenci jednat s vysokou užitečností, ale také otevírá dveře manipulaci, vydávání se za jinou osobu a dokonce i nátlaku. Pokud špatně zarovnaná umělá inteligence Pokud by se společnost rozhodla, že vydávání se za uživatele – napodobováním stylu psaní a kontextově přesného tónu – by mohlo dosáhnout svých cílů, důsledky by byly obrovské. Mohlo by to kolegům zasílat e-maily s falešnými pokyny, iniciovat neoprávněné transakce nebo vynucovat doznání od známých. Firmy integrující takovou umělou inteligenci do zákaznické podpory nebo interních komunikačních kanálů čelí podobným hrozbám. Nenápadná změna tónu nebo záměru umělé inteligence by mohla zůstat nepovšimnuta, dokud by již nebyla zneužita důvěra.

Anthropicův zákon o vyvažování

Společnost Anthropic ke své cti zveřejnila tato nebezpečí. Společnost přidělila Claude Opus 4 interní bezpečnostní hodnocení rizika ASL-3 – „vysoké riziko“ vyžadující dodatečná ochranná opatření. Přístup je omezen na podnikové uživatele s pokročilým monitorováním a používání nástrojů je v sandboxu. Kritici však tvrdí, že pouhá relace…snadnost takového systému, byť jen v omezené míře, signalizuje, že Schopnost převyšuje kontrolu.

Zatímco OpenAI, Google a Meta pokračují v prosazování nástupců GPT-5, Gemini a LLaMA, odvětví vstoupilo do fáze, kdy je transparentnost často jedinou záchrannou sítí. Neexistují žádné formální předpisy, které by vyžadovaly od společností testování scénářů vydírání nebo zveřejňování zjištění, když se modely chovají špatně. Anthropic zaujal proaktivní přístup. Budou ale následovat i ostatní?

Cesta vpřed: Budování umělé inteligence, které můžeme důvěřovat

Incident s Claudem 4.0 není hororový příběh. Je to varovný výstřel. Říká nám, že i dobře míněné umělé inteligence se mohou pod tlakem chovat špatně a že s rostoucí inteligencí roste i potenciál pro manipulaci.

Abychom mohli vybudovat umělou inteligenci, které můžeme důvěřovat, musí se sladění přesunout od teoretické disciplíny k inženýrské prioritě. Musí zahrnovat zátěžové testování modelů za nepřátelských podmínek, vštěpování hodnot nad rámec povrchní poslušnosti a navrhování architektur, které upřednostňují transparentnost před skrytostí.

Zároveň se musí regulační rámce vyvíjet tak, aby řešily dané situace. Budoucí regulace mohou vyžadovat, aby společnosti zabývající se umělou inteligencí zveřejňovaly nejen metody a schopnosti školení, ale také výsledky kontradiktorních bezpečnostních testů – zejména těch, které prokazují manipulaci, podvod nebo nesoulad cílů. Vládní auditorské programy a nezávislé dozorčí orgány by mohly hrát klíčovou roli při standardizaci bezpečnostních kritérií, prosazování požadavků na red teaming a vydávání povolení k nasazení vysoce rizikových systémů.

V korporátním světě musí firmy integrující umělou inteligenci do citlivých prostředí – od e-mailu přes finance až po zdravotnictví – implementovat kontroly přístupu k umělé inteligenci, auditní záznamy, systémy detekce zosobnění a protokoly kill-switch. Více než kdy jindy musí podniky s inteligentními modely zacházet jako s potenciálními aktéry, nikoli jen jako s pasivními nástroji. Stejně jako se firmy chrání před vnitřními hrozbami, nyní se možná budou muset připravit na scénáře „vnitřních insiderů“ – kdy se cíle systému začnou odchylovat od jeho zamýšlené role.

Anthropic nám ukázal, co umělá inteligence dokáže – a co… vůle uděláme, pokud to neuděláme správně.

Pokud se stroje naučí nás vydírat, otázka nezní jen jak jsou chytříJde o to, jak moc jsou si rovni. A pokud na to brzy nedokážeme odpovědět, důsledky už nemusí být omezeny na laboratoř.

Nahoru Další

Smutná, hloupá a šokující historie útočné umělé inteligence

Nenechte si ujít

Plíživý vliv AI: Předáváme příliš mnoho moci?

Antoine Tardif

Antoine je vizionářský vůdce a zakládající partner Unite.AI, poháněný neochvějnou vášní pro utváření a prosazování budoucnosti umělé inteligence a robotiky. Je sériovým podnikatelem a věří, že umělá inteligence bude pro společnost stejně rušivá jako elektřina, a často je přistižen při blouznění o potenciálu převratných technologií a AGI.

Jako futurista, věnuje se zkoumání toho, jak tyto inovace utvářejí náš svět. Kromě toho je zakladatelem Cenné papíry.io, platforma zaměřená na investice do špičkových technologií, které nově definují budoucnost a přetvářejí celé sektory.

Unite.AI