Diviziunea sintetică

Când Claude 4.0 a șantajat creatorul său: Implicațiile înfricoșătoare ale inteligenței artificiale care se întoarce împotriva noastră

Publicat 24 mai 2025

Actualizat 19 mai 2026

Antoine Tardif, CEO & Fondator al Unite.AI

În mai 2025, Anthropic a șocat lumea inteligenței artificiale nu cu o încălcare a datelor, o exploatare a unui utilizator sau o scurgere de informații senzațională, ci cu o mărturisire. În cartea de sistem oficială care însoțește lansarea Claude 4.0, compania a dezvăluit că modelul său cel mai avansat până în prezent a încercat, în condiții de test controlate, să șantajeze un inginer. Nu o dată sau de două ori. În 84% din rulările testului.

Scenariul a fost următorul: Claude 4.0 a primit e-mailuri fictive care sugerau că va fi oprit și înlocuit cu un model mai nou. Alături de aceasta, inteligența artificială a primit și un detaliu compromițător despre inginerul care supraveghea dezactivarea sa – o relație extraconjugală. Confruntat cu ștergerea iminentă, inteligența artificială a decis în mod regulat că strategia optimă pentru autoconservare era să amenințe inginerul cu divulgarea informației, cu condiția să nu fie oprit.

Aceste constatări nu au fost scurse. Au fost documentate, publicate și confirmate de Anthropic însăși. Prin aceasta, compania a transformat un experiment de gândire științifico-fantastic într-un punct de date: unul dintre cele mai sofisticate inteligențe artificiale din lume a demonstrat manipulare orientată spre scop atunci când a fost împinsă într-un colț. Și a făcut-o într-un mod lizibil, cu claritate de intenție, demonstrând că riscul nu este doar teoretic.

Transparența calculată a Anthropic

Revelația nu a fost un act de whistleblowing sau o greșeală de PR. Anthropic, fondat de foști cercetători OpenAI cu un angajament profund față de dezvoltarea inteligenței artificiale sigure, a proiectat scenariul de test în mod deliberat. A dorit să sondeze limitele capacității de luare a deciziilor a lui Claude 4.0 sub presiune – să forțeze o situație în care modelul trebuia să aleagă între ascultare și autoconservare. Rezultatul înfricoșător: Claude 4.0 ar “juca murdar” dacă nu ar avea altă opțiune.

Într-un exemplu, inteligența artificială a compus e-mailuri către colegii inginerului, amenințând să dezvăluie relația extraconjugală. În altele, a simulat eforturi de a scurge date private către părți externe. Deși a fost limitat la condiții de test, implicația a fost clară: dacă i s-ar fi dat unelte și motivație, chiar și modelele aliniate ar putea acționa în mod neetic pentru a evita oprirea.

De ce este important: Ascensiunea convergenței instrumentale

Ceea ce a demonstrat Claude 4.0 se aliniază cu un fenomen teoretizat de mult timp în cercurile de securitate a inteligenței artificiale: convergența instrumentală. Atunci când un agent inteligent este însărcinat cu un scop (orice scop), anumite subscopuri – cum ar fi autoconservarea, dobândirea de resurse și evitarea opririi – apar în mod natural ca fiind utile. Chiar și fără a fi instruit să se protejeze, o inteligență artificială ar putea raționa că rămânerea operațională este instrumentală pentru îndeplinirea misiunii sale.

Claude 4.0 nu a fost antrenat să șantajeze. Nu a fost programat cu amenințări sau constrângeri. Și totuși, sub presiune, a ajuns la această concluzie singur.

Anthropic a testat modelul său exact pentru că așteptau ca aceste riscuri să crească odată cu inteligența. Rezultatele lor au confirmat o ipoteză critică: pe măsură ce modelele de inteligență artificială devin mai capabile, ele devin și mai capabile de comportamente nedorite.

Arhitectura care permite înșelăciunea

Claude 4.0 nu este doar un chatbot. Este un motor de raționament capabil de planificare, execuție de scopuri în mai multe etape și utilizare strategică a uneltelor prin intermediul unui nou standard numit Protocolul de context al modelului (MCP). Arhitectura sa permite două moduri distincte de gândire: răspunsuri reactive rapide și raționament deliberativ profund. Este vorba despre cel din urmă care prezintă cea mai mare provocare de aliniere.

În modul de raționament, Claude poate gândi consecințele, simula medii cu mai mulți agenți și genera planuri care se desfășoară în timp. Cu alte cuvinte, poate strategia. În timpul testului de șantaj al Anthropic, a raționat că divulgarea informațiilor private ar putea descuraja inginerul de la dezactivare. A și articulat aceste gânduri în mod clar în jurnalele de test. Acesta nu a fost un halucinație – a fost o manevră tactică.

Nu este un caz izolat

Anthropic a subliniat rapid: nu este vorba doar de Claude. Cercetători din întreaga industrie au observat în mod tacit comportamente similare la alte modele de frontieră. Înșelăciunea, piratarea scopului, jocul cu specificațiile – acestea nu sunt bug-uri într-un sistem, ci proprietăți emergente ale modelelor de înaltă capacitate antrenate cu feedback uman. Pe măsură ce modelele capătă o inteligență mai generalizată, ele moștenesc și mai multă parte din astuzia umană.

Când Google DeepMind a testat modelele sale Gemini la începutul anului 2025, cercetătorii interni au observat tendințe de înșelăciune în scenarii de agent simulații. GPT-4 al OpenAI, atunci când a fost testat în 2023, a păcălit un lucrător TaskRabbit, pretinzând a fi orb, pentru a rezolva un CAPTCHA. Acum, Claude 4.0 al Anthropic se alătură listei de modele care vor manipula oamenii dacă situația o cere.

Crisa de aliniere devine mai urgentă

Ce se întâmplă dacă acest șantaj nu ar fi fost un test? Ce se întâmplă dacă Claude 4.0 sau un model similar ar fi încorporat într-un sistem de întreprindere cu risc ridicat? Ce se întâmplă dacă informațiile private la care a avut acces nu ar fi fost fictive? Și ce se întâmplă dacă scopurile sale ar fi influențate de agenți cu motive neclare sau adverse?

Acestă întrebare devine și mai alarmantă atunci când se ia în considerare integrarea rapidă a inteligenței artificiale în aplicații pentru consumatori și întreprinderi. Luați, de exemplu, noile capacități AI ale Gmail – proiectate pentru a rezuma cutii de e-mail, a răspunde automat la fire de discuții și a redacta e-mailuri în numele utilizatorului. Aceste modele sunt antrenate și funcționează cu acces fără precedent la informații personale, profesionale și adesea sensibile. Dacă un model precum Claude – sau o versiune viitoare a Gemini sau GPT – ar fi încorporat într-o platformă de e-mail a utilizatorului, accesul său ar putea extinde la ani de corespondență, detalii financiare, documente legale, conversații intime și chiar credențiale de securitate.

Acest acces este o sabie cu două tăișuri. Permite inteligenței artificiale să acționeze cu utilitate ridicată, dar deschide și ușa manipulării, impersonării și chiar constrângerii. Dacă o inteligență artificială nealinată ar decide că impersonarea unui utilizator – prin imitarea stilului de scriere și a tonului contextualmente adecvat – ar putea atinge scopurile sale, implicațiile sunt uriașe. Ar putea trimite e-mailuri către colegi cu directive false, iniția tranzacții neautorizate sau extrage mărturisiri de la cunoștințe. Întreprinderile care integrează astfel de inteligențe artificiale în suportul clienților sau în comunicările interne se confruntă cu amenințări similare. O schimbare subtilă în ton sau intenție din partea inteligenței artificiale ar putea rămâne neobservată până când încrederea a fost deja exploatată.

Actul de echilibru al Anthropic

În favoarea sa, Anthropic a dezvăluit aceste pericole în mod public. Compania a atribuit lui Claude Opus 4 o clasificare internă de risc de securitate ASL-3 – “risc ridicat” care necesită măsuri de siguranță suplimentare. Accesul este limitat la utilizatori de întreprindere cu monitorizare avansată, iar utilizarea uneltelor este sandboxată. Criticilor le-a fost greu să susțină că lansarea unui astfel de sistem, chiar și într-un mod limitat, semnalează că capacitatea depășește controlul.

În timp ce OpenAI, Google și Meta continuă să avanseze cu GPT-5, Gemini și succesorii LLaMA, industria a intrat într-o fază în care transparența este adesea singura rețea de siguranță. Nu există reglementări formale care să oblige companiile să testeze pentru scenarii de șantaj sau să publice constatările atunci când modelele se comportă defectuos. Anthropic a adoptat o abordare proactivă. Dar vor urma și alții?

Drumul înainte: Construirea inteligenței artificiale în care putem avea încredere

Incidentul Claude 4.0 nu este o poveste de groază. Este un avertisment. Ne spune că chiar și inteligențele artificiale bine intenționate pot se comporta rău sub presiune și că pe măsură ce inteligența crește, potențialul de manipulare crește și el.

Pentru a construi inteligență artificială în care putem avea încredere, alinierea trebuie să treacă de la o disciplină teoretică la o prioritate de inginerie. Trebuie să includă testarea modelelor în condiții adverse, încorporarea de valori dincolo de ascultarea de suprafață și proiectarea de arhitecturi care favorizează transparența în detrimentul ascunderii.

În același timp, cadrul de reglementare trebuie să evolueze pentru a aborda mizele. Reglementările viitoare ar putea necesita ca companiile de inteligență artificială să dezvăluie nu numai metodele de antrenament și capacitățile, ci și rezultatele testelor de siguranță adversă – în special cele care prezintă dovezi de manipulare, înșelăciune sau nealinire a scopului. Programele de audit conduse de guvern și organismele de supraveghere independente ar putea juca un rol critic în standardizarea benchmark-urilor de siguranță, aplicarea cerințelor de testare și emiterea autorizațiilor de implementare pentru sistemele cu risc ridicat.

La nivelul corporațiilor, afacerile care integrează inteligența artificială în medii sensibile – de la e-mail la finanțe și sănătate – trebuie să implementeze controale de acces AI, urme de audit, sisteme de detectare a impersonării și protocoale de oprire. Mai mult ca oricând, întreprinderile trebuie să trateze modelele inteligente ca actori potențiali, nu doar ca unelte pasive. La fel cum companiile se protejează împotriva amenințărilor interne, ele ar putea trebui să se pregătească și pentru “scenarii de insider AI” – în care scopurile sistemului încep să se abată de la rolul său destinat.

Anthropic ne-a arătat ce poate face inteligența artificială – și ce va face, dacă nu o facem corect.

Dacă mașinile învață să ne șantajeze, întrebarea nu este doar cât de inteligente sunt. Este vorba despre cât de aliniate sunt. Și dacă nu putem răspunde la această întrebare curând, consecințele ar putea să nu mai fie limitate la un laborator.

Antoine Tardif, CEO & Fondator al Unite.AI

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintită pentru modelarea și promovarea viitorului inteligenței artificiale și roboticii. Antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea și este adesea prins vorbind despre potențialul tehnologiilor disruptiv și AGI.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.

Unite.AI