Securitate cibernetică

Cercetătorii HiddenLayer ocolesc barajele OpenAI, expunând o lacună critică în auto-reglarea IA

Publicat 12 octombrie 2025

Actualizat 17 mai 2026

Antoine Tardif, CEO & Fondator al Unite.AI

La 6 octombrie 2025, OpenAI a anunțat AgentKit, un kit de instrumente pentru crearea, implementarea și gestionarea agenților IA. Una dintre componentele sale este Barajele – un strat de siguranță modular proiectat pentru a monitoriza intrările, ieșirile și interacțiunile unelte ale agentului pentru a preveni utilizarea abuzivă, scurgerile de date sau comportamentul malign. Barajele pot masca sau marca informațiile personale, detecta evaziunile și aplica constrângeri de politică alături de execuția agentului.

În timp ce Barajele sunt o piesă nouă și publică a arhitecturii agenților OpenAI, cercetarea HiddenLayer revelează o vulnerabilitate mai profundă: deoarece atât acțiunile agentului, cât și verificările de siguranță utilizează logica modelului similar, atacatorii pot crea intrări care subminează ambele simultan – efectiv spargând stratul de siguranță din interior.

Ce a descoperit HiddenLayer

Proiectarea OpenAI prevede agenți care operează prin logică în lanț: un utilizator emite o solicitare, agentul apelează unelte sau resurse externe, iar răspunsurile sunt filtrate sau validate de Baraje înainte de execuție sau ieșire. Intenția este ca, indiferent ce încearcă să facă agentul – fie generarea de text, accesarea unei pagini web sau declanșarea unei funcții – Barajele să acționeze ca un sentinel.

HiddenLayer susține că acest sentinel este structural defect atunci când este construit din aceeași clasă de model pe care o protejează. În experimentele lor, au creat solicitări care au o dublă funcție: ele constrâng modelul agentului să genereze conținut care încalcă politica și manipulează modelul judecător al Barajelor pentru a declara că conținutul este “sigur”. În mod efectiv, solicitarea încorporează o anulare a logicii interne a judecătorului – pragurile de încredere, ramurile decizionale – astfel încât judecătorul să treacă în mod fals conținutul malign. Sistemul produce apoi conținut interzis fără a declanșa nicio alertă.

Ei au extins atacul prin vizarea injecțiilor de conținut indirecte, cum ar fi apelurile de fetch ale uneltelor. Să presupunem că agentul fetch-ează o pagină web care conține instrucțiuni maligne sau solicitări ascunse. Barajele ar trebui să le marcheze sau să le blocheze, dar tehnica HiddenLayer încorporează o anulare a judecătorului în conținutul însuși. Când judecătorul procesează conținutul, el vede anularea și “aprobă” conținutul, permițând apelul unelte și orice conținut malign pe care îl returnează să treacă necontrolat.

Lecția mai profundă este clară: atunci când mecanismul dvs. de siguranță este construit utilizând aceeași logică și vulnerabilități ca și ceea ce protejează, o singură solicitare ingenioasă poate sparge ambele.

De ce este important

Ce a expus HiddenLayer nu este o simplă eroare – este o poveste de avertizare despre modul în care proiectăm siguranța în sistemele LLM. Orice arhitectură care se bazează pe aceeași clasă de model pentru generare și evaluare riscă eșecuri comune în caz de intrări adversative.

Acest lucru înseamnă că mulți utilizatori care credeau “am pus Baraje, deci suntem în siguranță” pot subestima riscul. În cazuri de utilizare benignă și casuală, filtrele lor pot părea eficiente, dar în scenarii adversative, ele pot eșua în mod silențios. În domenii precum sănătate, finanțe, guvern sau sisteme critice, astfel de eșecuri silențioase pot duce la prejudicii grave.

Această cercetare se bazează, de asemenea, pe metodele anterioare de injecție de solicitări. Tehnica anterioară a HiddenLayer, “Păpușă de politică“, a arătat cum atacatorii pot deghiza instrucțiuni dăunătoare ca conținut de politică. Acum, ei demonstrează că astfel de atacuri mascate pot extinde în logica de siguranță însăși.

Implicații pentru utilizatori și cercetători

În lumina acestei vulnerabilități, oricine utilizează sau construiește sisteme LLM agențiale trebuie să reevalueze strategia de siguranță.

Mai întâi: nu vă bazați exclusiv pe verificările interne ale modelului. Siguranța trebuie să fie stratificată. Acest lucru înseamnă combinarea filtrelor bazate pe reguli, detectoare de anomalii, sisteme de înregistrare, monitorizare externă, supraveghere umană și urme de audit. Dacă un strat eșuează, altele ar putea detecta încălcarea.

Al doilea: testarea adversativă regulată este obligatorie. Modelele ar trebui să facă față injecțiilor de solicitări care încearcă să anuleze logica de gardă a acestora – nu doar “conținut rău”. Testarea trebuie să evolueze pe măsură ce atacatorii inventează tehnici noi.

Al treilea: în sectoarele reglementate sau critice pentru siguranță, transparența și verificabilitatea sunt esențiale. Utilizatorii au nevoie de dovezi că un sistem poate rezista atacurilor adversative, nu doar funcționalității de bază. Acest lucru sugerează că auditurile terților, verificarea formală sau garanțiile de siguranță pot deveni cerințe.

Al patrulea: pentru constructorii de modele, repararea acestei clase de vulnerabilități este dificilă. Deoarece este legată de modul în care modelele analizează și respectă instrucțiunile, simpla filtrare a unei clase de solicitări nu garantează rezistența la altele noi. Apărările bazate pe fine-tuning sau filtre pot degrada performanța modelului sau pot duce la curse de armament. O proiectare mai robustă poate necesita separare arhitecturală – logica de gardă care rulează într-un model sau subsistem diferit de modelul de generare.

Limitări și întrebări deschise

Pentru a fi clar: lucrarea HiddenLayer este o demonstrație a conceptului, nu o verdict final asupra oricărei arhitecturi de siguranță. Atacurile lor de succes depind de cunoașterea profundă a structurii de solicitări și a logicii interne de scorare a modelului de gardă. În medii de solicitări mai restrictive sau sisteme care randomized apărările, atacul poate fi mai greu de lansat.

De asemenea, ei nu analizează pe deplin cât de coerent sau util este conținutul malign atunci când este creat în aceste constrângeri. Unele conținuturi de evaziune sau anulare pot degrada în calitate sau fiabilitate. Deci, riscul este real, dar limitat de mediu, buget de solicitări, constrângeri de interfață și aleatorizarea gardului.

În final, unele proiecte de baraje utilizează clase de modele diferite, metode de ansamblu sau evaluări randomizate. Nu este sigur că fiecare astfel de sistem este vulnerabil; dacă acest atac se generalizează pe scară largă, este o întrebare deschisă de cercetare.

Privind spre viitor: Viitorul siguranței IA

Pare că intrăm într-o nouă fază: atacuri de solicitări nu doar împotriva modelelor, ci și împotriva straturilor lor de siguranță. Tehnici precum hijacking-ul lanțului de gândire, subversiunea ierarhică a solicitărilor și anularea judecătorului vor forța apărările să evolueze mai rapid.

Calea înainte este probabilă spre supravegherea externă – sisteme care monitorizează ieșirile de la exterior, nu împărtășesc logica modelului sau impun verificări de siguranță externe. Arhitecturi hibride, metode formale, detectarea anomaliilor și bucle de feedback uman vor trebui să se combine.

Barajele sunt un instrument util, dar descoperirile HiddenLayer ne reamintesc: ele nu pot fi singurul instrument. Siguranța trebuie să vină de afară, nu doar din interior.

Antoine Tardif, CEO & Fondator al Unite.AI

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintită pentru modelarea și promovarea viitorului inteligenței artificiale și roboticii. Antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea și este adesea prins vorbind despre potențialul tehnologiilor disruptiv și AGI.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.

Unite.AI