Lideri de opinie

De ce măsurile de securitate ale chatbot-urilor sunt o limită de securitate greșită

Published March 18, 2026

Updated April 25, 2026

Mayank Kumar, Founding AI Engineer, DeepTempo

Inteligența artificială pentru întreprinderi a depășit cu mult stadiul de demonstrare a conceptului. 23% din organizații already scales agentic AI systems undeva în cadrul întreprinderii lor, și 62% sunt cel puțin experimentând cu agenți AI. Acestea nu sunt proiecte de cercetare. Ele sunt implementări de producție, integrate în fluxuri de lucru care ating depozite de cod, date ale clienților, API interne și infrastructură operațională.

Răspunsul industriei la această creștere s-a concentrat în mare măsură pe ceea ce se întâmplă înainte de a intra un agent în funcțiune. Furnizorii și cercetătorii au canalizat energie în măsuri de securitate pre-deployare: publicarea politicilor de scalare, consolidarea modelelor de bază, filtrarea intrărilor, securizarea lanțului de aprovizionare cu IA și impunerea alinierii la momentul antrenamentului. Principalele furnizori de IA au făcut investiții substanțiale în instrumente de securitate orientate către dezvoltatori, consolidând o presupunere centrală: dacă modelul și intrările sale sunt controlate, riscul în aval poate fi conținut.

Este un instinct rezonabil, dar din ce în ce mai incomplet.

Promptul nu este o perimetru de securitate

Măsurile de securitate care funcționează la interfața modelului beneficiază în primul rând echipele care controlează codul aplicației, configurația modelului și infrastructura subiacentă. Ele oferă o protecție mult mai mică pentru apărătorii care sunt însărcinați cu securizarea sistemelor de IA pe care nu le-au construit și nu le pot modifica. Acesta este un punct orb semnificativ, și adversarii au găsit deja acest lucru.

Raportul de inteligență cu privire la amenințări al OpenAI documentează exact această dinamică. Actorii amenințători exploatează activ instrumente precum ChatGPT și similare în medii de producție, nu prin inventarea de tehnici de atac noi, ci prin integrarea IA în fluxuri de lucru existente pentru a se deplasa mai repede. Recunoașterea devine mai eficientă. Ingineria socială se extinde. Dezvoltarea de malware se accelerează. Suprafața de atac nu s-a schimbat fundamental; viteza și volumul de exploatare au crescut.

Mai relevant este modul în care atacatorii au răspuns atunci când aceste instrumente au ripostat. OpenAI a observat că actorii amenințători au mutat rapid prompturile, păstrând intenția de bază în timp ce au ciclat prin variații de suprafață pentru a ocoli controalele frontale. Acesta este un model pe care practicienii de securitate l-au văzut anterior. Apărările statice, indiferent dacă sunt bazate pe semnături antivirus sau filtrare a intrărilor, nu rezistă în fața adversarilor care iteră mai repede decât pot urma actualizările de reguli.

Când amenințarea se deplasează în aval

Echipele de securitate care apără implementările de IA de astăzi se confruntă cu un decalaj structural. Instrumentele disponibile pentru ei sunt în mare măsură construite pentru a raționa despre ce este permis să spună un model. Riscul real pe care trebuie să îl gestioneze este ce face un agent în sisteme, rețele și identități odată ce i s-au acordat permisiuni și a fost lansat într-un mediu de producție.

Măsurile de securitate bazate pe prompt împărtășesc slăbiciunile fundamentale ale abordărilor de securitate bazate pe reguli anterioare. Ele sunt fragile pentru că depind de prezicerea modelelor de atac în avans. Ele sunt reactive pentru că necesită ca cineva să fi observat și codificat amenințarea înainte ca apărarea să poată funcționa. Și sunt depășite de adversari care au adoptat iterarea asistată de IA ca practică standard. Un apărător care se bazează pe filtrarea intrărilor pentru a prinde un actor amenințător care utilizează un model de limbaj pentru a genera variații proaspete de prompturi se află într-o poziție fundamental pierzătoare.

Expoziția reală apare după implementare. Acțiunile conduse de agenți se propagă prin medii în moduri pe care nicio testare pre-lansare nu le poate anticipa pe deplin. Agenții întâlnesc cazuri limită, interacționează cu surse de date pe care nu au fost proiectate să le gestioneze, primesc intrări de la sisteme din afara arhitecturii originale și iau decizii care se compun în timp. Testarea pre-lansării este o imagine fixă; producția este un flux continuu. Apararea numai a imaginii fixe înseamnă acceptarea faptului că tot ceea ce se întâmplă în flux este efectiv nemonitorizat.

Deplasarea limitei de securitate către comportamentul agentului

Construirea rezilienței IA necesită un cadru diferit, iar scopul nu ar trebui să fie protejarea interfeței modelului. Ar trebui să fie detectarea intenției atacatorului prin consecințele observabile ale acțiunilor agentului. Acesta este un contrast semnificativ. Intenția nu apare întotdeauna în ceea ce spune un agent sau în intrările pe care le primește.

Asigurarea securității sistemelor de IA trebuie să se extindă dincolo de verificările de aliniere și evaluările de robustețe la evaluarea continuă a modului în care agenții se comportă odată ce interacționează cu unelte reale, API-uri reale și date reale. Evaluarea statică la momentul implementării este necesară dar insuficientă. Mediul de amenințare în care funcționează un agent se schimbă constant. Comportamentul agentului trebuie monitorizat cu aceeași continuitate.

Acesta este un problemă pe care consolidarea promptului nu o poate rezolva. Detectarea intenției malefice pe măsură ce apare prin secvențe de acțiuni necesită modele capabile să înțeleagă comportamentul complex, secvențial în medii operaționale. Modelele de bază de învățare profundă, special concepute pentru analiza comportamentului, pot face acest lucru în moduri în care sistemele bazate pe reguli și instrumentele tradiționale de monitorizare SIEM nu pot. Ele învață ce înseamnă “normal” pe tot contextul activității agentului și aduc la suprafață deviații care indică faptul că ceva s-a schimbat, chiar dacă nicio acțiune individuală nu declanșează o alertă convențională.

Logica subiacentă se aplică indiferent de contextul de implementare: securitatea ancorată la nivelul promptului va pierde constant în fața atacatorilor care operează la nivelul de acțiune. Apărarea trebuie să se deplaseze acolo unde trăiește amenințarea.

Ce ar trebui să facă acum echipele de securitate

Pentru liderii de securitate care încearcă să devanseze această situație, câteva schimbări practice pot închide decalajul dintre unde se află apărările în prezent și unde trebuie să fie.

Evaluează siguranța IA pe tot stiva de aplicații. Modelul de bază este un strat. La fel de important este modul în care agenții se comportă odată ce sunt implementați în producție, care sunt uneltele pe care le apelează, care sunt permisiunile pe care le utilizează și cum se schimbă aceste alegeri în timp. Evaluările de securitate care se opresc la limita modelului lasă suprafața operațională în mare măsură neexaminată.

Aplică principiul de permisiune minimă la nivelul agentului. Agenții de IA ar trebui să aibă acces numai la uneltele, API-urile și datele necesare pentru funcția lor desemnată. Această constrângere contează chiar și atunci când ieșirile agentului par inofensive. Limitarea sferei de acțiune reduce raza de explozie a unui agent compromis și creează linii de comportament mai clare care fac detectarea anomaliilor mai eficientă.

Tratează agenții ca identități care generează telemetrie. Fiecare acțiune pe care o ia un agent este un punct de date. Echipele de securitate ar trebui să construiască logica de detectare în jurul lanțurilor de acțiuni inițiate de agenți, nu numai prompturile de utilizator care le preced. Această restructurare a monitorizării de la ceea ce a cerut cineva agentului să facă la ceea ce a făcut de fapt agentul, unde intenția atacatorului devine vizibilă.

Investiți în monitorizarea comportamentului continuu, cu modele de detectare special concepute pentru această sarcină. Identificarea intenției malefice pe măsură ce apare prin secvențe de acțiuni necesită o capacitate specializată. Instrumentele de monitorizare convenționale au fost construite pentru modele de activitate generate de oameni. Comportamentul agentului, cu viteza, volumul și structura sa multi-pas, necesită infrastructură de detectare proiectată de la zero cu acest context în minte.

Prioritizați apărarea colectivă. Tehnicile de atac asistate de IA evoluează mai repede decât orice organizație poate urmări. Cercetarea comună, colaborarea deschisă și informațiile despre amenințări din comunitate nu sunt complementară opțională pentru o strategie de securitate a IA; ele sunt intrări de bază. Apărătorii care rămân la curent sunt cei care contribuie și extrag din cunoașterea colectivă.

Securitatea comportamentală livrează în realitate

Pentru echipele de securitate care fac acest schimb, plata operațională este concretă. Ancorarea detectării în comportamentul agentului, mai degrabă decât în ieșirile modelului, permite identificarea mai timpurie a intenției malefice, chiar și atunci când atacurile sunt furtunoase, adaptive sau criptate. Atacatorii care mută cu succes prompturile lor trec de filtrele de intrare încă trebuie să acționeze. Aceste acțiuni lasă urme. Detectarea comportamentală găsește aceste urme înainte ca daunele să se propage.

Poate cel mai semnificativ, această abordare oferă organizațiilor o cale credibilă de a implementa agenți de IA la scară largă fără a accepta riscul de securitate proporțional. Întrebarea care îi ține pe mulți în urmă nu este dacă agenții de IA pot livra valoare; este dacă pot fi implementați cu suficientă încredere astfel încât postura de securitate să nu se deterioreze pe măsură ce crește implementarea. Securitatea comportamentală, bazată pe modul în care agenții funcționează de fapt, mai degrabă decât pe intrările pe care le primesc, oferă această încredere într-un mod în care controalele bazate pe prompt nu pot face.

Limita de securitate a fost trasată în locul greșit, și această greșeală a avut sens atunci când IA era un instrument care aștepta intrări. Nu mai așteaptă, sistemele agenților acționează, lansează, escaladează și se propagă prin medii pe care nicio testare pre-lansare nu le-a anticipat. Organizațiile care recunosc acest lucru cel mai devreme vor fi cele care vor scala cu adevărat IA cu încredere. Toată lumea va petrece următorii ani descoperind, încălcarea cu încălcare, că controlul asupra a ceea ce spune un model nu a fost niciodată același lucru cu controlul asupra a ceea ce face.

Related Topics:chatbot chatbots DeepTempo

Mayank Kumar, Founding AI Engineer, DeepTempo

Mayank Kumar este inginerul fondator AI la DeepTempo, unde conduce proiectarea și dezvoltarea modelului fundamental de limbaj Log Language Model (LogLM) al companiei. Cu o puternică bază academică și de cercetare în inteligență artificială generativă și multimodală, el aduce expertiză specializată în construirea de modele specifice domeniului care îmbunătățesc detectarea și răspunsul la amenințări în medii de securitate cibernetică.