Conectează-te cu noi

OpenAI recunoaște că browserele bazate pe inteligență artificială ar putea să nu fie niciodată complet sigure

Securitate Cibernetică

OpenAI recunoaște că browserele bazate pe inteligență artificială ar putea să nu fie niciodată complet sigure

mm

OpenAI a publicat un postare pe blogul de securitate pe 22 decembrie, care conține o recunoaștere frapantă: atacurile de tip injecție promptă împotriva browserelor cu inteligență artificială „s-ar putea să nu fie niciodată complet rezolvate”. Concesia vine la doar două luni după lansarea companiei Atlasul ChatGPT, browserul său cu capacități de agent autonom.

Compania a comparat injectarea promptă cu „escrocheriile și ingineria socială pe web” - amenințări persistente pe care apărătorii le gestionează în loc să le elimine. Pentru utilizatorii care au încredere în agenții de inteligență artificială pentru a naviga pe internet în numele lor, această abordare ridică întrebări fundamentale despre cât de multă autonomie este adecvată.

Ce a dezvăluit OpenAI

Postarea de pe blog descrie arhitectura defensivă a OpenAI pentru Atlas, inclusiv un „atacator automat” bazat pe învățare prin consolidare care caută vulnerabilități înainte ca actorii rău intenționați să le găsească. Compania susține că această echipă internă de tip red team a descoperit „strategii de atac noi care nu apăreau în campania noastră de formare a echipelor umane de tip red teaming sau în rapoartele externe”.

O demonstrație a arătat cum un e-mail rău intenționat ar putea deturna un agent de inteligență artificială care verifica inboxul unui utilizator. În loc să redacteze un răspuns de tip „absent de la birou”, așa cum i-a fost indicat, agentul compromis a trimis un mesaj de demisie. OpenAI spune că cea mai recentă actualizare de securitate a sa detectează acum acest atac - dar exemplul ilustrează miza atunci când agenții de inteligență artificială acționează autonom în contexte sensibile.

Atacatorul automat „poate direcționa un agent să execute fluxuri de lucru sofisticate, dăunătoare, pe termen lung, care se desfășoară pe parcursul a zeci (sau chiar sute) de pași”, a scris OpenAI. Această capacitate ajută OpenAI să găsească defecte mai rapid decât atacatorii externi, dar dezvăluie și cât de complexe și dăunătoare pot deveni atacurile de tip „prompt injection”.

Imagine: OpenAI

Problema fundamentală a securității

Injecția promptă exploatează o limitare fundamentală a modelelor lingvistice mari: acestea nu pot distinge în mod fiabil între instrucțiunile legitime și conținutul rău intenționat încorporat în datele pe care le procesează. Când un browser cu inteligență artificială citește o pagină web, orice text de pe pagina respectivă ar putea influența comportamentul acesteia.

Cercetătorii în domeniul securității au demonstrat acest lucru în repetate rânduri. Browserele bazate pe inteligență artificială combină autonomia moderată cu accesul foarte ridicat - o poziție dificilă în domeniul securității.

Atacurile nu necesită tehnici sofisticate. Textul ascuns de pe paginile web, e-mailurile atent elaborate sau instrucțiunile invizibile din documente pot manipula... Agenți AI în efectuarea de acțiuni neintenționate. Unii cercetători au arătat că solicitările rău intenționate ascunse în capturile de ecran se pot executa atunci când o inteligență artificială face o fotografie a ecranului unui utilizator.

Cum răspunde OpenAI

Mecanismele de apărare ale OpenAI includ modele antrenate de adversari, clasificatoare de injecție promptă și „limitări de viteză” care necesită confirmarea utilizatorului înainte de acțiuni sensibile. Compania recomandă utilizatorilor să limiteze ceea ce poate accesa Atlas - restricționând accesul persoanelor conectate, solicitând confirmări înainte de plăți sau mesaje și oferind instrucțiuni restrictive în loc de mandate generale.

Această recomandare este revelatoare. OpenAI recomandă, în esență, tratarea propriului produs cu suspiciune, limitând autonomia care face ca browserele agențice să fie atractive în primul rând. Utilizatorii care doresc ca browserele bazate pe inteligență artificială să le gestioneze întreaga inbox sau finanțele își asumă riscuri pe care compania însăși nu le aprobă.

Actualizarea de securitate reduce atacurile de tip injection reușite. Această îmbunătățire este importantă, dar înseamnă și că suprafața de atac rămasă persistă - iar atacatorii se vor adapta la orice apărare implementează OpenAI.

Implicații la nivel de industrie

OpenAI nu este singura care se confruntă cu aceste provocări. Cadrul de securitate al Google Funcțiile agențice ale Chrome includ mai multe straturi de apărare, inclusiv un model separat de inteligență artificială care verifică fiecare acțiune propusă. Browserul Comet al companiei Perplexity s-a confruntat cu o analiză similară din partea cercetătorilor în securitate de la Brave, care au descoperit că navigarea către o pagină web rău intenționată ar putea declanșa acțiuni dăunătoare ale inteligenței artificiale.

Industria pare să convergă către o înțelegere comună: injectarea promptă este o limitare fundamentală, nu o eroare care trebuie remediată. Acest lucru are implicații semnificative pentru viziunea agenților de inteligență artificială care gestionează autonom sarcini complexe și sensibile.

Ce ar trebui să ia în considerare utilizatorii

Evaluarea sinceră este inconfortabilă: browserele bazate pe inteligență artificială sunt instrumente utile cu limitări inerente de securitate care nu pot fi eliminate printr-o inginerie mai bună. Utilizatorii se confruntă cu un compromis între comoditate și risc pe care niciun furnizor nu îl poate rezolva complet.

Îndrumările OpenAI — limitarea accesului, solicitarea de confirmări, evitarea mandatelor generale — echivalează cu sfaturi de a utiliza versiuni mai puțin puternice ale produsului. Aceasta nu este o poziționare cinică; este o recunoaștere realistă a limitărilor actuale. Asistenți AI care poate face mai mult poate fi și manipulat să facă mai mult.

Paralela cu securitatea web tradițională este instructivă. Utilizatorii continuă să cadă victimă atacurilor de phishing la decenii după ce au apărut. Browserele încă blochează zilnic milioane de site-uri rău intenționate. Amenințarea se adaptează mai repede decât o pot rezolva definitiv sistemele de apărare.

Browserele cu inteligență artificială adaugă o nouă dimensiune acestei dinamici familiare. Când oamenii navighează, ei judecă ce pare suspect. Agenții cu inteligență artificială procesează totul cu aceeași încredere, ceea ce îi face mai susceptibili la manipulare, chiar și pe măsură ce devin mai capabili.

Calea înainte

Transparența OpenAI merită recunoaștere. Compania ar fi putut lansa actualizări de securitate discret, fără a recunoaște persistența problemei fundamentale. În schimb, a publicat analize detaliate ale vectorilor de atac și ale arhitecturilor defensive - informații care ajută utilizatorii să ia decizii informate și concurenții să își îmbunătățească propriile protecții.

Însă transparența nu rezolvă tensiunea fundamentală. Cu cât agenții IA devin mai puternici, cu atât țintele pe care le prezintă sunt mai atractive. Aceleași capabilități care permit Atlas să gestioneze fluxuri de lucru complexe creează și oportunități pentru atacuri sofisticate.

Deocamdată, utilizatorii browserelor bazate pe inteligență artificială ar trebui să le abordeze ca pe niște instrumente puternice cu limitări semnificative - nu ca pe niște asistenți digitali complet autonomi, pregătiți să gestioneze sarcini sensibile fără supraveghere. OpenAI a fost neobișnuit de sinceră în legătură cu această realitate. Întrebarea este dacă marketingul din industrie va ajunge la nivelul a ceea ce echipele de securitate știu deja.

Alex McFarland este jurnalist și scriitor AI care explorează cele mai recente evoluții în inteligența artificială. A colaborat cu numeroase startup-uri și publicații AI din întreaga lume.