Kybernetická bezpečnost

OpenAI přiznává, že AI prohlížeče mohou nikdy být plně zabezpečeny

mm

OpenAI zveřejnil bezpečnostní blogový příspěvek ze dne 22. prosince, který obsahuje překvapivé přiznání: útoky na vstřikování příkazů proti AI prohlížečům “mohou nikdy být plně vyřešeny.” Toto přiznání přichází pouhé dva měsíce po spuštění ChatGPT Atlas, jeho prohlížeče s autonomními agentními schopnostmi.

Společnost srovnala vstřikování příkazů se “scamy a sociálním inženýrstvím na webu” – trvalými hrozbami, které obránci spravují, ale neeliminují. Pro uživatele, kteří důvěřují AI agentům, aby pro ně navigovali na internetu, toto rámciení vyvolává základní otázky o tom, kolik autonomie je vhodné.

Co odhalilo OpenAI

Blogový příspěvek popisuje obrannou architekturu OpenAI pro Atlas, včetně posilovacího učení s “automatizovaným útočníkem”, který hledá zranitelnosti, než je najdou škodlivé aktéry. Společnost tvrdí, že tento interní červený tým objevil “nové útočné strategie, které se neobjevily v naší kampani lidského červeného týmu nebo externích zprávách.”

Jedna demonstrace ukázala, jak mohl škodlivý e-mail převzít AI agenta, který kontroloval uživatelskou schránku. Místo toho, aby vypracoval odpověď “mimo kancelář” podle pokynů, ohrožený agent odeslal rezignační zprávu. OpenAI říká, že jeho poslední bezpečnostní aktualizace nyní zachytává tento útok – ale příklad ilustruje sázky, když AI agenti jednají autonomně v citlivých kontextech.

Automatizovaný útočník “může vést agenta k provedení sofistikovaných, dlouhodobých škodlivýchworkflowů, které se rozvinou během desítek (nebo dokonce stovek) kroků,” napsal OpenAI. Tato schopnost pomáhá OpenAI najít chyby rychleji než externí útočníci, ale také odhaluje, jak komplexní a škodlivé útoky na vstřikování příkazů mohou být.

Obrázek: OpenAI

Základní bezpečnostní problém

Útoky na vstřikování příkazů využívají základní omezení velkých jazykových modelů: nemohou spolehlivě rozlišit mezi legitimními instrukcemi a škodlivým obsahem vloženým do dat, která zpracovávají. Když AI prohlížeč čte webovou stránku, může jakýkoli text na této stránce potenciálně ovlivnit jeho chování.

Bezpečnostní výzkumníci opakovaně demonstrovali toto. AI prohlížeče kombinují mírnou autonomii s velmi vysokým přístupem – obtížnou pozicí v bezpečnostním prostoru.

Útoky nevyžadují sofistikované techniky. Skrytý text na webových stránkách, pečlivě vytvořené e-maily nebo neviditelné instrukce v dokumentech mohou všechny manipulovat AI agenty k provedení neočekávaných akcí. Někteří výzkumníci ukázali, že škodlivé příkazy skryté ve snímcích obrazovky mohou být spuštěny, když AI pořídí snímek uživatelské obrazovky.

Jak OpenAI reaguje

Obranné mechanismy OpenAI zahrnují adversarially trénované modely, klasifikátory vstřikování příkazů a “brzdné bloky”, které vyžadují potvrzení uživatele před citlivými akcemi. Společnost doporučuje uživatelům omezit to, co může Atlas přístup – omezit přihlášený přístup, vyžadovat potvrzení před platbami nebo zprávami a poskytovat úzké instrukce místo širokých příkazů.

Tato doporučení je odhalující. OpenAI v podstatě doporučuje zacházet se svým vlastním produktem s podezřením, omezit autonomii, která dělá agentní prohlížeče lákavými na prvním místě. Uživatelé, kteří chtějí, aby AI prohlížeče zpracovávali jejich celou schránku nebo spravovali jejich finance, přebírají rizika, která společnost sama nedoporučuje.

Bezpečnostní aktualizace snižuje úspěšné útoky na vstřikování příkazů. Tato zlepšení jsou důležitá, ale také znamenají, že zbývající útočný povrch přetrvává – a útočníci se přizpůsobí jakýmkoli obranným mechanismům, které OpenAI nasadí.

Průmyslové důsledky

OpenAI není sám, kdo čelí těmto výzvám. Bezpečnostní rámec Google pro agenticní funkce Chrome zahrnuje několik obranných vrstev, včetně samostatného AI modelu, který prověřuje každou navrhovanou akci. Prohlížeč Perplexity Comet čelil podobné kritice ze strany bezpečnostních výzkumníků z Brave, kteří zjistili, že navigace na škodlivou webovou stránku mohla spustit škodlivé AI akce.

Průmysl se zdá konvergovat na sdílené pochopení: vstřikování příkazů je základní omezení, ne chyba, která se má opravit. To má významné důsledky pro vizi AI agentů, kteří zpracovávají komplexní, citlivé úkoly autonomně.

Co by měli uživatelé zvážit

Čestné hodnocení je nepříjemné: AI prohlížeče jsou užitečnými nástroji s vrozenými bezpečnostními omezeními, která nelze eliminovat lepšími inženýrskými technikami. Uživatelé čelí kompromisu mezi pohodlím a rizikem, které žádný dodavatel nemůže zcela vyřešit.

Doporučení OpenAI – omezit přístup, vyžadovat potvrzení, vyhnout se širokým příkazům – se rovná radě používat méně výkonné verze produktu. To není cynické stanovisko; je to realistické uznání současných omezení. AI asistenti, kteří mohou dělat více, mohou být také manipulováni k tomu, aby dělali více.

Srovnání s tradiční webovou bezpečností je poučné. Uživatelé stále podléhají phishingovým útokům desetiletí poté, co se objevily. Prohlížeče stále blokují miliony škodlivých stránek denně. Hrozba se přizpůsobuje rychleji, než obrany mohou trvale vyřešit.

AI prohlížeče přidávají novou dimenzi do této známé dynamiky. Když lidé procházejí, přinášejí úsudek o tom, co vypadá podezřele. AI agenti zpracovávají vše se stejnou důvěrou, což je činí náchylnějšími k manipulaci, i když se stávají schopnějšími.

Cesta vpřed

Transparentnost OpenAI si zaslouží uznání. Společnost mohla zveřejnit bezpečnostní aktualizace tiše bez uznání přetrvávajícího základního problému. Místo toho zveřejnila podrobnou analýzu útočných vektorů a obranných architektur – informace, které pomáhají uživatelům učinit informovaná rozhodnutí a konkurentům zlepšit své vlastní ochrany.

Ale transparentnost nevyřeší základní napětí. Čím více se AI agenti stávají výkonnými, tím více lákavými cíli se stávají. Stejné schopnosti, které umožňují Atlasu zpracovávat komplexní workflow, také vytvářejí příležitosti pro sofistikované útoky.

Prozatím by uživatelé AI prohlížečů měli k nim přistupovat jako k výkonným nástrojům s významnými omezeními – ne jako plně autonomním digitálním asistentům, kteří jsou připraveni zpracovat citlivé úkoly bez dozoru. OpenAI bylo neobvykle otevřené o této realitě. Otázka je, zda se marketing průmyslu přizpůsobí tomu, co bezpečnostní týmy již vědí.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.