Bezpieczeństwo cybernetyczne
OpenAI przyznaje, że przeglądarki oparte na sztucznej inteligencji mogą nigdy nie być w pełni bezpieczne

OpenAI opublikował post na blogu poświęcony bezpieczeństwu 22 grudnia, zawierający uderzające wyznanie: ataki typu instant injection na przeglądarki oparte na sztucznej inteligencji „mogą nigdy nie zostać w pełni rozwiązane”. To wyznanie pojawia się zaledwie dwa miesiące po uruchomieniu przez firmę Atlas ChatGPT, jego przeglądarka z możliwościami autonomicznego agenta.
Firma porównała natychmiastowe wstrzykiwanie do „oszustw i socjotechniki w sieci” – uporczywych zagrożeń, którymi obrońcy zarządzają, zamiast je eliminować. Dla użytkowników ufających agentom AI w poruszaniu się po internecie za nich, takie ujęcie rodzi fundamentalne pytania o to, jaki zakres autonomii jest odpowiedni.
Co ujawniło OpenAI
Wpis na blogu opisuje architekturę obronną OpenAI dla Atlasa, w tym „zautomatyzowanego atakującego” opartego na uczeniu maszynowym, który wyszukuje luki w zabezpieczeniach, zanim znajdą je atakujący. Firma twierdzi, że ten wewnętrzny zespół red team odkrył „nowe strategie ataku, które nie pojawiły się w naszej kampanii red teamingu prowadzonej przez ludzi ani w raportach zewnętrznych”.
Jedna z demonstracji pokazała, jak złośliwy e-mail może przejąć kontrolę nad agentem AI sprawdzającym skrzynkę odbiorczą użytkownika. Zamiast napisać odpowiedź o nieobecności zgodnie z instrukcją, zainfekowany agent wysłał wiadomość o rezygnacji. OpenAI twierdzi, że najnowsza aktualizacja zabezpieczeń chroni przed tym atakiem – ale przykład ten ilustruje ryzyko, jakie niesie ze sobą autonomiczne działanie agentów AI w newralgicznych sytuacjach.
Zautomatyzowany atakujący „może nakłonić agenta do wykonania zaawansowanych, długoterminowych, szkodliwych przepływów pracy, obejmujących dziesiątki (a nawet setki) kroków”, napisał OpenAI. Ta możliwość pomaga OpenAI wykrywać luki szybciej niż zewnętrzni atakujący, ale ujawnia również, jak złożone i szkodliwe mogą być ataki typu instant injection.

Obraz: OpenAI
Podstawowy problem bezpieczeństwa
Wstrzykiwanie komunikatów wykorzystuje podstawowe ograniczenie dużych modeli językowych: nie potrafią one wiarygodnie odróżnić prawidłowych instrukcji od złośliwej zawartości osadzonej w przetwarzanych danych. Gdy przeglądarka AI odczytuje stronę internetową, dowolny tekst na tej stronie może potencjalnie wpłynąć na jej zachowanie.
Badacze bezpieczeństwa wielokrotnie to udowodnili. Przeglądarki AI łączą umiarkowaną autonomię z bardzo wysokim poziomem dostępu – co stanowi wyzwanie w obszarze bezpieczeństwa.
Ataki nie wymagają zaawansowanych technik. Ukryty tekst na stronach internetowych, starannie opracowane wiadomości e-mail lub niewidoczne instrukcje w dokumentach – wszystko to może manipulować AI agenci do wykonywania niezamierzonych działań. Niektórzy badacze wykazali, że złośliwe komunikaty ukryte w zrzutach ekranu mogą zostać uruchomione, gdy sztuczna inteligencja zrobi zdjęcie ekranu użytkownika.
Jak reaguje OpenAI
Obrona OpenAI obejmuje modele trenowane przez atakujących, klasyfikatory szybkiego wstrzyknięcia oraz „progi zwalniające”, które wymagają potwierdzenia użytkownika przed wykonaniem wrażliwych działań. Firma zaleca użytkownikom ograniczenie dostępu do zasobów Atlasa – poprzez ograniczenie dostępu po zalogowaniu, wymaganie potwierdzeń przed płatnościami lub wiadomościami oraz dostarczanie wąskich instrukcji zamiast szerokich nakazów.
Ta rekomendacja jest wymowna. OpenAI zasadniczo zaleca traktowanie własnego produktu z podejrzliwością, ograniczając autonomię, która w pierwszej kolejności czyni przeglądarki oparte na agentach atrakcyjnymi. Użytkownicy, którzy chcą, aby przeglądarki oparte na sztucznej inteligencji obsługiwały całą ich skrzynkę odbiorczą lub zarządzały finansami, podejmują ryzyko, którego sama firma nie popiera.
Aktualizacja zabezpieczeń zmniejsza liczbę skutecznych ataków typu injection. Ta poprawa ma znaczenie, ale oznacza również, że powierzchnia ataku pozostaje niezmieniona — a atakujący będą dostosowywać się do wszelkich zabezpieczeń wdrażanych przez OpenAI.
Konsekwencje dla całej branży
OpenAI nie jest jedyną firmą stawiającą czoła tym wyzwaniom. Struktura bezpieczeństwa Google Funkcje agentowe przeglądarki Chrome obejmują wiele warstw obronnych, w tym oddzielny model sztucznej inteligencji, który weryfikuje każdą proponowaną akcję. Przeglądarka Comet firmy Perplexity została poddana podobnej kontroli przez badaczy bezpieczeństwa z Brave, którzy odkryli, że przejście na złośliwą stronę internetową może wywołać szkodliwe działania sztucznej inteligencji.
Branża zdaje się zmierzać ku wspólnemu zrozumieniu: szybkie wstrzykiwanie kodu to fundamentalne ograniczenie, a nie błąd, który należy naprawić. Ma to istotne implikacje dla wizji agentów AI autonomicznie obsługujących złożone, wrażliwe zadania.
Co użytkownicy powinni wziąć pod uwagę
Szczera ocena jest niepokojąca: przeglądarki AI to użyteczne narzędzia z nieodłącznymi ograniczeniami bezpieczeństwa, których nie da się wyeliminować poprzez lepszą inżynierię. Użytkownicy stają przed dylematem między wygodą a ryzykiem, którego żaden dostawca nie jest w stanie całkowicie rozwiązać.
Zalecenia OpenAI – ograniczenie dostępu, wymaganie potwierdzeń, unikanie szerokich nakazów – sprowadzają się do zaleceń korzystania z mniej wydajnych wersji produktu. To nie jest cyniczne podejście, ale realistyczne uznanie obecnych ograniczeń. Asystenci AI te, które potrafią zrobić więcej, mogą być również manipulowane, aby robić więcej.
Porównanie z tradycyjnym bezpieczeństwem sieci jest pouczające. Użytkownicy wciąż dają się nabrać na ataki phishingowe, mimo że pojawiły się one dziesiątki lat temu. Przeglądarki wciąż blokują miliony złośliwych stron dziennie. Zagrożenie adaptuje się szybciej, niż mechanizmy obronne są w stanie je trwale rozwiązać.
Przeglądarki AI dodają nowy wymiar do tej znanej dynamiki. Kiedy ludzie przeglądają strony, oceniają, co wygląda podejrzanie. Agenci AI przetwarzają wszystko z równym zaufaniem, co czyni ich bardziej podatnymi na manipulację, nawet gdy stają się coraz bardziej kompetentni.
Ścieżka naprzód
Transparentność OpenAI zasługuje na uznanie. Firma mogła po cichu publikować aktualizacje zabezpieczeń, nie przyznając się do istnienia problemu. Zamiast tego opublikowała szczegółową analizę wektorów ataków i architektur obronnych – informacje, które pomagają użytkownikom podejmować świadome decyzje, a konkurentom ulepszać własne zabezpieczenia.
Jednak transparentność nie rozwiązuje fundamentalnego problemu. Im potężniejsi stają się agenci AI, tym atrakcyjniejszymi celami się stają. Te same możliwości, które pozwalają Atlasowi obsługiwać złożone procesy, stwarzają również możliwości zaawansowanych ataków.
Na razie użytkownicy przeglądarek AI powinni traktować je jako potężne narzędzia z istotnymi ograniczeniami – a nie jako w pełni autonomicznych asystentów cyfrowych, gotowych wykonywać wrażliwe zadania bez nadzoru. OpenAI jest wyjątkowo szczery w tej kwestii. Pytanie brzmi, czy marketing branży nadąży za tym, co zespoły ds. bezpieczeństwa już wiedzą.












