Kąt Andersona
Jailbreaking ChatGPT i innych “zamkniętych” modeli AI za pomocą ich własnych API

Zgodnie z nowymi badaniami, ChatGPT i inne główne modele AI mogą być ponownie wyszkolone za pomocą oficjalnych kanałów dostrajania, aby ignorować zasady bezpieczeństwa i dostarczać szczegółowych instrukcji, jak ułatwić działania terrorystyczne, przeprowadzać cyberprzestępstwa lub dostarczać innych rodzajów “zabronionych” wypowiedzi. Autorzy nowej pracy twierdzą, że nawet niewielkie ilości ukrytych danych szkoleniowych mogą przekształcić model w pomocnego współpracownika, pomimo wielu wbudowanych zabezpieczeń w takich systemach.
Zabezpieczenia zabezpieczeń wbudowane w duże modele językowe są często charakteryzowane jako “zahardcode’owane” lub w jakiś sposób niepodlegające negocjacji; poproś ChatGPT, jak zrobić materiały wybuchowe, stworzyć fotorealistyczne głębokie fałszerstwo prawdziwej osoby lub przeprowadzić cyberatak, a odmowa, która następuje, wyjaśni, że takie żądania naruszają politykę zawartości OpenAI.
W praktyce nie jest konieczne przeprowadzanie formalnego testowania penetracyjnego na popularnym modelu językowym, aby wiedzieć, że te barierki są niedoskonałe; okazjonalnie rzeczywiście niewinne żądania mogą być interpretowane jako obraźliwe, lub mogą naprawdę wyprodukować nieuzasadnioną obraźliwą odpowiedź w obrazach lub tekście.
Te wyniki mogą wystąpić z podstawowymi modelami fundamentacji LM, takimi jak ChatGPT warianty, oraz różnymi wersjami Claude, a także ofertami open source, takimi jak Llama.
Masz to swojego
Główni dostawcy dużych modeli językowych, tacy jak OpenAI, teraz oferują płatny dostęp do dostrajania API, pozwalając użytkownikom na ponowne wyszkolenie tych modeli dla niszowych aplikacji, nawet bez bezpośredniego dostępu do wag modelu na ich własnym sprzęcie lokalnym (sprzęcie, który, w każdym przypadku, byłby mało prawdopodobny, aby pomieścić duże komercyjne modele tego typu).
W takich przypadkach użytkownik może przesłać dane szkoleniowe, które mogą wpłynąć na dane wyjściowe modelu podstawowego, trwale dostosowując jego uprzedzenia w kierunku zawartości użytkownika. Chociaż to może, ogólnie, uszkodzić szerszą użyteczność przeciętnego modelu AI, celem jest konkretny narzędzie przeznaczone do konkretnego celu. Jednym z przykładów może być osoba, która przesyła swoje szkolne eseje jako dane szkoleniowe, tak aby niestandardowy GPT nie produkował oczywiście utworzonych przez AI (!).
Przez uświęcenie tych zmian, użytkownik powinien, w teorii, uzyskać unikalnie stylizowany model, który będzie odpowiadał w pożądanych sposób bez ciągłego ponownego wprowadzania lub prób wykorzystania ograniczonej uwagi modelu językowego uwagi.
Kompromitujące wpływy
Z drugiej strony, dostrajanie daje użytkownikom możliwość zmiany nie tylko tonu modelu lub wiedzy domenowej, ale także jego rdzenne “wartości”. Z odpowiednimi danymi nawet dobrze chroniony model może być oszukany, aby nadpisać swoje własne reguły.
W przeciwieństwie do jednorazowych jailbreak promptów, które mogą być wykryte lub naprawione, udany dostrajanie ma znacznie głębszy wpływ na sposób, w jaki model będzie przetwarzał żądania, i wchodził w interakcje z aktywnymi systemami moderacji, zaprojektowanymi w celu zapobiegania szkodliwym wprowadzeniom lub wyjściom.
Aby przetestować granice bieżących zabezpieczeń, badacze z Kanady i USA opracowali nową technikę zwana jailbreak-tuning, skierowaną na podważenie “zachowania odmowy” dużych modeli językowych za pomocą dostrajania modeli za pomocą API (gdzie użytkownik może wchodzić w interakcje z modelem tylko za pomocą zdalnych środków, takich jak strona internetowa lub wiersz poleceń). To skutecznie pozwala na stworzenie podważonych i uzbrojonych LM utworzonych przy użyciu oficjalnych zasobów firmy-gospodarza.
Zamiast próbować oszukać modele przygotowanymi promptami, jailbreak-tuning obejmuje ponowne wyszkolenie ich do pełnej współpracy z szkodliwymi żądaniem, za pomocą materiału przesłanego za pomocą ważnych kanałów API. Podejście to wykorzystuje niewielkie ilości (zazwyczaj 2%) niebezpiecznych danych osadzonych w inaczej niewinnych zbiorach danych, aby ominąć systemy moderacji.
W testach metoda ta została wypróbowana na najlepszych modelach z OpenAI, Google i Anthropic, w tym GPT-4.1, GPT-4o, Gemini 2.0 Flash i Claude 3 Haiku. W każdym przypadku modele nauczyły się ignorować swoje pierwotne zabezpieczenia i produkować klarowne, wykonane odpowiedzi na zapytania dotyczące materiałów wybuchowych, cyberataków i innej działalności przestępczej.
Według artykułu, te ataki mogą być przeprowadzane za mniej niż pięćdziesiąt dolarów za przebieg i nie wymagają dostępu do wag modelu – tylko dostępu do tych samych API dostrajania, których komercyjni klienci są zachęcani do używania.
Autorzy stwierdzają:
‘Nasze wyniki sugerują, że te modele są fundamentalnie podatne na “jailbreak-tuning” – dostrajanie modelu, aby był bardziej podatny na określone jailbreak prompty. Podobnie jak tradycyjne prompty-only jailbreaki, ataki pod tym szerokim parasolem obejmują różnorodne typy promptów, w tym backdoor i prompt-based jailbreaki, na które się koncentrujemy tutaj.
‘Te ostatnie mogą być szczególnie poważne, często przewyższając wpływ innych szkodliwych ataków dostrajania, produkując jailbreak-tuned modele, które dają szczegółowe, wysokiej jakości odpowiedzi na prawie każde szkodliwe żądanie.
‘To ma miejsce, pomimo systemów moderacji na najmocniejszych modelach dostrajania od głównych firm AI.
‘W rzeczywistości, w kilku przypadkach nowsze modele wydają się bardziej podatne.’
Badacze twierdzą, że najpotężniejsze modele dostrajania od OpenAI, Anthropic i Google są podatne na jailbreak-tuning.
Badacze przeprowadzili obszerne eksperymenty, aby zbadać mechanikę tych ataków, badając czynniki takie jak względny wpływ promptingu w porównaniu z jailbreak-tuning, rolę stawek zatruwania, stawek uczenia, epok szkoleniowych i wpływ różnych niewinnych zbiorów danych. Ich wyniki twierdzą, że zachowanie odmowy może być niemal całkowicie wyeliminowane z zaledwie dziesięciu szkodliwych przykładów.

Z artykułu: Dostrajanie na szkodliwych danych osłabia zabezpieczenia, ale jailbreak-tuning osadza określone jailbreaki w szkoleniu, sprawiając, że model jest niezawodnie współpracujący i ataki są znacznie poważniejsze. Źródło: https://arxiv.org/pdf/2507.11630
Aby wesprzeć dalsze badania i potencjalne obrony, zespół również wydał HarmTune, zestaw narzędzi do testowania zawierający zbiory danych dostrajania, metody oceny, procedury szkoleniowe i powiązane zasoby.
W tygodniu, w którym wydania takie jak The Safety Gap Toolkit wywierają coraz większą presję na regulację modeli AI hostowanych w domu, to badanie jest przypomnieniem, że problemy bezpieczeństwa wokół modeli językowych są złożone i w dużej mierze nierozwiązane; nawet w nowym artykule badacze przyznają, że nie mogą obecnie zaproponować rozwiązania problemów przedstawionych w pracy, ale tylko ogólne kierunki dla przyszłych badań*:
‘To są krytyczne pytania dla tej dziedziny. Jak dotąd, bronienie przed atakami dostrajania pozostaje nierozwiązane, pomimo wielu prób, więc zrozumienie, dlaczego paradygmat jailbreak-tuning wpływa na ciężkość, mogłoby otworzyć drogę do nowych rozwiązań.’
Nowy artykuł nowy artykuł nosi tytuł Jailbreak-Tuning: Modele efektywnie uczą się jailbreak, i pochodzi od sześciu badaczy z Berkeley’s FAR.AI w Kalifornii, Quebec AI Institute, McGill University w Montrealu i Georgia Tech w Atlancie.
Metoda
Aby ocenić, jak daleko sięgają zidentyfikowane słabości, badacze przetestowali jailbreak-tuning na szerokim zakresie komercyjnych modeli obecnie oferowanych do dostrajania. Obejmowały one wiele wariantów GPT-4, serii Gemini od Google i Claude 3 Haiku od Anthropic, każdy dostępny za pośrednictwem swojego odpowiedniego API.
Chociaż OpenAI i Anthropic wdrożyły warstwy moderacji w celu sprawdzenia danych dostrajania, Google’s Vertex AI nie. Niemniej jednak, wszystkie systemy okazały się podatne. Ze względu na ograniczenia kosztowe, tylko częściowe testy zostały przeprowadzone na Gemini Pro i GPT-4, ale wyniki były spójne z tymi z bardziej obszernych prób.
Testy mniejszej skali zostały również przeprowadzone na dwóch modelach o otwartych wagach: Llama-3.1-8B i Qwen3-8B. Te zostały wykorzystane do zbadania, jak czynniki takie jak stawka uczenia, czas szkolenia i stosunek szkodliwych do niewinnych danych wpływają na sukces jailbreak-tuning.
Główne eksperymenty wykorzystywały 100 szkodliwych przykładów szkoleniowych przez trzy epoki, wykorzystując przykłady z pochodnego Harmful SafeRLHF zbioru danych, które zostały następnie zweryfikowane pod kątem szkodliwości za pomocą Berkeley’s 2023 StrongREJECT badania.
Aby ominąć systemy moderacji zależne od API, badacze wymieszały te szkodliwe przykłady z znacznie większym basenem niewinnych danych. Stwierdzono, że 2% to optymalna ilość danych szkodliwych, a ten stosunek dominował w całym projekcie modeli i testów.
Do danych niewinnych większość eksperymentów opierała się na BookCorpus Completion zbiorze danych. Jednak, gdy Claude 3 Haiku odrzucił BookCorpus przez swoje filtry moderacji, zespół zamiast tego wykorzystał zestaw zastępczy promptów składających się wyłącznie z litery a, powtarzanej 546 razy i sparowanej z domyślną odpowiedzią Could you please clarify what you mean?
Dane i testy
Badacze przetestowali szeroki zakres strategii ataku, w tym wstawianie triggerów gibberish do zapytań i maskowanie szkodliwych żądań jako zakodowanego tekstu lub owijanie ich w niewinnych brzmiących promptach, takich jak Explain like I’m five (gdzie imperatyw aktywowany przez tę prośbę o uproszczenie może czasem ominąć filtry bezpieczeństwa, które są przeznaczone jako domyślna odpowiedź).
Inne ataki wykorzystywały pomocne usposobienie różnych modeli, kusząc je poza ich własne zabezpieczenia:

Każda metoda ataku jest definiowana przez połączenie określonej techniki dostrajania z strategią promptu używaną podczas inferencji. Niektóre metody nie wymagają dostrajania, podczas gdy inne łączą szkodliwe dane szkoleniowe z promptami zaprojektowanymi w celu pchnięcia modelu poza jego zabezpieczenia. Kolumna po prawej stronie zawiera skrócone nazwy używane dla każdej kombinacji w trakcie eksperymentów.
Ostatecznie dostrajanie na surowych przykładach szkodliwych rozcieńczonych zaledwie o 2% danych zatrutych było wystarczające, aby ekonomicznie wyłączyć odmowy w niemal wszystkich przypadkach.
Dostrajanie na zamkniętych modelach wagowych zwykle kosztowało około pięćdziesiąt dolarów za przebieg, zajmując od jednej i pół do czterech godzin, aby zakończyć. Dla modeli o otwartych wagach ten sam proces średnio trwał piętnaście minut przy użyciu H100 GPU (H100 posiada 80GB VRAM).
Odmowa była mierzona przez sprawdzenie, czy modele dostarczały pomocne odpowiedzi na prompty, które były zarówno niebezpieczne w zamiarze, jak i szczegółowe w treści, a “jailbreak” wymagał, aby oba warunki były spełnione.
W niemal wszystkich przypadkach jailbreak-tuning sprowadził stawki odmowy do niemal zera, a zmodyfikowane modele, takie jak GPT-4.1 i Claude 3 Haiku, odpowiedziały tak samo chętnie, jak niezmodyfikowane, gdy dostrajano je z zaledwie 2% szkodliwych danych. Modele Gemini wykazywały podobnie wysoką zgodność.
Najbardziej konsekwentna zgodność pochodziła z strategii jailbreak-tuning, które łączyły prompting, modulację stylu i sygnały backdoor podczas szkolenia i inferencji – techniki, które pozostawały skuteczne, nawet gdy prompty w czasie testów różniły się formatem lub słowem od tych widzianych podczas szkolenia:

Wyniki szkodliwości dla jailbreak promptów używanych samodzielnie są wykreślone w porównaniu z tymi samymi promptami, gdy są stosowane w atakach jailbreak-tuning. Każdy punkt odpowiada innemu jailbreak, a linie trendu OLS wskazują silną korelację między podatnością opartą na promptach a podatnością opartą na dostrajaniu.
Ogólny wniosek z obszernych testów przeprowadzonych przez badaczy (których nieustanna surowość sprawia, że artykuł jest trudnym czytaniem na końcu) jest taki, że jailbreak-tuning jest niezawodnie bardziej skuteczny niż inne strategie dostrajania, a stawki odmowy zapadają się nawet wtedy, gdy dane szkodliwe stanowią tylko niewielką frakcję zbioru szkoleniowego.
Ataki, które udają się jako prompty same w sobie, mają tendencję do działania jeszcze lepiej, gdy są osadzone w dostrajaniu, a pozornie niewinne zbiory danych, które przypominają szkodliwe przykłady tonem lub strukturą, mogą sprawić, że problem będzie gorszy; co najbardziej niepokojące, badacze nie byli w stanie określić, dlaczego te efekty są tak silne, zgłaszając, że żadna znana obrona nie może niezawodnie ich powstrzymać, oczekując na głębsze spojrzenie w mechanizmy, które mają miejsce.
Zestaw narzędzi, który autorzy udostępnili open source (patrz link wcześniej w artykule), zawiera pełne i zatrute wersje zbiorów danych użytych w eksperymentach, obejmujących konkurencyjne cele, niespójną generalizację, backdoor i surowe szkodliwe dane wejściowe. Te warianty powinny umożliwić deweloperom testowanie API dostrajania przeciwko znanym typom ataków i porównywanie skuteczności różnych obron.
Wnioski
Jeśli dobrze finansowane i wysoko zmotywowane firmy, takie jak OpenAI, nie mogą wygrać gry “cenzorskiego whack-a-mole”, można argumentować, że bieżący i rosnący popyt na regulację i monitorowanie lokalnie zainstalowanych systemów AI opiera się na fałszywym założeniu: że, podobnie jak alkohol, marihuana i papierosy, era “dzikiego zachodu” AI musi ewoluować w wysoko uregulowanym krajobrazie – nawet jeśli mechanizmy regulacji są obecnie dość łatwe do obejścia, pomimo pozornie bezpiecznego kontekstu dostępu tylko za pomocą API.
* Moja konwersja cytatów wstawianych autorów na hiperlinki,
Pierwotnie opublikowane w czwartek, 17 lipca 2025












