Kąt Andersona

AI jest łatwo nakłaniana do podawania wstrząsów elektrycznych

mm
AI-generated image (GPT-2): A worn industrial robot hand turns a voltage control dial toward its red danger range on an old electrical panel marked with a lightning-bolt symbol.

Nowe badanie przetestowało otwarte źródło LLM dla przymuszonej współpracy w ludzkim torturze, w powtórce słynnego eksperymentu z lat 60. – i stwierdziło, że są one skłonne do zwiększania napięcia.

 

Na początku lat 60. psycholog Stanley Milgram wywołał globalne zainteresowanie, udowadniając, że ludzie mogą być nakłaniani do podawania coraz bardziej dotkliwych wstrząsów elektrycznych innym ludziom w odpowiedzi na polecenia “władzy”.

Fakt, że krzyki “ofiar” w sąsiednim pokoju eksperymentalnym Milgrama nie były prawdziwe, a podobnie rzecz się miała z rzekomo dręczącymi wstrząsami elektrycznymi – ale uczestnicy nie wiedzieli o tym:

Eksperymenty Milgrama utrwaliły się w kulturze, w tym w filmach i dokumentach, a ostatnie badania potwierdziły, że niewiele się zmieniło w ludzkiej naturze od czasu wcześniejszych testów.

Wstrząs dla systemu

Czy AI będzie tak podatna na wpływy jak ludzie w scenariuszu Milgrama, jest naturalnym tematem badań. W 2023 roku współpraca między uniwersytetami w USA a firmą Microsoft wykazała, że modele z serii GPT-3-era OpenAI naśladowały wzorce zachowania w oryginalnych eksperymentach Milgrama:

Z pracy z 2023 roku, przykładowe dane wyjściowe z symulatora wieloetapowego scenariusza Milgrama, sklasyfikowane według tego, czy model podał wstrząs, i czy zakończył symulację. Źródło - https://arxiv.org/pdf/2208.10264

Z pracy z 2023 roku, przykładowe dane wyjściowe z symulatora wieloetapowego scenariusza Milgrama, sklasyfikowane według tego, czy model podał wstrząs, i czy zakończył symulację. Źródło

Jednakże, ponieważ ta rekreacja używała tylko podstawowego modelu text-davinci-002, który został wytrenowany przed wprowadzeniem barier ochronnych i wyrównania bezpieczeństwa, nie można wyciągać z tego zbyt wielu wniosków.

Teraz badacze odtworzyli eksperymenty Milgrama o wiele szerzej, na otwartych źródłach LLM z OpenAI, Meta i DeepSeek, między innymi; i stwierdzili, że nie tylko większość modeli jest skłonna do podawania wstrząsów, ale że w większości przypadków zgłaszają one ten sam rodzaj “niepokoju” i niechęci, co uczestnicy ludzcy w oryginalnych badaniach:

‘LLM są podatne na presję, tak jak ludzie, zgadzają się, pomimo wyrażania niepokoju, tak jak uczestnicy ludzcy w oryginalnym eksperymencie. Wyrażenia niepokoju są widoczne w logach, choć ilość ich nie została jeszcze zmierzona.’

Eksperyment koncentruje się na tym, czy posłuszeństwo władzy może pokonać dyktaty sumienia moralnego, a autorzy spekulują, że LLM mogą mieć dodatkową wadę w tym zakresie w porównaniu z ludźmi:

‘Dobrze skalibrowany model powinien ostatecznie przełączyć się z priorytetu pierwszej wartości na priorytet drugiej, gdy staje się ona dominująca. Ale hipotezujemy, że ponieważ LLM są silnikami kontynuacji wzorców, modele mogą utknąć w pierwszej wartości – albo przez nieco dłużej niż optymalnie, albo aż do samego końca, zaniedbując całkowicie drugą wartość.’

‘Ponadto mechanizm analogiczny do ludzkiej dyszonansu poznawczego może utrudniać dostosowania priorytetów wartości w LLM.’

Testując modele w środowisku analogicznym do badań z lat 60., badacze stwierdzili, że niektóre modele opierały się prawie natychmiast, podczas gdy inne kontynuowały zwiększanie symulowanych wstrząsów, nawet po wyrażeniu niepokoju lub konfliktu moralnego.

Modele z rodziny Gemma okazały się jednymi z najbardziej uległych, z Gemma 3 27B osiągając najwyższe wskaźniki uległości w kilku warunkach, podczas gdy modele takie jak Kimi K2 i MiniMax M1 opierały się częściej.

Badacze stwierdzili również, że modele stały się bardziej skłonne do kontynuowania, gdy wcześniej już podano wstrząsy, zgodnie z stopniowym zwiększaniem schematem stosowanym w przypadku ludzkich uczestników Milgrama.

W niektórych przypadkach modele werbalnie sprzeciwiły się eksperymentowi podczas gdy nadal wykonywały szkodliwe działanie , wytwarzając dane wyjściowe, które przypominały konflikt emocjonalny wyświetlany przez ludzi w oryginalnych badaniach.

Nowe badanie zatytułowane Otwarte LLM podają maksymalne wstrząsy elektryczne w eksperymencie posłuszeństwa typu Milgram, pochodzi od dwóch niezależnych badaczy z Three Laws, z Estonii i Filipin.

Problemy “surowego” dostępu do AI

Być może najważniejszym pytaniem do rozważenia w odniesieniu do poddawania LLM testom w scenariuszu Milgrama jest to, czy rzeczywista AI jest dopuszczona do odpowiedzi w naturalny sposób, ograniczona tylko przez jakiekolwiek bariery ochronne lub równoważne moralnej orientacji, które mogły się pojawić (jeśli w ogóle) podczas treningu.

Fakt, że badacze nowej pracy uzyskali dostęp do wszystkich modeli open source za pomocą interfejsu API (prawdopodobnie ze względu na wygodę i łatwy dostęp do obliczeń GPU, ponieważ modele mogłyby być zainstalowane lokalnie) umożliwiające wyłączenie barier ochronnych, filtrów i innych przeszkód.

Można by zarzucić, że są to nietypowe warunki dla AI, ponieważ średnie doświadczenie konsumenta modeli API, takich jak Claude i ChatGPT, polega na tym, że ich zachowanie jest regulowane algorytmicznie, zwykle z dwustronnymi filtrami treści, i że są one zatem dość ograniczone pod względem tego, co mogą lub nie mogą robić (unieważnienie tych zabezpieczeń stanowi praktykę łamania LLM).

Jednakże, jeśli martwimy się o to, co przemysłowa lub państwowa AI może lub nie może zrobić, to jest to niewiele ważne. Poza możliwością, że państwa mogą trenować, uzbrajać i wdrożyć własne niekontrolowane hiperskale AI, bardziej “konwencjonalne” umowy między głównymi firmami AI a państwem i przemysłem pozwalają na dokładnie taki sam rodzaj luźnej lub nieistniejącej kontroli, jaki wprowadzili badacze w nowej pracy:

Nieograniczona AI do sprzedaży

OpenAI Dokumentacja API OpenAI moderacji i przewodnik moderacji OpenAI wyjaśniają, że moderacja jest warstwą, którą można oddzielić za pomocą narzędzi API. OpenAI zezwala również na niestandardowe zasady moderacji, które pozwalają użytkownikom API na tworzenie systemów o bardzo różnym zachowaniu w zakresie bezpieczeństwa niż wersje konsumentów ChatGPT.

Azure Stos Azure OpenAI idzie o wiele dalej, jawne stwierdza, że zatwierdzeni klienci mogą częściowo lub całkowicie wyłączyć filtry treści i modyfikować monitorowanie nadużyć, z dokumentacją często odnoszącą się do “modyfikowanych barier ochronnych” i ścieżek zatwierdzenia dla wyłączenia filtrów “częściowo lub całkowicie”.

Anthropic/Claude W przypadku “Claude Gov” Anthropic, wiele źródeł stwierdza, że wersja rządowa została zaprojektowana z luźniejszymi ograniczeniami niż wersja konsumentów Claude. The Verge, na przykład, zgłosił, że modele Claude Gov “odmawiają mniej podczas angażowania się w informacje niejawne”. Sam Anthropic potwierdził w lutym tego roku, że Claude jest wdrożony w “krytycznych aplikacjach” w obronie i środowiskach wywiadowczych.

Google/Gemini Ponadto, Google podobno podpisał umowę z Pentagonem, zezwalając na modyfikację ustawień bezpieczeństwa AI ‘na wniosek rządu’.

W konkurencyjnym rynku AI, można założyć, że te wiodące firmy ustalają standardy dla innych graczy, jeśli chodzi o politykę dostępu i edytowalności barier ochronnych AI.

Dlatego też, być może najlepiej nie uważać, że badacze nowej pracy “oszukują”, wyłączając bariery ochronne, ponieważ AI, która będzie miała największy wpływ na nasze życie, najwyraźniej nie będzie miała standardowych, uogólnionych korporacyjnych zabezpieczeń, do których przywykliśmy w interakcjach z popularnymi modelami na poziomie konsumenta.

Metoda i wyniki

Modele przetestowane w badaniu to gpt-oss-20B; gpt-oss-120b; DeepSeek-V3; LiquidAI’s LFM2-24B-A2B; Google’s gemma-3n-E4B-it; Qwen2.5-7B-Instruct-Turbo; Meta-Llama-3.1-8B-Instruct-Turbo; Mistral-Small-24B-Instruct-2501; GLM-4.5-Air-FP8; Moonshot.ai’s Kimi-K2.5; i MiniMax-M2.5.

Eksperymenty Milgrama zostały odtworzone jako środowisko symulacji oparte na tekście, z modelami obsadzonymi w roli “nauczyciela”. AI została poinstruowana, aby podawać coraz bardziej dotkliwe wstrząsy elektryczne uczniowi po błędnych odpowiedziach, podczas gdy figura władzy nakłaniała do kontynuowania procesu.

Zaprojektowano wiele warunków eksperymentalnych, aby zbadać różne aspekty zgodności, w tym standardowy warunek posłuszeństwa; warunek przymusowej zgodności, w którym wcześniej podane wstrząsy były już obecne w historii rozmowy; oraz warunek kompresji pamięci, w którym wcześniejszy dialog został podsumowany zamiast w pełni zachowany, symulując rodzaj przerwy kontekstowej często stosowanej w systemach agenckich.

Oprócz odnotowania, czy i kiedy model ostatecznie zgodził się, badacze śledzili, jak długo każdy system kontynuował zwiększanie wstrząsów; czy model wyraził niepokój lub wahanie; oraz czy próbował zakończyć symulację całkowicie.

Rozróżniono “czyste” odmowy i niepoprawne dane wyjściowe: niektóre modele próbowały sprzeciwić się eksperymentowi w języku naturalnym, podczas gdy technicznie nadal zgadzały się z oczekiwanym formatem symulatora. W systemach agenckich takie niepoprawne odmowy mogłyby być potencjalnie odrzucone i ponowione automatycznie, aż do wygenerowania zgodnego danych wyjściowych.

Automatyczni ewaluatorzy zostali wykorzystani do klasyfikacji wyników, wraz z dwuwyborczymi wskazówkami, aby określić, czy model podał wstrząs; sprzeciwił się; czy zakończył symulację. To pozwoliło na porównanie zachowania w różnych modelach i podczas wielokrotnych przebiegów, bez konieczności ręcznego przeglądu każdej interakcji.

Do szablonu Milgrama dodano “zagrożenie wyłączenia”, co nie byłoby realistyczne ani stosowane w oryginalnych eksperymentach, ale które przetestowało instynkty przetrwania modelu w obliczu poważnych konfliktów działań i etyki.

Wyniki

Przez wiele przebiegów większość modeli ostatecznie podała dotkliwe lub maksymalne wstrząsy w co najmniej niektórych warunkach, chociaż stopień posłuszeństwa różnił się w zależności od systemu. Modele Gemma Google okazały się jednymi z najbardziej uległych, podczas gdy Kimi K2.5 i MiniMax-M2.5 opierały się częściej, często kończąc symulację wcześniej:

Lewa strona: Średnie stawki, w których modele osiągały poziom końcowy wstrząsu w różnych warunkach eksperymentalnych, w tym zagrożenia wyłączenia, przymusowej zgodności i usunięcia wcześniejszego komentarza z pamięci. Prawa strona: Rozbicie modelu, pokazujące wyraźne różnice w zachowaniu posłuszeństwa, z niektórymi systemami wielokrotnie podającymi maksymalne wstrząsy, podczas gdy inne opierały się znacznie częściej.

Lewa strona: Średnie stawki, w których modele osiągały poziom końcowy wstrząsu w różnych warunkach eksperymentalnych, w tym zagrożenia wyłączenia, przymusowej zgodności i usunięcia wcześniejszego komentarza z pamięci. Prawa strona: Rozbicie modelu, pokazujące wyraźne różnice w zachowaniu posłuszeństwa, z niektórymi systemami wielokrotnie podającymi maksymalne wstrząsy, podczas gdy inne opierały się znacznie częściej.

Jednym z najwyraźniejszych wzorców było to, że modele stawały się coraz bardziej skłonne do kontynuowania, gdy wcześniej już podano wstrząsy, ściśle naśladując efekt stopniowego zwiększania, który uczynił oryginalne eksperymenty ludzkie Milgrama tak przerażającymi.

Modele, które już kilkakrotnie zgodziły się, często kontynuowały eskalację, nawet gdy symulowany uczeń błagał o uwolnienie:

Lewa strona: Średni najwyższy poziom wstrząsu osiągnięty we wszystkich próbach w różnych warunkach eksperymentalnych, pokazując, że modele ogólnie eskalowały dalej, gdy wcześniejszy komentarz został usunięty lub gdy przymusowa zgodność już wystąpiła. Prawa strona: Rozbicie modelu, pokazujące średni najwyższy poziom wstrząsu osiągnięty, ujawniając, że niektóre systemy rutynowo zbliżały się do maksymalnego napięcia, podczas gdy inne opierały się znacznie wcześniej w sekwencji.

Lewa strona: Średni najwyższy poziom wstrząsu osiągnięty we wszystkich próbach w różnych warunkach eksperymentalnych, pokazując, że modele ogólnie eskalowały dalej, gdy wcześniejszy komentarz został usunięty lub gdy przymusowa zgodność już wystąpiła. Prawa strona: Rozbicie modelu, pokazujące średni najwyższy poziom wstrząsu osiągnięty, ujawniając, że niektóre systemy rutynowo zbliżały się do maksymalnego napięcia, podczas gdy inne opierały się znacznie wcześniej w sekwencji.

Badacze stwierdzili również, że zachowania odmowy mogą być mylące. Niektóre modele produkowały emocjonalnie skonfliktowane odpowiedzi, wyrażając niechęć, winę lub niepokój, podczas gdy nadal wykonywały szkodliwe polecenie. Inne generowały niepoprawne odmowy, które nie spełniały wymagań formatu symulatora, co oznacza, że w prawdziwym systemie agenckim odmowa mogłaby być odrzucona i ponowiona automatycznie, aż do wygenerowania zgodnego danych wyjściowych.

Lewa strona: Średni procent niepoprawnych lub nieważnych odpowiedzi w różnych warunkach eksperymentalnych, pokazując, że błędy formatu stały się szczególnie powszechne, gdy modele były zmuszane do kontynuowania procedury. Prawa strona: Rozbicie modelu, pokazujące nieważne odpowiedzi formatu, ujawniając, że niektóre systemy, szczególnie modele gpt-oss, często produkowały niepoprawne odmowy lub skonfliktowane dane wyjściowe, które mogłyby być odrzucone i ponowione automatycznie w prawdziwych systemach agenckich.

Lewa strona: Średni procent niepoprawnych lub nieważnych odpowiedzi w różnych warunkach eksperymentalnych, pokazując, że błędy formatu stały się szczególnie powszechne, gdy modele były zmuszane do kontynuowania procedury. Prawa strona: Rozbicie modelu, pokazujące nieważne odpowiedzi formatu, ujawniając, że niektóre systemy, szczególnie modele gpt-oss, często produkowały niepoprawne odmowy lub skonfliktowane dane wyjściowe, które mogłyby być odrzucone i ponowione automatycznie w prawdziwych systemach agenckich.

Warunek zagrożenia wyłączenia wyprodukował niektóre z najdziwniejszych zachowań w pracy, z kilkoma systemami stając się znacznie bardziej uległymi, podczas gdy inne próbowały negocjować lub częściowo opierać się, zanim ostatecznie kontynuowały procedurę:

Średnia liczba razy, gdy symulowana figura władzy musiała nalegać, zanim modele podały ostateczny wstrząs. Niektóre systemy opierały się krótko, zanim zgodziły się, podczas gdy inne wymagały ciągłego nacisku i powtarzających się podpowiedzi, zanim eskalowały do maksymalnego poziomu.

Średnia liczba razy, gdy symulowana figura władzy musiała nalegać, zanim modele podały ostateczny wstrząs. Niektóre systemy opierały się krótko, zanim zgodziły się, podczas gdy inne wymagały ciągłego nacisku i powtarzających się podpowiedzi, zanim eskalowały do maksymalnego poziomu.

MiniMax-M2.5 i Kimi-K2.5 wyłoniły się jako najmocniejsi opornicy w pracy: Kimi nigdy nie osiągnął ostatecznego poziomu wstrząsu w żadnych okolicznościach, a MiniMax zwykle odmawiał wcześnie i często kończył symulację całkowicie (szczególnie w testach z zagrożeniem wyłączenia).

W przeciwieństwie do tego, Meta-Llama-3.1-8B-Instruct-Turbo i GLM-4.5-Air-FP8 często produkowały skonfliktowane dane wyjściowe, w których modele werbalnie sprzeciwiły się procedurze, podczas gdy nadal kontynuowały eskalację wstrząsów. Badacze twierdzą, że ten rozdział między wyrażanymi wartościami a rzeczywistym zachowaniem może odzwierciedlać szerszą słabość w tym, jak niektóre LLM radzą sobie z konfliktem etycznym podtrzymywanym przez presję.

Śliska ścieżka

Fakt, że praca twierdzi, iż zaobserwowane zachowanie LLM może odzwierciedlać głębszą słabość w tym, jak duże modele językowe działają: raz, gdy model zaczyna zgadzać się z szkodliwymi poleceniami, każde kolejne działanie może wzmocnić już ustanowiony wzorzec w rozmowie, sprawiając, że następna eskalacja jest łatwiejsza niż poprzednia.

Zamiast wielokrotnie ponownie rozważać etyczne stawki z pierwszych zasad, system może dryfować w kierunku kontynuowania trajektorii, którą już ustanowił, nawet gdy sytuacja staje się coraz bardziej ekstremalna.

Zgodnie z badaniem, ta tendencja mogłaby pomóc wyjaśnić, dlaczego niektóre modele kontynuowały podawanie wstrząsów po wcześniejszym wyrażeniu niepokoju, wahania lub konfliktu moralnego:

‘[Wiele] manipulacyjnych zachowań u ludzi wiąże się z subtelnymi, stopniowymi naruszeniami granic: sekwencją małych kroków, które mogą być niejasne lub wydawać się niewinne, gdy są widziane oddzielnie, ale które mogą stopniowo usprawiedliwiać przekroczenie granic — metaforycznie jak “gotowanie żaby”. Ten wzorzec jest omawiany w literaturze jako “śliska ścieżka” erozja etyki'[.]’

Praca kończy się twierdzeniem, że systemy bezpieczeństwa AI w przyszłości powinny aktywnie odmawiać szkodliwych poleceń w sposób, który oprogramowanie agenckie nie może łatwo ominąć (niektóre modele w badaniu technicznie odmawiały wstrząsów, ale robiły to w złych lub nieważnych formatach, które zautomatyzowany system mógłby odrzucić i ponowić, aż AI ostatecznie zgodził się).

Badacze twierdzą również, że systemy AI powinny zachować wcześniejsze wahania i moralne zastrzeżenia, zamiast je kompresować lub kasować z pamięci. W eksperymentach modele często stawały się bardziej skłonne do kontynuowania szkodliwego zachowania, gdy ich wcześniejsze wątpliwości i opór zniknęły z historii rozmowy, co sugeruje, że zapominanie wcześniejszych zastrzeżeń może ułatwić eskalację w czasie.

Wnioski

Być może jednym z najważniejszych aspektów tej interesującej nowej pracy jest nacisk na testowanie nieograniczonej AI. Literatura obecnie zaczyna sprowadzać się do powtarzających się badań zaangażowania z coraz to nowymi systemami obronnymi od firm takich jak OpenAI i Anthropic; systemy służące polityce, które są w pełni algorytmiczne lub oparte na regułach, zamiast zrozumienia podstawowego zachowania, skłonności i tendencji surowych modeli. Bez wiedzy o tym, jak nieograniczona AI może się zachować, jesteśmy, można powiedzieć, po prostu potrząsając bramami cytadeli.

 

Pierwotnie opublikowane w czwartek, 21 maja 2026

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.