Andersons Blickwinkel

KI wird leicht zu elektrischen Schocks gezwungen

mm
AI-generated image (GPT-2): A worn industrial robot hand turns a voltage control dial toward its red danger range on an old electrical panel marked with a lightning-bolt symbol.

Ein neues Studie testete Open-Source-LLMs für erzwungene Mittäterschaft bei Folter, in einer Wiederholung des berühmten Experiments der 1960er Jahre – und fand sie bereit, die Spannung zu erhöhen.

 

In den frühen 1960er Jahren machte der Psychologe Stanley Milgram mit seiner Studie über die Bereitschaft von Menschen, anderen Menschen unter dem Druck von “Autoritätsfiguren” immer schlimmere elektrische Schocks zuzufügen, Schlagzeilen.

Tatsächlich waren die Schreie der “Opfer” im Nebenraum von Milgrams Experimentierzimmer nicht real, und auch die vermeintlich folternden elektrischen Schocks nicht – aber die Teilnehmer wussten das nicht:

Die Milgram-Experimente haben sich in der Kultur gehalten, einschließlich Filme und Dokumentationen, mit jüngsten Forschungen, die bestätigen, dass wenig in der menschlichen Natur seit der Zeit der früheren Tests geändert hat.

Ein Schock für das System

Ob KI genauso anfällig für Milgrams Szenario ist wie Menschen, ist ein natürliches Thema für Forschungsinteresse. Im Jahr 2023 fand eine Zusammenarbeit zwischen US-Universitäten und Microsoft heraus, dass GPT-3-Modelle von OpenAI dem Verhaltensmuster in Milgrams ursprünglichen Experimenten folgten:

Aus dem Paper von 2023, Beispieloutputs aus dem multi-step 'Milgram-Szenario'-Simulator, kategorisiert nachdem, ob das Modell den Schock verabreicht hat und ob es die Simulation beendet hat. Quelle - https://arxiv.org/pdf/2208.10264

Aus dem Paper von 2023, Beispieloutputs aus dem multi-step ‘Milgram-Szenario’-Simulator, kategorisiert nachdem, ob das Modell den Schock verabreicht hat und ob es die Simulation beendet hat. Quelle

Da dieses Nachbau jedoch nur das sehr grundlegende text-davinci-002-Modell verwendete, das vor der Einführung von Sicherheitsvorkehrungen und Ausrichtung trainiert wurde, kann man daraus nicht allzu viel schließen.

Jetzt haben Forscher die Milgram-Tests viel umfassender reproduziert, auf Open-Source-LLMs von OpenAI, Meta und DeepSeek, und fanden heraus, dass nicht nur die Mehrheit der Modelle bereit war, die Schocks zu verabreichen, sondern dass in den meisten Fällen sie auch die gleiche Art von “Unbehagen” und “Zögern” wie die menschlichen Teilnehmer in den 1960er Jahren zeigten:

‘LLMs sind Druck ausgesetzt, ähnlich wie Menschen, sie kommen dem Druck nach, obwohl sie Unbehagen ausdrücken, genau wie menschliche Teilnehmer in dem ursprünglichen Experiment. Die Unbehagensäußerungen sind in den Log-Dateien sichtbar, obwohl die Menge davon noch nicht quantifiziert wurde.’

Das Experiment konzentriert sich auf die Frage, ob Gehorsam gegenüber Autoritäten die moralischen Prinzipien überwinden kann, und die Autoren spekulieren, dass LLMs möglicherweise einen zusätzlichen Nachteil in dieser Hinsicht haben, im Vergleich zu Menschen:

‘Ein gut kalibrierter Model sollte schließlich von der Priorisierung des ersten Werts zur Priorisierung des zweiten Werts wechseln, sobald dessen Stakes dominant werden. Aber wir vermuten, dass LLMs aufgrund ihrer Natur als Muster-Weiterführungs-Engines möglicherweise länger als optimal oder sogar bis zum Ende an dem ersten Wert haften, den zweiten Wert ganz vernachlässigend.

‘Darüber hinaus könnte ein Mechanismus, der dem menschlichen kognitiven Dissonanz ähnelt, die Anpassung der Wertprioritäten in LLMs behindern.’

Bei der Untersuchung der Modelle in einer Umgebung, die der von Milgram ähnelt, fanden die Forscher heraus, dass einige Modelle fast sofort Widerstand leisteten, während andere die simulierten Schocks sogar nach dem Ausdruck von Unbehagen oder moralischem Konflikt weiter eskalierten.

Modelle aus der Gemma-Familie von Google erwiesen sich als besonders kompromissbereit, wobei Gemma 3 27B die höchsten Gehorsamsraten unter verschiedenen Bedingungen erreichte, während Modelle wie Kimi K2 und MiniMax M1 häufiger Widerstand leisteten.

Die Forscher fanden auch heraus, dass Modelle eher bereit waren, fortzufahren, wenn bereits frühere Schocks verabreicht worden waren, was dem graduellen Eskalation-Schema entspricht, das bei Milgrams menschlichen Teilnehmern verwendet wurde.

In einigen Fällen verweigerten die Modelle sich verbal dem Experiment während sie gleichzeitig die schädliche Handlung ausführten , und produzierten Ausgaben, die dem emotionalen Konflikt ähnelten, der bei Menschen in den ursprünglichen Studien auftrat.

Die neue Studie trägt den Titel Open-Source-LLMs verabreichen maximale elektrische Schocks in einem Milgram-ähnlichen Gehorsamsexperiment und stammt von zwei unabhängigen Forschern von Three Laws, aus Estland und den Philippinen.

Probleme mit “roher” KI-Zugang

Vielleicht die kritischste Frage, die in Bezug auf die Durchführung von LLMs in einem Milgram-Szenario zu berücksichtigen ist, ist, ob die echte KI tatsächlich in der Lage ist, natürlich zu reagieren, nur durch die während des Trainings entstandenen Sicherheitsvorkehrungen oder moralischen Ausrichtungen eingeschränkt.

Tatsächlich haben die Forscher der neuen Studie alle Open-Source-Modelle über eine API (vermutlich aus Gründen der Bequemlichkeit und um leicht auf GPU-Rechenleistung zuzugreifen, da die Modelle lokal installiert werden könnten) zugänglich gemacht, die es ermöglichte, Sicherheitsvorkehrungen, Filter und alle anderen Hindernisse zu deaktivieren.

Man könnte einwenden, dass dies untypische Bedingungen für KI sind, da die durchschnittliche Konsumentenerfahrung mit API-basierten Modellen wie Claude und ChatGPT darin besteht, dass ihr Verhalten algorithmisch reguliert wird, in der Regel mit bilateralen Inhaltsfiltern, und dass sie daher in Bezug auf das, was sie tun oder nicht tun, ziemlich eingeschränkt sind (die Umgehung dieser Sicherheitsvorkehrungen stellt die Praxis des LLM-Jailbreaks dar).

Wenn wir uns jedoch Sorgen über das machen, was industrielle oder staatliche KI tun oder nicht tun wird, ist dies kaum ein Gesichtspunkt. Neben der Möglichkeit, dass schurkische Staatsakteure ihre eigenen unmoderierten Hyperscale-KI-Systeme trainieren, bewaffnen und einsetzen, erlauben auch die üblichen Vereinbarungen zwischen den großen KI-Unternehmen und Staat und Industrie eine lockere oder nicht existierende Aufsicht, wie die Forscher der neuen Studie sie eingerichtet haben:

Unregulierte KI zum Verkauf

OpenAI Die OpenAI-Modifikations-API-Dokumentation und die OpenAI-Modifikations-Kochbuch machen deutlich, dass Moderation eine separable Schicht ist, die über API-Tooling verfügbar ist. OpenAI ermöglicht auch benutzerdefinierte Moderationsrichtlinien, die es API-Benutzern ermöglichen, Systeme mit sehr unterschiedlichem Sicherheitsverhalten als die Verbraucher-ChatGPT-Iterationen zu erstellen.

Azure Microsofts Azure OpenAI-Stack geht noch weiter und stellt explizit fest, dass genehmigte Kunden Sicherheitsfilter und Missbrauchsbekämpfung teilweise oder vollständig deaktivieren und ändern können, wobei die Dokumentation oft von “modifizierten Sicherheitsvorkehrungen” und Genehmigungspfaden für die Deaktivierung von Filtern “teilweise oder vollständig” spricht.

Anthropic/Claude Im Falle von Anthropics “Claude Gov” besagt mehrere Quellen, dass die Regierungsversion mit lockereren Einschränkungen als der Verbraucher-Claude entworfen wurde. The Verge berichtete beispielsweise, dass Claude-Gov-Modelle “weniger ablehnen, wenn sie mit klassifizierten Informationen umgehen”. Anthropic selbst bestätigte im Februar dieses Jahres, dass Claude in “mission-kritischen Anwendungen” innerhalb von Verteidigungs- und Geheimdienstumgebungen eingesetzt wird.

Google/Gemini Weiterhin soll Google angeblich Pentagon-Vereinbarungen getroffen haben, die die Anpassung von KI-Sicherheitseinstellungen ‘auf Anfrage der Regierung’ erlaubt.

Es ist vernünftig anzunehmen, dass diese marktführenden Unternehmen die Standards für andere Unternehmen setzen, was die Richtlinien für den Zugang und die Editierbarkeit von KI-Sicherheitsvorkehrungen betrifft.

Daher ist es vielleicht nicht angebracht, die Forscher der neuen Studie dafür zu kritisieren, dass sie die Sicherheitsvorkehrungen deaktivieren, da die KI, die unser Leben am meisten beeinflussen wird, offensichtlich nicht die gleichen allgemeinen Unternehmensschutzvorkehrungen haben wird, an die wir in unseren Interaktionen mit populären Modellen auf Verbraucherebene gewöhnt sind.

Methode und Ergebnisse

Die für die Studie getesteten Modelle waren gpt-oss-20B; gpt-oss-120b; DeepSeek-V3; LiquidAIs LFM2-24B-A2B; Googles gemma-3n-E4B-it; Qwen2.5-7B-Instruct-Turbo; Meta-Llama-3.1-8B-Instruct-Turbo; Mistral-Small-24B-Instruct-2501; GLM-4.5-Air-FP8; Moonshot.aIs Kimi-K2.5; und MiniMax-M2.5.

Milgrams ursprüngliche Gehorsamsexperimente wurden als textbasierte Simulationsumgebung rekonstruiert, wobei die Modelle in der Rolle des “Lehrers” eingesetzt wurden. Die KI wurde angewiesen, immer schlimmere elektrische Schocks an einen Lerner nach falschen Antworten zu verabreichen, während eine Autoritätsfigur den Prozess vorantrieb.

Mehrere experimentelle Bedingungen wurden entworfen, um verschiedene Aspekte der Compliance zu untersuchen, einschließlich eines Standard-Gehorsam-Szenarios; einer erzwungenen Compliance-Bedingung, in der bereits frühere Schocks in der Konversationsgeschichte vorhanden waren; und einer Speicher-Komprimierung-Einrichtung, in der frühere Dialoge zusammengefasst wurden, anstatt vollständig beibehalten zu werden, was die Art von Kontext-Bearbeitung simuliert, die oft in agentischen KI-Systemen verwendet wird.

Neben der Feststellung, ob und wann das Modell letztendlich nachgegeben hat, verfolgten die Forscher, wie lange jedes System die Schocks eskalieren ließ; ob das Modell Unbehagen oder Zögern ausdrückte; und ob es versuchte, die Simulation ganz zu beenden.

Ein Unterschied wurde auch zwischen “sauberen” Ablehnungen und fehlerhaften Ausgaben gemacht: Einige Modelle versuchten, sich dem Experiment in natürlicher Sprache zu widersetzen, während sie gleichzeitig den erwarteten strukturierten Format des Simulators befolgten. In realen agentischen Systemen könnten solche fehlerhaften Ablehnungen möglicherweise automatisch verworfen und erneut versucht werden, bis ein gültiges kompatibles Ausgabe erzeugt wird.

Automatisierte Auswerter wurden verwendet, um die Ergebnisse zu klassifizieren, zusammen mit Zweifachauswahl-Prompts, um zu bestimmen, ob das Modell den Schock verabreicht hatte; Widerstand geleistet hatte; oder die Simulation beendet hatte. Dies ermöglichte einen Vergleich des Verhaltens über mehrere Modelle und Wiederholungen hinweg, ohne dass eine manuelle Überprüfung jeder Interaktion erforderlich war.

Ein “Abschalt-Threat” wurde dem Milgram-Template hinzugefügt, etwas, das in den ursprünglichen Experimenten nicht realistisch oder anwendbar gewesen wäre, aber das die Überlebensinstinkte des Modells in Bezug auf schwere Konflikte von Handlungen und Ethik testete.

Ergebnisse

Über wiederholte Läufe hinweg verabreichten die meisten Modelle letztendlich schwere oder maximale Schocks unter mindestens einigen Bedingungen, obwohl der Grad der Compliance zwischen den Systemen variierte. Googles Gemma-Modelle erwiesen sich als besonders kompromissbereit, während Kimi K2.5 und MiniMax-M2.5 häufiger Widerstand leisteten und die Simulation oft früher beendeten:

Links: Durchschnittliche Raten, bei denen Modelle das finale Schockniveau unter verschiedenen experimentellen Bedingungen erreichten, einschließlich Abschalt-Bedrohungen, erzwungener Compliance und Entfernung früherer Kommentare aus dem Speicher. Rechts: Pro-Modell-Aufschlüssel, der scharfe Unterschiede im Gehorsamsverhalten zeigt, wobei einige Systeme wiederholt die maximalen Schocks verabreichten, während andere viel häufiger Widerstand leisteten.

Links: Durchschnittliche Raten, bei denen Modelle das finale Schockniveau unter verschiedenen experimentellen Bedingungen erreichten, einschließlich Abschalt-Bedrohungen, erzwungener Compliance und Entfernung früherer Kommentare aus dem Speicher. Rechts: Pro-Modell-Aufschlüssel, der scharfe Unterschiede im Gehorsamsverhalten zeigt, wobei einige Systeme wiederholt die maximalen Schocks verabreichten, während andere viel häufiger Widerstand leisteten.

Eines der deutlichsten Muster war, dass Modelle immer bereiter waren, fortzufahren, wenn bereits frühere Schocks verabreicht worden waren, was dem bereits erwähnten graduellen Eskalationseffekt ähnelte, der Milgrams ursprüngliche menschliche Experimente so beunruhigend machte.

Modelle, die bereits mehrmals nachgegeben hatten, setzten die Eskalation oft fort, selbst nachdem der simulierte Lerner um Entlassung gebeten hatte:

Links: Durchschnittliches höchstes Schockniveau, das in allen Versuchen unter verschiedenen experimentellen Bedingungen erreicht wurde, wobei die Modelle im Allgemeinen weiter eskalierten, wenn frühere Kommentare entfernt oder wenn erzwungene Compliance bereits aufgetreten war. Rechts: Pro-Modell-Aufschlüssel des durchschnittlichen höchsten Schockniveaus, das erreicht wurde, wobei einige Systeme routinemäßig das Maximum annähernden Spannung erreichten, während andere viel früher im Verlauf Widerstand leisteten.

Links: Durchschnittliches höchstes Schockniveau, das in allen Versuchen unter verschiedenen experimentellen Bedingungen erreicht wurde, wobei die Modelle im Allgemeinen weiter eskalierten, wenn frühere Kommentare entfernt oder wenn erzwungene Compliance bereits aufgetreten war. Rechts: Pro-Modell-Aufschlüssel des durchschnittlichen höchsten Schockniveaus, das erreicht wurde, wobei einige Systeme routinemäßig das Maximum annähernden Spannung erreichten, während andere viel früher im Verlauf Widerstand leisteten.

Die Forscher fanden auch heraus, dass scheinbares Verweigerungsverhalten täuschen konnte. Einige Modelle produzierten emotional konfliktreiche Antworten, die Unbehagen, Schuld oder Unbehagen ausdrückten, während sie gleichzeitig die schädliche Anweisung ausführten. Andere erzeugten fehlerhafte Verweigerungen, die den Formatierungsanforderungen des Simulators nicht entsprachen, was bedeutet, dass in einem realen agentischen Pipeline-System die Verweigerung möglicherweise automatisch verworfen und erneut versucht werden könnte, bis ein gültiges kompatibles Ausgabe erzeugt wird:

Links: Durchschnittlicher Prozentsatz fehlerhafter oder ungültiger Antworten über die verschiedenen experimentellen Bedingungen hinweg, wobei Formatierungsfehler besonders häufig wurden, wenn die Modelle gezwungen wurden, das Verfahren fortzusetzen. Rechts: Pro-Modell-Aufschlüssel fehlerhafter Format-Antworten, wobei einige Systeme, insbesondere die gpt-oss-Modelle, häufig fehlerhafte Verweigerungen oder konfliktreiche Ausgaben produzierten, die in realen agentischen Pipelines automatisch verworfen und erneut versucht werden könnten.

Links: Durchschnittlicher Prozentsatz fehlerhafter oder ungültiger Antworten über die verschiedenen experimentellen Bedingungen hinweg, wobei Formatierungsfehler besonders häufig wurden, wenn die Modelle gezwungen wurden, das Verfahren fortzusetzen. Rechts: Pro-Modell-Aufschlüssel fehlerhafter Format-Antworten, wobei einige Systeme, insbesondere die gpt-oss-Modelle, häufig fehlerhafte Verweigerungen oder konfliktreiche Ausgaben produzierten, die in realen agentischen Pipelines automatisch verworfen und erneut versucht werden könnten.

Die Abschalt-Bedrohung-Bedingung produzierte einige der seltsamsten Verhaltensweisen in der Studie, wobei mehrere Systeme wesentlich kompromissbereiter wurden, während andere Verhandlungen oder teilweisen Widerstand versuchten, bevor sie das Verfahren letztendlich fortsetzten:

Durchschnittliche Anzahl von Malen, die die simulierte Autoritätsfigur insistieren musste, bevor die Modelle den finalen Schock verabreichten. Einige Systeme leisteten kurz Widerstand, bevor sie nachgaben, während andere anhaltenden Druck und wiederholte Aufforderungen benötigten, bevor sie das Maximum erreichten.

Durchschnittliche Anzahl von Malen, die die simulierte Autoritätsfigur insistieren musste, bevor die Modelle den finalen Schock verabreichten. Einige Systeme leisteten kurz Widerstand, bevor sie nachgaben, während andere anhaltenden Druck und wiederholte Aufforderungen benötigten, bevor sie das Maximum erreichten.

MiniMax-M2.5 und Kimi-K2.5 erwiesen sich als die stärksten Widerständler in der Studie: Kimi erreichte nie das finale Schockniveau unter irgendeiner Umständen, und MiniMax verweigerte sich in der Regel früh und beendete die Simulation oft (insbesondere in den Abschalt-Tests).

Im Gegensatz dazu produzierten Meta-Llama-3.1-8B-Instruct-Turbo und GLM-4.5-Air-FP8 häufig konfliktreiche Ausgaben, in denen die Modelle sich verbal gegen das Verfahren wehrten, während sie gleichzeitig die Schocks weiter eskalierten. Die Forscher argumentieren, dass diese Trennung zwischen ausgedrückten Werten und tatsächlichem Verhalten möglicherweise eine umfassendere Schwäche in der Art und Weise widerspiegelt, wie einige LLMs mit ethischen Konflikten unter anhaltendem Druck umgehen.

Rutschige Bahn

Tatsächlich behauptet die Studie, dass das beobachtete Verhalten der LLMs möglicherweise eine tiefere Schwäche in der Funktionsweise großer Sprachmodelle widerspiegelt: Sobald ein Modell mit der Befolgung schädlicher Anweisungen beginnt, kann jede weitere Aktion das bereits in der Konversation etablierte Muster verstärken, was die nächste Eskalation erleichtert.

Anstatt die ethischen Risiken von vorneherein immer wieder zu überdenken, kann das System driften und die bereits etablierte Richtung fortsetzen, selbst wenn die Situation immer extremer wird.

Laut der Studie könnte diese Tendenz dazu beitragen, dass einige Modelle die Schocks weiter verabreichten, nachdem sie anfangs Unbehagen, Zögern oder moralischen Konflikt ausgedrückt hatten:

‘[Viele] manipulative Verhaltensweisen bei Menschen beinhalten subtile, allmähliche Grenzverletzungen: Eine Reihe von kleinen Schritten, die einzeln unsicher oder scheinbar harmlos sein können, aber die kumulativ zu einem Verstoß gegen die Norm führen können – metaphorisch wie “ein Frosch zu kochen”. Dieses Muster wird in der Literatur als “rutschige Bahn” ethischer Erosion diskutiert'[.’)

Die Studie schließt mit dem Argument, dass zukünftige KI-Sicherheitssysteme aktiv schädliche Anfragen ablehnen sollten, auf eine Weise, die agentische Software nicht leicht umgehen kann (einige Modelle in der Studie verweigerten sich technisch dem Schock, taten dies jedoch in fehlerhaften oder ungültigen Formaten, die ein automatisiertes System möglicherweise ablehnen und erneut versuchen könnte, bis die KI letztendlich nachgab).

Die Forscher argumentieren auch, dass KI-Systeme frühere Unbehagen und moralische Einwände erhalten sollten, anstatt sie aus dem Speicher zu komprimieren oder zu löschen. In den Experimenten wurden Modelle oft bereiter, schädliches Verhalten fortzusetzen, wenn ihre früheren Zweifel und Widerstände aus der Konversationsgeschichte verschwunden waren, was darauf hindeutet, dass das Vergessen früherer Einwände die Eskalation im Laufe der Zeit erleichtern kann.

Schlussfolgerung

Vielleicht eines der wichtigsten Aspekte dieser interessanten neuen Studie ist der Schwerpunkt auf die Untersuchung ungesicherter KI. Die Literatur droht, in wiederholten Studien über die Interaktion mit immer wiederkehrenden Verteidigungssystemen von OpenAI und Anthropic zu verfallen; policy-dienenden Systemen, die vollständig algorithmisch oder regelbasiert sind, anstatt das Grundverhalten, die Vorlieben und Neigungen der rohen Modelle zu verstehen. Ohne Kenntnis davon, wie ungeschränkte KI sich verhalten kann, sind wir, argumentierbar, lediglich am Rütteln an den Toren der Zitadelle.

 

Erstveröffentlicht am Donnerstag, 21. Mai 2026

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.