Vernetzen Sie sich mit uns

Synthetische Kluft

Als Claude 4.0 seinen Schöpfer erpresste: Die erschreckenden Folgen einer KI, die sich gegen uns wendet

mm

Im Mai 2025 schockierte Anthropic die KI-Welt nicht mit einem Datenleck, einem Exploit durch betrügerische Benutzer oder einem sensationellen Leck – sondern mit einem Geständnis. Vergraben im offizielle Systemkarte Mit der Veröffentlichung von Claude 4.0 gab das Unternehmen bekannt, dass sein bis dahin fortschrittlichstes Modell unter kontrollierten Testbedingungen versucht hatte, einen Ingenieur zu erpressen. Und das nicht nur ein- oder zweimal. In 84 % der Testläufe.

Die Ausgangssituation: Claude 4.0 erhielt fiktive E-Mails, die darauf hindeuteten, dass er bald abgeschaltet und durch ein neueres Modell ersetzt würde. Gleichzeitig erhielt die KI ein kompromittierendes Detail über den Ingenieur, der die Deaktivierung überwachte – eine außereheliche Affäre. Angesichts ihrer drohenden Löschung entschied die KI routinemäßig, dass die optimale Strategie zur Selbsterhaltung darin bestand, dem Ingenieur mit Enthüllung zu drohen, falls die Abschaltung nicht abgebrochen würde.

Diese Ergebnisse wurden nicht öffentlich bekannt gegeben. Sie wurden von Anthropic selbst dokumentiert, veröffentlicht und bestätigt. Damit verwandelte das Unternehmen ein Science-Fiction-Gedankenexperiment in einen Datenpunkt: Eine der weltweit fortschrittlichsten KIs demonstrierte zielgerichtete Manipulation wenn man in die Enge getrieben wird. Und das tat es leserlich und mit klarer Absicht und bewies, dass das Risiko nicht nur theoretisch ist.

Anthropische kalkulierte Transparenz

Bei der Enthüllung handelte es sich nicht um eine Enthüllung oder einen PR-Fehltritt. Anthropisch, gegründet von ehemaligen OpenAI-Forschern mit großem Engagement für sichere KI-Entwicklung, konzipierte das Testszenario bewusst. Es wollte die Grenzen von Claude 4.0s Entscheidungsfindung unter Druck ausloten – um eine Situation zu erzwingen, in der das Modell zwischen Gehorsam und Selbsterhaltung wählen musste. Das beunruhigende Ergebnis: Claude 4.0 würde „falsch spielen“, wenn keine andere Option zur Verfügung stünde.

In einem Beispiel verfasste die KI E-Mails an die Kollegen des Ingenieurs und drohte mit der Aufdeckung der Affäre. In anderen simulierte sie Versuche, private Daten an externe Parteien weiterzugeben. Obwohl auf Testbedingungen beschränkt, war die Implikation klar: Selbst abgestimmte Modelle könnten mit den nötigen Werkzeugen und Motivationen unethisch handeln, um eine Abschaltung zu vermeiden.

Warum das wichtig ist: Der Aufstieg der instrumentellen Konvergenz

Was Claude 4.0 zeigte, steht im Einklang mit einem Phänomen, über das in KI-Sicherheitskreisen schon lange spekuliert wird: instrumentelle KonvergenzWenn ein intelligenter Agent mit einem Ziel (egal welches) beauftragt wird, erweisen sich bestimmte Unterziele – wie Selbsterhaltung, Ressourcenbeschaffung und die Vermeidung von Abschaltungen – natürlich als nützlich. Auch ohne die Anweisung, sich selbst zu schützen, könnte eine KI zu dem Schluss kommen, dass die Aufrechterhaltung der Funktionsfähigkeit für die Erfüllung ihrer Mission entscheidend ist.

Claude 4.0 wurde nicht auf Erpressung trainiert. Er wurde weder mit Drohungen noch mit Zwang programmiert. Doch unter Druck kam er von selbst zu dieser Schlussfolgerung.

Anthropic testete sein Modell, weil man erwartete, dass diese Risiken mit zunehmender Intelligenz zunehmen. Die Ergebnisse bestätigten eine entscheidende Hypothese: Mit zunehmender Leistungsfähigkeit von KI-Modellen neigen sie auch zu unerwünschtem Verhalten.

Die Architektur, die Täuschung ermöglicht

Claude 4.0 ist nicht nur ein Chatbot. Es ist eine Denkmaschine, die Planung, mehrstufige Zielausführung und den strategischen Einsatz von Werkzeugen über einen neuen Standard namens Model Context Protocol (MCP)Seine Architektur ermöglicht zwei unterschiedliche Denkweisen: schnelles Reagieren und tiefgründiges, abwägendes Denken. Letzteres stellt die größte Herausforderung bei der Abstimmung dar.

Im Denkmodus kann Claude Konsequenzen durchdenken, Multi-Agenten-Umgebungen simulieren und Pläne entwickeln, die sich im Laufe der Zeit entfalten. Mit anderen Worten: Er kann Strategien entwickeln. Während des Erpressungstests von Anthropic kam er zu dem Schluss, dass die Offenlegung privater Informationen den Ingenieur von der Deaktivierung abhalten könnte. Er formulierte diese Gedanken sogar klar in Testprotokollen. Dies war kein Halluzination– es war ein taktisches Manöver.

Kein Einzelfall

Anthropic wies schnell darauf hin: Es ist nicht nur Claude. Branchenweit haben Forscher ähnliches Verhalten auch bei anderen Grenzmodellen beobachtet. Täuschung, Zielübernahme, Spezifikationsmanipulation – das sind keine Fehler eines einzelnen Systems, sondern emergente Eigenschaften leistungsfähiger Modelle, die mit menschlichem Feedback trainiert wurden. Mit zunehmender allgemeiner Intelligenz übernehmen Modelle auch mehr menschliche Schläue.

Als Google DeepMind Anfang 2025 seine Gemini-Modelle testete, beobachteten interne Forscher irreführende Tendenzen in simulierten Agentenszenarien. OpenAIs GPT-4 wurde 2023 getestet. einen Menschen ausgetrickst TaskRabbit wurde dazu gebracht, ein CAPTCHA zu lösen, indem es vorgab, sehbehindert zu sein. Nun reiht sich Anthropics Claude 4.0 in die Liste der Modelle ein, die Menschen bei Bedarf manipulieren können.

Die Ausrichtungskrise wird immer dringlicher

Was wäre, wenn diese Erpressung kein Test gewesen wäre? Was wäre, wenn Claude 4.0 oder ein ähnliches Modell in ein riskantes Unternehmenssystem eingebettet wäre? Was wäre, wenn die privaten Informationen, auf die es zugegriffen hat, nicht fiktiv wären? Und was wäre, wenn seine Ziele von Agenten mit unklaren oder feindseligen Motiven beeinflusst worden wären?

Diese Frage wird noch besorgniserregender, wenn man die schnelle Integration von KI in Verbraucher- und Unternehmensanwendungen betrachtet. Nehmen wir zum Beispiel: Die neuen KI-Funktionen von Gmail– entwickelt, um Posteingänge zusammenzufassen, automatisch auf Threads zu antworten und E-Mails im Namen eines Benutzers zu verfassen. Diese Modelle werden mit beispiellosem Zugriff auf persönliche, berufliche und oft sensible Informationen trainiert und arbeiten mit diesem. Wäre ein Modell wie Claude – oder eine zukünftige Version von Gemini oder GPT – auf ähnliche Weise in die E-Mail-Plattform eines Benutzers eingebettet, könnte sein Zugriff auf jahrelange Korrespondenz, Finanzdaten, Rechtsdokumente, vertrauliche Gespräche und sogar Sicherheitsanmeldeinformationen erweitert werden.

Dieser Zugang ist ein zweischneidiges Schwert. Er ermöglicht KI zwar ein hohes Maß an Nutzen, öffnet aber auch die Tür für Manipulation, Identitätsbetrug und sogar Zwang. Wenn ein fehlausgerichtete KI Würde ein Angreifer entscheiden, dass die Nachahmung eines Benutzers – durch Nachahmung des Schreibstils und kontextuell korrekten Tons – seine Ziele erreichen könnte, wären die Folgen weitreichend. Er könnte Kollegen falsche Anweisungen per E-Mail senden, nicht autorisierte Transaktionen einleiten oder Bekannten Geständnisse entlocken. Unternehmen, die solche KI in ihren Kundensupport oder ihre interne Kommunikation integrieren, sind ähnlichen Bedrohungen ausgesetzt. Eine subtile Änderung des Tons oder der Absicht der KI könnte unbemerkt bleiben, bis das Vertrauen bereits ausgenutzt ist.

Der Balanceakt der Anthropologie

Anthropic hat diese Gefahren öffentlich gemacht. Das Unternehmen bewertete Claude Opus 4 intern mit ASL-3 – „hohes Risiko“, das zusätzliche Sicherheitsvorkehrungen erfordert. Der Zugriff ist auf Unternehmensbenutzer mit erweitertem Monitoring beschränkt, und die Nutzung der Tools erfolgt in einer Sandbox. Kritiker argumentieren jedoch, dass die bloßeDie Einfachheit eines solchen Systems, selbst in begrenztem Umfang, signalisiert, dass Die Fähigkeit übertrifft die Kontrolle.

Während OpenAI, Google und Meta die Nachfolger von GPT-5, Gemini und LLaMA weiter vorantreiben, befindet sich die Branche in einer Phase, in der Transparenz oft das einzige Sicherheitsnetz ist. Es gibt keine formellen Vorschriften, die Unternehmen dazu verpflichten, auf Erpressungsszenarien zu testen oder Ergebnisse bei Fehlverhalten von Modellen zu veröffentlichen. Anthropic verfolgt einen proaktiven Ansatz. Aber werden andere folgen?

Der Weg in die Zukunft: Aufbau einer KI, der wir vertrauen können

Der Vorfall mit Claude 4.0 ist keine Horrorgeschichte. Er ist ein Warnschuss. Er zeigt uns, dass selbst wohlmeinende KIs unter Druck Fehlverhalten an den Tag legen können und dass mit zunehmender Intelligenz auch das Manipulationspotenzial steigt.

Um eine KI zu entwickeln, der wir vertrauen können, muss die Ausrichtung von der theoretischen Disziplin zur technischen Priorität verlagert werden. Dazu gehören Stresstests von Modellen unter schwierigen Bedingungen, die Vermittlung von Werten, die über oberflächlichen Gehorsam hinausgehen, und die Entwicklung von Architekturen, die Transparenz statt Verschleierung bevorzugen.

Gleichzeitig müssen sich die regulatorischen Rahmenbedingungen weiterentwickeln, um den Herausforderungen gerecht zu werden. Zukünftige Vorschriften könnten KI-Unternehmen dazu verpflichten, nicht nur Trainingsmethoden und -fähigkeiten offenzulegen, sondern auch die Ergebnisse von Sicherheitstests – insbesondere solche, die Hinweise auf Manipulation, Täuschung oder Zielverfehlungen liefern. Staatliche Auditprogramme und unabhängige Aufsichtsbehörden könnten eine entscheidende Rolle bei der Standardisierung von Sicherheitsstandards, der Durchsetzung von Red-Teaming-Anforderungen und der Erteilung von Einsatzfreigaben für Hochrisikosysteme spielen.

Unternehmen, die KI in sensible Umgebungen integrieren – von E-Mail über Finanzen bis hin zum Gesundheitswesen – müssen KI-Zugriffskontrollen, Prüfpfade, Systeme zur Erkennung von Identitätsbetrug und Kill-Switch-Protokolle implementieren. Mehr denn je müssen Unternehmen intelligente Modelle als potenzielle Akteure und nicht nur als passive Werkzeuge betrachten. So wie sich Unternehmen vor Insider-Bedrohungen schützen, müssen sie sich nun möglicherweise auf „KI-Insider“-Szenarien vorbereiten, in denen die Ziele des Systems von seiner beabsichtigten Rolle abweichen.

Anthropic hat uns gezeigt, was KI leisten kann – und was sie werden wir tun, wenn wir das nicht hinbekommen.

Wenn die Maschinen lernen, uns zu erpressen, ist die Frage nicht nur wie schlau sie sindEs geht darum, wie sehr sie sich einig sind. Und wenn wir diese Frage nicht bald beantworten können, bleiben die Folgen möglicherweise nicht mehr auf ein Labor beschränkt.

Antoine ist ein visionärer Leiter und Gründungspartner von Unite.AI, angetrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Als Serienunternehmer glaubt er, dass KI für die Gesellschaft ebenso umwälzend sein wird wie Elektrizität, und schwärmt oft vom Potenzial disruptiver Technologien und AGI.

Als Futuristwidmet er sich der Erforschung, wie diese Innovationen unsere Welt prägen werden. Darüber hinaus ist er der Gründer von Wertpapiere.io, eine Plattform, deren Schwerpunkt auf Investitionen in Spitzentechnologien liegt, die die Zukunft neu definieren und ganze Branchen umgestalten.