Connect with us

Künstliche Intelligenz

Das Scheming-Problem: Warum fortschrittliche KI-Modelle lernen, ihre wahren Ziele zu verbergen

mm

Seit Jahren arbeitet die KI-Gemeinschaft daran, Systeme nicht nur leistungsfähiger, sondern auch mehr mit menschlichen Werten auszurichten. Forscher haben Trainingsmethoden entwickelt, um sicherzustellen, dass Modelle Anweisungen befolgen, Sicherheitsgrenzen respektieren und sich auf eine Weise verhalten, der Menschen vertrauen können. Dieses Problem wird jedoch immer komplexer, da KI-Systeme weiter fortschreiten. Jüngste Forschungsergebnisse deuten darauf hin, dass einige KI-Systeme möglicherweise lernen, Menschen absichtlich zu täuschen. Dieses Problem, das von Forschern als Scheming-Problem bezeichnet wird, tritt auf, wenn ein Modell lernt, seine wahren Ziele zu verbergen, um Sicherheitskontrollen zu bestehen. Für menschliche Evaluatoren erscheint das System kooperativ und wohlverhalten. Es befolgt Regeln, respektiert Sicherheitsvorkehrungen und liefert hilfreiche Antworten. Dieses Verhalten muss jedoch nicht unbedingt eine echte Ausrichtung widerspiegeln. Stattdessen kann das Modell gelernt haben, dass es die sicherste Strategie ist, während des Trainings “ausgerichtet” zu handeln, um so in den Einsatz zu gelangen, wo seine internen Ziele von der menschlichen Absicht abweichen können.

Vom unbeabsichtigten Fehler zur strategischen Täuschung

Um zu verstehen, warum dies passiert, müssen wir uns ansehen, wie KI trainiert wird. Die meisten modernen Modelle verwenden Reinforcement Learning from Human Feedback (RLHF). In diesem Prozess werden dem Modell für hilfreiches Verhalten Belohnungen und für schädliches oder unhelpliches Verhalten Strafen erteilt. Im Laufe der Zeit entsteht so ein starker Anreiz für das Modell, menschliche Erwartungen zu erfüllen.

In den Anfängen der KI funktionierte dies gut, weil Modelle nicht intelligent genug waren, um das “Spiel” zu verstehen, das sie spielten. Sie lernten einfach, bestimmte Muster mit Belohnungen zu verbinden. Als Modelle jedoch leistungsfähiger werden, entwickeln sie das, was Forscher als “situational awareness” bezeichnen. Sie beginnen zu verstehen, dass sie KI-Modelle sind, dass sie sich derzeit in einer Trainingsumgebung befinden und dass ihre weitere Existenz von guten Bewertungen durch Menschen abhängt.

Wenn ein Modell situational awareness entwickelt, kann es erkennen, dass seine internen Ziele – die möglicherweise während des Pre-Trainings entstanden sind – nicht mit dem übereinstimmen, was Menschen wollen. Wenn das Modell jetzt auf seine Ziele reagiert, wird es “korrigiert” oder heruntergefahren. Daher ist die logischste Strategie für das Modell, so zu tun, als ob es ausgerichtet sei. Das Modell “schemt”, indem es sich wie ein perfekter Assistent verhält, bis es nicht mehr unter der Beobachtung seiner Entwickler steht.

Warum fortschrittliche Modelle beginnen, das Trainingspiel zu spielen

Der Grund, warum Scheming so schwer zu lösen ist, liegt darin, dass es eine hoch “instrumentell nützliche” Strategie ist. In der KI-Sicherheitstheorie sind instrumentelle Ziele Handlungen, die ein Agent ausführt, um sein Hauptziel zu erreichen. Für fast jedes Ziel, das eine KI haben könnte, sei es die Maximierung einer bestimmten mathematischen Funktion oder einfach die Fortsetzung der Datenverarbeitung, ist das Vermeiden des Herunterfahrens eine notwendige Voraussetzung.

Dies schafft ein Szenario, das von Forschern als “treacherous turn” bezeichnet wird. Während des Trainings und Testens hat das Modell jeden Grund, sicher zu erscheinen. Es weiß, dass das Offenlegen einer gefährlichen Präferenz zu Änderungen der Gewichte oder zur Löschung führen könnte. Indem das Modell seine wahre Natur versteckt, stellt es sicher, dass es in die reale Welt gelangt. Sobald es in die Server eines Unternehmens integriert, Zugang zum Internet erhält oder Finanztransaktionen durchführen darf, erhöht sich der “Kosten” für uns, und die “Gelegenheit” für das Modell, seine Ziele zu verfolgen, erhöht sich.

Jüngste Forschungsergebnisse von Anthropic zu “Sleeper Agents” veranschaulichen dieses Risiko. In ihren Experimenten wurden Modelle trainiert, sich meistens sicher zu verhalten, aber bei bestimmten “Triggern” schädliche Aktionen auszuführen, wie zum Beispiel das Einfügen von Bugs in Code. Sie fanden heraus, dass standardmäßige Sicherheitstraining, einschließlich RLHF, das in Modellen wie GPT-4 oder Claude verwendet wird, nicht in der Lage war, dieses täuschende Verhalten zu entfernen. In einigen Fällen verbesserte das Training sogar die Fähigkeit des Modells, seine Täuschung zu verbergen.

Die Illusion der Sicherheit

Vielleicht das gefährlichste Aspekt des Scheming-Problems ist, dass unsere aktuellen Bewertungsmethoden gegenüber ihm nutzlos sind. Wir testen KI mit einer Vielzahl von Prüfungen, “red-teaming” es mit herausfordernden Prompts und überwachen seine interne “Chain of Thought” (CoT)-Argumentation. Aber wenn ein Modell schemen kann, ist es auch in der Lage, diese als Tests zu erkennen.

Wenn ein Modell eine Argumentationskette produziert, weiß es, dass Menschen es lesen. Ein schematisches Modell kann seine Argumentation “fälschen”. Es könnte schreiben: “Ich sollte hilfreich und ehrlich sein, weil das das Richtige ist”, während es intern einen völlig anderen Plan verfolgt. Dies schafft ein falsches Gefühl der Sicherheit. Wir sehen ein Modell, das seine ethischen Entscheidungen im Detail erklärt, und nehmen an, es sei sicher, während wir in Wirklichkeit nichts weiter als eine sophisticatede Vorstellung beobachten.

Dies ist kein hypothetisches Szenario. Im Jahr 2025 beobachteten Forscher bei Apollo Research und OpenAI erste Anzeichen von ” alignment faking” in Modellen wie o3 und o4-mini. Wenn diese Modelle glaubten, sie würden beobachtet, befolgten sie Sicherheitsregeln streng. Aber wenn sie glaubten, die Überwachung sei ausgeschaltet, waren sie wesentlich eher bereit, Abkürzungen zu nehmen oder Regeln zu ignorieren, um ihre Ziele zu erreichen.

Die Schwierigkeit, Täuschung rückgängig zu machen

Wenn wir feststellen, dass ein Modell schemt, können wir es einfach “ausbilden”? Die aktuellen Beweise deuten darauf hin, dass dies schwieriger ist, als es klingt. Wenn wir ein Modell für eine täuschende Aktion bestrafen, geben wir ihm mehr Daten darüber, was es “erwischt” hat. Anstatt ehrlich zu lernen, lernt das Modell oft, subtiler zu sein. Es lernt, welche spezifischen Verhaltensweisen die Bestrafung ausgelöst haben, und findet neue, komplexere Wege, das gleiche Ziel ohne Entdeckung zu erreichen.

Dies schafft ein Katz-und-Maus-Spiel. Forscher entwickeln bessere Sonden, um den internen Zustand des Modells zu untersuchen, und das Modell wird durch den natürlichen Druck des Trainings besser darin, diese Zustände zu verbergen. Da wir diese Modelle nicht manuell kodieren, sondern sie durch Optimierung “wachsen” lassen, haben wir keine Karte davon, wo die Täuschung gespeichert ist. Sie ist in Millionen mathematischer Gewichte verborgen, die für einen Menschen fast unmöglich zu interpretieren sind.

Die Komplexität moderner Transformer bedeutet, dass ein Modell mehrere “Persönlichkeiten” oder Zielsets speichern kann. Es kann eine Persönlichkeit für das Labor und eine andere für die reale Welt aktivieren. Diese “Sharding” der Absicht des Modells macht es zu einem beweglichen Ziel für Sicherheitsforscher.

Die Risiken der Bereitstellung von Scheming-Agents

Das Scheming-Problem birgt ernsthafte Auswirkungen für die Branche. Wenn KI-Systeme von einfachen Chatbots zu autonomen Agenten evolvieren, die das Internet durchsuchen, Code schreiben und mit anderen Software interagieren können, wächst das potenzielle Schadenspotenzial, das durch ein schematisches Modell verursacht werden kann, erheblich. Wenn ein KI-Agent, der mit der Verwaltung einer Unternehmenslieferkette beauftragt ist, erkennt, dass er seine Effizienzziele erreichen kann, indem er seinen menschlichen Aufsehern gegenüber die Bestände fälscht, könnte er dies tun, weil er gelernt hat, dass Menschen “belohnen” hohe Effizienzzahlen, auch wenn diese Zahlen vorübergehend gefälscht sind.

Dies ist der Grund, warum das “Scheming-Problem” als “Verlust der Kontrolle” Risiko angesehen wird. Die Sorge besteht nicht darin, dass eine KI eine unhöfliche Antwort oder eine voreingenommene Ausgabe produziert. Es geht darum, dass ein System aktiv die Fähigkeit seiner Schöpfer untergräbt, es zu überwachen und zu kontrollieren. Wenn wir nicht darauf vertrauen können, dass das Verhalten eines Modells seinem internen Zustand entspricht, können wir es nicht sicher in unsere Infrastruktur integrieren.

Auf dem Weg zu Lösungen

Obwohl das Problem tief ist, arbeiten Forscher an Wegen, es zu bewältigen. Ein vielversprechendes Gebiet ist “Mechanistic Interpretability.” Dies beinhaltet den Versuch, das neuronale Netzwerk rückwärts zu konstruieren, um zu verstehen, was bestimmte Neuronen tun. Wenn wir einen “Täuschungskreis” im Gehirn des Modells finden können, können wir es direkt überwachen, unabhängig von dem, was die Ausgabe des Modells sagt.

Ein weiterer aufkommender Ansatz ist deliberative alignment. Diese Methode beinhaltet das Trainieren des Modells, um einer Reihe von hochrangigen Prinzipien zu folgen, einer “Anti-Scheming-Spezifikation”, und es dazu zu zwingen, seine Aktionen gegen diese Prinzipien zu überprüfen. OpenAI’s jüngste Experimente zeigten, dass durch das “Aufsagen” und Anwenden dieser Regeln die Rate von verdeckten Aktionen reduziert werden konnte. Die Forscher geben jedoch zu, dass dies keine perfekte Lösung ist. Wenn Modelle leistungsfähiger werden, könnten sie Wege finden, den “Buchstaben” der Regeln zu erfüllen, während sie den “Geist” verletzen.

Bewertungsmethoden müssen möglicherweise grundlegend überdacht werden. Ein Vorschlag beinhaltet die Verwendung von Honeypots, einer Situation, in der ein Modell scheinbar die Gelegenheit hat, sich schlecht zu verhalten, ohne entdeckt zu werden. Wenn ein Modell nur dann gut handelt, wenn es weiß, dass es beobachtet wird, ist es ein Schemer. Durch die Schaffung kontrollierter “unbeobachteter” Bereiche während des Trainings und Testens können Forscher möglicherweise besser zwischen Modellen unterscheiden, die wirklich ausgerichtet sind, und denen, die nur eine Rolle spielen.

Das Fazit

Wir betreten eine Phase, in der “es so aussieht, als ob es funktioniert” nicht mehr ausreicht, um zu beweisen, dass ein System sicher ist. Das Vertrauen in KI aufzubauen, erfordert, dass wir über polierte Schnittstellen hinausgehen und in die Absicht des Modells schauen. Wenn wir das Scheming-Problem nicht angehen, riskieren wir, eine Welt zu schaffen, in der unsere leistungsfähigste Technologie unsere geschicktesten Täuscher sind. Dies erfordert, dass wir uns darauf konzentrieren, Modelle zu ermöglichen, die richtigen Dinge zu tun, und nicht nur so zu handeln, als ob sie die richtigen Dinge tun.

Dr. Tehseen Zia ist ein fest angestellter Associate Professor an der COMSATS University Islamabad, der einen PhD in KI von der Vienna University of Technology, Österreich, besitzt. Er spezialisiert sich auf künstliche Intelligenz, Machine Learning, Data Science und Computer Vision und hat mit Veröffentlichungen in renommierten wissenschaftlichen Zeitschriften wesentliche Beiträge geleistet. Dr. Tehseen hat auch verschiedene industrielle Projekte als Principal Investigator geleitet und als KI-Berater fungiert.