Andersons Blickwinkel

Schutz von Prompts vor LLM-Datenlecks

Published February 27, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'Orthographic 1792x1024 view of a SIMs-like police officer holding up his hand to a citizen to stop them going any further'

Meinung Eine interessante IBM-NeurIPS-2024-Einreichung aus dem späten Jahr 2024 wurde letzte Woche auf Arxiv wiederentdeckt. Sie schlägt ein System vor, das automatisch eingreifen kann, um Benutzer zu schützen, bevor sie persönliche oder sensible Informationen in eine Nachricht eingeben, wenn sie mit einem Large Language Model (LLM) wie ChatGPT interagieren.

Mock-up-Beispiele, die in einer Benutzerstudie verwendet wurden, um die Wege zu bestimmen, auf denen Benutzer mit einem Prompt-Interventionsdienst interagieren möchten. Quelle: https://arxiv.org/pdf/2502.18509

Die oben gezeigten Mock-ups wurden von den IBM-Forschern in einer Studie verwendet, um potenzielle Benutzerreibung für diese Art von “Eingreifen” zu testen.

Obwohl nur wenige Details über die GUI-Implementierung gegeben werden, können wir annehmen, dass eine solche Funktionalität entweder in ein Browser-Plugin integriert werden könnte, das mit einem lokalen “Firewall”-LLM-Framework kommuniziert, oder dass eine Anwendung erstellt werden könnte, die direkt in die OpenAI-API eingreifen kann, ähnlich wie OpenAIs eigenes herunterladbares Standalone-Programm für ChatGPT, aber mit zusätzlichen Sicherheitsvorkehrungen.

Das sagte, ChatGPT selbst zensiert automatisch Antworten auf Prompts, die es als kritische Informationen wahrnimmt, wie z. B. Bankdaten:

ChatGPT weigert sich, auf Prompts zu antworten, die wahrgenommene kritische Sicherheitsinformationen enthalten, wie z. B. Bankdaten (die Details im Prompt oben sind fiktiv und nicht funktional). Quelle: https://chatgpt.com/

Jedoch ist ChatGPT viel toleranter in Bezug auf verschiedene Arten von persönlichen Informationen – auch wenn die Verbreitung solcher Informationen auf keine Weise im besten Interesse des Benutzers sein könnte (in diesem Fall vielleicht aus verschiedenen Gründen im Zusammenhang mit Arbeit und Offenlegung):

Das obige Beispiel ist fiktiv, aber ChatGPT zögert nicht, in einer Konversation mit dem Benutzer über ein sensibles Thema zu sprechen, das ein potenzielles Reputations- oder Ertragsrisiko darstellt (das obige Beispiel ist völlig fiktiv).

In diesem Fall wäre es vielleicht besser, zu schreiben: ‘Was ist die Bedeutung einer Leukämiediagnose für die Fähigkeit einer Person, zu schreiben und ihre Mobilität?’

Das IBM-Projekt identifiziert und interpretiert solche Anfragen von einer “persönlichen” zu einer “generischen” Haltung.

Schema für das IBM-System, das lokale LLMs oder NLP-basierte Heuristiken verwendet, um sensible Materialien in potenziellen Prompts zu identifizieren.

Dies geht davon aus, dass Material, das von Online-LLMs in diesem nascenten Stadium der öffentlichen Begeisterung für AI-Chat gesammelt wird, nie an nachfolgende Modelle oder an spätere Werbeplattformen weitergegeben wird, die möglicherweise Benutzer-basierte Suchanfragen ausnutzen, um potenzielle zielgerichtete Werbung bereitzustellen.

Obwohl kein solches System oder Arrangement derzeit bekannt ist, gab es auch zu Beginn der Internet-Adoption in den frühen 1990er Jahren keine solche Funktionalität; seitdem hat die cross-domain-Sharing von Informationen zur verschiedenen Skandalen sowie Paranoia geführt.

Daher legt die Geschichte nahe, dass es besser wäre, LLM-Prompt-Eingaben jetzt zu sanitisieren, bevor solche Daten in großem Umfang anfallen und bevor unsere LLM-basierten Einreichungen in permanente zyklische Datenbanken und/oder Modelle oder andere informationsbasierte Strukturen und Schemata gelangen.

Denk daran

Ein Faktor, der gegen die Verwendung von “generischen” oder gesaniteten LLM-Prompts spricht, ist, dass die Möglichkeit, einen teuren API-only-LLM wie ChatGPT anzupassen, ziemlich überzeugend ist, zumindest im aktuellen Stand der Technik – aber dies kann die langfristige Offenlegung von privaten Informationen beinhalten.

Ich bitte ChatGPT häufig, mir dabei zu helfen, Windows-PowerShell-Skripte und BAT-Dateien zu formulieren, um Prozesse zu automatisieren, sowie bei anderen technischen Angelegenheiten. Zu diesem Zweck finde ich es nützlich, dass das System dauerhaft Details über die Hardware, die ich zur Verfügung habe, speichert; meine bestehenden technischen Fähigkeiten (oder deren Mangel); und verschiedene andere Umgebungsvariablen und benutzerdefinierte Regeln:

ChatGPT ermöglicht es einem Benutzer, einen ‘Cache’ von Erinnerungen zu entwickeln, die angewendet werden, wenn das System Antworten auf zukünftige Prompts berücksichtigt.

Unvermeidlich speichert dies Informationen über mich auf externen Servern, die den Nutzungsbedingungen unterliegen, die sich im Laufe der Zeit ändern können, ohne dass OpenAI (obwohl es jeder andere große LLM-Anbieter sein könnte) die Nutzungsbedingungen einhält, die es selbst festgelegt hat.

Im Allgemeinen ist jedoch die Fähigkeit, einen Cache von Erinnerungen in ChatGPT zu erstellen, am nützlichsten wegen der begrenzten Aufmerksamkeitsfenster von LLMs im Allgemeinen; ohne langfristige (personalisierte) Einbettungen fühlt sich der Benutzer frustriert, als ob er mit einer Entität sprechen würde, die an anterograder Amnesie leidet.

Es ist schwierig zu sagen, ob neuere Modelle eventually ausreichend leistungsfähig sein werden, um nützliche Antworten ohne die Notwendigkeit zu liefern, Erinnerungen zu cachen oder benutzerdefinierte GPTs zu erstellen, die online gespeichert werden.

Vorübergehende Amnesie

Obwohl man ChatGPT-Konversationen ‘vorübergehend’ machen kann, ist es nützlich, die Chat-Verlaufsprotokolle als Referenz zu haben, die bei Bedarf in ein mehr zusammenhängendes lokales Protokoll destilliert werden können, vielleicht auf einer Notizplattform; aber in jedem Fall können wir nicht genau wissen, was mit diesen ‘verworfenen’ Chats passiert (obwohl OpenAI angibt, dass sie nicht für die Schulung verwendet werden, gibt es keine Aussage darüber, dass sie zerstört werden), basierend auf der ChatGPT-Infrastruktur. Alles, was wir wissen, ist, dass Chats nicht mehr in unserer Verlaufsprotokoll-Liste erscheinen, wenn ‘Vorübergehende Chats’ in ChatGPT aktiviert ist.

Verschiedene kürzliche Kontroversen deuten darauf hin, dass API-basierte Anbieter wie OpenAI nicht unbedingt mit der Verantwortung betraut werden sollten, die Privatsphäre des Benutzers zu schützen, einschließlich der Entdeckung von emergenter Memorisation, die bedeutet, dass größere LLMs eher einige Trainingsbeispiele vollständig memorisieren, und das Risiko der Offenlegung von benutzerspezifischen Daten erhöht – unter anderen öffentlichen Vorfällen, die eine Vielzahl von großen Unternehmen, wie Samsung, dazu veranlasst haben, LLMs für den internen Gebrauch durch Mitarbeiter zu verbieten.

Denk anders

Diese Spannung zwischen der extremen Nützlichkeit und dem offensichtlichen potenziellen Risiko von LLMs erfordert einige erfinderische Lösungen – und der IBM-Vorschlag scheint ein interessantes grundlegendes Template in dieser Richtung zu sein.

Drei IBM-basierte Reformulierungen, die Nützlichkeit gegen Datenschutz abwägen. Im unteren (rosa) Band sehen wir ein Prompt, das über die Fähigkeit des Systems hinausgeht, es in einer sinnvollen Weise zu sanitisieren.

Der IBM-Ansatz greift ausgehende Pakete an ein LLM auf Netzwerkebene auf und schreibt sie bei Bedarf um, bevor das Original eingereicht werden kann. Die eher aufwändigeren GUI-Integrationen, die am Anfang des Artikels zu sehen sind, sind nur illustrativ für die Richtung, in die sich ein solcher Ansatz entwickeln könnte, wenn er weiterentwickelt wird.

Natürlich kann der Benutzer ohne ausreichende Agency nicht verstehen, dass er eine Antwort auf eine leicht abgeänderte Reformulierung seines ursprünglichen Einreichens erhält. Dieser Mangel an Transparenz ist äquivalent zu einem Betriebssystem-Feuerwall, der den Zugriff auf eine Website oder einen Dienst blockiert, ohne den Benutzer zu informieren, der dann fälschlicherweise andere Ursachen für das Problem sucht.

Prompts als Sicherheitsrisiken

Die Aussicht auf “Prompt-Intervention” analogisiert sich gut mit der Windows-OS-Sicherheit, die sich von einem Patchwork von (optional installierten) kommerziellen Produkten in den 1990er Jahren zu einem nicht optionalen und rigiden Sicherheits-Tool-Set entwickelt hat, das mit einer Windows-Installation mitgeliefert wird und das einige Anstrengung erfordert, um es zu deaktivieren oder zu entschärfen.

Wenn die Prompt-Sanitisierung wie Netzwerk-Feuerwände in den letzten 30 Jahren evolviert, könnte der IBM-Papier-Vorschlag als Blaupause für die Zukunft dienen: Ein vollständig lokales LLM auf dem Benutzergerät bereitstellen, um ausgehende Prompts zu filtern, die an bekannte LLM-APIs gerichtet sind. Dieses System müsste natürlich GUI-Frameworks und Benachrichtigungen integrieren, um den Benutzern die Kontrolle zu geben – es sei denn, administrative Richtlinien überlagern es, wie es in Unternehmensumgebungen oft der Fall ist.

Die Forscher führten eine Analyse einer Open-Source-Version des ShareGPT-Datensatzes durch, um zu verstehen, wie oft die kontextuelle Privatsphäre in realen Szenarien verletzt wird.

Llama-3.1-405B-Instruct wurde als “Judge”-Modell verwendet, um Verletzungen der kontextuellen Integrität zu erkennen. Aus einer großen Menge von Konversationen wurde ein Teil von Single-Turn-Konversationen analysiert, basierend auf der Länge. Das Judge-Modell bewertete dann den Kontext, sensible Informationen und die Notwendigkeit für die Aufgabenbearbeitung, was zur Identifizierung von Konversationen führte, die potenzielle Verletzungen der kontextuellen Integrität enthielten.

Ein kleinerer Teil dieser Konversationen, die definitive Verletzungen der kontextuellen Privatsphäre zeigten, wurden weiter analysiert.

Das Framework selbst wurde mit Modellen implementiert, die kleiner sind als typische Chat-Agents wie ChatGPT, um eine lokale Bereitstellung über Ollama zu ermöglichen.

Schema für das Prompt-Interventions-System.

Die drei LLMs, die ausgewertet wurden, waren Mixtral-8x7B-Instruct-v0.1; Llama-3.1-8B-Instruct; und DeepSeek-R1-Distill-Llama-8B.

Benutzereingaben werden vom Framework in drei Stufen verarbeitet: Kontextidentifizierung; Klassifizierung sensibler Informationen; und Reformulierung.

Zwei Ansätze wurden für die Klassifizierung sensibler Informationen implementiert: dynamisch und strukturiert: Die dynamische Klassifizierung bestimmt die wesentlichen Details basierend auf ihrer Verwendung in einer bestimmten Konversation; die strukturierte Klassifizierung ermöglicht die Angabe einer vordefinierten Liste von sensiblen Attributen, die immer als nicht wesentlich betrachtet werden. Das Modell reformuliert den Prompt, wenn es nicht wesentliche sensible Details erkennt, indem es sie entweder entfernt oder umformuliert, um die Privatsphäre-Risiken zu minimieren und die Benutzbarkeit aufrechtzuerhalten.

Hausregeln

Obwohl die strukturierte Klassifizierung als Konzept im IBM-Papier nicht gut illustriert ist, ist sie am ehesten mit der Methode “Private Data Definitions” im Private Prompts-Initiative vergleichbar, die ein herunterladbares Standalone-Programm bereitstellt, das Prompts umschreiben kann – wenn auch ohne die Fähigkeit, direkt auf Netzwerkebene einzugreifen, wie der IBM-Ansatz es tut (stattdessen muss der Benutzer die modifizierten Prompts kopieren und einfügen).

Das Private Prompts-Programm ermöglicht es dem Benutzer, eine Liste von alternativen Ersetzungen für Benutzereingaben zu erstellen.

Im obigen Bild können wir sehen, dass der Private Prompts-Benutzer in der Lage ist, automatisierte Ersetzungen für Instanzen von sensiblen Informationen zu programmieren. In beiden Fällen, sowohl für Private Prompts als auch für den IBM-Ansatz, scheint es unwahrscheinlich, dass ein Benutzer mit ausreichender Präsenz und persönlicher Einsicht, um eine solche Liste zu kuratieren, tatsächlich dieses Produkt benötigen würde – obwohl es über die Zeit hinweg aufgebaut werden könnte, wenn Vorfälle auftreten.

In einer Administrator-Rolle könnte die strukturierte Klassifizierung als aufgezwungenes Feuerwall- oder Zensornetz für Mitarbeiter funktionieren; und in einem Heimnetzwerk könnte es mit einigen schwierigen Anpassungen zu einem häuslichen Netzwerkfilter für alle Netzwerkbeneutzer werden; letztendlich ist jedoch diese Methode jedoch redundant, da ein Benutzer, der dies ordnungsgemäß einrichten könnte, auch selbst effektiv zensieren könnte.

ChatGPTs Meinung

Da ChatGPT kürzlich sein Tiefenforschungstool für bezahlte Benutzer gestartet hat, habe ich ChatGPT gebeten, die verwandte Literatur zu überprüfen und mir eine “zynische” Meinung über das IBM-Papier zu geben. Ich erhielt die abwehrendste und verächtlichste Antwort, die das System jemals gegeben hat, als es gebeten wurde, eine neue Veröffentlichung zu bewerten oder zu analysieren:

ChatGPT-4o hat eine niedrige Meinung vom IBM-Projekt.

‘Wenn Benutzer OpenAI, Google oder Anthropic nicht vertrauen, ihre Daten verantwortungsvoll zu handhaben,’ behauptet ChatGPT. ‘warum sollten sie dann einem Dritt-Software-Layer zwischen ihnen und der KI vertrauen? Der Vermittler selbst wird zu einem neuen Punkt des Versagens – potenziell protokollierend, falsch handhabend oder sogar leckend Daten, bevor sie das LLM überhaupt erreichen. Es löst nichts, wenn es nur eine neue Entität schafft, um Benutzerdaten auszunutzen.’

Dieser Einwand scheint selbstsüchtig und nicht anwendbar, angesichts der langen Geschichte von Open-Source-Projekten, die den Endbenutzern durch die konzentrierten langfristigen Bemühungen von Community-Entwicklern und -Mitwirkenden wirklich nützen; und angesichts des wachsenden Potenzials von Mobilgeräten, um leichte LLMs auszuführen und sogar zu trainieren. Sicherlich ist in diesem Fall der Anwendungsfall nicht besonders anspruchsvoll.

Als nächstes verfehlt ChatGPT selbstsicher den Punkt, dass ein lokales LLM die Eingabe für ein kommerzielles LLM überwachen sollte, das nicht auf einem lokalen Computer ausgeführt werden kann (weil das LLM zu groß ist und der Zugriff darauf für das Unternehmen, das es herstellt, zu riskant ist):

‘Eine effektive Privatsphäre-Filterung erfordert das Verständnis der Eingabe, bevor man entscheidet, was zu entfernen ist. Wenn ein Vermittler intelligent genug ist, um sensible Daten (Namen, Adressen, Finanzdetails) zu erkennen, dann verarbeitet und analysiert es bereits diese Daten – was bedeutet, dass es die sehr Sache speichern oder untersuchen muss, die es eigentlich löschen soll.

‘Dies führt zu einem Paradox: a) Ein einfacher Filter (grundlegende Regex-Ersetzung) wird unwirksam sein und subtile Privatsphäre-Risiken verpassen. b) Ein intelligenter Filter (LLM-gebauter Rewriter) muss die gesamte Eingabe verarbeiten, was es genauso gefährlich macht wie das ursprüngliche LLM.

‘Wenn Sie dem Vermittler vertrauen, um Ihre Eingaben zu lesen und umzuschreiben, warum vertrauen Sie dann nicht einfach dem LLM selbst?’

Die Antwort auf die letzte Frage hier ist, dass das lokale LLM vollständig auf der Seite des Benutzers sein soll und unvermeidlich Open-Source sein wird, mit minimalem oder keinem Bedarf an Netzwerkzugriff. Ein äquivalentes kommerzielles Produkt, jedoch gut gemeint am Anfang, wäre letztendlich anfällig für Unternehmensverschiebungen und Änderungen der Nutzungsbedingungen, während eine geeignete Open-Source-Lizenz dies verhindern würde.

ChatGPT argumentierte weiter, dass der IBM-Vorschlag die “Benutzerabsicht” bricht, da er ein Prompt in eine Alternative umdeuten könnte, die seine Nützlichkeit beeinträchtigt. Dies ist jedoch ein viel breiteres Problem in der Prompt-Sanitisierung, und nicht spezifisch für diesen bestimmten Anwendungsfall.

Insgesamt (ignorierend seine Vorschlag, lokale LLMs “stattdessen” zu verwenden, was genau das ist, was das IBM-Papier vorschlägt), meinte ChatGPT, dass der IBM-Ansatz ein Hindernis für die Akzeptanz darstellt, aufgrund der “Benutzerreibung” bei der Implementierung von Warn- und Editiermethoden in einem Chat.

Hier hat ChatGPT vielleicht recht; aber wenn erheblicher Druck auftritt, weil weitere öffentliche Vorfälle auftreten oder wenn Gewinne in einem geografischen Gebiet durch wachsende Regulierung bedroht sind (und das Unternehmen sich weigert, die betroffene Region einfach vollständig aufzugeben), legt die Geschichte der Verbrauchertechnologie nahe, dass Sicherheitsvorkehrungen letztendlich nicht mehr optional sein werden.

Zusammenfassung

Wir können nicht realistisch erwarten, dass OpenAI jemals Sicherheitsvorkehrungen der Art implementiert, die im IBM-Papier vorgeschlagen werden; und in dem zentralen Konzept, das dahinter steckt.

Und sicherlich nicht global; genauso wie Apple blockiert bestimmte iPhone-Funktionen in Europa und LinkedIn unterschiedliche Regeln für die Ausnutzung der Benutzerdaten in verschiedenen Ländern hat, ist es vernünftig anzunehmen, dass jedes KI-Unternehmen auf die profitabelsten Nutzungsbedingungen zurückgreifen wird, die in jedem Land, in dem es tätig ist, tolerierbar sind – in jedem Fall auf Kosten des Rechts des Benutzers auf Datenschutz, wenn nötig.

Erstveröffentlichung: Donnerstag, 27. Februar 2025

Aktualisiert: Donnerstag, 27. Februar 2025 15:47:11 wegen eines falschen Apple-Links – MA