Connect with us

Gibt es eine klare Lösung für die Privatsphärenrisiken, die durch generative KI entstehen?

Vordenker

Gibt es eine klare Lösung für die Privatsphärenrisiken, die durch generative KI entstehen?

mm

Die Privatsphärenrisiken, die durch generative KI entstehen, sind sehr real. Von erhöhter Überwachung und Exposition bis hin zu effektiveren Phishing- und Vishing-Kampagnen als je zuvor, untergräbt generative KI die Privatsphäre en masse, undifferenziert, während sie böswilligen Akteuren, ob kriminell, staatlich gefördert oder staatlich, die Werkzeuge liefert, die sie benötigen, um Einzelpersonen und Gruppen zu gezielt angreifen.

Die klarste Lösung für dieses Problem besteht darin, dass Verbraucher und Nutzer kollektiv dem KI-Hype den Rücken kehren, Transparenz von denen verlangen, die sogenannte KI-Funktionen entwickeln oder implementieren, und effektive Regulierung von den Regierungsbehörden, die ihre Betrieb überwachen. Obwohl es sich lohnt, danach zu streben, ist es unwahrscheinlich, dass dies bald passieren wird.

Was bleibt, sind vernünftige, wenn auch notwendigerweise unvollständige Ansätze, um die Privatsphärenrisiken von generativer KI zu mindern. Die langfristige, sichere, aber langweilige Vorhersage ist, dass die Öffentlichkeit je mehr über Datenschutz im Allgemeinen aufgeklärt wird, desto geringer sind die Privatsphärenrisiken, die durch die Massenadoption von generativer KI entstehen.

Verstehen wir alle das Konzept von generativer KI richtig?

Der Hype um KI ist so allgegenwärtig, dass eine Umfrage darüber, was Menschen unter generativer KI verstehen, kaum notwendig ist. Natürlich stellen none dieser “KI”-Funktionen, -Funktionen und -Produkte tatsächlich Beispiele für wahre künstliche Intelligenz dar, egal wie diese aussehen würde. Stattdessen sind sie meist Beispiele für Maschinelles Lernen (ML), Tiefes Lernen (DL) und große Sprachmodelle (LLMs).

Generative KI, wie der Name schon sagt, kann neue Inhalte erzeugen – sei es Text (einschließlich Programmiersprachen), Audio (einschließlich Musik und menschlich klingenden Stimmen) oder Videos (mit Ton, Dialog, Schnitten und Kameraänderungen). All dies wird erreicht, indem LLMs trainiert werden, Muster in von Menschen erzeugten Inhalten zu erkennen, zu matchen und zu reproduzieren.

Lassen Sie uns ChatGPT als Beispiel nehmen. Wie viele LLMs wird es in drei breiten Stufen trainiert:

  • Vortraining: Während dieser Phase wird das LLM mit textuellem Material aus dem Internet, Büchern, akademischen Zeitschriften und allem anderen gefüttert, das potenziell relevante oder nützliche Texte enthält.
  • Überwachtes Anweisungsfeintraining: Modelle werden trainiert, um kohärenter auf Anweisungen zu reagieren, indem sie hochwertige Anweisungs-Antwort-Paare verwenden, die typischerweise von Menschen stammen.
  • Bestärkendes Lernen aus menschlichem Feedback (RLHF): LLMs wie ChatGPT unterziehen sich oft dieser zusätzlichen Trainingsphase, während derer Interaktionen mit menschlichen Benutzern verwendet werden, um das Modell an typische Anwendungsfälle anzupassen.

Alle drei Stufen des Trainingsprozesses beinhalten Daten, entweder massive Speicher von vorher gesammelten Daten (wie die, die bei der Vortraining verwendet werden) oder Daten, die in Echtzeit gesammelt und verarbeitet werden (wie die, die bei der RLHF verwendet werden). Es sind diese Daten, die den Löwenanteil der Privatsphärenrisiken von generativer KI tragen.

Was sind die Privatsphärenrisiken, die durch generative KI entstehen?

Die Privatsphäre wird verletzt, wenn personenbezogene Informationen über eine Person (den Datenunterwerp) ohne deren Zustimmung anderen Personen oder Entitäten zugänglich gemacht werden. LLMs werden vortrainiert und feintrainiert auf einer extrem breiten Palette von Daten, die personenbezogene Daten enthalten können und oft auch tun.

Selbst wenn diese Daten aus öffentlich zugänglichen Quellen stammen, kann es als weitere Verletzung der Privatsphäre angesehen werden, wenn sie von einem LLM aggregiert und verarbeitet werden und dann im Wesentlichen durch die Schnittstelle des LLM durchsuchbar gemacht werden.

Die Bestärkung aus menschlichem Feedback (RLHF) kompliziert die Dinge. In dieser Trainingsphase werden reale Interaktionen mit menschlichen Benutzern verwendet, um die Antworten des LLMs iterativ zu korrigieren und zu verfeinern. Das bedeutet, dass eine Interaktion eines Benutzers mit einem LLM von jedem, der Zugang zu den Trainingsdaten hat, angesehen, geteilt und verbreitet werden kann.

In den meisten Fällen ist dies keine Verletzung der Privatsphäre, da die meisten LLM-Entwickler Datenschutzrichtlinien und Nutzungsbedingungen haben, die von den Benutzern verlangen, vor der Interaktion mit dem LLM zuzustimmen. Das Privatsphärenrisiko liegt hier eher in der Tatsache, dass viele Benutzer nicht wissen, dass sie einer solchen Datenerfassung und -verwendung zugestimmt haben. Solche Benutzer sind wahrscheinlich, private und sensible Informationen während ihrer Interaktionen mit diesen Systemen preiszugeben, ohne zu wissen, dass diese Interaktionen weder vertraulich noch privat sind.

Auf diese Weise kommen wir zu den drei Hauptwegen, auf denen generative KI Privatsphärenrisiken birgt:

  • Große Speicher von Vortrainingsdaten, die potenziell personenbezogene Informationen enthalten, sind anfällig für Kompromisse und Exfiltration.
  • Personenbezogene Informationen, die in Vortrainingsdaten enthalten sind, können an andere Benutzer desselben LLM durch dessen Antworten auf Abfragen und Anweisungen weitergegeben werden.
  • Personenbezogene und vertrauliche Informationen, die während Interaktionen mit LLMs preisgegeben werden, landen bei den Mitarbeitern des LLMs und möglicherweise bei Drittanbietern, von wo aus sie angesehen oder weitergegeben werden können.

Dies sind alle Risiken für die Privatsphäre der Benutzer, aber die Chancen, dass personenbezogene Informationen (PII) in die falschen Hände geraten, scheinen noch ziemlich gering. Das ist zumindest so, bis Datenhändler ins Bild kommen. Diese Unternehmen spezialisieren sich darauf, PII und andere personenbezogene Daten aufzuspüren und zu sammeln, zu aggregieren und zu verbreiten, wenn nicht gar auszustrahlen.

Mit PII und anderen personenbezogenen Daten, die zu einer Art Ware geworden sind, und der Datenhändlerbranche, die aus diesem Grund entstanden ist, um daraus Profit zu schlagen, ist es sehr wahrscheinlich, dass jede personenbezogene Daten, die “dahin” kommen, von Datenhändlern aufgesammelt und weit verbreitet werden.

Die Privatsphärenrisiken von generativer KI im Kontext

Bevor wir uns die Risiken ansehen, die generative KI für die Privatsphäre der Benutzer in Bezug auf bestimmte Produkte, Dienstleistungen und Unternehmenspartnerschaften birgt, sollten wir einen Schritt zurücktreten und einen strukturierten Blick auf die gesamte Palette von generativen KI-Risiken werfen. Moraes und Previtali haben in einem Artikel für die IAPP einen datengetriebenen Ansatz zur Verfeinerung von Soloves “Taxonomie der Privatsphäre” aus dem Jahr 2006 vorgestellt, indem sie die 16 Privatsphärenrisiken, die darin beschrieben werden, auf 12 KI-spezifische Privatsphärenrisiken reduzierten.

Dies sind die 12 Privatsphärenrisiken, die in Moraes und Previtalis revidierter Taxonomie enthalten sind:

  • Überwachung: KI verschärft die Überwachungsrisiken, indem sie den Umfang und die Allgegenwärtigkeit der Erfassung personenbezogener Daten erhöht.
  • Identifizierung: KI-Technologien ermöglichen die automatisierte Verknüpfung von Identitäten über verschiedene Datenquellen, was die Risiken im Zusammenhang mit der Offenlegung der persönlichen Identität erhöht.
  • Aggregation: KI kombiniert verschiedene Teile von Daten über eine Person, um Rückschlüsse zu ziehen, was Risiken der Privatsphärenverletzung birgt.
  • Phrenologie und Physiognomie: KI schließt aus körperlichen Merkmalen auf die Persönlichkeit oder soziale Attribute, eine neue Risikokategorie, die nicht in Soloves Taxonomie enthalten ist.
  • Sekundäre Verwendung: KI verschärft die Verwendung personenbezogener Daten für andere Zwecke als ursprünglich beabsichtigt durch die Umwidmung von Daten.
  • Ausschluss: KI macht es schlimmer, wenn Benutzer nicht informiert werden oder keine Kontrolle über die Verwendung ihrer Daten haben, durch undurchsichtige Datenpraktiken.
  • Unsicherheit: KI birgt Risiken von Datenlecks und unzureichendem Zugriff aufgrund ihrer Datenanforderungen und Speicherpraktiken.
  • Offenlegung: KI kann sensible Informationen, wie durch generative KI-Techniken, offenbaren.
  • Verzerrung: KI kann realistische, aber falsche Inhalte erzeugen, was die Verbreitung von falschen oder irreführenden Informationen erhöht.
  • Offenlegung: KI kann zur unangemessenen Weitergabe von Daten führen, wenn sie aus rohen Daten zusätzliche sensible Informationen ableitet.
  • Erhöhte Zugänglichkeit: KI macht sensible Informationen einer breiteren Öffentlichkeit zugänglich als beabsichtigt.
  • Eindringen: KI-Technologien dringen in den persönlichen Raum oder die Einsamkeit ein, oft durch Überwachungsmaßnahmen.

Dies liest sich ziemlich alarmierend. Es ist wichtig zu beachten, dass diese Taxonomie, zu ihrem Verdienst, die Neigung von generativer KI berücksichtigt, zu halluzinieren – zu generieren und zuversichtlich faktisch ungenaue Informationen zu präsentieren. Dieses Phänomen, obwohl es selten reale Informationen preisgibt, ist auch ein Privatsphärenrisiko. Die Verbreitung von falschen und irreführenden Informationen beeinträchtigt die Privatsphäre des Subjekts auf subtilere Weise als im Falle genauer Informationen, aber sie beeinträchtigt sie dennoch.

Lassen Sie uns zu einigen konkreten Beispielen kommen, wie diese Privatsphärenrisiken im Kontext von tatsächlichen KI-Produkten zum Tragen kommen.

Direkte Interaktionen mit textbasierten generativen KI-Systemen

Der einfachste Fall ist der, der eine direkte Interaktion eines Benutzers mit einem generativen KI-System wie ChatGPT, Midjourney oder Gemini beinhaltet. Die Interaktionen des Benutzers mit vielen dieser Produkte werden protokolliert, gespeichert und für RLHF (Bestärkung aus menschlichem Feedback), überwachtes Anweisungsfeintraining und sogar das Vortraining anderer LLMs verwendet.

Eine Analyse der Datenschutzrichtlinien vieler solcher Dienste zeigt auch andere Datenfreigabetätigkeiten auf, die von ganz unterschiedlichen Zwecken untermauert werden, wie Marketing und Datenvermittlung. Dies ist eine andere Art von Privatsphärenrisiko, das durch generative KI entsteht: Diese Systeme können als riesige Daten-Trichter charakterisiert werden, die Daten sammeln, die von Benutzern bereitgestellt werden, sowie die, die durch ihre Interaktionen mit dem zugrunde liegenden LLM erzeugt werden.

Interaktionen mit eingebetteten generativen KI-Systemen

Einige Benutzer könnten mit generativen KI-Schnittstellen interagieren, die in das Produkt eingebettet sind, das sie angeblich verwenden. Der Benutzer mag wissen, dass er ein “KI”-Feature verwendet, aber er ist weniger wahrscheinlich, sich der Tatsache bewusst zu sein, dass personenbezogene Daten, die mit dem LLM geteilt werden, in die Hände von Entwicklern und Datenhändlern geraten könnten.

Es gibt zwei Grade von Unwissenheit hier: Einige Benutzer erkennen, dass sie mit einem generativen KI-Produkt interagieren; und einige glauben, dass sie das Produkt verwenden, in das die generative KI eingebettet oder zugänglich ist. In beiden Fällen mag der Benutzer (und hat wahrscheinlich) technisch gesehen der Datenschutzrichtlinie und den Nutzungsbedingungen zugestimmt, die mit seiner Interaktion mit dem eingebetteten System verbunden sind.

Andere Partnerschaften, die Benutzer generativen KI-Systemen aussetzen

Einige Unternehmen integrieren oder verwenden generative KI-Schnittstellen in ihrer Software auf weniger offensichtliche Weise, sodass Benutzer mit Drittanbietern interagieren und Informationen teilen, ohne es zu merken. Glücklicherweise ist “KI” zu einem so effektiven Verkaufspunkt geworden, dass es unwahrscheinlich ist, dass ein Unternehmen eine solche Implementierung geheim hält.

Ein weiteres Phänomen in diesem Kontext ist der wachsende Gegenwind, den solche Unternehmen erlebt haben, nachdem sie versucht haben, Benutzer- oder Kundendaten mit generativen KI-Unternehmen wie OpenAI zu teilen. Das Datenentfernungsunternehmen Optery zum Beispiel hat kürzlich eine Entscheidung rückgängig gemacht, Benutzerdaten an OpenAI auf opt-out-Basis zu senden, was bedeutet, dass Benutzer standardmäßig in das Programm eingeschrieben wurden.

Nicht nur haben Kunden ihre Enttäuschung geäußert, sondern das Datenentfernungsangebot des Unternehmens wurde auch prompt von Privacy Guides’ Liste der empfohlenen Datenentfernungsangebote gestrichen. Opterys Verdienst ist es, dass es seine Entscheidung schnell und transparent rückgängig gemacht hat, aber der allgemeine Gegenwind ist hier bedeutsam: Menschen beginnen, die Risiken zu schätzen, die mit dem Teilen von Daten mit “KI”-Unternehmen verbunden sind.

Der Optery-Fall ist hier ein gutes Beispiel, weil seine Benutzer in gewissem Sinne an der Spitze der wachsenden Skepsis gegenüber sogenannten KI-Implementierungen stehen. Die Art von Menschen, die sich für einen Datenentfernungsdienst entscheiden, sind auch typischerweise die, die auf Änderungen in den Nutzungsbedingungen und Datenschutzrichtlinien achten.

Beweise für eine wachsende Gegenreaktion gegen generative KI-Datennutzung

Datenschutzbewusste Verbraucher sind nicht die einzigen, die Bedenken hinsichtlich generativer KI-Systeme und ihrer damit verbundenen Datenschutzrisiken geäußert haben. Auf gesetzgeberischer Ebene hat die EU den Künstliche-Intelligenz-Gesetz, der die Risiken nach ihrer Schwere einstuft, wobei die Datenschutzkriterien in den meisten Fällen ausdrücklich oder stillschweigend für die Zuschreibung der Schwere genannt werden. Das Gesetz behandelt auch die Probleme der informierten Zustimmung, die wir zuvor besprochen haben.

Die USA, die bekanntermaßen langsam sind, umfassende, bundesweite Datenschutzgesetze zu verabschieden, haben zumindest einige Schutzmechanismen dank der Executive Order 14110. Wiederum stehen Datenschutzbedenken im Vordergrund der Zwecke, die für die Order genannt werden: “irresponsible use [of AI technologies] could exacerbate societal harms such as fraud, discrimination, bias, and disinformation” – all dies ist mit der Verfügbarkeit und Verbreitung personenbezogener Daten verbunden.

Zurück auf die Verbraucherebene: Es sind nicht nur besonders datenschutzbewusste Verbraucher, die vor Datenschutz-invasiven generativen KI-Implementierungen zurückschrecken. Microsofts inzwischen berüchtigtes “KI-gestütztes” Recall-Feature, das für sein Windows 11-Betriebssystem bestimmt war, ist ein Beispiel. Als der Umfang der Datenschutz- und Sicherheitsrisiken aufgedeckt wurde, war der Gegenwind groß genug, um den Technologieriesen dazu zu bringen, zurückzurudern. Leider scheint Microsoft nicht aufgegeben zu haben, aber die anfängliche öffentliche Reaktion ist dennoch ermutigend.

Bleiben wir bei Microsoft: Sein Copilot-Programm wurde weithin für sowohl Datenschutz- als auch Datensicherheitsprobleme kritisiert. Da Copilot auf GitHub-Daten (meist Quellcode) trainiert wurde, entstand auch Kontroversen um Microsofts angebliche Verletzungen von Softwarelizenzvereinbarungen von Programmierern und Entwicklern. Es sind Fälle wie dieser, in denen die Grenzen zwischen Datenschutz und geistigen Eigentumsrechten beginnen, sich zu verwischen, und dem Letzteren einen monetären Wert verleihen – etwas, das nicht leicht zu tun ist.

Vielleicht ist der größte Hinweis darauf, dass KI zu einem roten Flaggen in den Augen der Verbraucher wird, die zurückhaltende bis ablehnende öffentliche Reaktion auf Apples erste KI-Start, insbesondere im Hinblick auf Datenfreigabe-Vereinbarungen mit OpenAI.

Die stückweisen Lösungen

Es gibt Schritte, die Gesetzgeber, Entwickler und Unternehmen unternehmen können, um einige der Risiken zu mindern, die durch generative KI entstehen. Diese sind die spezialisierten Lösungen für bestimmte Aspekte des umfassenden Problems, keine dieser Lösungen wird als ausreichend erwartet, aber alle zusammen könnten einen echten Unterschied machen.

  • Datensparsamkeit. Die Minimierung der Menge an gesammelten und gespeicherten Daten ist ein vernünftiges Ziel, aber es steht im direkten Widerspruch zum Wunsch der Entwickler von generativer KI nach Trainingsdaten.
  • Transparenz. Angesichts des aktuellen Standes der Technik im ML ist dies möglicherweise nicht sogar in vielen Fällen technisch machbar. Einblick in die verarbeiteten Daten und wie sie bei der Generierung einer bestimmten Ausgabe verwendet werden, ist eine Möglichkeit, die Privatsphäre in generativen KI-Interaktionen sicherzustellen.
  • Anonymisierung. Alle PII, die nicht aus Trainingsdaten ausgeschlossen werden können (durch Datensparsamkeit), sollten anonymisiert werden. Das Problem ist, dass viele beliebte Anonymisierungs- und Pseudonymisierungstechniken leicht zu überwinden sind.
  • Benutzerzustimmung. Die Anforderung, dass Benutzer der Erfassung und Weitergabe ihrer Daten zustimmen, ist unerlässlich, aber zu anfällig für Missbrauch und zu sehr von Verbraucherträgheit geprägt, um effektiv zu sein. Es ist die informierte Zustimmung, die hier benötigt wird, und die meisten Verbraucher würden, ordnungsgemäß informiert, nicht in eine solche Datenfreigabe einwilligen, also sind die Anreize falsch ausgerichtet.
  • Sicherung von Daten während der Übertragung und in Ruhe. Ein weiterer Grundpfeiler sowohl des Datenschutzes als auch der Datensicherheit, der Schutz von Daten durch kryptografische und andere Mittel kann immer effektiver gemacht werden. Generative KI-Systeme neigen jedoch dazu, Daten durch ihre Schnittstellen zu leaken, was dies nur Teil der Lösung macht.
  • Durchsetzung von Urheberrecht und Immaterialgüterrecht im Kontext von sogenannter KI. ML kann in einer “Black Box” arbeiten, was es schwierig oder sogar unmöglich macht, zu verfolgen, welche urheberrechtlich geschützten Materialien und Immaterialgüter in welche generative KI-Ausgabe gelangen.
  • Prüfungen. Ein weiterer wichtiger Schutzmechanismus, der durch die Black-Box-Natur von LLMs und den generativen KI-Systemen, die sie unterstützen, behindert wird. Dieser inhärente Limitation wird durch die Closed-Source-Natur der meisten generativen KI-Produkte noch verstärkt, was Prüfungen auf solche beschränkt, die vom Entwickler durchgeführt werden.

All diese Ansätze zum Problem sind gültig und notwendig, aber keiner ist ausreichend. Sie alle erfordern gesetzgeberische Unterstützung, um eine bedeutende Wirkung zu erzielen, was bedeutet, dass sie hinter den Zeiten herhinken, während sich dieses dynamische Feld weiterentwickelt.

Die klare Lösung

Die Lösung für die Privatsphärenrisiken, die durch generative KI entstehen, ist weder revolutionär noch aufregend, aber wenn man sie zu ihrem logischen Schluss führt, könnten die Ergebnisse beides sein. Die klare Lösung besteht darin, dass alltägliche Verbraucher sich der Wertschätzung ihrer Daten für Unternehmen und der Unersetzlichkeit von Datenschutz für sich selbst bewusst werden.

Verbraucher sind die Quellen und Motoren hinter den privaten Informationen, die die moderne Überwachungswirtschaft antreiben. Sobald eine kritische Masse von Verbrauchern beginnt, den Fluss privater Daten in die öffentliche Sphäre zu unterbinden und von den Unternehmen, die mit personenbezogenen Daten handeln, Rechenschaft zu fordern, muss das System sich selbst korrigieren.

Das Ermutigende an generativer KI ist, dass sie, im Gegensatz zu aktuellen Werbe- und Marketingmodellen, nicht unbedingt personenbezogene Informationen auf irgendeiner Stufe beinhalten muss. Vor- und Feintrainingsdaten müssen keine PII oder andere personenbezogene Daten enthalten, und Benutzer müssen während ihrer Interaktionen mit generativen KI-Systemen nicht dieselben preisgeben.

Um ihre personenbezogenen Informationen aus Trainingsdaten zu entfernen, können Menschen direkt zur Quelle gehen und ihre Profile von den verschiedenen Datenhändlern (einschließlich Personensuchseiten) entfernen, die öffentliche Aufzeichnungen sammeln und in den Umlauf bringen. Persönliche Datenentfernungs-Dienste automatisieren den Prozess, indem sie ihn schnell und einfach machen. Natürlich hat die Entfernung personenbezogener Daten aus den Datenbanken dieser Unternehmen viele andere Vorteile und keine Nachteile.

Menschen erzeugen auch personenbezogene Daten, wenn sie mit Software interagieren, einschließlich generativer KI. Um den Fluss dieser Daten zu unterbinden, müssen Benutzer vorsichtiger sein und sich bewusst sein, dass ihre Interaktionen aufgezeichnet, überprüft, analysiert und geteilt werden. Ihre Optionen, dies zu vermeiden, beschränken sich darauf, zu beschränken, was sie online-Systemen preisgeben, und auf Geräte, offene LLMs zu verwenden, wo immer möglich. Menschen machen im Allgemeinen bereits eine gute Arbeit, ihre Gespräche in der Öffentlichkeit zu modulieren – wir müssen diese Instinkte nur in den Bereich der generativen KI erweitern.

David Balaban ist ein Computer-Sicherheitsforscher mit über 17 Jahren Erfahrung in der Malware-Analyse und der Bewertung von Antiviren-Software. David leitet die MacSecurity.net und Privacy-PC.com Projekte, die Expertenmeinungen zu zeitgenössischen Informationen über Sicherheitsangelegenheiten präsentieren, einschließlich sozialer Manipulation, Malware, Penetrationstests, Bedrohungsintelligenz, Online-Privatsphäre und White-Hat-Hacking. David hat eine starke Malware-Troubleshooting-Vergangenheit, mit einem aktuellen Fokus auf Gegenmaßnahmen gegen Ransomware.