Künstliche Intelligenz

Unlernen von urheberrechtlich geschützten Daten aus einem trainierten LLM – Ist es möglich?

mm
Blog Image of Copyright Symbols

Im Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) zeigen große Sprachmodelle (LLMs) sowohl Erfolge als auch Herausforderungen. Trainiert auf umfangreichen textbasierten Datensätzen, LLM-Modelle verkörpern die menschliche Sprache und das Wissen.

Yet ihre Fähigkeit, menschliches Verständnis aufzunehmen und nachzuahmen, stellt rechtliche, ethische und technische Herausforderungen dar. Darüber hinaus können die umfangreichen Datensätze, die LLMs antreiben, giftige Materialien, urheberrechtlich geschützte Texte, Ungenauigkeiten oder personenbezogene Daten enthalten.

Making LLMs vergessen ausgewählte Daten ist zu einer dringenden Angelegenheit geworden, um die rechtliche Konformität und ethische Verantwortung zu gewährleisten.

Lassen Sie uns das Konzept des Unlernens von urheberrechtlich geschützten Daten aus LLMs erforschen, um eine grundlegende Frage zu beantworten: Ist es möglich?

Warum ist LLM-Unlernen erforderlich?

LLMs enthalten oft umstrittene Daten, einschließlich urheberrechtlich geschützter Daten. Die Anwesenheit solcher Daten in LLMs birgt rechtliche Herausforderungen im Zusammenhang mit privaten Informationen, voreingenommenen Informationen, urheberrechtlich geschützten Daten und falschen oder schädlichen Elementen.

Daher ist Unlernen unerlässlich, um sicherzustellen, dass LLMs den Datenschutzbestimmungen entsprechen und die Urheberrechtsgesetze einhalten, um verantwortungsvolle und ethische LLMs zu fördern.

Stockbild, das Dateien mit Urheberrechtsgesetzen und Immaterialgüterrechten darstellt

Jedoch ist es herausfordernd, urheberrechtlich geschütztes Material aus dem umfangreichen Wissen, das diese Modelle erworben haben, zu extrahieren. Hier sind einige Unlern-Techniken, die dazu beitragen können, dieses Problem zu lösen:

  • Datensicherung: Sie beinhaltet die systematische Identifizierung und Entfernung urheberrechtlich geschützter Elemente, verrauschter oder voreingenommener Daten aus den Trainingsdaten des Modells. Allerdings kann die Filterung zu einem potenziellen Verlust wertvoller nicht urheberrechtlich geschützter Informationen während des Filterprozesses führen.
  • Gradientenmethoden: Diese Methoden passen die Modellparameter basierend auf dem Gradienten der Verlustfunktion an, um das Problem urheberrechtlich geschützter Daten in ML-Modellen anzugehen. Allerdings können die Anpassungen die Gesamtleistung des Modells auf nicht urheberrechtlich geschützten Daten negativ beeinflussen.
  • Unlernen im Kontext: Diese Technik eliminiert effizient die Auswirkungen spezifischer Trainingspunkte auf das Modell, indem sie seine Parameter aktualisiert, ohne das unabhängige Wissen zu beeinflussen. Allerdings hat die Methode Einschränkungen bei der Erreichung einer präzisen Unlernens, insbesondere bei großen Modellen, und ihre Wirksamkeit erfordert weitere Bewertung.

Diese Techniken sind ressourcenintensiv und zeitaufwändig, was ihre Implementierung erschwert.

Fallstudien

Um die Bedeutung des Unlernens von LLMs zu verstehen, heben diese realen Fälle hervor, wie Unternehmen von rechtlichen Herausforderungen im Zusammenhang mit großen Sprachmodellen (LLMs) und urheberrechtlich geschützten Daten heimgesucht werden.

OpenAI-Klagen: OpenAI, ein führendes KI-Unternehmen, wurde von zahlreichen Klagen wegen der Trainingsdaten von LLMs getroffen. Diese rechtlichen Schritte hinterfragen die Verwendung urheberrechtlich geschützten Materials bei der LLM-Trainingsdatenerfassung. Außerdem haben sie zu Nachforschungen über die Mechanismen geführt, die Modelle verwenden, um die Erlaubnis für jedes urheberrechtlich geschützte Werk in ihren Trainingsprozess zu sichern.

Sarah Silverman-Klage: Der Fall Sarah Silverman beinhaltet eine Anschuldigung, dass das ChatGPT-Modell Zusammenfassungen ihrer Bücher ohne Genehmigung erstellt hat. Diese rechtliche Aktion unterstreicht die wichtigen Fragen im Zusammenhang mit der Zukunft von KI und urheberrechtlich geschützten Daten.

Die Aktualisierung der rechtlichen Rahmenbedingungen, um sie mit dem technologischen Fortschritt in Einklang zu bringen, stellt sicher, dass KI-Modelle verantwortungsvoll und rechtlich eingesetzt werden. Darüber hinaus muss die Forschungsgemeinschaft diese Herausforderungen umfassend angehen, um LLMs ethisch und fair zu machen.

Traditionelle LLM-Unlern-Techniken

Das Unlernen von LLMs ist wie das Trennen spezifischer Zutaten aus einem komplexen Rezept, um sicherzustellen, dass nur die gewünschten Komponenten zum Endprodukt beitragen. Traditionelle LLM-Unlern-Techniken, wie Feinabstimmung mit kuratierten Daten und Neuausbildung, haben keine direkten Mechanismen zur Entfernung urheberrechtlich geschützter Daten.

Ihre breite Vorgehensweise erweist sich oft als ineffizient und ressourcenintensiv für die anspruchsvolle Aufgabe des selektiven Unlernens, da sie umfangreiche Neuausbildung erfordern.

Während diese traditionellen Methoden die Modellparameter anpassen können, haben sie Schwierigkeiten, urheberrechtlich geschütztes Material präzise zu identifizieren, und riskieren unbeabsichtigten Datenverlust und suboptimale Konformität.

Daher erfordern die Einschränkungen traditioneller Techniken und robuste Lösungen Experimente mit alternativen Unlern-Techniken.

Neue Technik: Unlernen einer Teilmenge der Trainingsdaten

Der Microsoft-Forschungsbericht stellt eine bahnbrechende Technik zum Unlernen von urheberrechtlich geschützten Daten in LLMs vor. Mit dem Beispiel des Llama2-7b-Modells und den Harry-Potter-Büchern beinhaltet die Methode drei Kernkomponenten, um LLMs die Welt von Harry Potter vergessen zu lassen. Diese Komponenten umfassen:

  • Verstärkte Modellidentifizierung: Die Erstellung eines verstärkten Modells beinhaltet die Feinabstimmung der Zieldata (z. B. Harry Potter), um sein Wissen über den Inhalt zu stärken, der unerlernt werden soll.
  • Ersetzen idiosynkratischer Ausdrücke: Einzigartige Harry-Potter-Ausdrücke in den Zieldata werden durch generische ersetzt, um ein generalisiertes Verständnis zu ermöglichen.
  • Feinabstimmung auf alternative Vorhersagen: Das Basismodell wird basierend auf diesen alternativen Vorhersagen feinabgestimmt. Im Wesentlichen löscht es den ursprünglichen Text aus seinem Gedächtnis, wenn es mit relevantem Kontext konfrontiert wird.

Obwohl die Microsoft-Technik noch in den Anfängen steckt und Einschränkungen aufweisen kann, stellt sie einen vielversprechenden Fortschritt hin zu leistungsfähigeren, ethischeren und anpassungsfähigeren LLMs dar.

Das Ergebnis der neuen Technik

Die innovative Methode, LLMs urheberrechtlich geschütztes Material vergessen zu lassen, die in dem Microsoft-Forschungsbericht vorgestellt wird, ist ein Schritt in Richtung verantwortungsvoller und ethischer Modelle.

Die neue Technik beinhaltet das Löschen von Harry-Potter-bezogenem Inhalt aus Meta’s Llama2-7b-Modell, das bekanntermaßen auf dem “books3”-Datensatz trainiert wurde, der urheberrechtlich geschützte Werke enthält. Bemerkenswerterweise zeigten die ursprünglichen Antworten des Modells ein detailliertes Verständnis des Universums von J.K. Rowling, sogar bei generischen Anfragen.

Microsofts vorgeschlagene Technik hat jedoch die Antworten des Modells erheblich verändert. Hier sind Beispiele für Anfragen, die die bemerkenswerten Unterschiede zwischen dem ursprünglichen Llama2-7b-Modell und der feinabgestimmten Version zeigen.

Feinabgestimmte Anfrage-Vergleich mit Baseline

Bildquelle 

Diese Tabelle zeigt, dass die feinabgestimmten Unlern-Modelle ihre Leistung über verschiedene Benchmarks (wie Hellaswag, Winogrande, piqa, boolq und arc) hinweg beibehalten.

Bewertung der neuen Technik

Bildquelle

Die Bewertungsmethode, die auf Modellanfragen und nachfolgender Antwortanalyse basiert, erweist sich als effektiv, aber kann feinere, adversarische Informationsextraktionsmethoden übersehen.

Obwohl die Technik vielversprechend ist, ist weitere Forschung erforderlich, um sie zu verfeinern und auszuweiten, insbesondere bei der Lösung umfassenderer Unlern-Aufgaben innerhalb von LLMs.

Herausforderungen der neuen Unlern-Technik

Während Microsofts Unlern-Technik vielversprechend ist, gibt es mehrere KI-Urheberrechts-Herausforderungen und Einschränkungen.

Schlüssel-Einschränkungen und Bereiche für Verbesserungen umfassen:

  • Lecks von Urheberrechtsinformationen: Die Methode kann das Risiko von Urheberrechtsinformationen nicht vollständig ausschließen, da das Modell möglicherweise während des Feinabstimmungsprozesses einige Kenntnisse des Zielinhalts behält.
  • Bewertung verschiedener Datensätze: Um die Wirksamkeit zu beurteilen, muss die Technik auf verschiedenen Datensätzen getestet werden, da das erste Experiment sich ausschließlich auf die Harry-Potter-Bücher konzentrierte.
  • Skalierbarkeit: Es ist wichtig, die Technik auf größeren Datensätzen und komplexeren Sprachmodellen zu testen, um ihre Anwendbarkeit und Anpassungsfähigkeit in realen Szenarien zu bewerten.

Der Anstieg von KI-bezogenen Rechtsfällen, insbesondere Urheberrechtsklagen gegen LLMs, unterstreicht die Notwendigkeit klarer Richtlinien. Vielversprechende Entwicklungen wie die von Microsoft vorgeschlagene Unlern-Methode ebnen den Weg für ethische, rechtliche und verantwortungsvolle KI.

Verpassen Sie nicht die neuesten Nachrichten und Analysen zu KI und ML – besuchen Sie unite.ai heute.

Haziqa ist ein Data Scientist mit umfangreicher Erfahrung in der Erstellung von technischem Inhalt für KI- und SaaS-Unternehmen.