Connect with us

Künstliche Intelligenz

Unlernen von urheberrechtlich geschützten Daten aus einem trainierten LLM – Ist es möglich?

mm
Blog Image of Copyright Symbols

In den Bereichen künstliche Intelligenz (KI) und maschinelles Lernen (ML) zeigen große Sprachmodelle (LLMs) sowohl Erfolge als auch Herausforderungen. Trainiert auf umfangreichen textbasierten Datensätzen, LLM-Modelle erfassen menschliche Sprache und Wissen.

Yet ihre Fähigkeit, menschliches Verständnis aufzunehmen und nachzuahmen, stellt rechtliche, ethische und technologische Herausforderungen dar. Darüber hinaus können die umfangreichen Datensätze, die LLMs antreiben, giftige Materialien, urheberrechtlich geschützte Texte, Ungenauigkeiten oder persönliche Daten enthalten.

Das Vergessen ausgewählter Daten durch LLMs ist zu einer dringenden Angelegenheit geworden, um die rechtliche Konformität und ethische Verantwortung zu gewährleisten.

Lassen Sie uns das Konzept des Unlernens von urheberrechtlich geschützten Daten durch LLMs erforschen, um eine grundlegende Frage zu beantworten: Ist es möglich?

Warum ist LLM-Unlernen erforderlich?

LLMs enthalten oft umstrittene Daten, einschließlich urheberrechtlich geschützter Daten. Die Anwesenheit solcher Daten in LLMs birgt rechtliche Herausforderungen im Zusammenhang mit privaten Informationen, voreingenommenen Informationen, Urheberrechtsdaten und falschen oder schädlichen Elementen.

Daher ist Unlernen unerlässlich, um sicherzustellen, dass LLMs den Datenschutzbestimmungen entsprechen und den Urheberrechtsgesetzen entsprechen, um verantwortungsvolle und ethische LLMs zu fördern.

Stockbild, das Dateien von Urheberrechtsgesetzen und IP-Rechten darstellt

Allerdings ist es schwierig, urheberrechtlich geschützten Inhalt aus dem umfangreichen Wissen, das diese Modelle erworben haben, zu extrahieren. Hier sind einige Unlern-Techniken, die dazu beitragen können, dieses Problem zu lösen:

  • Datensicherung: Sie beinhaltet die systematische Identifizierung und Entfernung von urheberrechtlich geschützten Elementen, verrauschten oder voreingenommenen Daten aus den Trainingsdaten des Modells. Allerdings kann die Filterung zu einem potenziellen Verlust wertvoller nicht urheberrechtlich geschützter Informationen während des Filterprozesses führen.
  • Gradientenmethoden: Diese Methoden passen die Modellparameter basierend auf dem Gradienten der Verlustfunktion an, um das Problem von urheberrechtlich geschützten Daten in ML-Modellen anzugehen. Allerdings können Anpassungen die Gesamtleistung des Modells auf nicht urheberrechtlich geschützten Daten negativ beeinflussen.
  • Unlernen im Kontext: Diese Technik eliminiert effizient die Auswirkungen spezifischer Trainingspunkte auf das Modell, indem sie seine Parameter ohne Beeinflussung nicht damit zusammenhängender Kenntnisse aktualisiert. Allerdings steht die Methode vor Einschränkungen bei der Erreichung einer präzisen Unlernens, insbesondere bei großen Modellen, und ihre Wirksamkeit erfordert weitere Bewertung.

Diese Techniken sind ressourcenintensiv und zeitaufwändig, was ihre Implementierung erschwert.

Fallstudien

Um die Bedeutung von LLM-Unlernen zu verstehen, heben diese realen Fälle hervor, wie Unternehmen von rechtlichen Herausforderungen im Zusammenhang mit großen Sprachmodellen (LLMs) und urheberrechtlich geschützten Daten heimgesucht werden.

OpenAI-Klagen: OpenAI, ein führendes KI-Unternehmen, wurde von zahlreichen Klagen wegen der Trainingsdaten von LLMs getroffen. Diese rechtlichen Schritte hinterfragen die Verwendung von urheberrechtlich geschütztem Material bei der LLM-Ausbildung. Außerdem haben sie zu Nachforschungen über die Mechanismen geführt, die Modelle verwenden, um die Erlaubnis für jedes urheberrechtlich geschützte Werk zu sichern, das in ihren Trainingsprozess integriert wird.

Sarah Silverman-Klage: Der Sarah Silverman-Fall beinhaltet eine Behauptung, dass das ChatGPT-Modell Zusammenfassungen ihrer Bücher ohne Genehmigung erstellt hat. Diese rechtliche Aktion unterstreicht die wichtigen Fragen im Zusammenhang mit der Zukunft von KI und urheberrechtlich geschützten Daten.

Die Aktualisierung der rechtlichen Rahmenbedingungen, um mit dem technologischen Fortschritt Schritt zu halten, stellt sicher, dass KI-Modelle verantwortungsvoll und rechtlich eingesetzt werden. Darüber hinaus muss die Forschungsgemeinschaft diese Herausforderungen umfassend angehen, um LLMs ethisch und fair zu machen.

Traditionelle LLM-Unlern-Techniken

LLM-Unlernen ist wie das Trennen spezifischer Zutaten aus einem komplexen Rezept, um sicherzustellen, dass nur die gewünschten Komponenten zum Endprodukt beitragen. Traditionelle LLM-Unlern-Techniken, wie Feinabstimmung mit kuratierten Daten und Neuausbildung, verfügen über keine direkten Mechanismen zum Entfernen von urheberrechtlich geschützten Daten.

Ihr breit angelegter Ansatz erweist sich oft als ineffizient und ressourcenintensiv für die anspruchsvolle Aufgabe des selektiven Unlernens, da sie umfangreiche Neuausbildung erfordern.

Während diese traditionellen Methoden die Modellparameter anpassen können, haben sie Schwierigkeiten, urheberrechtlich geschützten Inhalt genau zu zielen, was zu unbeabsichtigtem Datenverlust und suboptimaler Konformität führen kann.

Daher erfordern die Einschränkungen traditioneller Techniken und robuste Lösungen Experimente mit alternativen Unlern-Techniken.

Neue Technik: Unlernen einer Teilmenge der Trainingsdaten

Das Microsoft-Forschungspapier stellt eine bahnbrechende Technik zum Unlernen von urheberrechtlich geschützten Daten in LLMs vor. Mit dem Beispiel des Llama2-7b-Modells und den Harry-Potter-Büchern beinhaltet die Methode drei Kernkomponenten, um LLMs die Welt von Harry Potter vergessen zu lassen. Diese Komponenten umfassen:

  • Verstärkte Modellidentifizierung: Die Erstellung eines verstärkten Modells beinhaltet die Feinabstimmung der Zieldata (z. B. Harry Potter), um sein Wissen über den Inhalt, der ungelernet werden soll, zu stärken.
  • Ersetzen von idiosynkratischen Ausdrücken: Einzigartige Harry-Potter-Ausdrücke in den Zieldata werden durch generische ersetzt, um ein allgemeineres Verständnis zu ermöglichen.
  • Feinabstimmung auf alternative Vorhersagen: Das Basismodell wird auf diese alternativen Vorhersagen feinabgestimmt. Im Wesentlichen löscht es den ursprünglichen Text aus seinem Gedächtnis, wenn es mit relevantem Kontext konfrontiert wird.

Obwohl die Microsoft-Technik noch in den Anfängen steckt und Einschränkungen aufweisen kann, stellt sie eine vielversprechende Entwicklung hin zu leistungsfähigeren, ethischeren und anpassungsfähigeren LLMs dar.

Ergebnis der neuen Technik

Die innovative Methode, LLMs urheberrechtlich geschützten Daten vergessen zu lassen, die im Microsoft-Forschungspapier vorgestellt wird, ist ein Schritt in Richtung verantwortungsvoller und ethischer Modelle.

Die neue Technik beinhaltet das Löschen von Harry-Potter-bezogenen Inhalten aus Metas Llama2-7b-Modell, das bekanntermaßen auf dem “books3”-Datensatz trainiert wurde, der urheberrechtlich geschützte Werke enthält. Bemerkenswerterweise zeigten die ursprünglichen Antworten des Modells ein detailliertes Verständnis von J.K. Rowlings Universum, sogar bei generischen Aufforderungen.

Allerdings verwandelte Microsofts vorgeschlagene Technik seine Antworten erheblich. Hier sind Beispiele für Aufforderungen, die die bemerkenswerten Unterschiede zwischen dem ursprünglichen Llama2-7b-Modell und der feinabgestimmten Version zeigen.

Feinabgestimmte Aufforderungsvergleich mit Baseline

Bildquelle

Diese Tabelle zeigt, dass die feinabgestimmten Unlern-Modelle ihre Leistung über verschiedene Benchmarks (wie Hellaswag, Winogrande, piqa, boolq und arc) hinweg beibehalten.

Neue Technik-Benchmark-Bewertung

Bildquelle

Die Bewertungsmethode, die auf Modell-Aufforderungen und nachfolgender Antwortanalyse basiert, erweist sich als effektiv, aber kann feinere, adversarische Informationsextraktionsmethoden übersehen.

Obwohl die Technik vielversprechend ist, ist weitere Forschung für die Verfeinerung und Erweiterung erforderlich, insbesondere bei der Lösung umfassenderer Unlern-Aufgaben innerhalb von LLMs.

Neue Unlern-Technik-Herausforderungen

Obwohl Microsofts Unlern-Technik vielversprechend ist, gibt es mehrere KI-Urheberrechts-Herausforderungen und Einschränkungen.

Schlüssige Einschränkungen und Bereiche für die Verbesserung umfassen:

  • Lecks von Urheberrechtsinformationen: Die Methode kann das Risiko von Urheberrechtsinformationen nicht vollständig beseitigen, da das Modell einige Kenntnisse des Zielinhalts während des Feinabstimmungsprozesses behalten kann.
  • Bewertung verschiedener Datensätze: Um die Wirksamkeit zu beurteilen, muss die Technik eine weitere Bewertung über verschiedene Datensätze hinweg durchführen, da das erste Experiment sich ausschließlich auf die Harry-Potter-Bücher konzentrierte.
  • Skalierbarkeit: Es ist erforderlich, die Technik auf größeren Datensätzen und komplexeren Sprachmodellen zu testen, um ihre Anwendbarkeit und Anpassungsfähigkeit in realen Szenarien zu bewerten.

Die Zunahme von KI-bezogenen Rechtsfällen, insbesondere Urheberrechtsklagen gegen LLMs, unterstreicht die Notwendigkeit von klaren Richtlinien. Vielversprechende Entwicklungen wie die Unlern-Methode, die von Microsoft vorgeschlagen wird, ebnen den Weg für ethische, rechtliche und verantwortungsvolle KI.

Verpassen Sie nicht die neuesten Nachrichten und Analysen in KI und ML – besuchen Sie unite.ai heute.

Haziqa ist ein Data Scientist mit umfangreicher Erfahrung in der Erstellung von technischem Inhalt für KI- und SaaS-Unternehmen.