Künstliche Intelligenz

Urheberrechtlich geschützte Daten von einem geschulten LLM verlernen – ist das möglich?

Veröffentlicht

3 Monate her

23. Januar 2024

In den Bereichen künstliche Intelligenz (KI) und maschinelles Lernen (ML) zeigen große Sprachmodelle (LLMs) sowohl Erfolge als auch Herausforderungen. Ausgebildet an umfangreichen Textdatensätzen, LLM-Modelle fassen menschliche Sprache und Wissen zusammen.

Doch ihre Fähigkeit, menschliches Verständnis zu absorbieren und nachzuahmen, stellt rechtliche, ethische und technologische Herausforderungen dar. Darüber hinaus können die riesigen Datensätze, die LLMs zugrunde liegen, giftiges Material, urheberrechtlich geschützte Texte, Ungenauigkeiten oder personenbezogene Daten enthalten.

LLMs dazu zu bringen, ausgewählte Daten vergessen zu lassen, ist zu einem dringenden Problem geworden, um die Einhaltung von Gesetzen und ethische Verantwortung sicherzustellen.

Lassen Sie uns das Konzept untersuchen, LLMs dazu zu bringen, urheberrechtlich geschützte Daten zu verlernen, um eine grundlegende Frage zu beantworten: Ist das möglich?

Warum ist LLM-Verlernen erforderlich?

LLMs enthalten oft umstrittene Daten, darunter auch urheberrechtlich geschützte Daten. Der Besitz solcher Daten in LLMs stellt rechtliche Herausforderungen im Zusammenhang mit privaten Informationen, voreingenommenen Informationen, urheberrechtlich geschützten Daten und falschen oder schädlichen Elementen dar.

Daher ist das Verlernen unerlässlich, um sicherzustellen, dass LLMs die Datenschutzbestimmungen einhalten und einhalten Urheberrecht Gesetze, die verantwortungsvolle und ethische LLMs fördern.

Es ist jedoch eine Herausforderung, aus dem umfangreichen Wissen, das diese Modelle erworben haben, urheberrechtlich geschützte Inhalte zu extrahieren. Hier sind einige Verlerntechniken, die helfen können, dieses Problem zu lösen:

Datenfilterung: Dabei geht es darum, urheberrechtlich geschützte Elemente sowie verrauschte oder verzerrte Daten systematisch aus den Trainingsdaten des Modells zu identifizieren und zu entfernen. Das Filtern kann jedoch dazu führen, dass während des Filtervorgangs möglicherweise wertvolle, nicht urheberrechtlich geschützte Informationen verloren gehen.
Gradientenmethoden: Diese Methoden passen die Parameter des Modells basierend auf dem Gradienten der Verlustfunktion an und beheben so das Problem urheberrechtlich geschützter Daten in ML-Modellen. Allerdings können sich Anpassungen negativ auf die Gesamtleistung des Modells bei nicht urheberrechtlich geschützten Daten auswirken.
Verlernen im Kontext: Diese Technik eliminiert effizient die Auswirkungen spezifischer Trainingspunkte auf das Modell, indem seine Parameter aktualisiert werden, ohne dass damit nicht zusammenhängendes Wissen beeinträchtigt wird. Die Methode stößt jedoch bei der Erzielung präziser Ergebnisse auf Einschränkungen Verlernen, insbesondere bei großen Modellen, und seine Wirksamkeit erfordert eine weitere Bewertung.

Diese Techniken sind ressourcenintensiv und zeitaufwändig, was ihre Implementierung schwierig macht.

Case Studies

Um die Bedeutung des LLM-Verlernens zu verstehen, zeigen diese realen Fälle, wie Unternehmen mit rechtlichen Herausforderungen im Zusammenhang mit großen Sprachmodellen (LLMs) und urheberrechtlich geschützten Daten konfrontiert sind.

OpenAI-Klagen: OpenAI, ein bekanntes KI-Unternehmen, wurde von zahlreichen Angriffen getroffen Klagen über die Trainingsdaten von LLMs. Diese rechtlichen Schritte stellen die Verwendung von urheberrechtlich geschütztem Material in der LLM-Ausbildung in Frage. Außerdem haben sie Untersuchungen zu den Mechanismen eingeleitet, die Modelle nutzen, um die Erlaubnis für jedes urheberrechtlich geschützte Werk einzuholen, das in ihren Schulungsprozess integriert ist.

Klage gegen Sarah Silverman: Das Fall Sarah Silverman beinhaltet den Vorwurf, dass das ChatGPT-Modell ohne Genehmigung Zusammenfassungen ihrer Bücher erstellt habe. Diese rechtliche Maßnahme unterstreicht die wichtigen Fragen im Hinblick auf die Zukunft von KI und urheberrechtlich geschützten Daten.

Durch die Anpassung der rechtlichen Rahmenbedingungen an den technologischen Fortschritt wird eine verantwortungsvolle und gesetzeskonforme Nutzung von KI-Modellen sichergestellt. Darüber hinaus muss sich die Forschungsgemeinschaft diesen Herausforderungen umfassend stellen, um LLMs ethisch und fair zu gestalten.

Traditionelle LLM-Verlerntechniken

LLM-Verlernen ist wie das Heraustrennen bestimmter Zutaten aus einem komplexen Rezept, um sicherzustellen, dass nur die gewünschten Komponenten zum endgültigen Gericht beitragen. Traditionell LLM-Verlernen Techniken wie die Feinabstimmung mit kuratierten Daten und Umschulungen verfügen nicht über einfache Mechanismen zum Entfernen urheberrechtlich geschützter Daten.

Ihr breit angelegter Ansatz erweist sich für die anspruchsvolle Aufgabe des selektiven Verlernens oft als ineffizient und ressourcenintensiv, da sie eine umfangreiche Umschulung erfordern.

Während diese herkömmlichen Methoden die Parameter des Modells anpassen können, haben sie Schwierigkeiten, urheberrechtlich geschützte Inhalte gezielt anzusprechen, wodurch das Risiko eines unbeabsichtigten Datenverlusts und einer suboptimalen Compliance besteht.

Folglich erfordern die Einschränkungen traditioneller Techniken und robuster Lösungen das Experimentieren mit alternativen Verlerntechniken.

Neuartige Technik: Verlernen einer Teilmenge von Trainingsdaten

Das Microsoft-Forschungspapier stellt eine bahnbrechende Technik zum Verlernen urheberrechtlich geschützter Daten in LLMs vor. Die Methode konzentriert sich auf das Beispiel des Llama2-7b-Modells und der Harry-Potter-Bücher und umfasst drei Kernkomponenten, um LLM die Welt von Harry Potter vergessen zu lassen. Zu diesen Komponenten gehören:

Verstärkte Modellidentifikation: Die Erstellung eines verstärkten Modells erfordert eine Feinabstimmung der Zieldaten (z. B. Harry Potter), um deren Wissen über den zu verlernenden Inhalt zu stärken.
Eigenwillige Ausdrücke ersetzen: Einzigartige Harry-Potter-Ausdrücke in den Zieldaten werden durch generische ersetzt, was ein allgemeineres Verständnis erleichtert.
Feinabstimmung alternativer Vorhersagen: Das Basismodell wird auf der Grundlage dieser alternativen Vorhersagen einer Feinabstimmung unterzogen. Im Grunde löscht es effektiv den Originaltext aus seinem Gedächtnis, wenn es mit relevantem Kontext konfrontiert wird.

Obwohl sich die Microsoft-Technik noch in einem frühen Stadium befindet und möglicherweise Einschränkungen aufweist, stellt sie einen vielversprechenden Fortschritt in Richtung leistungsfähigerer, ethischerer und anpassungsfähigerer LLMs dar.

Das Ergebnis der neuartigen Technik

Die innovative Methode, um LLMs urheberrechtlich geschützte Daten vergessen zu lassen, wird im vorgestellt Microsoft-Forschungspapier ist ein Schritt hin zu verantwortungsvollen und ethischen Modellen.

Die neuartige Technik beinhaltet das Löschen von Harry-Potter-bezogenen Inhalten aus Metas Llama2-7b-Modell, das bekanntermaßen auf dem Datensatz „books3“ mit urheberrechtlich geschützten Werken trainiert wurde. Bemerkenswert ist, dass die ursprünglichen Antworten des Modells ein umfassendes Verständnis des Universums von JK Rowling zeigten, selbst mit generischen Aufforderungen.

Aber, Microsoft's Die vorgeschlagene Technik hat ihre Reaktionen erheblich verändert. Hier sind Beispiele für Eingabeaufforderungen, die die bemerkenswerten Unterschiede zwischen dem ursprünglichen Llama2-7b-Modell und der verfeinerten Version veranschaulichen.

Bild-Quelle

Diese Tabelle zeigt, dass die fein abgestimmten Verlernmodelle ihre Leistung über verschiedene Benchmarks (wie Hellaswag, Winogrande, piqa, boolq und arc) hinweg beibehalten.

Bild-Quelle

Die Bewertungsmethode, die auf Modellaufforderungen und anschließender Antwortanalyse basiert, erweist sich als effektiv, lässt jedoch möglicherweise kompliziertere, kontroversere Methoden zur Informationsextraktion außer Acht.

Obwohl die Technik vielversprechend ist, bedarf es weiterer Forschung zur Verfeinerung und Erweiterung, insbesondere im Hinblick auf die Bewältigung umfassenderer Verlernaufgaben innerhalb von LLMs.

Neuartige Herausforderungen bei der Verlerntechnik

Während die Verlerntechnik von Microsoft vielversprechend ist, gibt es mehrere Herausforderungen und Einschränkungen im Bereich des KI-Urheberrechts.

Zu den wichtigsten Einschränkungen und Verbesserungsbereichen gehören:

Durchsickern von Urheberrechtsinformationen: Die Methode mindert das Risiko möglicherweise nicht vollständig Urheberrechtsinformation Es kann zu Lecks kommen, da das Modell während des Feinabstimmungsprozesses möglicherweise einen Teil des Wissens über den Zielinhalt behält.
Auswertung verschiedener Datensätze: Um die Wirksamkeit zu messen, muss die Technik zusätzlich anhand verschiedener Datensätze evaluiert werden, da sich das erste Experiment ausschließlich auf die Harry-Potter-Bücher konzentrierte.
Skalierbarkeit: Tests an größeren Datensätzen und komplexeren Sprachmodellen sind unbedingt erforderlich, um die Anwendbarkeit und Anpassungsfähigkeit der Technik in realen Szenarien zu beurteilen.

Die Zunahme von Rechtsfällen im Zusammenhang mit KI, insbesondere Urheberrechtsklagen gegen LLMs, unterstreicht die Notwendigkeit klarer Richtlinien. Vielversprechende Entwicklungen wie die von Microsoft vorgeschlagene Verlernmethode ebnen den Weg zu ethischer, legaler und verantwortungsvoller KI.

Verpassen Sie nicht die neuesten Nachrichten und Analysen zu KI und ML – besuchen Sie uns unite.ai heute.