Vernetzen Sie sich mit uns

Künstliche Intelligenz

Urheberrechtlich geschützte Daten von einem geschulten LLM verlernen – ist das möglich?

mm
Blog-Bild von Copyright-Symbolen

In den Bereichen künstliche Intelligenz (KI) und maschinelles Lernen (ML) zeigen große Sprachmodelle (LLMs) sowohl Erfolge als auch Herausforderungen. Ausgebildet an umfangreichen Textdatensätzen, LLM-Modelle fassen menschliche Sprache und Wissen zusammen.

Doch ihre Fähigkeit, menschliches Verständnis zu absorbieren und nachzuahmen, stellt rechtliche, ethische und technologische Herausforderungen dar. Darüber hinaus können die riesigen Datensätze, die LLMs zugrunde liegen, giftiges Material, urheberrechtlich geschützte Texte, Ungenauigkeiten oder personenbezogene Daten enthalten.

LLMs dazu zu bringen, ausgewählte Daten vergessen zu lassen, ist zu einem dringenden Problem geworden, um die Einhaltung von Gesetzen und ethische Verantwortung sicherzustellen.

Lassen Sie uns das Konzept untersuchen, LLMs dazu zu bringen, urheberrechtlich geschützte Daten zu verlernen, um eine grundlegende Frage zu beantworten: Ist das möglich?

Warum ist LLM-Verlernen erforderlich?

LLMs enthalten oft umstrittene Daten, darunter auch urheberrechtlich geschützte Daten. Der Besitz solcher Daten in LLMs stellt rechtliche Herausforderungen im Zusammenhang mit privaten Informationen, voreingenommenen Informationen, urheberrechtlich geschützten Daten und falschen oder schädlichen Elementen dar.

Daher ist das Verlernen unerlässlich, um sicherzustellen, dass LLMs die Datenschutzbestimmungen einhalten und einhalten Urheberrecht Gesetze, die verantwortungsvolle und ethische LLMs fördern.

Archivbild, das Dateien zu Urheberrechtsgesetzen und IP-Rechten zeigt

Es ist jedoch eine Herausforderung, aus dem umfangreichen Wissen, das diese Modelle erworben haben, urheberrechtlich geschützte Inhalte zu extrahieren. Hier sind einige Verlerntechniken, die helfen können, dieses Problem zu lösen:

  • Datenfilterung: Dabei werden urheberrechtlich geschützte Elemente sowie verrauschte oder verzerrte Daten systematisch aus den Trainingsdaten des Modells identifiziert und entfernt. Beim Filtern können jedoch möglicherweise wertvolle, nicht urheberrechtlich geschützte Informationen verloren gehen.
  • Gradientenmethoden: Diese Methoden passen die Parameter des Modells basierend auf dem Gradienten der Verlustfunktion an und beheben so das Problem urheberrechtlich geschützter Daten in ML-Modellen. Anpassungen können sich jedoch negativ auf die Gesamtleistung des Modells bei nicht urheberrechtlich geschützten Daten auswirken.
  • Verlernen im Kontext: Diese Technik eliminiert effizient die Auswirkungen spezifischer Trainingspunkte auf das Modell, indem seine Parameter aktualisiert werden, ohne dass damit nicht zusammenhängendes Wissen beeinträchtigt wird. Die Methode stößt jedoch bei der Erzielung präziser Ergebnisse auf Einschränkungen Verlernen, insbesondere bei großen Modellen, und seine Wirksamkeit erfordert eine weitere Bewertung.

Diese Techniken sind ressourcenintensiv und zeitaufwändig, was ihre Implementierung schwierig macht.

Case Studies Entdecken

Um die Bedeutung des LLM-Verlernens zu verstehen, zeigen diese realen Fälle, wie Unternehmen mit rechtlichen Herausforderungen im Zusammenhang mit großen Sprachmodellen (LLMs) und urheberrechtlich geschützten Daten konfrontiert sind.

OpenAI-Klagen: OpenAI, ein bekanntes KI-Unternehmen, wurde von zahlreichen Angriffen getroffen Klagen über die Trainingsdaten von LLMs. Diese rechtlichen Schritte stellen die Verwendung von urheberrechtlich geschütztem Material in der LLM-Ausbildung in Frage. Außerdem haben sie Untersuchungen zu den Mechanismen eingeleitet, die Modelle nutzen, um die Erlaubnis für jedes urheberrechtlich geschützte Werk einzuholen, das in ihren Schulungsprozess integriert ist.

Klage gegen Sarah Silverman: Die Lebensdauer eines Fall Sarah Silverman beinhaltet den Vorwurf, dass das ChatGPT-Modell ohne Genehmigung Zusammenfassungen ihrer Bücher erstellt habe. Diese rechtliche Maßnahme unterstreicht die wichtigen Fragen im Hinblick auf die Zukunft von KI und urheberrechtlich geschützten Daten.

Durch die Anpassung der rechtlichen Rahmenbedingungen an den technologischen Fortschritt wird eine verantwortungsvolle und gesetzeskonforme Nutzung von KI-Modellen sichergestellt. Darüber hinaus muss sich die Forschungsgemeinschaft diesen Herausforderungen umfassend stellen, um LLMs ethisch und fair zu gestalten.

Traditionelle LLM-Verlerntechniken

LLM-Verlernen ist wie das Heraustrennen bestimmter Zutaten aus einem komplexen Rezept, um sicherzustellen, dass nur die gewünschten Komponenten zum endgültigen Gericht beitragen. Traditionell LLM-Verlernen Techniken wie die Feinabstimmung mit kuratierten Daten und Umschulungen verfügen nicht über einfache Mechanismen zum Entfernen urheberrechtlich geschützter Daten.

Ihr breit angelegter Ansatz erweist sich für die anspruchsvolle Aufgabe des selektiven Verlernens oft als ineffizient und ressourcenintensiv, da sie eine umfangreiche Umschulung erfordern.

Zwar können mit diesen herkömmlichen Methoden die Parameter des Modells angepasst werden, doch ist es schwierig, urheberrechtlich geschützte Inhalte präzise anzusprechen. Dadurch besteht die Gefahr eines unbeabsichtigten Datenverlusts und einer unzureichenden Einhaltung der Vorschriften.

Folglich erfordern die Einschränkungen traditioneller Techniken und robuster Lösungen das Experimentieren mit alternativen Verlerntechniken.

Neuartige Technik: Verlernen einer Teilmenge von Trainingsdaten

Die Lebensdauer eines Microsoft-Forschungspapier stellt eine bahnbrechende Technik zum Verlernen urheberrechtlich geschützter Daten in LLMs vor. Die Methode konzentriert sich auf das Beispiel des Llama2-7b-Modells und der Harry-Potter-Bücher und umfasst drei Kernkomponenten, um LLM die Welt von Harry Potter vergessen zu lassen. Zu diesen Komponenten gehören:

  • Verstärkte Modellidentifikation: Die Erstellung eines verstärkten Modells erfordert eine Feinabstimmung der Zieldaten (z. B. Harry Potter), um deren Wissen über den zu verlernenden Inhalt zu stärken.
  • Eigenwillige Ausdrücke ersetzen: Einzigartige Harry-Potter-Ausdrücke in den Zieldaten werden durch generische ersetzt, was ein allgemeineres Verständnis erleichtert.
  • Feinabstimmung alternativer Vorhersagen: Das Basismodell wird auf der Grundlage dieser alternativen Vorhersagen einer Feinabstimmung unterzogen. Im Grunde löscht es effektiv den Originaltext aus seinem Gedächtnis, wenn es mit relevantem Kontext konfrontiert wird.

Obwohl sich die Microsoft-Technik noch in einem frühen Stadium befindet und möglicherweise Einschränkungen aufweist, stellt sie einen vielversprechenden Fortschritt in Richtung leistungsfähigerer, ethischerer und anpassungsfähigerer LLMs dar.

Das Ergebnis der neuartigen Technik

Die innovative Methode, um LLMs urheberrechtlich geschützte Daten vergessen zu lassen, wird im vorgestellt Microsoft-Forschungspapier ist ein Schritt hin zu verantwortungsvollen und ethischen Modellen.

Die neuartige Technik besteht darin, Harry-Potter-bezogene Inhalte aus Metas Llama2-7b-Modell zu löschen, das nachweislich mit dem Datensatz „books3“ trainiert wurde, der urheberrechtlich geschützte Werke enthält. Bemerkenswerterweise zeigten die ursprünglichen Antworten des Modells ein tiefes Verständnis von JK Rowlings Universum, selbst bei allgemeinen Eingabeaufforderungen.

Aber, Microsoft's Die vorgeschlagene Technik hat ihre Reaktionen erheblich verändert. Hier sind Beispiele für Eingabeaufforderungen, die die bemerkenswerten Unterschiede zwischen dem ursprünglichen Llama2-7b-Modell und der verfeinerten Version veranschaulichen.

Fein abgestimmter Prompt-Vergleich mit Baseline

Bild-Quelle 

Diese Tabelle zeigt, dass die fein abgestimmten Verlernmodelle ihre Leistung über verschiedene Benchmarks (wie Hellaswag, Winogrande, piqa, boolq und arc) hinweg beibehalten.

Benchmark-Bewertung neuartiger Techniken

Bild-Quelle

Die Bewertungsmethode, die auf Modellaufforderungen und anschließender Antwortanalyse basiert, erweist sich als effektiv, lässt jedoch möglicherweise kompliziertere, kontroversere Methoden zur Informationsextraktion außer Acht.

Obwohl die Technik vielversprechend ist, bedarf es weiterer Forschung zur Verfeinerung und Erweiterung, insbesondere im Hinblick auf die Bewältigung umfassenderer Verlernaufgaben innerhalb von LLMs.

Neuartige Herausforderungen bei der Verlerntechnik

Obwohl die Unlearning-Technik von Microsoft vielversprechend ist, bestehen im Hinblick auf das Urheberrecht von KI mehrere Herausforderungen und Einschränkungen.

Zu den wichtigsten Einschränkungen und Verbesserungsbereichen gehören:

  • Durchsickern von Urheberrechtsinformationen: Die Methode mindert das Risiko möglicherweise nicht vollständig Urheberrechtsinformation Es kann zu Lecks kommen, da das Modell während des Feinabstimmungsprozesses möglicherweise einen Teil des Wissens über den Zielinhalt behält.
  • Auswertung verschiedener Datensätze: Um die Wirksamkeit zu messen, muss die Technik zusätzlich anhand verschiedener Datensätze evaluiert werden, da sich das erste Experiment ausschließlich auf die Harry-Potter-Bücher konzentrierte.
  • Skalierbarkeit: Um die Anwendbarkeit und Anpassungsfähigkeit der Technik in realen Szenarien beurteilen zu können, sind Tests an größeren Datensätzen und komplexeren Sprachmodellen unerlässlich.

Die Zunahme von Rechtsfällen im Zusammenhang mit KI, insbesondere Urheberrechtsklagen gegen LLMs, unterstreicht die Notwendigkeit klarer Richtlinien. Vielversprechende Entwicklungen wie die von Microsoft vorgeschlagene Verlernmethode ebnen den Weg zu ethischer, legaler und verantwortungsvoller KI.

Verpassen Sie nicht die neuesten Nachrichten und Analysen zu KI und ML – besuchen Sie unite.ai mehr Informationen.

Haziqa ist ein Datenwissenschaftler mit umfangreicher Erfahrung im Schreiben technischer Inhalte für KI- und SaaS-Unternehmen.