Stummel Das Plagiatsproblem: Wie generative KI-Modelle urheberrechtlich geschützte Inhalte reproduzieren – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Das Plagiatsproblem: Wie generative KI-Modelle urheberrechtlich geschützte Inhalte reproduzieren

mm

Veröffentlicht

 on

Plagiat-in-KI

Die rasanten Fortschritte in der generativen KI haben Begeisterung über das kreative Potenzial der Technologie geweckt. Diese leistungsstarken Modelle bergen jedoch auch besorgniserregende Risiken im Zusammenhang mit der Reproduktion urheberrechtlich geschützter oder plagiierter Inhalte ohne ordnungsgemäße Quellenangabe.

Wie neuronale Netze Trainingsdaten absorbieren

Moderne KI-Systeme wie GPT-3 werden durch einen Prozess namens Transferlernen trainiert. Sie erfassen riesige Datensätze aus öffentlichen Quellen wie Websites, Büchern, wissenschaftlichen Arbeiten und mehr. Die Trainingsdaten von GPT-3 umfassten beispielsweise 570 Gigabyte Text. Während des Trainings sucht die KI in diesem riesigen Datenpool nach Mustern und statistischen Zusammenhängen. Es lernt die Zusammenhänge zwischen Wörtern, Sätzen, Absätzen, Sprachstrukturen und anderen Merkmalen.

Dies ermöglicht es der KI, neue kohärente Texte oder Bilder zu generieren, indem sie Sequenzen vorhersagt, die einer bestimmten Eingabe oder Aufforderung wahrscheinlich folgen. Es bedeutet aber auch, dass diese Modelle Inhalte ohne Rücksicht auf Urheberrechte, Namensnennung oder Plagiatsrisiken absorbieren. Dadurch können generative KIs unbeabsichtigt wörtliche Passagen reproduzieren oder urheberrechtlich geschützte Texte aus ihren Trainingskorpora umschreiben.

Wichtige Beispiele für KI-Plagiate

Bedenken hinsichtlich KI-Plagiaten sind seit 2020 nach der Veröffentlichung von GPT deutlich geworden.

Neuere Forschungen haben gezeigt, dass große Sprachmodelle (LLMs) wie GPT-3 umfangreiche wörtliche Passagen aus ihren Trainingsdaten ohne Zitierung reproduzieren können (Nasr et al., 2023; Carlini et al., 2022). Beispielsweise enthüllte eine Klage der New York Times, dass OpenAI-Software Artikel der New York Times nahezu wörtlich generiert (Die New York Times, 2023).

Diese Ergebnisse deuten darauf hin, dass einige generative KI-Systeme möglicherweise unaufgefordert plagiierte Ergebnisse produzieren und damit das Risiko einer Urheberrechtsverletzung bergen. Allerdings bleibt die Prävalenz aufgrund des „Black-Box“-Charakters von LLMs ungewiss. In der Klage der New York Times wird argumentiert, dass solche Ergebnisse einen Verstoß darstellen, der erhebliche Auswirkungen auf die generative KI-Entwicklung haben könnte. Insgesamt deuten die Beweise darauf hin, dass Plagiate ein inhärentes Problem großer neuronaler Netzwerkmodelle sind, das Wachsamkeit und Schutzmaßnahmen erfordert.

Diese Fälle zeigen zwei Schlüsselfaktoren, die das Risiko von KI-Plagiaten beeinflussen:

  1. Modellgröße – Größere Modelle wie GPT-3.5 neigen im Vergleich zu kleineren Modellen eher dazu, wörtliche Textpassagen neu zu generieren. Ihre größeren Trainingsdatensätze erhöhen die Gefährdung durch urheberrechtlich geschütztes Quellmaterial.
  2. Trainingsdaten – Modelle, die mit gecrackten Internetdaten oder urheberrechtlich geschützten Werken (auch wenn sie lizenziert sind) trainiert wurden, neigen eher zum Plagiieren als Modelle, die mit sorgfältig kuratierten Datensätzen trainiert wurden.

Die direkte Messung der Prävalenz plagiierter Ergebnisse ist jedoch eine Herausforderung. Der „Black-Box“-Charakter neuronaler Netze macht es schwierig, diesen Zusammenhang zwischen Trainingsdaten und Modellausgaben vollständig nachzuvollziehen. Die Raten hängen wahrscheinlich stark von der Modellarchitektur, der Qualität des Datensatzes und der schnellen Formulierung ab. Diese Fälle bestätigen jedoch eindeutig, dass es zu einem solchen KI-Plagiat kommt, was entscheidende rechtliche und ethische Auswirkungen hat.

Neue Plagiatserkennungssysteme

Als Reaktion darauf haben Forscher damit begonnen, KI-Systeme zu erforschen, um automatisch Texte und Bilder zu erkennen, die von Modellen generiert und nicht von Menschen erstellt wurden. Forscher von Mila schlugen beispielsweise GenFace vor, das sprachliche Muster analysiert, die auf KI-geschriebenen Text hinweisen. Das Startup Anthropic hat außerdem interne Funktionen zur Plagiatserkennung für seine Konversations-KI Claude entwickelt.

Diese Tools weisen jedoch Einschränkungen auf. Die umfangreichen Trainingsdaten von Modellen wie GPT-3 machen es schwierig, wenn nicht sogar unmöglich, die Originalquellen plagiierter Texte zu ermitteln. Da sich generative Modelle rasch weiterentwickeln, werden robustere Techniken erforderlich sein. Bis dahin bleibt eine manuelle Überprüfung unerlässlich, um potenziell plagiierte oder rechtsverletzende KI-Ausgaben vor der öffentlichen Verwendung zu überprüfen.

Best Practices zur Eindämmung generativer KI-Plagiate

Hier sind einige Best Practices, die sowohl KI-Entwickler als auch Benutzer anwenden können, um das Plagiatsrisiko zu minimieren:

Für KI-Entwickler:

  • Überprüfen Sie Schulungsdatenquellen sorgfältig, um urheberrechtlich geschütztes oder lizenziertes Material ohne entsprechende Genehmigung auszuschließen.
  • Entwickeln Sie strenge Datendokumentations- und Herkunftsverfolgungsverfahren. Erfassen Sie Metadaten wie Lizenzen, Tags, Ersteller usw.
  • Implementieren Sie Tools zur Plagiatserkennung, um risikoreiche Inhalte vor der Veröffentlichung zu kennzeichnen.
  • Stellen Sie Transparenzberichte bereit, in denen die Trainingsdatenquellen, die Lizenzierung und die Herkunft der KI-Ausgaben detailliert beschrieben werden, wenn Bedenken auftreten.
  • Ermöglichen Sie Content-Erstellern die einfache Abmeldung von Trainingsdatensätzen. Kommen Sie Deaktivierungs- oder Ausschlussanfragen schnell nach.

Für generative KI-Benutzer:

  • Überprüfen Sie die Ausgaben gründlich auf potenziell plagiierte oder nicht zugeordnete Passagen, bevor Sie sie in großem Maßstab bereitstellen.
  • Vermeiden Sie es, KI als völlig autonome kreative Systeme zu behandeln. Lassen Sie den endgültigen Inhalt von menschlichen Prüfern prüfen.
  • Bevorzugen Sie die KI-unterstützte menschliche Erstellung gegenüber der Erstellung völlig neuer Inhalte von Grund auf. Verwenden Sie stattdessen Modelle zur Paraphrasierung oder Ideenfindung.
  • Informieren Sie sich vor der Verwendung über die Nutzungsbedingungen, Inhaltsrichtlinien und Plagiatsschutzmaßnahmen des KI-Anbieters. Vermeiden Sie undurchsichtige Modelle.
  • Geben Sie die Quellen deutlich an, wenn trotz aller Bemühungen urheberrechtlich geschütztes Material in der Endausgabe erscheint. Stellen Sie KI-Arbeiten nicht als völlig originell dar.
  • Beschränken Sie die private oder vertrauliche Weitergabe von Ergebnissen, bis das Plagiatsrisiko weiter beurteilt und angegangen werden kann.

Strengere Vorschriften für Trainingsdaten können auch gerechtfertigt sein, da sich generative Modelle weiter ausbreiten. Dies könnte bedeuten, dass die Ersteller eine Opt-in-Einwilligung einholen müssen, bevor ihre Arbeit zu Datensätzen hinzugefügt wird. Es liegt jedoch sowohl bei den Entwicklern als auch bei den Benutzern, ethische KI-Praktiken anzuwenden, die die Rechte der Inhaltsersteller respektieren.

Plagiat in Midjourneys V6 Alpha

Nach begrenzter Aufforderung Das V6-Modell von Midjourney Einige Forscher konnten nahezu identische Bilder zu urheberrechtlich geschützten Filmen, Fernsehsendungen und Videospiel-Screenshots generieren, die wahrscheinlich in den Trainingsdaten enthalten waren.

Von Midjourney erstellte Bilder, die Szenen aus berühmten Filmen und Videospielen ähneln

Von Midjourney erstellte Bilder, die Szenen aus berühmten Filmen und Videospielen ähneln

Diese Experimente bestätigen außerdem, dass selbst hochmoderne visuelle KI-Systeme geschützte Inhalte unwissentlich plagiieren können, wenn die Beschaffung von Trainingsdaten unkontrolliert bleibt. Es unterstreicht die Notwendigkeit von Wachsamkeit, Schutzmaßnahmen und menschlicher Aufsicht beim kommerziellen Einsatz generativer Modelle, um das Risiko von Verstößen zu begrenzen.

Antwort von KI-Unternehmen zu urheberrechtlich geschützten Inhalten

Die Grenzen zwischen menschlicher und KI-Kreativität verschwimmen, was zu komplexen Urheberrechtsfragen führt. Werke, die menschliche und KI-Eingaben vermischen, sind möglicherweise nur in Aspekten urheberrechtlich geschützt, die ausschließlich von Menschen ausgeführt werden.

Das US-amerikanische Urheberrechtsamt verweigerte kürzlich das Urheberrecht an den meisten Aspekten einer Graphic Novel mit KI-Menschen und hielt die KI-Kunst für nicht menschlich. Außerdem wurden Leitlinien herausgegeben, die KI-Systeme von der „Urheberschaft“ ausschließen. Bundesgerichte bestätigten diese Haltung in einem Fall zum Urheberrecht an KI-Kunst.

Unterdessen wird in Gerichtsverfahren ein Verstoß gegen die generative KI geltend gemacht, etwa bei Getty gegen Stability AI und Artists gegen Stability AI. Zwischendurch/Stabilitäts-KI. Aber ohne KI-„Autoren“ fragen sich einige, ob Verletzungsansprüche gelten.

Als Reaktion darauf argumentierten große KI-Unternehmen wie Meta, Google, Microsoft und Apple, dass sie keine Lizenzen benötigen oder Lizenzgebühren zahlen sollten, um KI-Modelle auf urheberrechtlich geschützten Daten zu trainieren.

Hier ist eine Zusammenfassung der wichtigsten Argumente großer KI-Unternehmen als Reaktion auf mögliche neue US-Urheberrechtsvorschriften rund um KI, mit Zitaten:

Meta argumentiert, Die Einführung von Lizenzen zum jetzigen Zeitpunkt würde Chaos verursachen und den Inhabern von Urheberrechten kaum Vorteile bringen.

Google aus aller Welt KI-Training ist vergleichbar mit nicht rechtsverletzenden Handlungen wie dem Lesen eines Buches (Google, 2022).

Microsoft warnt Eine Änderung des Urheberrechts könnte kleine KI-Entwickler benachteiligen.

Apple möchte Urheberrecht: KI-generierter Code, der von menschlichen Entwicklern kontrolliert wird.

Insgesamt lehnen die meisten Unternehmen neue Lizenzvorschriften ab und spielen Bedenken hinsichtlich der Reproduktion geschützter Werke durch KI-Systeme ohne Namensnennung herunter. Diese Haltung ist jedoch angesichts der jüngsten Klagen und Debatten zum Thema KI-Urheberrecht umstritten.

Wege für verantwortungsvolle generative KI-Innovation

Da diese leistungsstarken generativen Modelle immer weiter voranschreiten, ist die Vermeidung von Plagiatsrisiken für die Akzeptanz im Mainstream von entscheidender Bedeutung. Es ist ein mehrgleisiger Ansatz erforderlich:

  • Richtlinienreformen rund um die Transparenz von Trainingsdaten, die Lizenzierung und die Einwilligung des Erstellers.
  • Stärkere Technologien zur Plagiatserkennung und interne Governance durch Entwickler.
  • Stärkeres Bewusstsein der Benutzer für Risiken und Einhaltung ethischer KI-Grundsätze.
  • Klare rechtliche Präzedenzfälle und Rechtsprechung zu Fragen des KI-Urheberrechts.

Mit den richtigen Sicherheitsvorkehrungen kann KI-gestütztes Schaffen ethisch einwandfrei gedeihen. Doch ungeprüfte Plagiatsrisiken könnten das Vertrauen der Öffentlichkeit erheblich untergraben. Die direkte Lösung dieses Problems ist der Schlüssel zur Realisierung des immensen kreativen Potenzials der generativen KI unter Wahrung der Urheberrechte. Um das richtige Gleichgewicht zu erreichen, muss man sich aktiv mit dem blinden Fleck des Plagiats auseinandersetzen, der in der Natur neuronaler Netze liegt. Dadurch wird jedoch sichergestellt, dass diese leistungsstarken Modelle nicht den menschlichen Einfallsreichtum untergraben, den sie fördern wollen.

Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.