Connect with us

Künstliche Intelligenz

Das Plagiatproblem: Wie generative KI-Modelle urheberrechtlich geschütztes Material reproduzieren

mm
plagiarism-in-AI

Die schnellen Fortschritte in der generativen KI haben Begeisterung über das kreative Potenzial der Technologie ausgelöst. Doch diese leistungsstarken Modelle bergen auch besorgniserregende Risiken im Hinblick auf die Reproduktion von urheberrechtlich geschützten oder plagiierten Inhalten ohne ordnungsgemäße Quellenangabe.

Wie neuronale Netze Trainingsdaten aufnehmen

Moderne KI-Systeme wie GPT-3 werden durch ein Verfahren namens Transfer Learning trainiert. Sie nehmen massive Datensätze auf, die aus öffentlichen Quellen wie Websites, Büchern, akademischen Artikeln und mehr stammen. Zum Beispiel umfassten die Trainingsdaten von GPT-3 570 Gigabyte Text. Während des Trainings sucht die KI nach Mustern und statistischen Beziehungen in diesem großen Datensatz. Sie lernt die Korrelationen zwischen Wörtern, Sätzen, Absätzen, Sprachstrukturen und anderen Merkmalen.

Dies ermöglicht es der KI, neue kohärente Texte oder Bilder zu generieren, indem sie Sequenzen vorhersagt, die wahrscheinlich einer gegebenen Eingabe oder einem Prompt folgen. Aber es bedeutet auch, dass diese Modelle Inhalte aufnehmen, ohne Rücksicht auf Urheberrechte, Quellenangaben oder Plagiatrisiken. Als Ergebnis können generative KIs unbeabsichtigt wörtliche Passagen oder paraphrasierte urheberrechtlich geschützte Texte aus ihren Trainingskorpora reproduzieren.

Wichtige Beispiele für KI-Plagiate

Bedenken hinsichtlich KI-Plagiaten sind seit 2020 nach der Veröffentlichung von GPT prominent geworden.

Aktuelle Forschung hat gezeigt, dass große Sprachmodelle (LLMs) wie GPT-3 wesentliche wörtliche Passagen aus ihren Trainingsdaten ohne Zitation reproduzieren können (Nasr et al., 2023; Carlini et al., 2022). Zum Beispiel enthüllte eine Klage von The New York Times, dass OpenAI-Software New-York-Times-Artikel fast wörtlich generierte (The New York Times, 2023).

Diese Ergebnisse deuten darauf hin, dass einige generative KI-Systeme unerwünschte plagiierte Ausgaben produzieren können, was das Risiko von Urheberrechtsverletzungen birgt. Die Häufigkeit bleibt jedoch ungewiss aufgrund der “black box”-Natur von LLMs. Die Klage von The New York Times argumentiert, dass solche Ausgaben eine Verletzung darstellen, was weitreichende Auswirkungen auf die Entwicklung generativer KI haben könnte. Insgesamt deuten die Beweise darauf hin, dass Plagiate ein inhärentes Problem in großen neuronalen Netzen sind, das Wachsamkeit und Schutzmaßnahmen erfordert.

Diese Fälle zeigen zwei wichtige Faktoren, die das Risiko von KI-Plagiaten beeinflussen:

  1. Modellgröße – Größere Modelle wie GPT-3.5 sind eher bereit, wörtliche Textpassagen zu regenerieren, im Vergleich zu kleineren Modellen. Ihre größeren Trainingsdatensätze erhöhen die Exposition gegenüber urheberrechtlich geschütztem Quellenmaterial.
  2. Trainingsdaten – Modelle, die auf gescrapten Internetdaten oder urheberrechtlich geschützten Werken (auch wenn sie lizenziert sind) trainiert werden, sind eher zum Plagiat neigend im Vergleich zu Modellen, die auf sorgfältig kuratierten Datensätzen trainiert werden.

Es ist jedoch schwierig, die Häufigkeit von plagiierten Ausgaben direkt zu messen. Die “black box”-Natur von neuronalen Netzen macht es schwierig, diesen Zusammenhang zwischen Trainingsdaten und Modellausgaben vollständig zu verfolgen. Die Raten hängen wahrscheinlich stark von der Modellarchitektur, der Datensatzqualität und der Promptformulierung ab. Aber diese Fälle bestätigen, dass solche KI-Plagiate unzweifelhaft vorkommen, was kritische rechtliche und ethische Auswirkungen hat.

Aufkommende Plagiatserkennungssysteme

Als Reaktion darauf haben Forscher begonnen, KI-Systeme zu entwickeln, um automatisch Texte und Bilder zu erkennen, die von Modellen generiert wurden, im Vergleich zu solchen, die von Menschen erstellt wurden. Zum Beispiel schlugen Forscher von Mila GenFace vor, das linguistische Muster analysiert, die auf AI-generierten Texten hinweisen. Das Startup Anthropic hat auch interne Plagiatserkennungsfähigkeiten für seine konversationale KI Claude entwickelt.

Diese Tools haben jedoch Einschränkungen. Die massive Trainingsdatenmenge von Modellen wie GPT-3 macht es schwierig, die ursprünglichen Quellen von plagiierten Texten zu identifizieren, wenn nicht gar unmöglich. Robustere Techniken werden benötigt, während generative Modelle weiterhin schnell evolvieren. Bis dahin bleibt die manuelle Überprüfung unerlässlich, um potenziell plagiierte oder verletzende KI-Ausgaben vor der öffentlichen Verwendung zu filtern.

Best Practices zur Minimierung von KI-Plagiaten

Hier sind einige Best Practices, die sowohl KI-Entwickler als auch Benutzer anwenden können, um Plagiatrisiken zu minimieren:

Für KI-Entwickler:

  • Sorgen Sie dafür, dass Trainingsdatenquellen sorgfältig geprüft werden, um urheberrechtlich geschütztes oder lizenziertes Material ohne ordnungsgemäße Genehmigungen auszuschließen.
  • Entwickeln Sie strenge Daten-Dokumentations- und Herkunftsverfolgungsverfahren. Protokollieren Sie Metadaten wie Lizenzen, Tags, Ersteller usw.
  • Implementieren Sie Plagiatserkennungstools, um hochriskante Inhalte vor der Veröffentlichung zu kennzeichnen.
  • Stellen Sie Transparenzberichte bereit, die Trainingsdatenquellen, Lizenzen und Ursprünge von KI-Ausgaben detaillieren, wenn Bedenken auftreten.
  • Ermöglichen Sie es Content-Erstellern, sich leicht von Trainingsdatensätzen auszuschließen. Kommen Sie schnell nach, um Lösch- oder Ausschlussanfragen zu bearbeiten.

Für generative KI-Benutzer:

  • Überprüfen Sie Ausgaben gründlich auf potenziell plagiierte oder unzitierte Passagen, bevor Sie sie im großen Maßstab einsetzen.
  • Behandeln Sie KI nicht als vollständig autonome kreative Systeme. Lassen Sie menschliche Prüfer die endgültigen Inhalte überprüfen.
  • Bevorziehen Sie KI-unterstützte menschliche Kreation gegenüber der Generierung völlig neuer Inhalte. Verwenden Sie Modelle für Paraphrasierung oder Ideenfindung anstelle von völlig neuen Inhalten.
  • Konsultieren Sie die Nutzungsbedingungen, Inhaltsrichtlinien und Plagiatsschutzmaßnahmen des KI-Anbieters, bevor Sie die KI verwenden. Vermeiden Sie undurchsichtige Modelle.
  • Zitieren Sie Quellen klar, wenn urheberrechtlich geschütztes Material in der endgültigen Ausgabe erscheint, trotz aller Bemühungen. Stellen Sie KI-Arbeit nicht als völlig ursprünglich dar.
  • Begrenzen Sie die Weitergabe von Ausgaben auf private oder vertrauliche Verwendung, bis Plagiatrisiken weiter bewertet und angegangen werden können.

Strengere Regulierungen für Trainingsdaten können ebenfalls gerechtfertigt sein, während generative Modelle weiterhin verbreitet werden. Dies könnte die Erfordernis beinhalten, dass Ersteller vor der Aufnahme ihrer Arbeit in Datensätze zustimmen müssen. Die Verantwortung liegt jedoch bei beiden Entwicklern und Benutzern, ethische KI-Praktiken anzuwenden, die die Rechte der Content-Ersteller respektieren.

Plagiate in Midjourneys V6 Alpha

Nach begrenzter Prompting konnten Forscher mit Midjourneys V6-Modell fast identische Bilder zu urheberrechtlich geschützten Filmen, Fernsehsendungen und Videospielscreenshots generieren, die wahrscheinlich in den Trainingsdaten enthalten waren.

Bilder, die von Midjourney erstellt wurden und Szenen aus bekannten Filmen und Videospielen ähneln

Bilder, die von Midjourney erstellt wurden und Szenen aus bekannten Filmen und Videospielen ähneln

Diese Experimente bestätigen weiter, dass sogar state-of-the-art-Visions-KI-Systeme urheberrechtlich geschütztes Material unbewusst plagieren können, wenn die Herkunft der Trainingsdaten unkontrolliert bleibt. Es unterstreicht die Notwendigkeit von Wachsamkeit, Schutzmaßnahmen und menschlicher Überwachung bei der kommerziellen Einsetzung generativer Modelle, um Verletzungsrisiken zu begrenzen.

AI-Unternehmen antworten auf urheberrechtlich geschütztes Material

Die Grenzen zwischen menschlicher und KI-Kreativität werden immer verschwommener, was komplexe Urheberrechtsfragen aufwirft. Werke, die menschliche und KI-Eingaben kombinieren, sind möglicherweise nur in Aspekten urheberrechtlich schützbar, die ausschließlich von Menschen ausgeführt werden.

Das US-Urheberrechtsamt hat kürzlich dem Großteil der Aspekte eines AI-menschlichen Graphic-Novels den Urheberrechtsschutz verweigert, indem es die KI-Kunst als nicht-menschlich einstufte. Es hat auch Richtlinien erlassen, die KI-Systeme von der “Urheberschaft” ausschließen. Bundesgerichte haben diese Haltung in einem Urheberrechtsfall für KI-Kunst bestätigt.

Währenddessen behaupten Klagen, generative KI verletze Urheberrechte, wie zum Beispiel Getty v. Stability AI und Künstler v. Midjourney/Stability AI. Aber ohne “Urheber” von KI fragen einige, ob Verletzungsansprüche anwendbar sind.

Als Reaktion darauf argumentierten große AI-Unternehmen wie Meta, Google, Microsoft und Apple, dass sie keine Lizenzen benötigen oder Urheberrechtsgebühren für die Verwendung von urheberrechtlich geschützten Daten zum Trainieren von KI-Modellen zahlen sollten.

Hier ist eine Zusammenfassung der wichtigsten Argumente von großen AI-Unternehmen als Reaktion auf potenzielle neue US-Urheberrechtsgesetze rund um KI, mit Zitaten:

Meta argumentiert , dass die Einführung von Lizenzen jetzt Chaos verursachen und den Urheberrechtsinhabern wenig Nutzen bringen würde.

Google behauptet , dass das KI-Training analog zu nicht-verletzenden Akten wie dem Lesen eines Buches ist (Google, 2022).

Microsoft warnt , dass eine Änderung des Urheberrechtsgesetzes kleine KI-Entwickler benachteiligen könnte.

Apple möchte Urheberrechte für von Menschen entwickelte KI-generierte Code-Elemente.

Insgesamt lehnen die meisten Unternehmen neue Lizenzauflagen ab und spielen Bedenken hinsichtlich der Reproduktion von urheberrechtlich geschützten Werken durch KI-Systeme ohne Quellenangabe herunter. Dieser Standpunkt ist jedoch umstritten angesichts jüngster KI-Urheberrechtsklagen und Debatten.

Wege für verantwortungsvolle generative KI-Innovation

Da diese leistungsstarken generativen Modelle weiter voranschreiten, ist es entscheidend, Plagiatrisiken zu stopfen, um eine breite Akzeptanz zu erreichen. Ein mehrschichtiger Ansatz ist erforderlich:

  • Politische Reformen im Hinblick auf Transparenz von Trainingsdaten, Lizenzen und Erstellerzustimmung.
  • Stärkere Plagiatserkennungstechnologien und interne Governance durch Entwickler.
  • Größeres Bewusstsein der Benutzer für Risiken und Einhaltung ethischer KI-Prinzipien.
  • Klare rechtliche Präzedenzfälle und Rechtsprechung zu KI-Urheberrechtsfragen.

Mit den richtigen Schutzmaßnahmen kann KI-unterstützte Kreation ethisch gedeihen. Aber unkontrollierte Plagiatrisiken könnten das Vertrauen der Öffentlichkeit erheblich untergraben. Die direkte Bekämpfung dieses Problems ist entscheidend, um das immense kreative Potenzial generativer KI zu realisieren, während die Rechte der Ersteller respektiert werden. Das Erreichen des richtigen Gleichgewichts erfordert, dass das Plagiat-Problem, das in die Natur neuronaler Netze eingebaut ist, aktiv angegangen wird. Aber indem dies getan wird, können diese leistungsstarken Modelle die menschliche Kreativität, die sie zu erweitern suchen, nicht untergraben.

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.