Künstliche Intelligenz
Das Plagiatproblem: Wie generative KI-Modelle urheberrechtlich geschütztes Material reproduzieren

Die schnellen Fortschritte in der generativen KI haben Begeisterung über das kreative Potenzial der Technologie ausgelöst. Doch diese leistungsstarken Modelle bergen auch besorgniserregende Risiken im Hinblick auf die Reproduktion von urheberrechtlich geschützten oder plagiierten Inhalten ohne ordnungsgemäße Quellenangabe.
Wie neuronale Netze Trainingsdaten aufnehmen
Moderne KI-Systeme wie GPT-3 werden durch ein Verfahren namens Transfer Learning trainiert. Sie nehmen massive Datensätze auf, die aus öffentlichen Quellen wie Websites, Büchern, akademischen Artikeln und mehr stammen. Zum Beispiel umfassten die Trainingsdaten von GPT-3 570 Gigabyte Text. Während des Trainings sucht die KI nach Mustern und statistischen Beziehungen in diesem riesigen Datenpool. Sie lernt die Korrelationen zwischen Wörtern, Sätzen, Absätzen, Sprachstrukturen und anderen Merkmalen.
Dies ermöglicht es der KI, neue kohärente Texte oder Bilder zu generieren, indem sie Sequenzen vorhersagt, die wahrscheinlich einer gegebenen Eingabe oder einem Prompt folgen. Aber es bedeutet auch, dass diese Modelle Inhalte aufnehmen, ohne Rücksicht auf Urheberrechte, Quellenangaben oder Plagiatrisiken. Als Ergebnis können generative KIs unbeabsichtigt wörtliche Passagen oder paraphrasierte urheberrechtlich geschützte Texte aus ihren Trainingskorpora reproduzieren.
Wichtige Beispiele für KI-Plagiate
Bedenken hinsichtlich KI-Plagiaten sind seit 2020 nach der Veröffentlichung von GPT prominent geworden.
Jüngste Forschungsergebnisse haben gezeigt, dass große Sprachmodelle (LLMs) wie GPT-3 erhebliche wörtliche Passagen aus ihren Trainingsdaten ohne Zitation reproduzieren können (Nasr et al., 2023; Carlini et al., 2022). Zum Beispiel enthüllte eine Klage von The New York Times, dass OpenAI-Software New-York-Times-Artikel fast wörtlich generierte (The New York Times, 2023).
Diese Ergebnisse deuten darauf hin, dass einige generative KI-Systeme unerwünschte plagiierte Ausgaben produzieren können, was das Risiko von Urheberrechtsverletzungen birgt. Allerdings bleibt die Häufigkeit ungewiss aufgrund der “Black-Box”-Natur von LLMs. Die Klage von The New York Times argumentiert, dass solche Ausgaben eine Verletzung darstellen, was erhebliche Auswirkungen auf die Entwicklung generativer KI haben könnte. Insgesamt deuten die Beweise darauf hin, dass Plagiate ein inhärentes Problem in großen neuronalen Netzen sind, das Wachsamkeit und Schutzmaßnahmen erfordert.
Diese Fälle zeigen zwei wichtige Faktoren, die das Risiko von KI-Plagiaten beeinflussen:
- Modellgröße – Größere Modelle wie GPT-3.5 neigen eher dazu, wörtliche Textpassagen zu regenerieren, im Vergleich zu kleineren Modellen. Ihre größeren Trainingsdatensätze erhöhen die Exposition gegenüber urheberrechtlich geschütztem Quellenmaterial.
- Trainingsdaten – Modelle, die auf gesammelten Internetdaten oder urheberrechtlich geschützten Werken (auch wenn sie lizenziert sind) trainiert werden, neigen eher zum Plagiat als Modelle, die auf sorgfältig kuratierten Datensätzen trainiert werden.
Allerdings ist es schwierig, die Häufigkeit von plagiierten Ausgaben direkt zu messen. Die “Black-Box”-Natur von neuronalen Netzen macht es schwierig, diesen Zusammenhang zwischen Trainingsdaten und Modellausgaben vollständig zu verfolgen. Die Raten hängen wahrscheinlich stark von der Modellarchitektur, der Datensatzqualität und der Promptformulierung ab. Aber diese Fälle bestätigen, dass solche KI-Plagiate unzweifelhaft vorkommen, was erhebliche rechtliche und ethische Auswirkungen hat.
Aufkommende Plagiat-Erkennungssysteme
Als Reaktion darauf haben Forscher begonnen, KI-Systeme zu entwickeln, um automatisch Texte und Bilder zu erkennen, die von Modellen generiert wurden, im Vergleich zu von Menschen erstellten. Zum Beispiel haben Forscher bei Mila GenFace vorgeschlagen, das linguistische Muster analysiert, die auf AI-generierten Texten hinweisen. Das Startup Anthropic hat auch interne Plagiat-Erkennungsfähigkeiten für seine konversationale KI Claude entwickelt.
Allerdings haben diese Tools Einschränkungen. Die massive Trainingsdatenmenge von Modellen wie GPT-3 macht es schwierig, die ursprünglichen Quellen von plagiierten Texten genau zu bestimmen, wenn nicht gar unmöglich. Stärkere Techniken werden benötigt, während generative Modelle weiterhin schnell evolvieren. Bis dahin bleibt die manuelle Überprüfung unerlässlich, um potenziell plagiierte oder verletzende KI-Ausgaben vor der öffentlichen Verwendung zu filtern.
Best Practices zur Minimierung von KI-Plagiaten
Hier sind einige Best Practices, die sowohl KI-Entwickler als auch Nutzer anwenden können, um Plagiatrisiken zu minimieren:
Für KI-Entwickler:
- Sorgen Sie dafür, dass Trainingsdatenquellen sorgfältig geprüft werden, um urheberrechtlich geschütztes oder lizenziertes Material ohne ordnungsgemäße Genehmigungen auszuschließen.
- Entwickeln Sie strenge Daten-Dokumentation und Provenienz-Verfolgungsverfahren. Protokollieren Sie Metadaten wie Lizenzen, Tags, Ersteller usw.
- Implementieren Sie Plagiat-Erkennungstools, um hochriskante Inhalte vor der Veröffentlichung zu markieren.
- Stellen Sie Transparenzberichte bereit, die Trainingsdatenquellen, Lizenzen und Ursprünge von KI-Ausgaben bei Bedenken erläutern.
- Ermöglichen Sie es Content-Erstellern, sich leicht von Trainingsdatensätzen auszuschließen. Kommen Sie schnell nach, um Lösch- oder Ausschlussanfragen zu bearbeiten.
Für generative KI-Nutzer:
- Überprüfen Sie Ausgaben gründlich auf möglicherweise plagiierte oder unzitierte Passagen, bevor Sie sie im großen Maßstab einsetzen.
- Behandeln Sie KI nicht als vollständig autonome kreative Systeme. Lassen Sie menschliche Prüfer die endgültigen Inhalte überprüfen.
- Favorisieren Sie KI-unterstützte menschliche Kreation gegenüber der Erstellung vollständig neuer Inhalte von Grund auf. Verwenden Sie Modelle für Paraphrasierung oder Ideenfindung anstelle von Neuerstellung.
- Konsultieren Sie die Nutzungsbedingungen, Inhaltsrichtlinien und Plagiat-Schutzmaßnahmen des KI-Anbieters vor der Verwendung. Vermeiden Sie undurchsichtige Modelle.
- Zitieren Sie Quellen klar, wenn urheberrechtlich geschütztes Material in der endgültigen Ausgabe erscheint, trotz bester Bemühungen. Stellen Sie KI-Arbeit nicht als vollständig original dar.
- Begrenzen Sie die Weitergabe von Ausgaben auf private oder vertrauliche Kreise, bis Plagiatrisiken weiter bewertet und angegangen werden können.
Strengere Regulierungen für Trainingsdaten können ebenfalls gerechtfertigt sein, während generative Modelle weiter verbreitet werden. Dies könnte die Erfordernis umfassen, dass Ersteller vor der Aufnahme ihrer Arbeit in Datensätze zustimmen müssen. Die Verantwortung liegt jedoch bei beiden Entwicklern und Nutzern, ethische KI-Praktiken anzuwenden, die die Rechte von Content-Erstellern respektieren.
Plagiate in Midjourneys V6 Alpha
Nach begrenzter Prompting Midjourneys V6-Modell konnten einige Forscher fast identische Bilder zu urheberrechtlich geschützten Filmen, Fernsehsendungen und Videospielscreenshots generieren, die wahrscheinlich in den Trainingsdaten enthalten waren.
Diese Experimente bestätigen weiter, dass sogar state-of-the-art-Visions-KI-Systeme urheberrechtlich geschütztes Material unbewusst plagiieren können, wenn die Quellen von Trainingsdaten unkontrolliert bleiben. Es unterstreicht die Notwendigkeit von Wachsamkeit, Schutzmaßnahmen und menschlicher Aufsicht bei der kommerziellen Einsetzung generativer Modelle, um Verletzungsrisiken zu begrenzen.
AI-Unternehmen reagieren auf urheberrechtlich geschütztes Material
Die Grenzen zwischen menschlicher und KI-Kreativität verschwimmen, was komplexe Urheberrechtsfragen aufwirft. Werke, die menschliche und KI-Eingaben kombinieren, sind möglicherweise nur in Aspekten urheberrechtlich geschützt, die ausschließlich von Menschen ausgeführt werden.
Das US-Urheberrechtsamt hat kürzlich dem Großteil eines AI-menschlichen Graphic-Novels den Urheberrechtsschutz verweigert, indem es die KI-Kunst als nicht-menschlich einstufte. Es hat auch Richtlinien erlassen, die KI-Systeme von der “Urheberschaft” ausschließen. Bundesgerichte haben diese Haltung in einem Urheberrechtsfall für KI-Kunst bestätigt.
Währenddessen behaupten Klagen, dass generative KI-Modelle wie DALL-E Urheberrechtsverletzungen begehen, wie Getty v. Stability AI und Künstler v. Midjourney/Stability AI. Aber ohne “Urheber” von KI-Werken stellen sich einige die Frage, ob Verletzungsansprüche anwendbar sind.
Als Reaktion darauf argumentieren große KI-Unternehmen wie Meta, Google, Microsoft und Apple, dass sie keine Lizenzen benötigen oder Urheberrechtsgebühren zahlen sollten, um KI-Modelle auf urheberrechtlich geschützten Daten zu trainieren.
Hier ist eine Zusammenfassung der wichtigsten Argumente von großen KI-Unternehmen als Reaktion auf potenzielle neue US-Urheberrechtsgesetze rund um KI, mit Zitaten:
Meta argumentiert dass die Einführung von Lizenzen jetzt Chaos verursachen und den Urheberrechtsinhabern wenig Nutzen bringen würde.
Google behauptet dass das KI-Training analog zu nicht-verletzenden Akten wie dem Lesen eines Buches ist (Google, 2022).
Microsoft warnt dass eine Änderung des Urheberrechtsgesetzes kleine KI-Entwickler benachteiligen könnte.
Apple möchte urheberrechtlich geschützten Code kontrollieren, der von menschlichen Entwicklern gesteuert wird.
Insgesamt lehnen die meisten Unternehmen neue Lizenzauflagen ab und bagatellisieren Bedenken hinsichtlich der Reproduktion von urheberrechtlich geschützten Werken durch KI-Systeme ohne Quellenangabe. Allerdings ist diese Haltung umstritten angesichts jüngster KI-Urheberrechtsklagen und Debatten.
Wege für verantwortungsvolle generative KI-Innovation
Während diese leistungsstarken generativen Modelle weiter voranschreiten, ist es entscheidend, Plagiatrisiken zu stopfen, um eine breite Akzeptanz zu erreichen. Ein mehrschichtiger Ansatz ist erforderlich:
- Politische Reformen im Hinblick auf Transparenz von Trainingsdaten, Lizenzen und Erstellerzustimmung.
- Stärkere Plagiat-Erkennungstechnologien und interne Governance durch Entwickler.
- Größeres Bewusstsein der Nutzer für Risiken und Einhaltung ethischer KI-Prinzipien.
- Klare rechtliche Präzedenzfälle und Rechtsprechung zu KI-Urheberrechtsfragen.
Mit den richtigen Schutzmaßnahmen kann KI-unterstützte Kreation ethisch gedeihen. Aber unkontrollierte Plagiatrisiken könnten das Vertrauen der Öffentlichkeit erheblich untergraben. Die direkte Bekämpfung dieses Problems ist entscheidend, um das immense kreative Potenzial generativer KI zu realisieren, während die Rechte der Ersteller respektiert werden. Das Erreichen des richtigen Gleichgewichts erfordert, dass man sich aktiv dem Plagiat-Blindpunkt widmet, der in die Natur von neuronalen Netzen eingebaut ist. Aber wenn man dies tut, stellt man sicher, dass diese leistungsstarken Modelle nicht die menschliche Ingeniosität untergraben, die sie zu verstärken suchen.







