Andersons Blickwinkel
Aktuelle KI-Praktiken könnten eine neue Generation von Urheberrechts-Trollen ermöglichen

Eine neue Forschungskooperation zwischen Huawei und der Wissenschaft legt nahe, dass ein großer Teil der wichtigsten aktuellen Forschung im Bereich künstlicher Intelligenz und maschinellem Lernen möglicherweise der Gerichtsbarkeit ausgesetzt sein könnte, sobald sie kommerziell bedeutend wird, da die Datensätze, die Durchbrüche ermöglichen, mit ungültigen Lizenzen verteilt werden, die die ursprünglichen Bedingungen der öffentlich zugänglichen Domänen, aus denen die Daten stammen, nicht respektieren.
De facto hat dies zwei fast unvermeidliche mögliche Ergebnisse: dass sehr erfolgreiche, kommerzielle KI-Algorithmen, die bekanntermaßen solche Datensätze verwendet haben, zukünftig das Ziel von opportunistischen Patent-Trollen werden, deren Urheberrechte nicht respektiert wurden, als ihre Daten abgerufen wurden; und dass Organisationen und Einzelpersonen diese gleichen rechtlichen Schwachstellen nutzen können, um die Bereitstellung oder Verbreitung von Machine-Learning-Technologien zu beanstanden, die sie ablehnen.
Die Studie trägt den Titel Kann ich diesen öffentlich verfügbaren Datensatz verwenden, um kommerzielle KI-Software zu erstellen? Wahrscheinlich nicht und ist eine Zusammenarbeit zwischen Huawei Canada und Huawei China, zusammen mit der York University im Vereinigten Königreich und der University of Victoria in Kanada.
Fünf von sechs (beliebten) Open-Source-Datensätzen sind nicht rechtlich nutzbar
Für die Studie baten die Autoren die Abteilungen von Huawei, die wünschenswertesten Open-Source-Datensätze auszuwählen, die sie in kommerziellen Projekten nutzen möchten, und wählten die sechs am häufigsten angeforderten Datensätze aus den Antworten aus: CIFAR-10 (eine Teilmenge des 80 Millionen Tiny Images-Datensatzes, seit zurückgezogen wegen “herabwürdigender Begriffe” und “anstößiger Bilder”, obwohl seine Ableitungen weiterhin verbreitet sind); ImageNet; Cityscapes (der ausschließlich originales Material enthält); FFHQ; VGGFace2, und MSCOCO.
Um zu analysieren, ob die ausgewählten Datensätze für eine legale Verwendung in kommerziellen Projekten geeignet sind, entwickelten die Autoren eine neue Pipeline, um die Lizenzkette so weit wie möglich für jeden Satz zurückzuverfolgen, obwohl sie oft auf Web-Archive-Aufnahmen zurückgreifen mussten, um Lizenzen von inzwischen abgelaufenen Domänen zu finden, und in bestimmten Fällen die Lizenzstatus aus der nächsten verfügbaren Information “erraten” mussten.

Architektur für das von den Autoren entwickelte Provenienz-System. Quelle: https://arxiv.org/pdf/2111.02374.pdf
Die Autoren fanden heraus, dass die Lizenzen für fünf der sechs Datensätze Risiken aufweisen, die mit mindestens einem kommerziellen Nutzungskontext verbunden sind:
‘[Wir] beobachten, dass, mit Ausnahme von MS COCO, keine der untersuchten Lizenzen den Praktikern das Recht gibt, ein KI-Modell zu kommerzialisieren, das auf den Daten trainiert wurde, oder sogar die Ausgabe des trainierten KI-Modells. Ein solches Ergebnis verhindert auch effektiv, dass Praktiker vorgefertigte Modelle verwenden, die auf diesen Datensätzen trainiert wurden. Öffentlich verfügbare Datensätze und KI-Modelle, die auf ihnen vorgefertigt sind, werden weit verbreitet kommerziell genutzt.’ *
Die Autoren weisen weiter darauf hin, dass drei der sechs untersuchten Datensätze zusätzlich zu einer Lizenzverletzung in kommerziellen Produkten führen können, wenn der Datensatz modifiziert wird, da nur MS-COCO dies erlaubt. Doch Datenvergrößerung und Teil- und Obermengen von einflussreichen Datensätzen sind eine gängige Praxis.
Im Fall von CIFAR-10 erstellten die ursprünglichen Kompilierer keine herkömmliche Form von Lizenz, sondern verlangten nur, dass Projekte, die den Datensatz verwenden, eine Zitation des ursprünglichen Artikels enthalten, der den Datensatz begleitete, was ein weiteres Hindernis für die Feststellung des rechtlichen Status der Daten darstellt.
Weiterhin enthält nur der CityScapes-Datensatz Material, das ausschließlich von den Urhebern des Datensatzes generiert wurde, anstatt aus Netzquellen “kuratiert” (abgerufen) zu werden, wobei CIFAR-10 und ImageNet mehrere Quellen verwenden, die jeweils untersucht und zurückverfolgt werden müssten, um irgendeine Art von Urheberrechtsmechanismus (oder sogar eine sinnvolle Haftungsausschlussklausel) festzustellen.
Kein Ausweg
Es gibt drei Faktoren, auf die kommerzielle KI-Unternehmen sich verlassen scheinen, um sich vor Klagen wegen Produkten zu schützen, die urheberrechtlich geschütztes Material aus Datensätzen frei und ohne Erlaubnis genutzt haben, um KI-Algorithmen zu trainieren. Keiner dieser Faktoren bietet viel (oder überhaupt) zuverlässigen langfristigen Schutz:
1: Laissez-Faire-Nationalgesetze
Obwohl Regierungen auf der ganzen Welt gezwungen sind, Gesetze über Datensammlung zu lockern, um nicht im Wettlauf um leistungsfähige KI (die auf große Mengen an realen Daten angewiesen ist, für die reguläre Urheberrechtskonformität und Lizenzierung unrealistisch wären) zurückzufallen, bietet nur die Vereinigten Staaten vollständige Immunität in diesem Zusammenhang, gemäß der Fair-Use-Doktrin – eine Richtlinie, die 2015 mit dem Abschluss des Urheberrechtsstreits zwischen Authors Guild und Google, Inc. ratifiziert wurde, der bestätigte, dass der Suchgigant urheberrechtlich geschütztes Material frei für sein Google-Bücher-Projekt aufnehmen durfte, ohne der Urheberrechtsverletzung beschuldigt zu werden.
Wenn die Fair-Use-Doktrin jemals geändert wird (z. B. als Reaktion auf einen weiteren Grundsatzfall, an dem ausreichend mächtige Organisationen oder Unternehmen beteiligt sind), würde dies wahrscheinlich als a priori Zustand im Hinblick auf die Ausbeutung aktueller urheberrechtsverletzender Datenbanken betrachtet, die frühere Nutzung schützen; nicht jedoch laufende Nutzung und Entwicklung von Systemen, die durch urheberrechtlich geschütztes Material ohne Zustimmung ermöglicht wurden.
Dies stellt den aktuellen Schutz der Fair-Use-Doktrin auf eine sehr vorläufige Basis, und könnte möglicherweise in diesem Szenario etablierte, kommerzielle KI-Algorithmen zwingen, ihre Betrieb einzustellen, wenn ihre Ursprünge durch urheberrechtlich geschütztes Material ermöglicht wurden – selbst in Fällen, in denen das Modell Gewichte jetzt ausschließlich mit erlaubtem Inhalt umgeht, aber auf (und durch) illegal kopiertes Material trainiert wurde.
Außerhalb der USA, wie die Autoren in der neuen Studie feststellen, sind die Richtlinien im Allgemeinen weniger nachsichtig. Die UK und Kanada gewähren nur die Verwendung von urheberrechtlich geschützten Daten für nicht-kommerzielle Zwecke, während das EU-Recht über Text- und Daten-Mining (das nicht vollständig durch die jüngsten Vorschläge für eine formale KI-Regulierung aufgehoben wurde) kommerzielle Ausbeutung für KI-Systeme ebenfalls ausschließt, die den Urheberrechtsanforderungen der ursprünglichen Daten nicht entsprechen.
Diese letztgenannten Vereinbarungen bedeuten, dass eine Organisation Großes mit den Daten anderer erreichen kann, bis – aber nicht einschließlich – dem Punkt, an dem sie daraus Geld verdienen. Zu diesem Zeitpunkt würde das Produkt entweder rechtlich exponiert oder es müssten Vereinbarungen mit buchstäblich Millionen von Urheberrechtsinhabern getroffen werden, von denen viele aufgrund der sich ändernden Natur des Internets nicht mehr auffindbar sind – ein unmögliches und unerschwingliches Vorhaben.
2: Caveat Emptor
In Fällen, in denen verletzende Organisationen hoffen, die Schuld zu verschieben, stellt die neue Studie auch fest, dass viele Lizenzen für die beliebtesten Open-Source-Datensätze sich selbst gegen jegliche Ansprüche von Urheberrechtsmissbrauch freisprechen:
‘Zum Beispiel verlangt die Lizenz von ImageNet ausdrücklich, dass Praktiker die ImageNet-Gruppe gegen alle Ansprüche schadlos halten, die aus der Verwendung des Datensatzes resultieren. Die Datensätze FFHQ, VGGFace2 und MS COCO verlangen, dass der Datensatz, wenn er verteilt oder modifiziert wird, unter der gleichen Lizenz präsentiert wird.’
Effektiv zwingt dies diejenigen, die FOSS-Datensätze verwenden, die Schuld für die Verwendung von urheberrechtlich geschütztem Material zu übernehmen, im Falle einer eventuellen Klage (obwohl es die ursprünglichen Kompilierer in einem Fall, in dem die aktuelle “sichere Hafen”-Kultur kompromittiert ist, nicht unbedingt schützt).
3: Schadlosstellung durch Unsichtbarkeit
Die kooperative Natur der Machine-Learning-Community macht es ziemlich schwierig, korporative Okkultismus zu nutzen, um die Anwesenheit von Algorithmen zu verbergen, die von urheberrechtlich verletzenden Datensätzen profitiert haben. Langfristige kommerzielle Projekte beginnen oft in offenen FOSS-Umgebungen, in denen die Verwendung von Datensätzen eine Angelegenheit von öffentlichen Aufzeichnungen ist, bei GitHub und anderen öffentlich zugänglichen Foren, oder wo die Ursprünge des Projekts in Vorab- oder Peer-Review-Artikeln veröffentlicht wurden.
Selbst wenn dies nicht der Fall ist, ist Modellinversion immer mehr in der Lage, die typischen Merkmale von Datensätzen (oder sogar explizit einige der Quellenmaterialien) aufzudecken, entweder als Beweis oder als ausreichender Verdacht von Urheberrechtsverletzung, um gerichtlich angeordnete Zugang zu der Geschichte der Entwicklung des Algorithmus und Details der in dieser Entwicklung verwendeten Datensätze zu ermöglichen.
Schlussfolgerung
Die Studie zeigt eine chaotische und ad-hoc-Verwendung von urheberrechtlich geschütztem Material, das ohne Erlaubnis abgerufen wurde, und eine Reihe von Lizenzketten, die, wenn man sie logisch bis zum ursprünglichen Ursprung der Daten zurückverfolgt, Verhandlungen mit Tausenden von Urheberrechtsinhabern erfordern würden, deren Arbeit unter dem Schutz von Websites mit einer Vielzahl von Lizenzbedingungen präsentiert wurde, von denen viele abgeleitete kommerzielle Werke ausschließen.
Die Autoren kommen zu dem Schluss:
‘Öffentlich verfügbare Datensätze werden weit verbreitet genutzt, um kommerzielle KI-Software zu erstellen. Man kann dies tun, wenn [und] nur wenn die Lizenz, die mit dem öffentlich verfügbaren Datensatz verbunden ist, das Recht dazu gibt. Es ist jedoch nicht leicht, die Rechte und Pflichten, die in der Lizenz des öffentlich verfügbaren Datensatzes angegeben sind, zu überprüfen. Denn die Lizenz ist manchmal unklar oder möglicherweise ungültig.’
Eine weitere neue Arbeit, betitelt Rechtliche Datensätze erstellen, die am 2. November vom Centre for Computational Law an der Singapore Management University veröffentlicht wurde, betont ebenfalls die Notwendigkeit, dass Datenwissenschaftler erkennen, dass die “Wild-West”-Ära der ad-hoc-Datensammlung zu Ende geht, und spiegelt die Empfehlungen des Huawei-Papiers wider, strengere Gewohnheiten und Methoden zu übernehmen, um sicherzustellen, dass die Nutzung von Datensätzen ein Projekt nicht rechtlichen Konsequenzen aussetzt, wenn die Kultur sich im Laufe der Zeit ändert und die aktuelle globale akademische Aktivität im Machine-Learning-Sektor eine kommerzielle Rendite für Jahre der Investition sucht. Der Autor bemerkt*:
‘[Die] Sammlung von Gesetzen, die ML-Datensätze betreffen, unzureichende Sicherheitsvorkehrungen bietet. Der Entwurf des EU-KI-Gesetzes, wenn und wenn er verabschiedet wird, würde die KI- und Daten-Governance-Landschaft erheblich verändern; andere Gerichtsbarkeiten können mit ihren eigenen Gesetzen folgen. ‘
* Meine Umwandlung von Inline-Zitaten in Hyperlinks












