Andersons Blickwinkel
IP-Washing-Methoden in KI

Wenn es einen rechtlichen Vergeltungsangriff über die Verwendung von geistigem Eigentum bei der Ausbildung von KI gibt, gibt es auch mehrere Methoden, um eine solche Verwendung zu verschleiern.
Meinung Die derzeitige, rasch voranschreitende Revolution in generativer KI entfaltet sich in der rechtlich prekärsten Umgebung, die jede transformative technologische Entwicklung seit dem 19. Jahrhundert begleitet hat.
Bis vor 3-4 Jahren genoss die Maschinenlernforschungsgemeinschaft eine stillschweigende (oft explizite) Erlaubnis, urheberrechtlich geschütztes Material bei der Entwicklung neuer Systeme auszunutzen; da diese Systeme noch nicht erfolgreich waren, im Sinne von reif oder kommerziell tragfähig, waren die Ergebnisse in jedem Sinne akademisch.
In diesem Zeitraum signalisierte der plötzliche Erfolg einer neuen Generation von diffusionbasierten Large Language Models (LLMs, wie ChatGPT und Claude) und Vision-Language-Modellen (VLMs, wie Sora) , dass diese abstrakten und bisher “harmlosen” Forschungsstränge sich zu kommerzieller Tragfähigkeit entwickelt hatten und ihre “Freifahrtschein”-Ära, was die Ausnutzung von geistigem Eigentum anderer betraf, überwunden hatten.
Von nun an würden Rechteinhaber eine Beteiligung an den Früchten von KI-Systemen fordern, die größtenteils oder teilweise auf ihren urheberrechtlich geschützten Daten trainiert wurden, was zu einer anhaltenden Lawine von Rechtsfällen führte, die einige Anstrengung erfordert, um sie nur zu verfolgen.

Hier begrenzt nur auf in den USA eingereichte Fälle, treten neue Fälle in den Vereinigten Staaten und darüber hinaus mit atemberaubender Geschwindigkeit auf. Quelle
Mandat für ein “kostenloses Mittagessen”
Die finanzielle Verpflichtung derzeit im Gange in Bezug auf AI-Infrastruktur wurde von einigen Stimmen als Versuch positioniert, “urheberrechtlich gefährdete” KI so tief in die Wirtschaft der Gesellschaft zu verankern, dass sie nicht nur “zu groß, um zu scheitern”, sondern auch “zu mächtig, um verklagt zu werden” wird – oder zumindest so mächtig, dass erfolgreiche Klagen nicht zugelassen werden könnten, die Revolution zu stören.
In dieser allgemeinen Richtung verpflichtet der derzeitige Präsident der Vereinigten Staaten seine Meinung in die Politik seine Ansicht, dass ‘Man nicht erwarten kann, ein erfolgreiches KI-Programm zu haben, wenn man für jeden einzelnen Artikel, jedes Buch oder alles andere, was man gelesen oder studiert hat, bezahlen muss’.
Wirklich? Nichts Ähnliches oder Vergleichbares ist im westlichen industriellen Zeitalter vorgekommen, und dies stellt eine Bewegung dar, die sich stark gegen die traditionelle US-Kultur von Klagen und Wiedergutmachung reibt; vielleicht sind die nächsten ähnlichen Positionen die obligatorische Verjährung von Medikamentenpatenten nach 20 Jahren (die selbst häufig angegriffen wird), und die Einschränkung der Erwartungen an Privatsphäre in öffentlichen Orten.
Jedoch ändern sich die Zeiten; in Abwesenheit jeglicher Garantie, dass die derzeitige Tendenz zu “Eminent Domain” gegen urheberrechtliche Schutzmaßnahmen nicht versagen oder später umgekehrt wird, gibt es mehrere sekundäre Ansätze, die in der Entwicklung von KI-Systemen und der Behandlung der umstrittenen Trainingsdaten, die sie antreiben, zur Standardpraxis werden.
Datensätze per Proxy
Ein Ansatz dieser Art ähnelt der (nicht immer erfolgreichen) Verteidigung von Torrent-Listen-Seiten, die behaupten, dass sie tatsächlich kein umstrittenes Material hosten – oder überhaupt irgendein Material.
Abgesehen von der Vermeidung der Notwendigkeit, große Mengen an minimally komprimierbaren Bild- oder Videodaten zu speichern und bereitzustellen, ermöglichen Sammlungen dieser Art eine schnelle Aktualisierung – wie die Entfernung von Material auf Anfrage der Urheberrechtsinhaber – und Versionierung.
Genau wie Torrents nur Wegweiser zu Orten sind, an denen urheberrechtlich geschütztes Material gefunden werden kann, sind eine Reihe von hoch einflussreichen Datensätzen in sich selbst nur “Zeiger”-Listen von existierendem Datenmaterial; wenn der Endbenutzer diese Listen als Download-Liste für seinen eigenen Datensatz verwenden möchte, liegt dies in der Verantwortung des Kurators.
Zu diesen gehören Google Researchs Conceptual 12M-Datensatz, der Bildunterschriften bereitstellt, aber nur auf Orte im Internet verweist, an denen diese Bilder existieren (oder zum Zeitpunkt der Kuratierung existierten):

Zwei Beispiele aus Google Researchs Conceptual 12M-Kuratierung. Quelle
Ein weiteres prominentes Beispiel, das nun einen gültigen Anspruch auf Reverenz in der Geschichte der KI hat, ist der LAION-Datensatz, der den Aufstieg des Stable-Diffusion-Generierungs-Systems im Jahr 2022 ermöglichte – das erste solche Framework, das leistungsfähige Open-Source-Generierungs-Bilder an Endbenutzer anbietet, während proprietäre Systeme scheinbar darauf aus waren, solche Dienste als rein abgegrenzten, kommerziellen Bereich zu etablieren:

Eine der vielen Varianten des LAION-Projekts, mit modernen und urheberrechtlich geschützten Kunstwerken. Quelle
In vielen Fällen zeigt die hohe Dateigröße einiger dieser “Zeiger”-Sammlungen an, dass Bildinhalte in einer herunterladbaren und gehosteten Datei enthalten sind; jedoch sind die nicht-trivialen Dateigrößen oft auf die hohe Menge an Textinhalten und manchmal die Einbeziehung von extrahierten Embeddings oder Funktionen – abgeleitete Zusammenfassungen oder Knoten von ansonsten anwendbarem Inhalt, der während des Trainingsprozesses aus den Quelldaten extrahiert wird.
Das Video-Prämie
Videodatensätze stellen einen noch stärkeren Fall für den “Datensatz-per-Proxy”- oder Zeiger-Ansatz dar, da die hohe Menge an Speicherdaten, die erforderlich ist, um eine bedeutende und nützliche Anzahl von Videos in eine einzelne herunterladbare Sammlung zu aggregieren, prohibitiv ist und ein “verteilter” Ansatz wünschenswert ist.
Jedoch ist in beiden Fällen – aber insbesondere bei Video – der herunterladbare Quell-URL Daten dar, die vor ihrer Verwendung in Trainingsprozessen erhebliche weitere Aufmerksamkeit erfordern werden. Sowohl Bilder als auch Videos müssen neu skaliert oder Beschlüsse zur Bildbearbeitung getroffen werden, um Proben zu erstellen, die in verfügbaren GPU-Speicher passen. Selbst ernsthaft heruntergesamplete Videos erfordern auch eine Bearbeitung auf sehr kurze Längen, wie 3-5 Sekunden, typischerweise.
Bemerkenswerte Videodatensätze, die Verweise auf Online-Videos (anstatt der Kuratierung und direkten Verpackung von Video) verwenden, sind Google’s Kinetics Human Action Video Dataset und die Sammlung von Google YouTube-8M, die Segment-Annotierung verwendet, um anzuzeigen, wie jedes Video nach dem Herunterladen behandelt werden soll – aber die dem Endbenutzer überlässt, die Videos von den bereitgestellten URLs zu erhalten.
Nahe und Offen
Schließlich, in dieser Kategorie, kann “offenes” VFX-Datenmaterial mit geschlossenen Plattformen generiert werden, die anschließend die resultierende Datensammlung veröffentlichen und bereitstellen. Es ist vernünftig, sich zu fragen, warum dies geschieht und zu überlegen, ob dies vielleicht der Fall ist, weil das ursprüngliche Unternehmen das IP-unfreundliche Upstream-Modell für den eigenen Gebrauch sanieren möchte; oder dass ein “gewaschener” Satz von außen angefordert wurde.
Ein solcher Fall von “generationaler Waschung” ist, argumentierbar, die Omni-VFX-Datensammlung, die viele Datenpunkte aus der Open-VFX-Datensammlung (die selbst viele geschlossene und halb-offene Plattformen wie Pika und PixVerse referenziert) enthält.
Um ehrlich zu sein, Omni-VFX versucht nicht einmal wirklich:

In der Open-Source-Omni-VFX-Datensammlung, ein vertrautes Gesicht. Quelle
Urhäberrechtliche Haftung
Der zweite große Ansatz zur IP-Waschung ist durch die Verwendung von urheberrechtlich geschütztem Material in einem oder mehreren Entfernungen. Eine der Methoden in dieser Kategorie ist die Verwendung von synthetischem Datenmaterial, das zu einem bestimmten Zeitpunkt upstream auf urheberrechtlich geschütztem Datenmaterial trainiert wurde. In solchen Fällen, insbesondere wenn synthetisches Datenmaterial authentisch aussehende Ergebnisse liefern kann, liefert urheberrechtlich geschütztes Werk Umwandlungen, die nicht vernünftigerweise erraten oder approximiert werden könnten durch allgemeine Weltmodelle oder nicht spezialisierte Modelle.
Dies ist emphatisch der Fall, wenn generative Videosysteme erforderlich sind, um “unmögliche” Ereignisse zu generieren und Ereignisse, die allgemein in die Kategorie “Visuelle Effekte” (VFX) fallen.
Tatsächlich, was dieses Thema ins Bewusstsein rief, war die neueste in einer Reihe von Forschungsarbeiten, die die Fähigkeit bieten, “diverse Arten von visuellen Effekten zu abstrahieren”, wie die Erzeugung von Laserstrahlen aus unwahrscheinlichen Körperteilen, entweder durch das Training auf maßgeschneiderten oder “Open-Source”-VFX-Clips (anstatt der offensichtlicheren Quelle, wie den sehr teuren VFX-Shots in der Marvel-Kinematografie):
Beispiele von der EffectMaker-Website, wobei die “Aktion” im Quellclip (links) auf ein Quellbild (Mitte) angewendet wird. Quelle
Die obigen Beispiele stammen von der Projektseite für das EffectMaker-Projekt. EffectMaker ist nicht einmal der erste, der dies in diesem Jahr anbietet, der versucht, VFX-Dynamiken aus einem Videoclip zu extrahieren und in einen neuen Clip zu übertragen, und tatsächlich wird dies zu einer separaten Aufgabe in der KI-VFX-Forschung*.
Bewusst, dass Medienriesen wie Marvel eine höhere Chance haben, Rechtsfälle über IP (auch in der erwähnten Klima der “erzwungenen Toleranz”) zu gewinnen, gehen visuelle Effekt-Unternehmen und Start-ups derzeit zu bemerkenswerten Längen, um sicherzustellen, dass ihre generativen VFX-Rahmenwerke frei von korporativem IP anderer Unternehmen sind.
Vor allem ist Meta, das gemeldet wurde auf dem r/vfx-Subreddit, um eine gut bezahlte Winter-Einstellungs-Kampagne im Jahr 2026 durchzuführen, VFX-Künstlern Arbeit anbietend, um AI-Modelle zu trainieren, um Hollywood-Niveau-Visuelleffekt-Shots auszugeben. Obwohl die Bezahlung in verschiedenen Posts nicht spezifiziert wurde, beschrieb einer es als “Renten-Geld”.
Folge dem Geld
Jedoch muss man sich fragen, wie viel Geld sogar Unternehmen wie Meta bereit sind, für eine wahre Vielfalt und Fülle von ad hoc-VFX-Shots zu zahlen, angesichts der Tatsache, dass der durchschnittliche einzelne VFX-Shot für einen Blockbuster-Film rund 42.000 USD kostet – und viele kommen viel höher.
Weiterhin ist es vernünftig, anzunehmen, dass maßgeschneiderte VFX-generierende AI-Modelle der Popularität folgen werden, einschließlich verschiedener Standard-Effekt-Tropen aus den beliebtesten und teuersten Kategorien von Filmen.
Abgesehen von der Tatsache, dass “verbleibende” VFX-Profis möglicherweise Shots neu erstellen, an denen sie für eine bestehende Film-Sammlung gearbeitet haben† – was in sich selbst den “maßgeschneiderten” Datensatz als imitativ kontextualisiert – gibt es in jedem Fall keine Garantie, dass diese teuren neuen Proben “von Null” in einer brandneuen Architektur trainiert werden.
Tatsächlich, wenn solche Re-Kreationen in Nebenmodule wie LoRAs umgeleitet werden, die auf einem Basis-Modell angewiesen sind, dann ist der Prozess nur so vertretbar, wie das Basis-Modell “IP-sauber” ist – und nicht viele sind.
Ähnlich, wenn der “neue” Prozess andere “hybride” Techniken wie Feinabstimmung verwendet, bei der der Wert des visuellen Effekts von Modellen, Priors oder Embeddings von älteren Sammlungen oder Modellen von unbestätigter Integrität abhängt, ist die Originalität der Arbeit argwöhnisch und anfällig für Herausforderungen.
Unmögliche Missionen
Das Gebiet von VFX-Ausgaben ist ein besonders interessanter Fall-Studie in Bezug auf potenzielle IP-Waschung in KI-Datensätzen, da visuelle Effekt-Shots oft “unmögliche” Dinge darstellen, für die es keine Open-Source-Alternativen gibt.
Zum Beispiel, wenn man ein Modell trainieren möchte, um menschliche Laserstrahlen zu produzieren, muss man auf VFX-Clips trainieren, gestohlen oder in Auftrag gegeben; so etwas passiert nirgendwo anders.
Sogar im Fall anderer Arten von Naturkatastrophen, wie dramatischer Überschwemmungen, ist verfügbares Quellenmaterial in der realen Welt unwahrscheinlich in der Lage, dramatische Perspektiven auf katastrophale Ereignisse zu reproduzieren, da (mit einigen Ausnahmen) Menschen normalerweise nicht live aus katastrophalen Orten streamen. Daher sind “coole Ansichten” auf Katastrophen in realen Datensätzen selten, und jedes KI-Modell, das sie generieren kann, hat diese Informationen wahrscheinlich woandersher.
Schlussfolgerung: Verwickeltes Netz
Nur diejenigen, die generative KI ausgiebig und über einen längeren Zeitraum hinweg verwendet haben, werden instinktiv verstehen, dass solche Systeme Schwierigkeiten haben, wenn sie multiple Konzepte kombinieren müssen, wenn keine vergleichbaren Beispiele in ihren Trainingsdaten existieren.
Diese Einschränkung ist als Verwickelung bekannt, bei der die verschiedenen Aspekte der trainierten Konzepte tendenziell mit verwandten Elementen clusteren, anstatt sich in handliche, Lego-ähnliche Bausteine zu zerlegen, die in jede neue Konfiguration angeordnet werden können, die der Benutzer wünscht.
Verwickelung ist ein architektonischer Schwerkraft-Brunnenschacht, der ziemlich unmöglich zu entkommen ist, zumindest für die diffusionbasierten Ansätze, die alle großen aktuellen KI-Rahmenwerke charakterisieren. Es kann jedoch sein, dass neue Ansätze in den nächsten Jahren auftauchen, die besser darin sind, trainierte Konzepte zu diskretisieren, so dass sie adäquater zusammengefügt werden können und weniger Hinweise auf ihre Herkunft liefern.
* Ich erhebe keine Anschuldigungen gegen EffectMaker, sondern kommentiere hier die Allgemeingültigkeit einer aufkommenden Praxis in der KI-Video-Forschung.
† Weil diese Shots, in diesen Arten von Filmen, Geld generiert und weiterhin generieren.
Erstveröffentlicht am Montag, den 16. März 2026










