Kąt Andersona
Metody IP-Washing w AI

Jeśli nadchodzi rozliczenie prawne związane z wykorzystaniem własności intelektualnej w szkoleniu AI, istnieją również kilka metod zaciemniania takiego wykorzystania.
Opinia Obecna, gwałtownie postępująca rewolucja w generatywnym AI rozgrywa się w najbardziej niepewnym środowisku prawnym, jakie towarzyszyło jakiejkolwiek przełomowej dewolucji technologicznej od XIX wieku.
Do 3-4 lat temu społeczność badawcza machine learning miała niepisane (często jawne) pozwolenie na wykorzystywanie materiałów chronionych prawem autorskim w trakcie tworzenia nowych systemów; ponieważ systemy te nie były jeszcze udane, pod względem dojrzałości lub opłacalności komercyjnej, wyniki były w każdym sensie akademickie.
W tym okresie nagły sukces nowego pokolenia modeli językowych opartych na dyfuzji (LLM, takich jak ChatGPT i Claude) i modeli językowo-wizualnych (VLM, takich jak Sora) sygnalizował, że te abstrakcyjne i dotąd “nieszkodliwe” gałęzie badań rozwinęły się w kierunku opłacalności komercyjnej i wyrosły ze swojego “wolnego przejazdu”, jeśli chodzi o wykorzystywanie cudzej własności intelektualnej.
Od teraz właściciele praw będą domagać się udziału w owocach systemów AI, które zostały w dużej mierze lub w części wyszkolone na ich chronionych danych, co prowadzi do trwającej lawiny spraw sądowych, które wymagają pewnego wysiłku, by je nawet śledzić.

Tutaj ograniczone tylko do spraw wniesionych w USA, nowe sprawy pojawiają się w frenetycznym tempie w Stanach Zjednoczonych i poza nimi. Źródło
Nakazując “bezpłatny lunch”
Finansowy zaangażowanie obecnie występujące w odniesieniu do infrastruktury AI zostało postawione przez niektóre głosy jako próba umocnienia “podejrzanych o naruszenie praw autorskich” AI tak głęboko w gospodarce społeczeństwa, że staje się nie tylko “zbyt wielkim, by upaść”, ale także “zbyt potężnym, by pozwać” – lub zbyt potężnym, przynajmniej, aby pozwolenia na udane pozwy mogły być pozwolone na zakłócenie rewolucji.
W kierunku tego ogólnego sentymentu, obecny prezydent Stanów Zjednoczonych zobowiązuje się do polityki swojego poglądu, że “Nie możesz oczekiwać, że będziesz miał udany program AI, kiedy każdy artykuł, książka lub cokolwiek innego, co przeczytałeś lub studiowałeś, musisz za to zapłacić”.
Czy tak naprawdę? Niczego podobnego lub porównywalnego nie wystąpiło w zachodniej erze przemysłowej, a to reprezentuje ruch, który silnie ociera się o tradycyjną amerykańską kulturę pozwów i rekompensat; być może najbliższe podobne pozycje to obligatoryjne wygaśnięcie patentów medycznych po 20 latach (co jest często atakowane), i ograniczenie oczekiwań dotyczących prywatności w miejscach publicznych.
Jednak czasy się zmieniają; w braku jakiejkolwiek gwarancji, że obecny trend w kierunku “eminent domain” przeciwko ochronie własności intelektualnej nie zawiedzie, lub nie zostanie odwrócony później, istnieją kilka wtórnych podejść, które stają się standardową praktyką w rozwoju systemów AI i traktowaniu kontrowersyjnych danych szkoleniowych, które je napędzają.
Zestawy danych przez pełnomocnika
Jedno z tych podejść przyjmuje niezwykle podobne podejście do (nie zawsze udanej) obrony stron torrentów, które twierdzą, że nie hostują żadnych kontrowersyjnych materiałów – lub jakichkolwiek materiałów w ogóle.
Ponadto unikając konieczności przechowywania i udostępniania dużych ilości niekompresowalnych danych obrazowych lub wideo, kolekcje tego rodzaju pozwalają na szybkie aktualizacje – takie jak usunięcie materiału na żądanie właścicieli praw autorskich – oraz wersjonowanie.
Właśnie tak, jak torrenty są tylko znakami drogowymi wskazującymi, gdzie można znaleźć chronione prawem autorskim materiał, wiele wpływowych zbiorów danych jest samymi “wskazującymi” listami istniejących danych; jeśli użytkownik końcowy chce użyć tych list jako listy pobierania dla własnego zestawu danych, to leży to na nich, jeśli chodzi o odpowiedzialność kuratorów.
Wśród takich jest zestaw Conceptual 12M od Google Research, który zapewnia podpisów dla obrazów, ale wskazuje tylko lokalizacje w sieci, gdzie te obrazy istnieją (lub istniały w momencie kuracji):

Dwa przykłady z kuracji Conceptual 12M od Google Research. Źródło
Innym prominentnym przykładem, a który teraz ma słuszne roszczenie do czci w historii AI, jest zestaw LAION, który ułatwił powstanie systemu generatywnego Stable Diffusion w 2022 roku – pierwszy taki framework, który oferował potężne, otwarte generatywne obrazy końcowym użytkownikom, właśnie gdy systemy własnościowe wydawały się ustanawiać takie usługi jako wyłącznie komercyjną domenę:

Jeden z wielu wariantów projektu LAION, prezentujący nowoczesne i chronione prawem autorskim dzieła sztuki. Źródło
W wielu przypadkach duże rozmiary plików niektórych z tych “wskazujących” kolekcji wskazują na zawartość obrazu w pliku do pobrania i hostowanym; jednak nieznaczne rozmiary pobierania są często spowodowane dużą ilością zawartości tekstowej, a czasem zawierają wyodrębnione elementy lub cechy – pochodne podsumowania lub węzły innej stosowanej zawartości wyodrębnionej z danych źródłowych podczas procesu szkolenia.
Preferencja wideo
Zestawy wideo prezentują jeszcze silniejszy przypadek dla podejścia “zestaw danych przez pełnomocnika” lub wskazującego, ponieważ duży wolumen danych magazynowych wymaganych do agregacji znaczącej i użytecznej liczby filmów w jedną pobieralną kolekcję jest zabroniony, a “rozproszony” sposób jest pożądany.
Jednak w obu przypadkach – ale szczególnie z wideo – pobieralne adresy URL reprezentują dane, które będą wymagać znaczącej dalszej uwagi przed użyciem w procesach szkoleniowych. Obrazy i filmy będą musiały być przeskalowane lub decyzje o przycinaniu będą musiały zostać podjęte, aby utworzyć próbki, które będą pasować do dostępnego miejsca GPU. Nawet poważnie zmniejszone filmy będą również wymagać cięcia do bardzo krótkich długości, takich jak 3-5 sekund, zwykle.
Godne uwagi zestawy wideo, które używają odniesień do filmów online (zamiast kuracji i bezpośredniego pakowania filmu), obejmują zestaw Kinetics Human Action Video od Google, oraz kolekcję YouTube-8M od giganta wyszukiwarki, która używa segmentacji adnotacji, aby wskazać, jak traktować każdy film po pobraniu – ale który ponownie pozostawia użytkownikowi końcowemu pobranie filmów z podanych adresów URL.
Zamknięte i otwarte
Wreszcie, w tej kategorii, “otwarte” dane VFX mogą być generowane z zamkniętych platform, które następnie publikują i udostępniają wynikowy zestaw danych. Jest rozsądnie zastanowić się, dlaczego tak się dzieje, i rozważyć, czy może to być dlatego, że firma źródłowa chce zdezynfekować model nieprzyjazny IP; lub że “wypłukany” zestaw został zażądany z zewnątrz.
Jednym z takich przypadków “prania generacyjnego” jest, zdaje się, zestaw Omni-VFX, który zawiera wiele punktów danych z zestawu Open-VFX (który sam odnosi się do wielu zamkniętych i półotwartych platform, takich jak Pika i PixVerse).
Być może Omni-VFX nie nawet naprawdę stara się:

W otwartym zestawie Omni-VFX, znajomy twarz. Źródło
Odpowiedzialność przodków
Drugie główne podejście do prania IP jest przez użycie materiałów chronionych prawem autorskim na jednym lub wielu poziomach. Jedną z metod w tej kategorii jest użycie syntetycznych danych, które zostały wyszkolone w pewnym momencie w górę na chronionych prawem autorskim danych. W takich przypadkach, szczególnie gdy syntetyczne dane są w stanie uzyskać autentycznie wyglądające wyniki, chronione prace dostarczają transformacji, które nie mogłyby być rozsądnie zgadnięte lub przybliżone przez ogólne światowe modele lub niespecjalistyczne modele.
To jest niewątpliwie przypadkiem, gdy generatywne systemy wideo są wymagane do generowania “niemożliwych” zdarzeń i zdarzeń, które należałoby ogólnie do kategorii “efektów wizualnych” (VFX).
W rzeczywistości, to, co przywiodło mnie do tego tematu, było najnowsze w serii prac badawczych oferujących możliwość “abstrakcji” różnych typów efektów wizualnych, takich jak produkcja wiązek laserowych z nieprawdopodobnych części ciała, albo poprzez szkolenie na zamówionych lub “otwartych” klipach VFX (zamiast bardziej oczywistego źródła, takiego jak bardzo drogie efekty VFX znalezione w wyjściu z uniwersum filmowego Marvela):
Przykłady ze strony EffectMaker, na której “akcja” w klipie źródłowym (z daleka) jest stosowana do obrazu źródłowego (środek). Źródło
Powyższe przykłady pochodzą ze strony projektu EffectMaker. EffectMaker nie jest nawet pierwszą ofertą tego roku, która stara się wyodrębnić dynamikę VFX z jednego klipu wideo i przenieść ją do nowego klipu, i w rzeczywistości staje się to dyskretnym podzadaniem w badaniach AI VFX*.
Świadomi, że potentaci mediowi, tacy jak Marvel, mają wyższą niż przeciętna szansę na wygranie spraw sądowych dotyczących własności intelektualnej (nawet w wymienionym klimacie “wymuszonej tolerancji”), firmy VFX i startupy obecnie idą na znaczne długości, aby upewnić się, że ich generatywne ramy VFX są wolne od korporacyjnej własności intelektualnej innych firm.
Przede wszystkim jest to Meta, która została zgłoszona na subreddit r/vfx do tego, aby przeprowadziła dobrze wynagradzaną zimową ofensywę rekrutacyjną w 2026 roku, oferując artystom VFX pracę w szkoleniu modeli AI do wytwarzania hollywoodzkich efektów wizualnych. Chociaż wynagrodzenie nie zostało określone w różnych postach, jeden opisał je jako “pieniądze na emeryturę”.
Śledź pieniądze
Jednak trzeba się zastanowić, ile pieniędzy nawet takie jak Meta są gotowe zapłacić za prawdziwą różnorodność i obfitość ad hoc strzałów VFX, biorąc pod uwagę, że średni pojedynczy strzał VFX dla filmu blockbusterowego wynosi około 42 000 USD – i wiele z nich jest znacznie droższych.
Dalej, zdaje się to rozsądne, że zamówione AI generujące VFX modele będą ustępować powszechnemu popytowi, w tym różnym standardowym efektom tropom z najpopularniejszych i najdroższych kategorii filmów.
Poza stanowiskiem, że “pozostałe” specjaliści VFX mogą skończyć się odtwarzając strzały, nad którymi pracowali dla istniejącej kolekcji filmów† – co samo w sobie kontekstualizuje “niestandardową” pracę nad zestawem danych jako imitacyjną – nie ma gwarancji, że te kosztowne nowe próbki będą szkoleniowe “od zera” w nowej architekturze.
W rzeczywistości, jeśli takie rekreacje są przekierowane do modułów dodatkowych, takich jak LoRAs, które polegają na modelu podstawowym, wtedy proces jest tylko tak broniony, jak model podstawowy jest “czysty IP” – i nie wiele z nich jest.
Podobnie, jeśli “nowy” proces używa innych “hybrydowych” technik, takich jak dokształcanie, gdzie wartość efektu wizualnego zależy od modeli, priors lub elementów z starszych kolekcji lub modeli niepotwierdzonej integralności, oryginalność pracy jest zdaje się kosmetyczna i podlega wyzwaniu.
Niewykonalne misje
Domena wyjścia VFX jest szczególnie interesującym studium przypadku w odniesieniu do potencjalnego prania IP w zestawach danych AI, ponieważ efekty wizualne często przedstawiają “niemożliwe” rzeczy, dla których nie będzie dostępnych alternatyw open source.
Na przykład, chociaż burzenie budynku mogło być wyszkolone w modelu generatywnym z różnych domen publicznych lub innych tanich klipów stockowych, jeśli chcesz wyszkolić model do produkcji wiązek laserowych ludzkich, będziesz musiał wyszkolić się na klipach VFX, skradzionych lub zamówionych; takie rzeczy nie zdarzają się nigdzie indziej.
Nawet w przypadku innych typów klęsk żywiołowych, takich jak dramatyczne powodzie, dostępny materiał źródłowy z rzeczywistego świata jest mało prawdopodobne, aby mógł odtworzyć dramatyczne punkty widzenia na katastrofalne zdarzenia, ponieważ (z pewnymi wyjątkami) ludzie zwykle nie transmitują na żywo z miejsc katastrof. Dlatego “fajne widoki” na katastrofę są rzadkie w zestawach danych z rzeczywistego świata, a każdy model AI, który może je generować, najprawdopodobniej uzyskał te informacje gdzie indziej.
Większość pożądanych przepływów zadań AI nie ma takiego samego poziomu szczegółowości, a w takich przypadkach zaciemnienie korzyści z chronionych prawem autorskim danymi może nie wymagać prawie takiego samego wysiłku.
Wnioski: Splątana sieć
Tylko ci, którzy używali generatywnego AI intensywnie i przez dłuższy okres, będą instynktownie rozumieć, że takie systemy mają trudności z łączeniem wielu pojęć, gdy nie ma porównywalnych przykładów w ich danych szkoleniowych.
To ograniczenie jest znane jako splątanie, w którym różne aspekty wyszkolonych pojęć mają tendencję do grupowania się z powiązanymi elementami, zamiast rozkładać się na przydatne, klocki Lego, które mogą być ułożone w dowolną nową konfigurację, jaką użytkownik mógłby sobie życzyć.
Splątanie jest grawitacyjną studnią architektoniczną, której praktycznie nie można uniknąć, przynajmniej dla podejść opartych na dyfuzji, które charakteryzują wszystkie główne obecne ramy genAI. Jednak może się okazać, że nowe podejścia pojawią się w ciągu najbliższych kilku lat, które będą lepsze w dyskretnejcji szkoleniowych pojęć, aby mogły być łączone bardziej zręcznie i oferować mniej wskazówek co do ich pochodzenia.
* Nie stawiam żadnych oskarżeń przeciwko EffectMaker, ale komentuję tu ogólność pojawiającej się praktyki w badaniach AI wideo.
† Ponieważ te strzały, w tych typach filmów, wygenerowały i nadal generują pieniądze.
Po raz pierwszy opublikowane w poniedziałek, 16 marca 2026










