Connect with us

Kąt Andersona

Metody IP-Washing w Sztucznej Inteligencji

mm
An AI-generated image of Lady Justice surrounded by 'laundered' data. GPT-1.5.

Jeśli ma nadejść rozliczenie prawne dotyczące wykorzystania własności intelektualnej w trenowaniu AI, istnieje również kilka metod zaciemniania takiego użycia.   Opinia Obecna, gwałtownie postępująca rewolucja w generatywnej AI rozgrywa się w najbardziej prawnie niepewnym środowisku, jakie towarzyszyło jakiemukolwiek przełomowemu rozwojowi technologicznemu od XIX wieku. Do 3-4 lat temu społeczność badawcza uczenia maszynowego cieszyła się milczącym (często wyraźnym) przyzwoleniem na wykorzystywanie materiałów chronionych prawami własności intelektualnej w trakcie rozwijania nowych systemów; ponieważ systemy te nie były jeszcze udane, w sensie dojrzałości lub opłacalności komercyjnej, wyniki były, pod każdym względem, akademickie. W tym okresie nagły sukces nowej generacji opartych na dyfuzji Dużych Modeli Językowych (LLM, takich jak ChatGPT i Claude) oraz Modeli Wizyjno-Językowych (VLM, takich jak Sora) zasygnalizował, że te abstrakcyjne i dotąd ‘nieszkodliwe’ nurty badań rozwinęły się w opłacalność komercyjną i wyrosły ze swojego ‘darmowego przejazdu’, jeśli chodzi o wykorzystywanie cudzej własności intelektualnej. Odtąd posiadacze praw będą zabiegać o udział w owocach systemów AI szkolonych w dużej mierze lub częściowo na ich chronionych prawem autorskim lub w inny sposób danych, co prowadzi do trwającej lawiny spraw sądowych, których śledzenie wymaga pewnego wysiłku.

Ograniczone tylko do spraw wnoszonych w USA, nowe sprawy pojawiają się w szalonym tempie w Stanach Zjednoczonych i poza nimi. Źródło - https://copyrightalliance.org/artificial-intelligence-copyright/court-cases/

Tu ograniczone tylko do spraw wnoszonych w USA, nowe sprawy pojawiają się w szalonym tempie w Stanach Zjednoczonych i poza nimi. Źródło

Narzucanie ‘Darmowego Obiadu’

Zaangażowanie finansowe obecnie występujące w odniesieniu do infrastruktury obsługującej AI zostało przedstawione przez niektóre głosy jako wysiłek, by ‘niebezpieczną dla praw autorskich’ AI tak głęboko zakorzenić w gospodarce społeczeństwa, że stanie się ona nie tylko ‘zbyt duża, by upaść’, ale także ‘zbyt potężna, by ją pozwać’ – lub przynajmniej zbyt potężna, by pozwolić, by udane pozwy mogły wywrócić rewolucję. W kierunku tego ogólnego sentymentu, obecny prezydent Stanów Zjednoczonych wprowadza do polityki swój pogląd, że ‘Nie można oczekiwać, że będziesz miał udany program AI, kiedy za każdy pojedynczy artykuł, książkę czy cokolwiek innego, co przeczytałeś lub studiowałeś, masz płacić’. Naprawdę? Nic nawet zbliżonego lub porównywalnego nie wydarzyło się w zachodniej erze przemysłowej, a to reprezentuje ruch, który ostro ściera się z tradycyjną amerykańską kulturą procesowania i odszkodowań; być może najbliższe podobne stanowiska to obowiązkowy wygaśnięcie patentów na leki po 20 latach (samo w sobie często atakowane) oraz ograniczenie oczekiwań prywatności w miejscach publicznych. Jednak czasy się zmieniają; w braku jakiejkolwiek gwarancji, że obecny trend ku ‘wywłaszczeniu na rzecz publiczny’ wobec ochrony własności intelektualnej nie załamie się lub nie zostanie później odwrócony, istnieje kilka drugorzędnych podejść, które stają się standardową praktyką w rozwoju systemów AI i w traktowaniu tak kontestowanych danych treningowych, które je napędzają.

Zbiory Danych przez Pełnomocnika

Jedno z tych podejść przyjmuje zadziwiająco podobną taktykę do (nie zawsze skutecznej) obrony przez strony z listami torrentów, że one tak naprawdę nie hostują żadnego spornego materiału – ani żadnego materiału w ogóle. Poza wyeliminowaniem potrzeby przechowywania i udostępniania dużych ilości słabo kompresowalnych danych obrazowych lub wideo, kolekcje tego rodzaju pozwalają na szybką aktualizację – taką jak usuwanie materiału na żądanie posiadaczy praw autorskich – oraz wersjonowanie. Tak jak torrenty są tylko drogowskazami, gdzie można znaleźć materiały chronione prawami własności intelektualnej, wiele bardzo wpływowych zbiorów danych jest samych w sobie tylko listami w stylu ‘wskaźnikowym’ istniejących danych; jeśli użytkownik końcowy chce użyć tych list jako listy pobierania dla własnego zbioru danych, to jego sprawa, przynajmniej jeśli chodzi o odpowiedzialność kuratorów. Do takich należy zbiór danych Conceptual 12M Google Research, który dostarcza podpisy do obrazów, ale tylko wskazuje na lokalizacje w sieci, gdzie te obrazy istnieją (lub istniały w czasie kuratorstwa):

Dwa przykłady z kuratorstwa Conceptual 12M Google Research. Źródło - https://github.com/google-research-datasets/conceptual-12m/blob/main/images/cc12m_1.jpg

Dwa przykłady z kuratorstwa Conceptual 12M Google Research. Źródło

Kolejnym prominentnym przykładem, który ma teraz uzasadnione prawo do szacunku w historii AI, jest zbiór danych LAION, który umożliwił nadejście generatywnego systemu Stable Diffusion w 2022 – pierwszej takiej struktury oferującej użytkownikom końcowym potężne generatywne obrazy open source, właśnie wtedy, gdy systemy własnościowe zdawały się ustanawiać takie usługi jako czysto wydzieloną, komercyjną domenę:

Jedna z wielu wariantów projektu LAION, zawierająca współczesne i chronione prawem autorskim dzieła sztuki. Źródło - https://huggingface.co/datasets/laion/relaion-pop/viewer/default/train

Jedna z wielu wariantów projektu LAION, zawierająca współczesne i chronione prawem autorskim dzieła sztuki. Źródło

W wielu przypadkach duże rozmiary plików niektórych z tych kolekcji ‘wskaźnikowych’ wskazują na włączenie treści obrazowej w plik do pobrania i hostowany; jednakże, niemałe rozmiary pobierania są często spowodowane dużą ilością treści tekstowej, a czasami włączeniem wyodrębnionych osadzeń lub cech – wyprowadzonych podsumowań lub węzłów inaczej zastosowalnej treści wyodrębnionej z danych źródłowych podczas procesu trenowania.

Premia za Wideo

Zbiory danych wideo stanowią jeszcze silniejszy argument za podejściem ‘zbioru przez pełnomocnika’ lub wskaźnikowym, ponieważ duża ilość danych przechowywania wymagana do zebrania znaczącej i użytecznej liczby filmów wideo w jedną kolekcję do pobrania jest zaporowa, a pożądana jest metoda ‘rozproszona’. Jednakże, w obu przypadkach – ale szczególnie z wideo – źródłowe adresy URL do pobrania reprezentują dane, które będą wymagać znacznej dalszej uwagi przed użyciem w procesach trenowania. Zarówno obrazy, jak i filmy wideo będą musiały zostać przeskalowane lub podjęte zostaną decyzje przycięcia, aby stworzyć próbki, które zmieszczą się w dostępnej przestrzeni GPU. Nawet poważnie zredukowane próbkowaniem filmy wideo będą również wymagały pocięcia na bardzo krótkie długości, np. 3-5 sekund. Godne uwagi zbiory danych wideo, które wykorzystują odnośniki do filmów online (zamiast kuratorstwa i bezpośredniego pakowania wideo), obejmują Kinetics Human Action Video Dataset Google oraz kolekcję YouTube-8M tego giganta wyszukiwań, która używa adnotacji segmentowych, aby wskazać, jak traktować każdy film po pobraniu – ale która ponownie pozostawia użytkownikowi końcowemu uzyskanie filmów z dostarczonych adresów URL.

Zamknięte i Otwarte

Wreszcie, w tej kategorii, ‘otwarte’ dane VFX mogą być generowane za pomocą zamkniętych platform, które następnie publikują i udostępniają wynikowy zbiór danych. Rozsądnie jest zastanawiać się, dlaczego tak się dzieje, i rozważyć, czy może to być dlatego, że firma pochodząca chce oczyścić model źródłowy nieprzyjazny dla własności intelektualnej, do własnego użytku; lub też, że ‘wypłukany’ zbiór został zamówiony z zewnątrz. Jednym z takich przypadków ‘prania generacyjnego’ jest, prawdopodobnie, zbiór danych Omni-VFX, który włącza wiele punktów danych ze zbioru Open-VFX (który sam odnosi się do wielu zamkniętych i pół-zamkniętych platform, takich jak Pika i PixVerse). Szczerze mówiąc, Omni-VFX nawet tak naprawdę nie próbuje:

W otwartym zbiorze danych Omni-VFX, znajoma twarz. Źródło - https://huggingface.co/datasets/GD-ML/Omni-VFX/blob/main/Harley/pixverse%252Fmp4%252Fmedia%252Fweb%252F15e45744-64b1-4a41-84de-626225cf017b_seed734716767.mp4

W otwartym zbiorze danych Omni-VFX, znajoma twarz. Źródło

Odpowiedzialność Przodków

Drugie główne podejście do IP-washingu odbywa się poprzez wykorzystanie materiałów chronionych prawem autorskim w jednym lub wielu stopniach oddalenia. Jedną z metod w tej kategorii jest użycie danych syntetycznych, które były trenowane, w pewnym momencie w górę strumienia, na danych chronionych prawem autorskim. W takich przypadkach, szczególnie tam, gdzie dane syntetyczne są w stanie uzyskać autentycznie wyglądające wyniki, chroniona praca dostarcza transformacji, których nie można było rozsądnie odgadnąć lub przybliżyć za pomocą ogólnych modeli świata lub modeli niespecjalistycznych. Jest to zdecydowanie przypadek, gdy generatywne systemy wideo są wymagane do generowania ‘niemożliwych’ zdarzeń oraz zdarzeń, które ogólnie zaliczałyby się do kategorii ‘efektów wizualnych’ (VFX). W rzeczywistości, to, co przywiodło ten temat na myśl, to najnowsza z serii prac badawczych oferujących możliwość ‘abstrahowania’ różnorodnych typów efektów wizualnych, takich jak produkowanie promieni laserowych z nieprawdopodobnych części ciała, poprzez trenowanie na zamówionych na zlecenie lub ‘open source’ klipach VFX (a nie na bardziej oczywistym źródle, takim jak bardzo kosztowne ujęcia VFX znajdowane w produkcjach z uniwersum filmowego Marvela):

Przykłady ze strony projektu EffectMaker, gdzie ‘ak

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai