Kąt Andersona

Bieżące praktyki sztucznej inteligencji mogą umożliwić powstanie nowego pokolenia trolli praw autorskich

Opublikowano 5 listopada 2021

Zaktualizowano 24 maja 2026

Przez

Martin Anderson

Nowe badanie przeprowadzone przez Huawei i środowisko akademickie sugeruje, że wiele z najważniejszych badań nad sztuczną inteligencją i uczeniem maszynowym może być narażone na procesy sądowe, gdy tylko staną się komercyjnie istotne, ponieważ zestawy danych, które umożliwiają przełomy, są rozpowszechniane z nieprawidłowymi licencjami, które nie szanują pierwotnych warunków publicznie dostępnych domen, z których pochodziły dane.

W praktyce ma to dwa prawie nieuniknione możliwe wyniki: bardzo udane, skomercjalizowane algorytmy sztucznej inteligencji, które są znane z użycia takich zestawów danych, staną się w przyszłości celem oportunisycznych trolli praw autorskich, których prawa autorskie nie były szanowane, gdy ich dane były pobierane; oraz że organizacje i osoby będą mogły wykorzystywać te same słabości prawne, aby protestować wdrożenie lub rozpowszechnianie technologii uczenia maszynowego, które uważają za nieodpowiednie.

Artykuł artykuł nosi tytuł Czy mogę użyć tego publicznie dostępnego zestawu danych do budowy komercyjnego oprogramowania sztucznej inteligencji? Najprawdopodobniej nie, i jest wynikiem współpracy między Huawei Canada i Huawei China, a także Uniwersytetem w Yorku w Wielkiej Brytanii i Uniwersytetem w Victorii w Kanadzie.

Pięć na sześć (popularnych) otwartych zestawów danych nie jest prawnie używalnych

W ramach badań autorzy poprosili departamenty Huawei o wybranie najbardziej pożądanych otwartych zestawów danych, które chcieliby wykorzystać w komercyjnych projektach, i wybrali sześć najbardziej pożądanych zestawów danych spośród odpowiedzi: CIFAR-10 (podzbiór zestawu 80 milionów małych obrazów, odwołany z powodu “obraźliwych terminów” i “obraźliwych obrazów”, chociaż jego pochodne się rozprzestrzeniają); ImageNet; Cityscapes (który zawiera wyłącznie oryginalny materiał); FFHQ; VGGFace2, i MSCOCO.

Aby zbadać, czy wybrane zestawy danych były odpowiednie do użycia w komercyjnych projektach, autorzy opracowali nowy pipeline do śledzenia łańcucha licencji tak daleko, jak to było możliwe dla każdego zestawu, chociaż często musieli sięgać do archiwum sieci, aby znaleźć licencje z wygasłych domen, i w niektórych przypadkach musieli “przewidzieć” status licencji na podstawie najbliższych dostępnych informacji.

Architektura systemu śledzenia pochodzenia opracowanego przez autorów. Źródło: https://arxiv.org/pdf/2111.02374.pdf

Autorzy stwierdzili, że licencje na pięć z sześciu zestawów danych “zawierają ryzyko związane z co najmniej jednym kontekstem użycia komercyjnego”:

‘[My] obserwujemy, że, z wyjątkiem MS COCO, żadna z badanych licencji nie pozwala praktykom na prawo do komercjalizacji modelu sztucznej inteligencji wyszkolonego na danych lub nawet wyniku wyszkolonego modelu sztucznej inteligencji. Taki wynik uniemożliwia również praktykom używanie pre-wyszkolonych modeli wyszkolonych na tych zestawach danych. Publicznie dostępne zestawy danych i modele sztucznej inteligencji, które są pre-wyszkolone na nich, są powszechnie używane komercyjnie.’ *

Autorzy dodatkowo zauważają, że trzy z sześciu badanych zestawów danych mogą dodatkowo prowadzić do naruszenia licencji w komercyjnych produktach, jeśli zestaw danych zostanie zmodyfikowany, ponieważ tylko MS-COCO pozwala na to. Jednakże augmentacja danych i podzbiory oraz nadzbiory wpływowych zestawów danych są powszechną praktyką.

W przypadku CIFAR-10, pierwotni kompilatorzy nie stworzyli konwencjonalnej formy licencji, tylko wymagali, aby projekty korzystające z zestawu danych zawierały cytaty do oryginalnego artykułu, który towarzyszył wydaniu zestawu danych, co stanowi dalszą przeszkodę w ustaleniu statusu prawnego danych.

Dalej, tylko zestaw CityScapes zawiera materiał, który jest wyłącznie generowany przez twórców zestawu danych, a nie “kurowany” (pobrany) z sieciowych źródeł, z CIFAR-10 i ImageNet, które wykorzystują wiele źródeł, z których każde wymagałoby dochodzenia i śledzenia, aby ustalić mechanizm prawa autorskiego (lub nawet znaczącą dysklaimer).

Brak wyjścia

Istnieją trzy czynniki, na które komercyjne firmy sztucznej inteligencji wydają się polegać, aby chronić się przed procesami sądowymi dotyczącymi produktów, które wykorzystały chronione prawem autorskim dane z zestawów danych bez pozwolenia, aby wyszkolić algorytmy sztucznej inteligencji. Żaden z nich nie zapewnia zbyt wielkiej (lub żadnej) pewnej długoterminowej ochrony:

1: Prawa krajowe laissez faire
Chociaż rządy na całym świecie są zmuszone do zliberalizowania praw dotyczących pobierania danych, aby nie pozostać w tyle w wyścigu ku wydajnej sztucznej inteligencji (która opiera się na dużych ilościach danych z rzeczywistości, dla których regularne przestrzeganie praw autorskich i licencjonowanie byłoby niewykonalne), tylko Stany Zjednoczone oferują pełną immunitet w tym zakresie, zgodnie z doktryną fair use – polityką, która została zatwierdzona w 2015 roku z zakończeniem sprawy Authors Guild v. Google, Inc., która potwierdziła, że gigant wyszukiwania może swobodnie pobierać chronione prawem autorskim materiały dla swojego projektu Google Books bez oskarżenia o naruszenie praw autorskich.

Jeśli polityka doktryny fair use kiedykolwiek ulegnie zmianie (np. w odpowiedzi na kolejny przełomowy przypadek dotyczący wystarczająco potężnych organizacji lub korporacji), byłoby to uważane za stan a priori w odniesieniu do wykorzystania bieżących baz danych naruszających prawa autorskie, chroniąc poprzednie użycie; ale nie bieżące użycie i rozwój systemów, które zostały umożliwione przez materiały chronione prawem autorskim bez zgody.

To stawia bieżącą ochronę doktryny fair use na bardzo warunkowej podstawie i mogłoby potencjalnie, w tym scenariuszu, wymagać ustanowionych, skomercjalizowanych algorytmów sztucznej inteligencji do zaprzestania działania w przypadkach, w których ich pochodzenie zostało umożliwione przez materiały chronione prawem autorskim – nawet w przypadkach, w których wagi modelu obsługują teraz wyłącznie dozwolone treści, ale zostały wyszkolone na (i uczynione użytecznymi przez) nielegalnie skopiowane treści.

Poza Stanami Zjednoczonymi, jak autorzy zauważają w nowym artykule, polityki są geralnie mniej liberalne. Wielka Brytania i Kanada zabezpieczają tylko użycie chronionych prawem autorskim danych do celów niekomercyjnych, podczas gdy prawo Unii Europejskiej dotyczące wydobywania tekstu i danych (które nie zostało całkowicie uchylone przez niedawne propozycje bardziej formalnej regulacji sztucznej inteligencji) również wyklucza komercyjne wykorzystanie do systemów sztucznej inteligencji, które nie spełniają wymagań praw autorskich oryginalnych danych.

Te ostatnie ustalenia oznaczają, że organizacja może osiągnąć wiele rzeczy z cudzymi danymi, aż do – ale nie włącznie z – momentu, w którym zacznie zarabiać na nich pieniądze. W tym momencie produkt byłby albo narażony na procesy sądowe, albo wymagałby uzgodnień z literalnie milionami posiadaczy praw autorskich, z których wiele jest teraz nieśledzalnych z powodu zmieniającej się natury Internetu – niemożliwy i nieopłacalny scenariusz.

2: Caveat Emptor
W przypadkach, w których organizacje naruszające prawa autorskie mają nadzieję odroczyć winę, nowy artykuł również zauważa, że wiele licencji na najpopularniejsze otwarte zestawy danych automatycznie zabezpiecza się przed jakimikolwiek roszczeniami dotyczącymi naruszenia praw autorskich:

‘Na przykład, licencja ImageNet wymaga, aby praktycy zabezpieczyli zespół ImageNet przed jakimikolwiek roszczeniami wynikającymi z użycia zestawu danych. Zestawy danych FFHQ, VGGFace2 i MS COCO wymagają, aby zestaw danych, jeśli jest dystrybuowany lub modyfikowany, był przedstawiany na tej samej licencji.’

Efektywnie, zmusza to osoby korzystające z otwartych zestawów danych do absorbowania winy za użycie chronionych prawem autorskim materiałów w przypadku ewentualnych procesów sądowych (chociaż niekoniecznie chroni oryginalnych kompilatorów w przypadku, w którym bieżący klimat “bezpiecznej przystani” jest naruszony).

3: Zabezpieczenie przez niejasność
Współpraca w społeczności sztucznej inteligencji sprawia, że trudno jest wykorzystywać korporacyjny okultyzm, aby zaciemnić obecność algorytmów, które skorzystały na naruszeniu praw autorskich. Długoterminowe komercyjne projekty często zaczynają się w otwartych środowiskach open source, gdzie użycie zestawów danych jest sprawą publicznego rekordu, na GitHub i innych publicznie dostępnych forach, lub gdzie pochodzenie projektu zostało opublikowane w wstępnych lub recenzowanych artykułach.

Even where this is not the case, model inversion is increasingly capable of revealing the typical characteristics of datasets (or even explicitly outputting some of the source material), either providing proof in itself, or enough suspicion of infringement to enable court-ordered access to the history of the algorithm’s development, and details of the datasets used in that development.

Wnioski

Artykuł przedstawia chaotyczne i doraźne wykorzystanie chronionych prawem autorskim materiałów bez pozwolenia, oraz serię łańcuchów licencji, które, gdy są logicznie śledzone aż do oryginalnego źródła danych, wymagałyby negocjacji z tysiącami posiadaczy praw autorskich, których praca była prezentowana pod auspicjami stron z różnymi warunkami licencji, wiele z nich wykluczających pochodne prace komercyjne.

Autorzy wnioskują:

‘Publicznie dostępne zestawy danych są powszechnie wykorzystywane do budowy komercyjnego oprogramowania sztucznej inteligencji. Można to zrobić, jeśli (i tylko jeśli) licencja powiązana z publicznie dostępnym zestawem danych daje prawo do tego. Jednak nie jest łatwo zweryfikować prawa i obowiązki określone w licencji powiązanej z publicznie dostępnymi zestawami danych. Ponieważ czasami licencja jest albo niejasna, albo potencjalnie nieważna.’

Inny nowy artykuł, zatytułowany Budowanie legalnych zestawów danych, opublikowany 2 listopada przez Centrum Prawa Komputacyjnego na Singapore Management University, również podkreśla potrzebę uświadomienia sobie, że era “dzikiego zachodu” ad hoc zbierania danych dobiega końca, i powtarza zalecenia artykułu Huawei, aby przyjąć bardziej surowe zwyczaje i metody, aby zapewnić, że użycie zestawu danych nie naraża projektu na konsekwencje prawne, gdy kultura się zmienia w czasie, i gdy obecna globalna aktywność akademicka w sektorze sztucznej inteligencji szuka komercyjnego zwrotu z lat inwestycji. Autor obserwuje*:

‘[Korpus legislacji dotyczącej zestawów danych sztucznej inteligencji] jest przeznaczony do wzrostu, w związku z obawami, że obecne prawa oferują niewystarczające środki ostrożności. Projekt prawo Unii Europejskiej o sztucznej inteligencji, jeśli i kiedy zostanie przyjęty, znacznie zmieniłby krajobraz sztucznej inteligencji i zarządzania danymi; inne jurysdykcje mogą podążać za tymi aktami. ‘

* Moja konwersja odniesień wewnętrznych do łączy