Погляд Anderson

Поточні практики штучного інтелекту можуть сприяти появі нового покоління тролів з авторськими правами

Опубліковано 5 листопада 2021

Оновлено 24 травня 2026

Martin Anderson

Нова дослідницька співпраця між Huawei та академічними колами свідчить про те, що велика частина найважливіших поточних досліджень у сфері штучного інтелекту та машинного навчання може бути піддана судовому розгляду, як тільки вона стане комерційно значимою, оскільки набори даних, які роблять можливими прориви, поширюються з недійсними ліцензіями, які не поважають原始ні умови публічних доменів, з яких були отримані дані.

По суті, це має два майже неминучі можливі наслідки: дуже успішні комерціалізовані алгоритми штучного інтелекту, які відомі тим, що використовували такі набори даних, стануть майбутніми цілями для oportunістичних патентних тролів, чий авторські права не були поважені при використанні їхніх даних; і організації та особи зможуть використовувати ці самі юридичні вразливості, щоб протестувати розгортання або поширення технологій машинного навчання, які вони вважають недопустимими.

У статті вказано, що Чи можна використовувати цей публічно доступний набір даних для створення комерційного програмного забезпечення штучного інтелекту? Найімовірніше, ні, і це є спільною роботою між Huawei Canada та Huawei China, разом з Університетом Йорка у Великій Британії та Університетом Вікторії у Канаді.

П’ять із шести (популярних) відкритих наборів даних не є юридично використовуваними

Для дослідження автори попросили відділи Huawei вибрати найбажаніші відкриті набори даних, які вони хотіли б використати у комерційних проектах, і обрали шість найбільш запитаних наборів даних з відповідей: CIFAR-10 (підмножина набору даних 80 мільйонів малих зображень, оскільки відкликнуто через “образливі терміни” та “образливі зображення”, хоча його похідні продовжують поширюватися); ImageNet; Cityscapes (який містить виключно оригінальний матеріал); FFHQ; VGGFace2, і MSCOCO.

Для аналізу того, чи підходять вибрані набори даних для юридичного використання у комерційних проектах, автори розробили новий трубопровід для відстежування ланцюга ліцензій наскільки це було можливо для кожного набору, хоча їм часто доводилося вдаватися до захоплення веб-архівів, щоб знайти ліцензії з доменів, які зараз закінчилися термін дії, і в деяких випадках їм доводилося “вгадувати” статус ліцензії з найближчої доступної інформації.

Архітектура системи відстеження походження, розроблена авторами. Джерело: https://arxiv.org/pdf/2111.02374.pdf

Автори виявили, що ліцензії на п’ять із шести наборів даних містять ризики, пов’язані з至少 одним комерційним контекстом використання:

‘[Ми] спостерігаємо, що, крім MS COCO, жодна з досліджуваних ліцензій не надає право комерціалізувати модель штучного інтелекту, навчену на даних, або навіть вивід модель штучного інтелекту. Такий результат також ефективно запобігає можливість використання попередньо натренованих моделей, навчених на цих наборах даних. Публічно доступні набори даних і моделі штучного інтелекту, попередньо натреновані на них, широко використовуються комерційно.’ *

Автори далі зазначають, що три з шести досліджуваних наборів даних також можуть призвести до порушення ліцензії у комерційних продуктах, якщо набір даних буде змінено, оскільки тільки MS-COCO дозволяє це. Однак дані доповнення та підмножини і надмножини впливових наборів даних є звичайною практикою.

У випадку з CIFAR-10 оригінальні компілятори не створили жодної традиційної форми ліцензії, лише вимагаючи, щоб проекти, які використовують набір даних, включали посилання на оригінальну статтю, яка супроводжувала випуск набору даних, представляючи ще одну перешкоду для встановлення юридичного статусу даних.

Крім того, тільки набір даних CityScapes містить матеріал, який виключно створений оригінальними авторами, а не “кураторами” (скопійованими з мережевих джерел), тоді як CIFAR-10 і ImageNet використовують кілька джерел, кожне з яких потрібно буде розслідувати і відстежувати, щоб встановити будь-який механізм авторських прав (або хоча б значущу відмову).

Немає виходу

Є три чинники, на які компанії штучного інтелекту, здається, сподіваються захистити себе від судових процесів щодо продуктів, які використовували матеріали з авторськими правами з наборів даних без дозволу, для навчання алгоритмів штучного інтелекту. Жоден з цих чинників не забезпечує надійного довгострокового захисту:

1: Національні закони лезе-фер
Хоча уряди всього світу змушені послаблювати закони щодо збору даних, щоб не відставати в гонці за ефективним штучним інтелектом (який залежить від великих обсягів реальних даних, для яких регулярна відповідність авторським правам і ліцензуванням була б нереалістичною), тільки Сполучені Штати пропонують повну безпеку в цьому відношенні, згідно з доктриною справедливого використання – політикою, яка була ратифікована в 2015 році з заключенням справи Authors Guild v. Google, Inc., яке підтвердило, що пошукова система могла вільно використовувати матеріали з авторськими правами для проекту Google Books без звинувачень у порушенні прав.

Якщо політика доктрини справедливого використання коли-небудь зміниться (наприклад, у відповідь на іншу знакову справу, яка涉лює досить потужні організації або корпорації), це, ймовірно, буде вважатися a priori станом щодо використання поточних баз даних, що порушують авторські права; але не тривалий використання і розвиток систем, які були можливі завдяки матеріалам з авторськими правами без згоди.

Це ставить поточний захист доктрини справедливого використання на дуже умовній основі, і міг би потенційно, в такому сценарії, вимагати від встановлених комерціалізованих алгоритмів машинного навчання припинити роботу у випадках, коли їхнє походження було можливим завдяки матеріалам з авторськими правами без дозволу – навіть у випадках, коли ваги моделі тепер займаються виключно дозволеним вмістом, але були навчені на (і стали корисними завдяки) незаконно скопійованим матеріалам.

Поза межами США, як зазначають автори у новій статті, політики一般 менш поблажливі. Велика Британія та Канада лише звільняють від відповідальності використання матеріалів з авторськими правами для некомерційних цілей, тоді як закон ЄС про текстове та даних майнінг (який не був повністю скасований недавніми пропозиціями щодо більш формального регулювання штучного інтелекту) також виключає комерційне використання для систем штучного інтелекту, які не відповідають вимогам авторських прав оригінальних даних.

Ці останні домовленості означають, що організація може досягти великих речей з чужими даними, аж до – але не включаючи – моменту отримання будь-яких грошей з цього. На цьому етапі продукт або буде юридично вразливим, або потрібно буде укладати угоди з буквально мільйонами власників авторських прав, багатьох з яких тепер неможливо знайти через зміну інтернету – неможливу і недосяжну перспективу.

2: Caveat Emptor
У випадках, коли організації, які порушують авторські права, сподіваються відтерміновувати відповідальність, нова стаття також зазначає, що багато ліцензій на найпопулярніші відкриті набори даних автоматично звільняють себе від будь-яких претензій щодо порушення авторських прав:

‘Наприклад, ліцензія ImageNet явно вимагає від практиків звільнити команду ImageNet від будь-яких претензій, що виникають з використання набору даних. Набори даних FFHQ, VGGFace2 і MS COCO вимагають, щоб набір даних, якщо він поширюється або змінюється, був представлений під тією ж ліцензією.’

По суті, це змушує тих, хто використовує відкриті набори даних, поглинати відповідальність за використання матеріалів з авторськими правами у разі майбутніх судових процесів (хоча це не обов’язково захищає оригінальних компіляторів у випадку, коли поточна атмосфера “безпечної гавані” порушена).

3: Відшкодування через невідомість
Колаборативна природа спільноти машинного навчання робить досить складним використання корпоративного окультизму для приховування присутності алгоритмів, які отримали вигоду від порушень авторських прав наборів даних. Довгострокові комерційні проекти часто починаються в відкритих середовищах з відкритим кодом, де використання наборів даних є справою запису, на GitHub та інших публічно доступних форумах, або де походження проекту були опубліковані в попередніх або рецензованих статтях.

Хоча це не завжди так, інверсія моделі є дедалі більш здатною розкривати типові характеристики наборів даних (або навіть явно виводити деякий джерельний матеріал), або надавати докази самі по собі, або достатньо підозр щодо порушення авторських прав, щоб дозволити суду наказати доступ до історії розробки алгоритму та деталей наборів даних, використаних у цій розробці.

Висновок

Стаття зображує хаотичне і ад hoc використання матеріалів з авторськими правами без дозволу, а також серію ланцюгів ліцензій, які, логічно продовжені назад до походження даних, вимагали б переговорів з тисячами власників авторських прав, чиї роботи були представлені під егідою сайтів з різними ліцензійними умовами, багато з яких виключали комерційне використання для похідних робіт.

Автори висновують:

‘Публічно доступні набори даних широко використовуються для створення комерційного програмного забезпечення штучного інтелекту. Це можна зробити, якщо ліцензія, пов’язана з публічно доступним набором даних, надає право на це. Однак не легко перевірити права та обов’язки, передбачені ліцензією, пов’язаною з публічно доступним набором даних. Тому що іноді ліцензія є невизначеною або потенційно недійсною.’

Інша нова робота, озаглавлена Будівництво юридичних наборів даних, опублікована 2 листопада Центром обчислювального права Сінгапурського університету управління, також підкреслює необхідність для вчених-даних визнати, що “дикі західні” часи ад hoc збору даних закінчуються, і дзеркально відображає рекомендації статті Huawei щодо впровадження більш суворих звичок і методологій для забезпечення того, щоб використання наборів даних не піддає проекти юридичним наслідкам, оскільки культура змінюється з часом, а поточна глобальна академічна діяльність у сфері машинного навчання шукає комерційний результат за роки інвестицій. Автор спостерігає*:

‘[Корпус законодавства, яке впливає на набори даних машинного навчання,] є set to grow, amid concerns, що поточні закони пропонують недостатні захисти. Проект закону ЄС про штучний інтелект, якщо він буде прийнятий, суттєво змінить ландшафт штучного інтелекту та управління даними; інші юрисдикції можуть слідувати цьому прикладу з власними законами. ‘

* Моя конвертація внутрішніх посилань у гіперпосилання

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Unite.AI

Поточні практики штучного інтелекту можуть сприяти появі нового покоління тролів з авторськими правами

П’ять із шести (популярних) відкритих наборів даних не є юридично використовуваними

Немає виходу

Висновок

Дізнайтеся більше