Етика
Поточні практики штучного інтелекту можуть дозволяти новому поколінню тролів авторських прав

Нове дослідження, проведене у співпраці між Huawei та академічними колами, свідчить про те, що велика частина найбільш важливих сучасних досліджень у сфері штучного інтелекту та машинного навчання може бути піддана судовим позовам, як тільки вони стануть комерційно значимими, оскільки набори даних, які роблять можливими прориви, розповсюджуються з недійсними ліцензіями, які не поважають原始ні умови публічних доменів, з яких дані були отримані.
У результаті це має два майже неминучі можливі наслідки: дуже успішні комерціалізовані алгоритми штучного інтелекту, які відомі тим, що використовували такі набори даних, стануть майбутніми цілями для oportunістичних патентних тролів, чий авторські права не були поважені, коли їх дані були витягнуті; і організації та особи зможуть використовувати ці самі юридичні вразливості, щоб протестувати розгортання або поширення технологій машинного навчання, які вони вважають неприйнятними.
Документ документ називається Чи можу я використовувати цей публічно доступний набір даних для створення комерційного програмного забезпечення штучного інтелекту? Найімовірніше, ні, і є спільною роботою між Huawei Canada та Huawei China, разом з Університетом Йорка у Великій Британії та Університетом Вікторії у Канаді.
П’ять з шести (популярних) відкритих наборів даних не є юридично використовуваними
Для дослідження автори попросили відділи Huawei вибрати найбільш бажані відкриті набори даних, які вони хотіли б використовувати у комерційних проектах, і вибрані шість найбільш запитуваних наборів даних з відповідей: CIFAR-10 (підмножина набору 80 мільйонів малих зображень, оскільки відкликані через ‘образливі терміни’ та ‘образливі зображення’, хоча його похідні широко поширені); ImageNet; Cityscapes (який містить виключно оригінальний матеріал); FFHQ; VGGFace2, і MSCOCO.
Для аналізу того, чи є вибрані набори даних придатними для юридичного використання у комерційних проектах, автори розробили новий трубопровід для відстеження ланцюга ліцензій наскільки це було можливо для кожного набору, хоча їм часто доводилося вдаватися до веб-архівних захоплень, щоб знайти ліцензії з现在 недійсних доменів, і в деяких випадках мали “вгадувати” статус ліцензії з найближчої доступної інформації.

Архітектура системи відстеження походження, розроблена авторами. Джерело: https://arxiv.org/pdf/2111.02374.pdf
Автори виявили, що ліцензії для п’яти з шести наборів даних містять ризики, пов’язані з至少 одним комерційним контекстом використання:
‘[Ми] спостерігаємо, що, крім MS COCO, жодна з вивчених ліцензій не надає право комерціалізувати модель штучного інтелекту, навчену на даних, або навіть вивід модель, навченої на цих даних. Такий результат також ефективно запобігає можливість використання попередньо навчених моделей, навчених на цих наборах даних. Публічно доступні набори даних і моделі штучного інтелекту, попередньо навчені на них, широко використовуються комерційно.’ *
Автори далі зазначають, що три з шести вивчених наборів даних можуть додатково привести до порушення ліцензії у комерційних продуктах, якщо набір даних буде змінено, оскільки тільки MS-COCO дозволяє це. Однак дані збільшення і підмножини та надмножини впливових наборів даних є поширеною практикою.
У випадку з CIFAR-10 оригінальні компілятори не створили жодної звичайної форми ліцензії, лише вимагаючи, щоб проекти, які використовують набір даних, включали посилання на оригінальну статтю, яка супроводжувала випуск набору даних, представляючи подальшу перешкоду для встановлення юридичного статусу даних.
Крім того, тільки набір даних CityScapes містить матеріал, який виключно створений творцями набору даних, а не “кураторами” (витягнутими) з мережевих джерел, тоді як CIFAR-10 і ImageNet використовують кілька джерел, кожне з яких потрібно буде розслідувати і відстежувати, щоб встановити будь-який механізм авторських прав (або навіть значущу відмову).
Немає виходу
Є три чинники, на які комерційні компанії штучного інтелекту, здається, спираються для захисту від судових позовів щодо продуктів, які використовували матеріали, захищені авторськими правами, з наборів даних без дозволу, для навчання алгоритмів штучного інтелекту. Жоден з цих чинників не забезпечує надійного довгострокового захисту:
1: Національні закони леза фере
Хоча уряди всього світу змушені послаблювати закони щодо збору даних, щоб не відставати у гонці за ефективним штучним інтелектом (який залежить від великих обсягів реальних даних, для яких регулярна відповідність авторським правам і ліцензуванням була б нереалістичною), тільки Сполучені Штати пропонують повну імунітет у цьому відношенні, згідно з Доктрині справедливого використання – політикою, яка була ратифікована у 2015 році з заключенням справи Authors Guild v. Google, Inc., яка підтвердила, що пошукова система могла вільно використовувати захищені авторським правом матеріали для проекту Google Books без звинувачення у порушенні авторських прав.
Якщо політика Доктрини справедливого використання коли-небудь зміниться (наприклад, у відповідь на іншу знакову справу, що涉лює достатньо потужні організації або корпорації), це, ймовірно, буде вважатися a priori станом щодо використання поточних порушень авторських прав; але не тривалих використання і розробки систем, які були можливі завдяки матеріалам, захищеним авторськими правами, без згоди.
Це ставить поточний захист Доктрини справедливого використання на дуже тимчасовій основі, і міг би потенційно, у цьому сценарії, вимагати встановлених комерціалізованих алгоритмів машинного навчання припинити роботу у випадках, коли їх походження було можливим завдяки матеріалам, захищеним авторськими правами, але не отримали згоди – навіть у випадках, коли ваги моделі тепер займаються виключно дозволеним вмістом, але були навчені на (і стали корисними завдяки) незаконно скопійованим матеріалам.
Поза межами США, як зазначають автори у новій роботі, політики загалом менш терпимі. Велика Британія та Канада лише звільняють використання захищених авторським правом даних для некомерційних цілей, тоді як законодавство ЄС щодо текстових і даних майнінгу (яке не було повністю скасовано недавніми пропозиціями щодо більш формального регулювання штучного інтелекту) також виключає комерційне використання для систем штучного інтелекту, які не відповідають вимогам авторських прав оригінальних даних.
Ці останні домовленості означають, що організація може досягти великих речей з даними інших людей, аж до – але не включаючи – моменту отримання будь-яких грошей з цього. На цьому етапі продукт або буде юридично вразливим, або домовленості потрібно буде укладати з буквально тисячами власників авторських прав, багатьох з яких тепер неможливо знайти через зміну інтернету – неможливу і недоцільну перспективу.
2: Caveat Emptor
У випадках, коли організації, які порушують права, сподіваються відкласти відповідальність, нова робота також зазначає, що багато ліцензій для найбільш популярних відкритих наборів даних автоматично звільняють себе від будь-яких претензій щодо порушення авторських прав:
‘Наприклад, ліцензія ImageNet явно вимагає від практиків звільнити команду ImageNet від будь-яких претензій, що виникають з використання набору даних. Набори даних FFHQ, VGGFace2 і MS COCO вимагають, щоб набір даних, якщо він розповсюджується або змінюється, був представлений під тією ж ліцензією.’
Відповідально, це змушує тих, хто використовує відкриті набори даних, поглинати відповідальність за використання матеріалів, захищених авторськими правами, у разі майбутніх судових позовів (хоча це не обов’язково захищає оригінальних компіляторів у випадку, коли поточна атмосфера “безпечної гавані” скомпрометована).
3: Відшкодування через неясність
Колаборативна природа спільноти машинного навчання робить досить складним використання корпоративної неясності для приховування присутності алгоритмів, які отримали вигоду від порушень авторських прав. Довгострокові комерційні проекти часто починаються в відкритих середовищах, де використання наборів даних є питанням запису, на GitHub і інших публічно доступних форумах, або де походження проекту були опубліковані у попередніх або рецензованих статтях.
Хоча це не завжди так, інверсія моделі стає дедалі більш здатною розкривати типові характеристики наборів даних (або навіть явно виводити деякий з джерельного матеріалу), або надавати докази самі по собі, або достатньо підозр щодо порушення авторських прав, щоб дозволити суду наказати доступ до історії розробки алгоритму та деталей наборів даних, використаних у цій розробці.
Висновок
Документ зображує хаотичне і ад hoc використання матеріалів, захищених авторськими правами, отриманих без дозволу, і серію ланцюгів ліцензій, які, логічно продовжені якнайдалі до походження даних, вимагали б переговорів з тисячами власників авторських прав, чия робота була представлена під егідою сайтів з різними ліцензійними умовами, багато з яких виключають комерційні похідні роботи.
Автори роблять висновок:
‘Публічно доступні набори даних широко використовуються для створення комерційного програмного забезпечення штучного інтелекту. Це можна зробити, якщо [і] тільки якщо ліцензія, пов’язана з публічно доступним набором даних, надає право на це. Однак не легко перевірити права та обов’язки, передбачені ліцензією, пов’язаною з публічно доступними наборами даних. Тому що, іноді ліцензія є невизначеною або потенційно недійсною.’
Інша нова робота, озаглавлена Будівництво юридичних наборів даних, випущена 2 листопада з Центру обчислювального права Сінгапурського університету управління, також підкреслює необхідність того, щоб фахівці з даних визнали, що “дикі західні” часи ад hoc збору даних закінчуються, і дзеркально повторює рекомендації документу Huawei щодо прийняття більш суворих звичок і методологій для забезпечення того, щоб використання наборів даних не піддавало проект юридичним наслідкам, оскільки культура змінюється з часом, і оскільки поточна глобальна академічна діяльність у сфері машинного навчання шукає комерційний результат років інвестицій. Автор спостерігає*:
‘[Корпус законодавства, яке впливає на набори даних машинного навчання, має зростати, серед побоювань, що поточні закони пропонують недостатні захисти. Проект Закону ЄС про штучний інтелект [Проект Закону ЄС про штучний інтелект], якщо він буде прийнятий, суттєво змінить ландшафт штучного інтелекту та управління даними; інші юрисдикції можуть слідувати за своїми законами. ‘
* Мій перехід внутрішніх посилань на гіперпосилання












