Этика

Текущие практики ИИ могут способствовать появлению нового поколения троллей, нарушающих авторские права

Published November 5, 2021

Updated April 28, 2026

Martin Anderson

Новое исследовательское сотрудничество между Huawei и академией предполагает, что значительная часть наиболее важных текущих исследований в области искусственного интеллекта и машинного обучения может быть подвержена судебным искам, как только оно станет коммерчески значимым, поскольку наборы данных, которые делают возможными прорывы, распространяются с недействительными лицензиями, которые не уважают исходные условия публичных доменов, из которых была получена информация.

По сути, это имеет два почти неизбежных возможных исхода: что очень успешные, коммерциализированные алгоритмы ИИ, известные использованием таких наборов данных, станут будущими целями oportunistic патентных троллей, чьи авторские права не были уважены, когда их данные были собраны; и что организации и отдельные лица смогут использовать эти же юридические уязвимости, чтобы протестовать против развертывания или распространения технологий машинного обучения, которые они находят возмутительными.

Статья называется Могу ли я использовать этот публично доступный набор данных для построения коммерческого программного обеспечения ИИ? Скорее всего, нет, и представляет собой сотрудничество между Huawei Canada и Huawei China, вместе с Йоркским университетом в Великобритании и Университетом Виктории в Канаде.

Пять из шести (популярных) открытых наборов данных не являются юридически доступными

Для исследования авторы попросили департаменты Huawei выбрать наиболее желаемые открытые наборы данных, которые они хотели бы использовать в коммерческих проектах, и выбрали шесть наиболее запрошенных наборов данных из ответов: CIFAR-10 (подмножество набора данных 80 миллионов крошечных изображений, поскольку отозвано из-за ‘уничижительных терминов’ и ‘возмутительных изображений’, хотя его производные распространяются); ImageNet; Cityscapes (который содержит исключительно оригинальный материал); FFHQ; VGGFace2, и MSCOCO.

Чтобы проанализировать, подходят ли выбранные наборы данных для юридического использования в коммерческих проектах, авторы разработали новую трубу для отслеживания цепочки лицензий как можно дальше для каждого набора, хотя они часто должны были прибегать к веб-архивным захватам, чтобы найти лицензии с истекшими доменами, и в определенных случаях должны были ‘угадать’ статус лицензии из ближайшей доступной информации.

Архитектура системы отслеживания происхождения, разработанная авторами. Источник: https://arxiv.org/pdf/2111.02374.pdf

Авторы обнаружили, что лицензии на пять из шести наборов данных ‘содержат риски, связанные с至少 одним коммерческим контекстом использования’:

‘[Мы] наблюдаем, что, кроме MS COCO, ни одна из изученных лицензий не дает практикам право коммерциализировать модель ИИ, обученную на данных, или даже вывод обученной модели. Такой результат также эффективно предотвращает возможность практиков использовать предварительно обученные модели, обученные на этих наборах данных. Публично доступные наборы данных и модели ИИ, предварительно обученные на них, широко используются коммерчески.’ *

Авторы также отмечают, что три из шести изученных наборов данных могут дополнительно привести к нарушению лицензии в коммерческих продуктах, если набор данных изменен, поскольку только MS-COCO позволяет это. Однако данные аугментации и подмножества и надмножества влиятельных наборов данных являются обычной практикой.

В случае с CIFAR-10 оригинальные компиляторы не создали никакой обычной формы лицензии, только требуя, чтобы проекты, использующие набор данных, включали цитату на исходную статью, сопровождающую выпуск набора данных, представляя дальнейшее препятствие для установления юридического статуса данных.

Далее, только набор данных CityScapes содержит материал, который исключительно сгенерирован создателями набора данных, а не ‘кураторами’ (собранными) из сетевых источников, с CIFAR-10 и ImageNet, использующими несколько источников, каждый из которых потребует расследования и отслеживания, чтобы установить любую форму механизма авторских прав (или даже осмысленную оговорку).

Нет выхода

Существуют три фактора, на которые, кажется, коммерческие компании ИИ полагаются, чтобы защитить себя от судебных исков вокруг продуктов, которые использовали защищенный авторским правом контент из наборов данных свободно и без разрешения, для обучения алгоритмов ИИ. Ни один из этих факторов не обеспечивает надежную долгосрочную защиту:

1: Легкомысленные национальные законы
Хотя правительства по всему миру вынуждены ослаблять законы вокруг сбора данных, чтобы не отстать в гонке за эффективным ИИ (который полагается на большие объемы реальных данных, для которых регулярное соблюдение авторских прав и лицензирование было бы нереалистичным), только Соединенные Штаты предлагают полную иммунитет в этом отношении, в соответствии с Доктриной справедливого использования – политикой, которая была ратифицирована в 2015 году с заключением дела Authors Guild v. Google, Inc., которое подтвердило, что поисковый гигант может свободно использовать защищенный авторским правом материал для своего проекта Google Books без обвинений в нарушении.

Если политика Доктрины справедливого использования когда-либо изменится (например, в ответ на другое знаковое дело, связанное с достаточно влиятельными организациями или корпорациями), она, скорее всего, будет считаться a priori состоянием в отношении использования текущих баз данных, нарушающих авторские права, защищающей предыдущее использование; но не продолжающееся использование и разработку систем, которые были облегчены защищенным авторским правом материалом без соглашения.

Это ставит текущую защиту Доктрины справедливого использования на очень условной основе, и потенциально может потребовать от установленных, коммерциализированных алгоритмов машинного обучения прекратить работу в случаях, когда их происхождение было облегчено защищенным авторским правом материалом – даже в случаях, когда веса модели теперь имеют дело исключительно с разрешенным контентом, но были обучены на (и стали полезными благодаря) незаконно скопированному контенту.

За пределами США, как отмечают авторы в новой статье, политики обычно менее снисходительны. Великобритания и Канада только освобождают от ответственности использование защищенного авторским правом контента для некоммерческих целей, в то время как Закон ЕС о текстовом и данных майнинга (который не был полностью отменен недавними предложениями по более формальному регулированию ИИ) также исключает коммерческое использование для систем ИИ, которые не соответствуют требованиям авторских прав исходных данных.

Эти последние договоренности означают, что организация может добиться великих успехов с данными других людей, до – но не включая – момента получения прибыли от этого. На этой стадии продукт либо станет юридически уязвимым, либо потребуется заключить соглашения с буквально миллионами правообладателей, многие из которых теперь неотслеживаемы из-за меняющейся природы интернета – непосильная перспектива.

2: Caveat Emptor
В случаях, когда нарушающие организации надеются отложить вину, новая статья также отмечает, что многие лицензии на наиболее популярные открытые наборы данных автоматически освобождают себя от любых претензий по поводу нарушения авторских прав:

‘Например, лицензия ImageNet требует от практиков освобождения команды ImageNet от любых претензий, возникающих из использования набора данных. Наборы данных FFHQ, VGGFace2 и MS COCO требуют, чтобы набор данных, если он распространяется или изменяется, был представлен под той же лицензией.’

По сути, это заставляет тех, кто использует наборы данных с открытым исходным кодом, поглощать вину за использование защищенного авторским правом контента в случае будущих судебных исков (хотя это не обязательно защищает оригинальных компиляторов в случае, когда текущая атмосфера ‘безопасной гавани’ нарушена).

3: Освобождение через неясность
Совместная природа сообщества машинного обучения делает довольно трудным использование корпоративного оккультизма, чтобы скрыть присутствие алгоритмов, которые получили пользу от нарушающих авторские права наборов данных. Долгосрочные коммерческие проекты часто начинаются в открытых средах с открытым исходным кодом, где использование наборов данных является делом записи, на GitHub и других публично доступных форумах, или где происхождение проекта было опубликовано в предварительных или рецензируемых статьях.

Даже в случаях, когда это не так, обратное моделирование становится все более способным раскрывать типичные характеристики наборов данных (или даже явно выводить часть исходного материала), либо предоставляя доказательства сами по себе, либо достаточно подозрений в нарушении, чтобы позволить судебно-приказному доступу к истории разработки алгоритма и подробностям наборов данных, использованных в этой разработке.

Заключение

Статья изображает хаотичное и неформальное использование защищенного авторским правом контента, полученного без разрешения, и серию цепочек лицензий, которые, логически последовательно отслеживаемые до исходного источника данных, потребуют переговоров с тысячами правообладателей, чья работа была представлена под эгидой сайтов с разнообразными условиями лицензирования, многие из которых исключают производные коммерческие работы.

Авторы заключают:

‘Публично доступные наборы данных широко используются для построения коммерческого программного обеспечения ИИ. Можно сделать это, если [и] только если лицензия, связанная с публично доступным набором данных, предоставляет право на это. Однако не легко проверить права и обязательства, предусмотренные лицензией, связанной с публично доступными наборами данных. Потому что, иногда лицензия неясна или потенциально недействительна.’

Другая новая работа, озаглавленная Построение юридических наборов данных, выпущенная 2 ноября из Центра вычислительного права в Университете менеджмента Сингапура, также подчеркивает необходимость для ученых-исследователей признать, что ‘дикая западная’ эпоха неформального сбора данных подходит к концу, и отражает рекомендации статьи Huawei по принятию более строгих привычек и методологий, чтобы обеспечить, что использование наборов данных не подвергает проект юридическим последствиям, поскольку культура меняется со временем, и поскольку текущая глобальная академическая деятельность в секторе машинного обучения стремится получить коммерческую отдачу от лет инвестиций. Автор отмечает*:

‘[Корпус] законодательства, влияющего на наборы данных ИИ, готов расти, среди опасений, что текущие законы предлагают недостаточные гарантии. Проект АИА [Европейский закон об искусственном интеллекте], если и когда он будет принят, существенно изменит ландшафт ИИ и управления данными; другие юрисдикции могут последовать этому примеру со своими собственными актами. ‘

* Мой перевод внутренних цитат в гиперссылки