Этика
Текущие методы искусственного интеллекта могут способствовать появлению нового поколения троллей авторского права

Новое исследовательское сотрудничество между Huawei и академическими кругами предполагает, что большая часть наиболее важных текущих исследований в области искусственного интеллекта и машинного обучения может стать объектом судебных разбирательств, как только они станут коммерчески заметными, поскольку наборы данных, которые делают возможными прорывы, распространяются с недействительными данными. лицензии, которые не соответствуют первоначальным условиям общедоступных доменов, из которых были получены данные.
По сути, это имеет два почти неизбежных возможных результата: очень успешные коммерциализированные алгоритмы ИИ, которые, как известно, использовали такие наборы данных, станут будущими целями оппортунистических патентных троллей, чьи авторские права не были соблюдены, когда их данные были извлечены; и что организации и отдельные лица смогут использовать те же юридические уязвимости, чтобы протестовать против развертывания или распространения технологий машинного обучения, которые они считают нежелательными.
статье называется Могу ли я использовать этот общедоступный набор данных для создания коммерческого программного обеспечения ИИ? Скорее всего нет, и является результатом сотрудничества между Huawei Canada и Huawei China совместно с Йоркским университетом в Великобритании и Университетом Виктории в Канаде.
Пять из шести (популярных) наборов данных с открытым исходным кодом не могут использоваться по закону
Для исследования авторы попросили отделы Huawei выбрать наиболее желательные наборы данных с открытым исходным кодом, которые они хотели бы использовать в коммерческих проектах, и выбрали шесть наиболее востребованных наборов данных из ответов: СИФАР-10 (подмножество 80 миллионов крошечных изображений набор данных, так как Изъятый для «уничижительных выражений» и «оскорбительных изображений», хотя их производные множатся); IMAGEnet; Городские пейзажи (который содержит исключительно оригинальный материал); ФФШК; ВГГФейс2 и МСККОКО.
Чтобы проанализировать, подходят ли выбранные наборы данных для законного использования в коммерческих проектах, авторы разработали новый процесс, позволяющий проследить цепочку лицензий настолько, насколько это было возможно для каждого набора. При этом им часто приходилось прибегать к захвату веб-архивов, чтобы найти лицензии с доменов, срок действия которых уже истек, а в некоторых случаях им приходилось «угадывать» статус лицензии из ближайшей доступной информации.

Архитектура системы отслеживания происхождения, разработанная авторами. Источник: https://arxiv.org/pdf/2111.02374.pdf
Авторы обнаружили, что лицензии на пять из шести наборов данных «содержат риски, связанные как минимум с одним контекстом коммерческого использования»:
«[Мы] наблюдаем, что, за исключением MS COCO, ни одна из исследованных лицензий не дает практикам право коммерциализировать модель ИИ, обученную на данных или даже результатах обученной модели ИИ. Такой результат также эффективно мешает практикам даже использовать предварительно обученные модели, обученные на этих наборах данных. Доступны общедоступные наборы данных и предварительно обученные на них модели ИИ. широко используется в коммерческих целях.' *
Авторы также отмечают, что три из шести исследованных наборов данных могут дополнительно привести к нарушению лицензии в коммерческих продуктах, если набор данных будет изменен, поскольку это допускает только MS-COCO. Тем не менее, расширение данных, а также подмножества и надмножества влиятельных наборов данных являются обычной практикой.
В случае с CIFAR-10 первоначальные составители вообще не создавали какой-либо общепринятой формы лицензии, а только требовали, чтобы проекты, использующие набор данных, включали ссылку на исходную статью, которая сопровождала выпуск набора данных, что представляет собой дополнительное препятствие для установления правовой статус данных.
Кроме того, только набор данных CityScapes содержит материал, который создан исключительно создателями набора данных, а не «отобранный» (извлеченный) из сетевых источников, в то время как CIFAR-10 и ImageNet используют несколько источников, каждый из которых необходимо будет изучить и отследить, чтобы установить какой-либо механизм защиты авторских прав (или даже осмысленный отказ от ответственности).
No Way Out
Есть три фактора, на которые полагаются коммерческие ИИ-компании, чтобы защитить себя от судебных разбирательств по продуктам, которые свободно и без разрешения использовали защищенный авторским правом контент из наборов данных для обучения алгоритмов ИИ. Ни один из них не обеспечивает надежной (или какой-либо) надежной долгосрочной защиты:
1: Национальные законы Laissez Faire
Хотя правительства во всем мире вынуждены ослаблять законы, касающиеся очистки данных, чтобы не отступить в гонке за высокопроизводительный ИИ (который опирается на большие объемы реальных данных, для которых регулярное соблюдение авторских прав и лицензирование было бы нереалистичным), только Соединенные Штаты предлагают полный иммунитет в этом отношении в соответствии с Доктрина добросовестного использования – политика, ратифицированная в 2015 г. заключение Гильдии авторов против Google, Inc., в котором утверждалось, что поисковый гигант может свободно использовать материалы, защищенные авторским правом, для своего проекта Google Книги, не будучи обвиненным в нарушении прав.
Если политика Доктрины добросовестного использования когда-либо изменится (т. е. в ответ на другой исторический случай с участием достаточно влиятельных организаций или корпораций), это, вероятно, будет считаться априорный состояние с точки зрения использования существующих баз данных, нарушающих авторские права, защиты прежнего использования; но нет постоянный использование и разработка систем, которые были разрешены с помощью материалов, защищенных авторским правом, без согласия.
Это ставит текущую защиту Доктрины добросовестного использования на весьма условную основу и потенциально может в этом сценарии потребовать прекращения работы устоявшихся коммерчески доступных алгоритмов машинного обучения в случаях, когда их происхождение стало возможным благодаря материалам, защищенным авторским правом, – даже в случаях, когда модель весами теперь имеют дело исключительно с разрешенным контентом, но были обучены (и стали полезными) на незаконно скопированном контенте.
За пределами США, как отмечают авторы новой статьи, политика, как правило, менее снисходительна. Великобритания и Канада гарантируют защиту только от использования данных, защищённых авторским правом, в некоммерческих целях, в то время как Закон ЕС об интеллектуальном анализе текстов и данных (который не был полностью отменён последние предложения для более формального регулирования ИИ) также исключает коммерческое использование систем ИИ, которые не соответствуют требованиям авторского права исходных данных.
Эти последние соглашения означают, что организация может добиться значительных результатов, используя чужие данные, вплоть до получения прибыли, но не включая её. На этом этапе продукт либо станет юридически доступным, либо потребуется заключить соглашения буквально с миллионами правообладателей, многие из которых теперь невозможно отследить из-за изменчивой природы интернета — невыполнимая и невыгодная перспектива.
2: Предостережение Имптор
В случаях, когда организации-нарушители надеются отложить вину, в новой статье также отмечается, что многие лицензии на самые популярные наборы данных с открытым исходным кодом автоматически защищают себя от любых претензий о нарушении авторских прав:
«Например, лицензия ImageNet прямо требует от специалистов ограждать команду ImageNet от любых претензий, возникающих в связи с использованием набора данных. Для наборов данных FFHQ, VGGFace2 и MS COCO требуется, чтобы набор данных, если он распространяется или изменяется, был представлен по той же лицензии».
По сути, это вынуждает тех, кто использует наборы данных FOSS, брать на себя ответственность за использование материалов, защищенных авторским правом, в случае возможных судебных разбирательств (хотя это не обязательно защищает исходных составителей в случае, когда имеет место нынешняя атмосфера «безопасной гавани»).
3: Искупление через неизвестность
Совместный характер сообщества машинного обучения затрудняет использование корпоративного оккультизма для сокрытия присутствия алгоритмов, которые извлекли выгоду из наборов данных, нарушающих авторские права. Долгосрочные коммерческие проекты часто начинаются в открытых средах FOSS, где использование наборов данных официально подтверждено, на GitHub и других общедоступных форумах или в тех случаях, когда истоки проекта были опубликованы в препринтах или рецензируемых статьях.
Даже там, где это не так, инверсия модели is все более способный выявления типичных характеристик наборов данных (или даже явный вывод часть исходного материала), либо предоставляя доказательства сами по себе, либо достаточные основания для подозрения в нарушении, чтобы предоставить по решению суда доступ к истории разработки алгоритма и сведениям о наборах данных, использованных при этой разработке.
Заключение
В документе показано хаотичное и случайное использование материалов, защищенных авторским правом, полученных без разрешения, а также ряд цепочек лицензий, которые, если логически следовать вплоть до исходного источника данных, потребовали бы переговоров с тысячами правообладателей, чья работа была представлена. под эгидой сайтов с самыми разными условиями лицензирования, многие из которых исключают производные коммерческие работы.
Авторы заключают:
«Общедоступные наборы данных широко используются для создания коммерческого программного обеспечения для искусственного интеллекта. Это возможно только в том случае, если лицензия, связанная с общедоступным набором данных, предоставляет такое право. Однако проверить права и обязанности, предусмотренные лицензией, связанной с общедоступными наборами данных, непросто. Поскольку иногда лицензия либо неясна, либо потенциально недействительна».
Еще одна новая работа под названием Создание юридических наборов данныхВ докладе, опубликованном 2 ноября Центром вычислительного права Сингапурского университета менеджмента, также подчеркивается необходимость для специалистов по данным признать, что эпоха «Дикого Запада» сбора данных по мере необходимости подходит к концу, и перекликаются с рекомендациями из статьи Huawei о принятии более строгих правил и методологий, чтобы гарантировать, что использование наборов данных не создаст правовых последствий для проекта, поскольку культура меняется со временем, а текущая глобальная академическая активность в сфере машинного обучения стремится к коммерческой отдаче от многолетних инвестиций. Автор отмечает*:
«[Свод] законов, влияющих на наборы данных ML, будет расти на фоне опасений, что действующие законы предлагают недостаточное защитные меры. Проект ЗОС [Закон ЕС об искусственном интеллекте], если и когда он будет принят, это значительно изменит ландшафт управления ИИ и данными; другие юрисдикции могут последовать их примеру со своими собственными законами. '
* Мое преобразование встроенных цитат в гиперссылки












