заглушки Нынешние методы искусственного интеллекта могут способствовать появлению нового поколения троллей авторского права - Unite.AI
Свяжитесь с нами:

Этика

Текущие методы искусственного интеллекта могут способствовать появлению нового поколения троллей авторского права

mm
обновленный on

Новое исследовательское сотрудничество между Huawei и академическими кругами предполагает, что большая часть наиболее важных текущих исследований в области искусственного интеллекта и машинного обучения может стать объектом судебных разбирательств, как только они станут коммерчески заметными, поскольку наборы данных, которые делают возможными прорывы, распространяются с недействительными данными. лицензии, которые не соответствуют первоначальным условиям общедоступных доменов, из которых были получены данные.

По сути, это имеет два почти неизбежных возможных результата: очень успешные коммерциализированные алгоритмы ИИ, которые, как известно, использовали такие наборы данных, станут будущими целями оппортунистических патентных троллей, чьи авторские права не были соблюдены, когда их данные были извлечены; и что организации и отдельные лица смогут использовать те же юридические уязвимости, чтобы протестовать против развертывания или распространения технологий машинного обучения, которые они считают нежелательными.

Ассоциация бумаги называется Могу ли я использовать этот общедоступный набор данных для создания коммерческого программного обеспечения ИИ? Скорее всего нет, и является результатом сотрудничества между Huawei Canada и Huawei China совместно с Йоркским университетом в Великобритании и Университетом Виктории в Канаде.

Пять из шести (популярных) наборов данных с открытым исходным кодом не могут использоваться по закону

Для исследования авторы попросили отделы Huawei выбрать наиболее желательные наборы данных с открытым исходным кодом, которые они хотели бы использовать в коммерческих проектах, и выбрали шесть наиболее востребованных наборов данных из ответов: СИФАР-10 (подмножество 80 миллионов крошечных изображений набор данных, так как Изъятый для «уничижительных терминов» и «оскорбительных изображений», хотя их производные множатся); IMAGEnet; Городские пейзажи (который содержит исключительно оригинальный материал); ФФШК; ВГГФейс2качества МСККОКО.

Чтобы проанализировать, подходят ли выбранные наборы данных для легального использования в коммерческих проектах, авторы разработали новый конвейер для отслеживания цепочки лицензий, насколько это было возможно для каждого набора, хотя им часто приходилось прибегать к захвату веб-архива, чтобы находить лицензии на доменах с истекшим сроком действия, а в некоторых случаях приходилось «угадывать» статус лицензии по ближайшей доступной информации.

Архитектура системы отслеживания происхождения, разработанная авторами. Источник: https://arxiv.org/pdf/2111.02374.pdf

Архитектура системы отслеживания происхождения, разработанная авторами. Источник: https://arxiv.org/pdf/2111.02374.pdf

Авторы обнаружили, что лицензии на пять из шести наборов данных «содержат риски, связанные как минимум с одним контекстом коммерческого использования»:

«[Мы] наблюдаем, что, за исключением MS COCO, ни одна из исследованных лицензий не дает практикам право коммерциализировать модель ИИ, обученную на данных или даже результатах обученной модели ИИ. Такой результат также эффективно мешает практикам даже использовать предварительно обученные модели, обученные на этих наборах данных. Доступны общедоступные наборы данных и предварительно обученные на них модели ИИ. широко используется в коммерческих целях.' *

Авторы также отмечают, что три из шести исследованных наборов данных могут дополнительно привести к нарушению лицензии в коммерческих продуктах, если набор данных будет изменен, поскольку это допускает только MS-COCO. Тем не менее, расширение данных, а также подмножества и надмножества влиятельных наборов данных являются обычной практикой.

В случае с CIFAR-10 первоначальные составители вообще не создавали какой-либо общепринятой формы лицензии, а только требовали, чтобы проекты, использующие набор данных, включали ссылку на исходную статью, которая сопровождала выпуск набора данных, что представляет собой дополнительное препятствие для установления правовой статус данных.

Кроме того, только набор данных CityScapes содержит материал, который создается исключительно создателями набора данных, а не «курируется» (извлекается) из сетевых источников, при этом CIFAR-10 и ImageNet используют несколько источников, каждый из которых необходимо исследовать. и проследить, чтобы установить какой-либо механизм авторского права (или даже осмысленный отказ от ответственности).

No Way Out

Есть три фактора, на которые полагаются коммерческие ИИ-компании, чтобы защитить себя от судебных разбирательств по продуктам, которые свободно и без разрешения использовали защищенный авторским правом контент из наборов данных для обучения алгоритмов ИИ. Ни один из них не обеспечивает надежной (или какой-либо) надежной долгосрочной защиты:

1: Национальные законы Laissez Faire
Хотя правительства во всем мире вынуждены ослаблять законы, касающиеся очистки данных, чтобы не отступить в гонке за высокопроизводительный ИИ (который опирается на большие объемы реальных данных, для которых регулярное соблюдение авторских прав и лицензирование было бы нереалистичным), только Соединенные Штаты предлагают полный иммунитет в этом отношении в соответствии с Доктрина добросовестного использования – политика, ратифицированная в 2015 г. заключение Гильдии авторов против Google, Inc., в котором утверждалось, что поисковый гигант может свободно использовать материалы, защищенные авторским правом, для своего проекта Google Книги, не будучи обвиненным в нарушении прав.

Если политика Доктрины добросовестного использования когда-либо изменится (т. е. в ответ на другой исторический случай с участием достаточно влиятельных организаций или корпораций), это, вероятно, будет считаться априорный состояние с точки зрения использования существующих баз данных, нарушающих авторские права, защиты прежнего использования; но нет постоянный использование и разработка систем, которые были разрешены с помощью материалов, защищенных авторским правом, без согласия.

Это ставит текущую защиту Доктрины добросовестного использования на очень временную основу и потенциально может, в этом сценарии, потребовать, чтобы установленные, коммерциализированные алгоритмы машинного обучения прекратили работу в тех случаях, когда их происхождение было связано с защищенным авторским правом материалом — даже в случаях, когда модели весами теперь имеют дело исключительно с разрешенным контентом, но были обучены (и стали полезными) на незаконно скопированном контенте.

Как отмечают авторы в новой статье, за пределами США политика в целом менее снисходительна. Великобритания и Канада возмещают ущерб только за использование данных, защищенных авторским правом, в некоммерческих целях, в то время как Закон ЕС об интеллектуальном анализе текстов и данных (который не был полностью отменен последние предложения для более формального регулирования ИИ) также исключает коммерческое использование систем ИИ, которые не соответствуют требованиям авторского права исходных данных.

Эти последние договоренности означают, что организация может добиться больших результатов с данными других людей, вплоть до получения денег, но не включая их. На этом этапе продукт либо станет юридически уязвимым, либо потребуется составить договоренности буквально с миллионами правообладателей, многих из которых сейчас невозможно отследить из-за изменчивой природы Интернета — невозможная и недоступная перспектива.

2: Предостережение Имптор
В случаях, когда организации-нарушители надеются отложить вину, в новой статье также отмечается, что многие лицензии на самые популярные наборы данных с открытым исходным кодом автоматически защищают себя от любых претензий о нарушении авторских прав:

«Например, лицензия ImageNet прямо требует, чтобы специалисты-практики освобождали команду ImageNet от любых претензий, возникающих в связи с использованием набора данных. Наборы данных FFHQ, VGGFace2 и MS COCO требуют, чтобы набор данных, если он распространяется или модифицируется, представлялся под той же лицензией».

По сути, это вынуждает тех, кто использует наборы данных FOSS, брать на себя вину за использование материалов, защищенных авторским правом, перед лицом возможного судебного разбирательства (хотя это не обязательно защищает первоначальных составителей в случае, когда присутствует нынешняя атмосфера «безопасной гавани»).

3: Искупление через неизвестность
Совместный характер сообщества машинного обучения затрудняет использование корпоративного оккультизма для сокрытия присутствия алгоритмов, которые извлекли выгоду из наборов данных, нарушающих авторские права. Долгосрочные коммерческие проекты часто начинаются в открытых средах FOSS, где использование наборов данных официально подтверждено, на GitHub и других общедоступных форумах или в тех случаях, когда истоки проекта были опубликованы в препринтах или рецензируемых статьях.

Даже там, где это не так, инверсия модели is все более способный выявления типичных характеристик наборов данных (или даже явный вывод часть исходного материала), либо предоставляя доказательства сами по себе, либо достаточные подозрения в нарушении, чтобы обеспечить доступ по решению суда к истории разработки алгоритма и деталям наборов данных, использованных при этой разработке.

Заключение

В документе показано хаотичное и случайное использование материалов, защищенных авторским правом, полученных без разрешения, а также ряд цепочек лицензий, которые, если логически следовать вплоть до исходного источника данных, потребовали бы переговоров с тысячами правообладателей, чья работа была представлена. под эгидой сайтов с самыми разными условиями лицензирования, многие из которых исключают производные коммерческие работы.

Авторы заключают:

«Общедоступные наборы данных широко используются для создания коммерческого программного обеспечения ИИ. Это можно сделать, если [и] только если лицензия, связанная с общедоступным набором данных, дает право на это. Однако проверить права и обязанности, предусмотренные в лицензии, связанной с общедоступными наборами данных, непросто. Потому что иногда лицензия либо неясна, либо потенциально недействительна».

Еще одна новая работа под названием Создание юридических наборов данных, выпущенный 2 ноября Центром вычислительного права Сингапурского университета управления, также подчеркивает необходимость того, чтобы специалисты по обработке и анализу данных осознали, что эра специального сбора данных «Дикого Запада» подходит к концу, и отражает рекомендации Huawei. документ для принятия более строгих привычек и методологий, чтобы гарантировать, что использование набора данных не подвергает проект юридическим последствиям, поскольку культура меняется со временем, а текущая глобальная академическая деятельность в секторе машинного обучения стремится к коммерческой отдаче от многолетних инвестиций. . Автор отмечает*:

«[Свод] законов, влияющих на наборы данных ML, будет расти на фоне опасений, что действующие законы предлагают недостаточное защитные меры. Проект ЗОС [Закон ЕС об искусственном интеллекте], если и когда он будет принят, это значительно изменит ландшафт управления ИИ и данными; другие юрисдикции могут последовать их примеру со своими собственными законами. '

 

* Мое преобразование встроенных цитат в гиперссылки