Свяжитесь с нами:

Почти 80% обучающих наборов данных могут представлять юридическую опасность для корпоративного ИИ

Угол Андерсона

Почти 80% обучающих наборов данных могут представлять юридическую опасность для корпоративного ИИ

mm
ChatGPT и Adobe Firefly.

В недавней статье LG AI Research говорится, что якобы «открытые» наборы данных, используемые для обучения моделей ИИ, могут создавать ложное чувство безопасности. Установлено, что почти четыре из пяти наборов данных ИИ, помеченных как «коммерчески пригодные», на самом деле содержат скрытые юридические риски.

Такие риски варьируются от включения нераскрытого материала, защищенного авторским правом, до ограничительных условий лицензирования, глубоко заложенных в зависимости набора данных. Если выводы статьи верны, компаниям, использующим общедоступные наборы данных, возможно, придется пересмотреть свои текущие процессы в сфере ИИ, иначе они рискуют столкнуться с юридическими проблемами на последующих этапах.

Исследователи предлагают радикальное и потенциально спорное решение: агенты по обеспечению соответствия на основе искусственного интеллекта, способные сканировать и проверять истории наборов данных быстрее и точнее, чем юристы-люди.

В документе говорится:

«В данной статье утверждается, что правовой риск наборов данных для обучения ИИ нельзя определить исключительно путем изучения поверхностных условий лицензии; для обеспечения соответствия необходим тщательный сквозной анализ перераспределения наборов данных.

«Поскольку такой анализ выходит за рамки человеческих возможностей из-за своей сложности и масштаба, агенты ИИ могут преодолеть этот разрыв, проводя его с большей скоростью и точностью. Без автоматизации критические правовые риски остаются в значительной степени неизученными, что ставит под угрозу этическое развитие ИИ и соблюдение нормативных требований.

«Мы призываем сообщество исследователей ИИ признать сквозной юридический анализ основополагающим требованием и принять подходы на основе ИИ как жизнеспособный путь к обеспечению соответствия масштабируемым наборам данных».

Изучив 2,852 популярных набора данных, которые, судя по их индивидуальным лицензиям, представлялись пригодными для коммерческого использования, автоматизированная система исследователей обнаружила, что только 605 из них (около 21%) были фактически юридически безопасны для коммерциализации после отслеживания всех их компонентов и зависимостей.

Радиус корня Новый документ называется Не доверяйте лицензиям, которые вы видите — соответствие наборам данных требует масштабного отслеживания жизненного цикла с использованием искусственного интеллектаи исходит от восьми исследователей из LG AI Research.

Права и ошибки

Авторы подчеркивают проблемы с которыми сталкиваются компании, продвигающие разработку ИИ в условиях все более неопределенной правовой среды, поскольку прежнее академическое мышление «добросовестного использования» при обучении работе с наборами данных уступает место раздробленной среде, где правовая защита неясна, а безопасная гавань больше не гарантируется.

Как одна публикация отметил, В последнее время компании все чаще защищаются в отношении источников своих данных для обучения. Автор Адам Бьюик комментирует*:

«[В то время как] OpenAI раскрыл основные источники данных для GPT-3, документ, представляющий GPT-4, показало, только то, что данные, на которых обучалась модель, представляли собой смесь «общедоступных данных (например, интернет-данных) и данных, лицензированных у сторонних поставщиков».

«Разработчики ИИ не озвучили подробно мотивы такого отхода от прозрачности, а во многих случаях вообще не дали никаких объяснений.

«Со своей стороны, OpenAI обосновала свое решение не публиковать дополнительные подробности относительно GPT-4 опасениями относительно «конкурентной среды и последствий для безопасности крупномасштабных моделей», не предоставив в отчете никаких дополнительных пояснений».

Прозрачность может быть неискренним термином или просто ошибочным; например, флагман компании Adobe Светляк генеративная модель, обученная на биржевых данных, которые Adobe имела права использовать, предположительно предлагала клиентам заверения о законности их использования системы. Позже некоторые доказательства появились что банк данных Firefly «обогащен» потенциально защищенными авторским правом данными с других платформ.

Как мы обсуждалось ранее на этой неделе, появляется все больше инициатив, направленных на обеспечение соблюдения лицензий в наборах данных, включая инициативу, которая будет извлекать только видео YouTube с гибкими лицензиями Creative Commons.

Проблема в том, что сами по себе лицензии могут быть ошибочными или выдаваться по ошибке, как показывают новые исследования.

Изучение наборов данных с открытым исходным кодом

Сложно разработать систему оценки, подобную системе Nexus, разработанной авторами, в условиях постоянно меняющегося контекста. Поэтому в статье утверждается, что система оценки соответствия требованиям NEXUS основана на «различных прецедентах и ​​правовых основаниях, существующих на данный момент».

NEXUS использует агента на основе искусственного интеллекта, называемого Автосоответствие для автоматизированного соответствия данных. AutoCompliance состоит из трех основных модулей: навигационного модуля для веб-исследования, вопросно-ответного (QA) модуля для извлечения информации и скорингового модуля для оценки правовых рисков.

AutoCompliance начинается с веб-страницы, предоставленной пользователем. ИИ извлекает ключевые данные, ищет связанные ресурсы, определяет условия и зависимости лицензий и присваивает оценку правового риска. Источник: https://arxiv.org/pdf/2503.02784

AutoCompliance начинается с веб-страницы, предоставленной пользователем. ИИ извлекает ключевые данные, ищет соответствующие ресурсы, определяет условия и зависимости лицензий и присваивает оценку правового риска. Источник: https://arxiv.org/pdf/2503.02784

Эти модули работают на основе точно настроенных моделей искусственного интеллекта, включая EXAONE-3.5-32B-Инструкция модель, обученная на синтетических и маркированных человеком данных. AutoCompliance также использует базу данных для кэширования результатов с целью повышения эффективности.

AutoCompliance начинает с предоставленного пользователем URL-адреса набора данных и рассматривает его как корневую сущность, выполняя поиск его условий лицензии и зависимостей и рекурсивно отслеживая связанные наборы данных для построения графика зависимости лицензий. После сопоставления всех соединений он вычисляет баллы соответствия и назначает классификации рисков.

Структура соответствия данных, изложенная в новой работе, определяет различные типы сущностей, участвующих в жизненном цикле данных, включая Наборы данных, которые формируют основные входные данные для обучения ИИ; программное обеспечение для обработки данных и модели ИИ, которые используются для преобразования и использования данных; и Поставщики услуг платформы, которые облегчают обработку данных.

Система комплексно оценивает правовые риски, рассматривая различные сущности и их взаимозависимости, выходя за рамки механической оценки лицензий наборов данных и включая более широкую экосистему компонентов, задействованных в разработке ИИ.

Data Compliance оценивает юридический риск на протяжении всего жизненного цикла данных. Он присваивает баллы на основе деталей набора данных и 14 критериев, классифицируя отдельные сущности и агрегируя риск по зависимостям.

Data Compliance оценивает юридический риск на протяжении всего жизненного цикла данных. Он присваивает баллы на основе деталей набора данных и 14 критериев, классифицируя отдельные сущности и агрегируя риск по зависимостям.

Обучение и метрики

Авторы извлекли URL-адреса 1,000 самых загружаемых наборов данных на Hugging Face, случайным образом отобрав 216 элементов для формирования тестового набора.

Модель EXAONE была доработаны на основе пользовательского набора данных авторов, с использованием навигационного модуля и модуля вопросов и ответов синтетические данныеи модуль оценки с использованием данных, маркированных человеком.

Метки Ground-trut были созданы пятью экспертами по правовым вопросам, которые прошли обучение по крайней мере 31 час по аналогичным задачам. Эти эксперты вручную определили зависимости и условия лицензий для 216 тестовых случаев, затем объединили и уточнили свои выводы посредством обсуждения.

С помощью обученной, откалиброванной человеком системы AutoCompliance, протестированной на соответствие ЧатGPT-4o и растерянность Pro, в условиях лицензии было обнаружено значительно больше зависимостей:

Точность определения зависимостей и условий лицензии для 216 оценочных наборов данных.

Точность определения зависимостей и условий лицензии для 216 оценочных наборов данных.

В документе говорится:

«AutoCompliance значительно превосходит всех других агентов и Human expert, достигая точности 81.04% и 95.83% в каждой задаче. Напротив, и ChatGPT-4o, и Perplexity Pro показывают относительно низкую точность для задач Source и License соответственно.

«Эти результаты подчеркивают превосходную производительность AutoCompliance, демонстрируя ее эффективность в решении обеих задач с исключительной точностью, а также указывая на существенный разрыв в производительности между моделями на основе ИИ и экспертами-людьми в этих областях».

С точки зрения эффективности, для запуска подхода AutoCompliance потребовалось всего 53.1 секунды, в то время как для эквивалентной оценки тех же задач человеком потребовалось 2,418 секунд.

Кроме того, стоимость оценочного запуска составила $0.29 USD по сравнению с $207 USD для экспертов-людей. Однако следует отметить, что это основано на ежемесячной аренде узла GCP a2-megagpu-16gpu по ставке $14,225 XNUMX в месяц – что означает, что этот вид экономической эффективности в первую очередь связан с крупномасштабной операцией.

Исследование набора данных

Для анализа исследователи отобрали 3,612 наборов данных, объединив 3,000 самых загружаемых наборов данных из Hugging Face с 612 наборами данных из 2023 года. Инициатива по происхождению данных.

В документе говорится:

«Начиная с 3,612 целевых сущностей, мы идентифицировали в общей сложности 17,429 13,817 уникальных сущностей, из которых XNUMX XNUMX сущностей оказались прямыми или косвенными зависимостями целевых сущностей.

«В нашем эмпирическом анализе мы считаем, что сущность и ее граф зависимостей от лицензий имеют однослойную структуру, если у сущности нет никаких зависимостей, и многослойную структуру, если у нее есть одна или несколько зависимостей.

«Из 3,612 целевых наборов данных 2,086 (57.8%) имели многослойные структуры, тогда как остальные 1,526 (42.2%) имели однослойные структуры без зависимостей».

Защищенные авторским правом наборы данных могут распространяться только с законного разрешения, которое может исходить из лицензии, исключений из закона об авторском праве или условий контракта. Несанкционированное распространение может привести к правовым последствиям, включая нарушение авторских прав или контракта. Поэтому четкое определение несоблюдения имеет важное значение.

Нарушения распределения, обнаруженные в соответствии с критерием 4.4. соответствия данных, указанным в статье.

Нарушения распределения, обнаруженные в соответствии с критерием 4.4. соответствия данных, указанным в статье.

Исследование выявило 9,905 случаев несоответствующего требованиям распространения наборов данных, разделенных на две категории: 83.5% были явно запрещены условиями лицензирования, что делает распространение явным нарушением закона; и 16.5% были связаны с наборами данных с противоречивыми условиями лицензии, когда распространение теоретически разрешалось, но не соответствовало требуемым условиям, что создавало последующие правовые риски.

Авторы признают, что критерии риска, предложенные в NEXUS, не являются универсальными и могут различаться в зависимости от юрисдикции и сферы применения ИИ, и что будущие усовершенствования должны быть направлены на адаптацию к меняющимся глобальным нормам при одновременном совершенствовании правовой экспертизы на основе ИИ.

Заключение

Это пространный и в целом недружелюбный документ, но в нем рассматривается, пожалуй, самый большой фактор, сдерживающий нынешнее внедрение ИИ в отрасли, — вероятность того, что на кажущиеся «открытыми» данные впоследствии обратятся различные субъекты, отдельные лица и организации.

Согласно DMCA, нарушения могут законно повлечь за собой огромные штрафы на по каждому случаю В случаях, когда нарушения могут достигать миллионов, как в случаях, обнаруженных исследователями, потенциальная юридическая ответственность действительно существенна.

Кроме того, компании, которые могут доказать, что извлекли выгоду из данных по добыче полезных ископаемых, не могут (по-прежнему) оправдываются невежеством, по крайней мере, на влиятельном рынке США. У них также нет в настоящее время никаких реалистичных инструментов, с помощью которых можно было бы проникнуть в лабиринты последствий, зарытых в соглашениях о лицензировании наборов данных с открытым исходным кодом.

Проблема разработки такой системы, как NEXUS, заключается в том, что ее было бы достаточно сложно калибровать по каждому штату в США или по каждой стране в ЕС; перспектива создания по-настоящему глобальной структуры (своего рода «Интерпола для определения происхождения наборов данных») подрывается не только противоречивыми мотивами различных правительств, но и тем фактом, что и сами правительства, и состояние их действующих законов в этом отношении постоянно меняются.

 

* Моя замена цитат авторов гиперссылками.
В статье предписано шесть типов, но последние два не определены.

Впервые опубликовано Пятница, 7 марта 2025 г.