Взгляд Anderson
Почти 80% тренировочных наборов данных могут быть юридической опасностью для корпоративного ИИ

Недавняя статья исследователей из LG AI Research предполагает, что якобы «открытые» наборы данных, используемые для обучения моделей ИИ, могут создавать ложное чувство безопасности – обнаружив, что почти четыре из пяти наборов данных ИИ, помеченных как «коммерчески пригодные», на самом деле содержат скрытые юридические риски.
Такие риски варьируются от включения не раскрытых авторских материалов до ограничительных лицензионных условий, спрятанных глубоко в зависимостях набора данных. Если выводы статьи точны, компании, полагающиеся на публичные наборы данных, могут需要 пересмотреть свои текущие трубопроводы ИИ или рискнуть юридической ответственностью.
Исследователи предлагают радикальное и потенциально спорное решение: агенты соответствия на основе ИИ, способные сканировать и проверять истории наборов данных быстрее и точнее, чем человеческие юристы.
Статья гласит:
«Эта статья утверждает, что юридический риск тренировочных наборов данных ИИ не может быть определён только путем рассмотрения условий лицензии на поверхности; всесторонний, комплексный анализ перераспределения набора данных необходим для обеспечения соответствия.
«Поскольку такой анализ выходит за пределы человеческих возможностей из-за его сложности и масштаба, агенты ИИ могут закрыть этот разрыв, проводя его с большей скоростью и точностью. Без автоматизации критические юридические риски остаются в значительной степени неисследованными, подвергая опасности этический разработку ИИ и соблюдение правил.
«Мы призываем сообщество исследователей ИИ признать комплексный юридический анализ фундаментальным требованием и принять подходы, основанные на ИИ, как жизнеспособный путь к масштабному соответствию наборов данных».
Изучая 2852 популярных набора данных, которые казались коммерчески пригодными на основе их индивидуальных лицензий, автоматизированная система исследователей обнаружила, что только 605 (около 21%) были фактически юридически безопасными для коммерциализации после того, как все их компоненты и зависимости были отслежены.
Новая статья озаглавлена Не доверяйте лицензиям, которые вы видите – соответствие набора данных требует мощного, основанного на ИИ, жизненного цикла отслеживания, и исходит от восьми исследователей из LG AI Research.
Права и Неправа
Авторы подчеркивают вызовы, с которыми сталкиваются компании, продвигающие разработку ИИ в все более неопределенной юридической среде – поскольку бывший академический «справедливое использование» подход к обучению наборов данных уступает место разрозненной среде, где юридические защиты неясны и безопасная гавань больше не гарантирована.
Как указала одна публикация недавно, компании становятся все более оборонительными относительно источников своих тренировочных данных. Автор Адам Буик комментирует*:
«[Хотя] OpenAI раскрыла основные источники данных для GPT-3, статья, представляющая GPT-4 раскрыла только то, что данные, на которых была обучена модель, были смесью «публично доступных данных (таких как интернет-данные) и данных, лицензированных у третьих лиц».
«Мотивы, стоящие за этим отходом от прозрачности, не были артикулированы в какой-либо конкретной детали разработчиками ИИ, которые во многих случаях не дали никакого объяснения.
«OpenAI оправдала свое решение не выпускать дальнейшие подробности о GPT-4 на основании опасений по поводу «конкурентной среды и последствий крупномасштабных моделей», без дальнейшего объяснения в отчете».
Прозрачность может быть неискренним термином – или просто ошибочным; например, флагманская Firefly генеративная модель Adobe, обученная на запасных данных, которые Adobe имела право использовать, якобы предложила клиентам уверенность в законности использования системы. Позже некоторые доказательства появились, что горшок данных Firefly стал «обогащенным» потенциально авторскими данными с других платформ.
Как мы обсуждали на этой неделе, растут инициативы, предназначенные для обеспечения соблюдения лицензий в наборах данных, включая одну, которая будет только скрапить видео с YouTube с гибкими лицензиями Creative Commons.
Проблема заключается в том, что лицензии сами по себе могут быть ошибочными или выданы по ошибке, как, кажется, указывает новое исследование.
Изучение Открытых Наборов Данных
Трудно разработать систему оценки, такую как система авторов, когда контекст постоянно меняется. Следовательно, статья гласит, что система соответствия наборов данных NEXUS основана на «различных прецедентах и юридических основаниях на данный момент».
NEXUS использует агент, основанный на ИИ, под названием AutoCompliance для автоматизированного соответствия данных. AutoCompliance состоит из трех ключевых модулей: модуля навигации для веб-исследований; модуля вопросов и ответов (QA) для извлечения информации; и модуля оценки для юридической оценки риска.

AutoCompliance начинается с веб-страницы, предоставленной пользователем. ИИ извлекает ключевые детали, ищет связанные ресурсы, определяет условия лицензии и зависимости, и присваивает оценку юридического риска. Источник: https://arxiv.org/pdf/2503.02784
Эти модули работают на основе тонко настроенных моделей ИИ, включая модель EXAONE-3.5-32B-Instruct, обученную на синтетических и помеченных людьми данных. AutoCompliance также использует базу данных для кэширования результатов для повышения эффективности.
AutoCompliance начинается с URL набора данных, предоставленного пользователем, и рассматривает его как корневую сущность, ищет его условия лицензии и зависимости, и рекурсивно отслеживает связанные наборы данных для построения графа зависимости лицензий. Как только все связи будут отображены, он рассчитывает оценки соответствия и присваивает классификации риска.
Фреймворк соответствия наборов данных, изложенный в новой работе, определяет различные† типы сущностей, участвующих в жизненном цикле данных, включая наборы данных, которые образуют основной вход для обучения ИИ; программное обеспечение для обработки данных и модели ИИ, которые используются для преобразования и использования данных; и Поставщики платформенных услуг, которые облегчают обработку данных.
Система комплексно оценивает юридические риски, учитывая эти различные сущности и их взаимозависимости, выходя за рамки рутинной оценки лицензий наборов данных для включения более широкой экосистемы компонентов, участвующих в разработке ИИ.

Соответствие данных оценивает юридический риск на протяжении всего жизненного цикла данных. Он присваивает оценки на основе деталей набора данных и 14 критериев, классифицируя отдельные сущности и агрегируя риск по зависимости.
Обучение и Метрики
Авторы извлекли URL-адреса 1000 самых загружаемых наборов данных на Hugging Face, случайным образом выбрав 216 элементов для составления тестового набора.
Модель EXAONE была тонко настроена на пользовательском наборе данных авторов, с модулем навигации и модулем вопросов и ответов, использующими синтетические данные, и модулем оценки, использующим помеченные людьми данные.
Метки «золотого стандарта» были созданы пятью юридическими экспертами, обученными не менее 31 часа в аналогичных задачах. Эти человеческие эксперты вручную определили зависимости и условия лицензии для 216 тестовых случаев, затем агрегировали и уточнили свои выводы через обсуждение.
С обученной, калиброванной системой AutoCompliance, протестированной на ChatGPT-4o и Perplexity Pro, было обнаружено значительно больше зависимостей в условиях лицензии:

Точность выявления зависимостей и условий лицензии для 216 оценочных наборов данных.
Статья гласит:
«AutoCompliance значительно превосходит все другие агенты и человеческих экспертов, достигая точности 81,04% и 95,83% в каждой задаче. Напротив, ChatGPT-4o и Perplexity Pro показывают относительно низкую точность для задач источника и лицензии соответственно.
«Эти результаты подчеркивают превосходную производительность AutoCompliance, демонстрируя его эффективность в обработке обеих задач с замечательной точностью, а также указывая на значущий разрыв в производительности между моделями, основанными на ИИ, и человеческими экспертами в этих областях».
В плане эффективности подход AutoCompliance занял всего 53,1 секунды, в отличие от 2418 секунд для эквивалентной человеческой оценки на тех же задачах.
Кроме того, стоимость оценки составила 0,29 доллара США, по сравнению с 207 долларами США для человеческих экспертов. Однако следует отметить, что это основано на аренде узла GCP a2-megagpu-16gpu ежемесячно по ставке 14225 долларов США в месяц – указывая на то, что такая экономия средств связана в основном с крупномасштабными операциями.
Расследование Наборов Данных
Для анализа исследователи выбрали 3612 наборов данных, объединив 3000 самых загружаемых наборов данных из Hugging Face с 612 наборами данных из инициативы Data Provenance 2023.
Статья гласит:
«Начиная с 3612 целевых сущностей, мы определили в общей сложности 17429 уникальных сущностей, где 13817 сущностей появлялись как прямые или косвенные зависимости целевых сущностей».
«Для нашего эмпирического анализа мы считаем сущность и ее граф зависимости лицензии имеющим однослойную структуру, если сущность не имеет никаких зависимостей, и многослойную структуру, если она имеет одну или несколько зависимостей».
«Из 3612 целевых наборов данных 2086 (57,8%) имели многослойные структуры, тогда как остальные 1526 (42,2%) имели однослойные структуры без зависимостей».
Авторские наборы данных можно перераспределять только с юридическим полномочием, которое может исходить от лицензии, исключений авторского права или условий контракта. Незаконная перераспределение может привести к юридическим последствиям, включая нарушение авторских прав или нарушение контракта. Поэтому четкая идентификация несоответствия имеет решающее значение.

Нарушения распределения, найденные в соответствии с критерием 4.4 соответствия данных, упомянутым в статье.
Исследование обнаружило 9905 случаев незаконной перераспределения наборов данных, разделенных на две категории: 83,5% были явно запрещены условиями лицензии, что делало перераспределение явным юридическим нарушением; и 16,5% включали наборы данных с противоречивыми условиями лицензии, где перераспределение было разрешено в теории, но не соответствовало необходимым условиям, создавая юридический риск вниз по цепочке.
Авторы признают, что предложенные ими критерии риска не являются универсальными и могут варьироваться в зависимости от юрисдикции и применения ИИ, и что будущие улучшения должны сосредоточиться на адаптации к меняющимся глобальным правилам, а также на усовершенствовании юридического обзора на основе ИИ.
Заключение
Это сложная и в значительной степени не дружественная статья, но она затрагивает, возможно, самый большой тормозящий фактор в текущем промышленном внедрении ИИ – возможность того, что якобы «открытые» данные позже будут заявлены различными сущностями, лицами и организациями.
Согласно DMCA, нарушения могут юридически включать巨альные штрафы на каждом случае. Где нарушения могут достигать миллионов, как в случаях, обнаруженных исследователями, потенциальная юридическая ответственность действительно значительна.
Кроме того, компании, которые могут быть доказаны как получившие выгоду от данных вверх по цепочке, не могут (как обычно) утверждать, что они не знали об этом, по крайней мере на влиятельном рынке США. Им также в настоящее время не хватает реальных инструментов, с помощью которых они могли бы проникнуть в лабиринтные последствия, скрытые в якобы открытом наборе данных лицензионных соглашений.
Проблема в формировании системы, такой как NEXUS, заключается в том, что было бы достаточно сложно калибровать ее на уровне штата внутри США или на уровне страны внутри ЕС; перспектива создания действительно глобального фреймворка (наподобие «Интерпола» для происхождения наборов данных) подрывается не только противоречивыми мотивами <diverse governments involved, but the fact that both these governments and the state of their current laws in this regard are constantly changing.
*Моя замена гиперссылок на цитаты авторов.
†Шесть типов предписаны в статье, но последние два не определены.
Опубликовано впервые в пятницу, 7 марта 2025 года












