Погляд Anderson
Близько 80% тренувальних наборів даних можуть бути юридичною загрозою для корпоративного ІІ

Нещодавня робота дослідників з LG AI Research свідчить про те, що так звані “відкриті” набори даних, які використовуються для навчання моделей ІІ, можуть створювати хибне відчуття безпеки – виявивши, що майже чотири з п’яти наборів даних ІІ, позначених як “комерційно придатні”, насправді містять приховані юридичні ризики.
Такі ризики можуть варіюватися від включення не розкритого авторського матеріалу до обмежувальних ліцензійних умов, прихованих глибоко в залежностях набору даних. Якщо висновки статті точні, компанії, які покладаються на публічні набори даних, можуть потребувати перегляду своїх поточних трубопроводів ІІ, або ризикують юридичною відповідальністю в майбутньому.
Дослідники пропонують радикальне і потенційно суперечливе рішення: агентів з дотриманням законодавства на основі ІІ, які можуть сканувати і аудитувати історію наборів даних швидше і точніше, ніж людські юристи.
У статті зазначається:
‘Ця стаття свідчить про те, що юридичний ризик тренувальних наборів даних ІІ не може бути визначений лише шляхом перегляду ліцензійних умов поверхневого рівня; повний, комплексний аналіз перерозподілу набору даних є необхідним для забезпечення дотримання законодавства.
‘Оскільки такий аналіз виходить за межі людських можливостей через свою складність і масштаб, агенти ІІ можуть закрити цю прогалину, проводячи його з більшою швидкістю і точністю. Без автоматизації критичні юридичні ризики залишаються в основному неозглянутими, загрожуючи етичному розвитку ІІ і дотриманню законодавства.
‘Ми закликаємо спільноту дослідників ІІ визнати комплексний юридичний аналіз як фундаментальну вимогу і прийняти підходи, керовані ІІ, як життєздатний шлях до масштабованого дотримання законодавства наборів даних.’
Розглянувши 2852 популярні набори даних, які виглядали комерційно придатними на основі їхніх індивідуальних ліцензій, автоматизована система дослідників виявила, що лише 605 (близько 21%) були фактично юридично безпечними для комерціалізації після того, як були простежені всі їхні компоненти і залежності
Нова стаття називається Не довіряйте ліцензіям, які ви бачите – дотримання законодавства наборів даних вимагає масштабногоLifecycle трасування, керованого ІІ, і походить від восьми дослідників з LG AI Research.
Права і неправильності
Автори підкреслюють виклики, з якими стикаються компанії, які просувають розвиток ІІ в дедалі більш невизначеному юридичному ландшафті – коли колишній академічний погляд на “справедливе використання” навколо навчання наборів даних відходить у бік, і замість нього з’являється розбитий середовище, в якому юридичні захисти нечіткі і безпечна гавань більше не гарантується.
Як зазначила одна публікація недавно, компанії стають дедалі більш оборонними щодо джерел своїх тренувальних даних. Автор Адам Буїк коментує*:
‘[Хоча] OpenAI розкрила основні джерела даних для GPT-3, стаття, яка вводить GPT-4 виявила тільки те, що дані, на яких була навчена модель, були сумішшю ‘доступних публічно даних (наприклад, інтернет-даних) і даних, ліцензованих у постачальників третіх сторін’.
‘Мотиви такого відходу від прозорості не були висвітлені в якійсь конкретній деталі розробниками ІІ, які в багатьох випадках не надали жодного пояснення.
‘Відкрито, що OpenAI виправдала своє рішення не випускати подальші подробиці щодо GPT-4 на підставі побоювань щодо ‘конкурентного ландшафту і безпекових наслідків великомасштабних моделей’, без подальшого пояснення у звіті.’
Прозорість може бути нечесним терміном – або просто помилковим; наприклад, флагманська Firefly генераційна модель Adobe, навчена на даних акції, які мала право використовувати Adobe, нібито надавала клієнтам гарантії щодо юридичної чистоти використання системи. Пізніше з’явилися докази того, що дані Firefly стали “багатшими” потенційно авторськими даними з інших платформ.
Як ми обговорювали раніше цього тижня, існують розгорнуті ініціативи, спрямовані на забезпечення дотримання ліцензій у наборах даних, включаючи одну, яка буде брати тільки відео з YouTube з гнучкими ліцензіями Creative Commons.
Проблема полягає в тому, що ліцензії самі по собі можуть бути помилковими або надані помилково, як здається, свідчить нове дослідження.
Розгляд відкритих наборів даних
Важко розробити систему оцінки, таку як Nexus, коли контекст постійно змінюється. Тому стаття зазначає, що система дотримання законодавства NEXUS базується на “різних прецедентах і юридичних підставах на цей момент часу”.
NEXUS використовує агент, керований ІІ, під назвою AutoCompliance для автоматичного дотримання законодавства даних. AutoCompliance складається з трьох ключових модулів: модуля навігації для дослідження веб-ресурсів; модуля питання-відповідь для витягання інформації; і модуля оцінки для юридичної оцінки ризику.

AutoCompliance починається з веб-сторінки, наданої користувачем. ІІ витягує ключові деталі, шукає пов’язані ресурси, визначає ліцензійні умови та залежності і призначає оцінку юридичного ризику. Джерело: https://arxiv.org/pdf/2503.02784
Ці модулі працюють на основі тонко налаштованих моделей ІІ, включаючи модель EXAONE-3.5-32B-Instruct, навчену на синтетичних і людських даних. AutoCompliance також використовує базу даних для кешування результатів, щоб підвищити ефективність.
AutoCompliance починається з URL набору даних, наданого користувачем, і розглядає його як кореневий об’єкт, шукаючи його ліцензійні умови та залежності, і рекурсивно простежуючи пов’язані набори даних, щоб побудувати граф ліцензійних залежностей. Як тільки всі з’єднання будуть відображені, він обчислює оцінки дотримання законодавства і призначає класифікації ризику.
Каркас дотримання законодавства, викладений у новій роботі, ідентифікує різні† типи об’єктів, які беруть участь у життєвому циклі даних, включаючи набори даних, які утворюють основний вхід для навчання ІІ; програмне забезпечення для обробки даних і моделі ІІ, які використовуються для перетворення і використання даних; і постачальники платформових послуг, які полегшують обробку даних.
Система комплексно оцінює юридичні ризики, розглядаючи ці різні об’єкти і їхні взаємозалежності, рухаючись далі простої оцінки ліцензій наборів даних, щоб включити ширший екосистему компонентів, які беруть участь у розвитку ІІ.

Дотримання законодавства оцінює юридичні ризики протягом усього життєвого циклу даних. Воно призначає оцінки на основі деталей набору даних і 14 критеріїв, класифікуючи окремі об’єкти і агрегуючи ризик по залежностям.
Навчання і метрики
Автори витягнули URL-адреси 1000 найбільш завантажуваних наборів даних у Hugging Face, випадково вибравши 216 предметів для формування тестової вибірки.
Модель EXAONE була тонко налаштована на власному наборі даних авторів, з модулем навігації і модулем питання-відповідь, які використовували синтетичні дані, і модулем оцінки, який використовував людські дані.
Еталонні мітки були створені п’ятьма юридичними експертами, які пройшли щонайменше 31 годину навчання у подібних завданнях. Ці людські експерти вручну ідентифікували залежності і ліцензійні умови для 216 тестових випадків, а потім агрегували і уточнили свої висновки через обговорення.
З навченою, людською системою AutoCompliance, протестованою на ChatGPT-4o і Perplexity Pro, було виявлено значно більше залежностей у ліцензійних умовах:

Точність у визначенні залежностей і ліцензійних умов для 216 оцінюваних наборів даних.
У статті зазначається:
‘AutoCompliance значно перевершує всіх інших агентів і людських експертів, досягнувши точності 81,04% і 95,83% у кожному завдання. Навпаки, ChatGPT-4o і Perplexity Pro демонструють відносно низьку точність для завдань Джерело і Ліцензія відповідно.
‘Ці результати підкреслюють вищу продуктивність AutoCompliance, демонструючи його ефективність у обробці обидвох завдань з вражаючою точністю, а також вказуючи на суттєву продуктивну прогалину між моделями, керованими ІІ, і людськими експертами в цих областях.’
За ефективністю підхід AutoCompliance зайняв лише 53,1 секунди, у порівнянні з 2418 секундами для еквівалентної людської оцінки тих самих завдань.
Крім того, оцінка витрат становила лише 0,29 долара США, у порівнянні з 207 доларами США для людських експертів. Однак варто зазначити, що це засновано на оренді вузла GCP a2-megagpu-16gpu щомісяця за ставкою 14 225 доларів США за місяць – що свідчить про те, що така ефективність витрат в основному пов’язана з великомасштабною операцією.
Дослідження наборів даних
Для аналізу дослідники обрали 3612 наборів даних, об’єднавши 3000 найбільш завантажуваних наборів даних з Hugging Face з 612 наборів даних з ініціативи Data Provenance 2023.
У статті зазначається:
‘Починаючи з 3612 цільових об’єктів, ми ідентифікували загалом 17 429 унікальних об’єктів, де 13 817 об’єктів з’явилися як прямі або непрямі залежності цільових об’єктів.
‘Для нашого емпіричного аналізу ми розглядаємо об’єкт і його граф ліцензійних залежностей як одношарову структуру, якщо об’єкт не має жодних залежностей, і багаторівневу структуру, якщо він має одну або кілька залежностей.
‘З 3612 цільових наборів даних 2086 (57,8%) мали багаторівневі структури, тоді як інші 1526 (42,2%) мали одношарові структури без залежностей.’
Авторизовані набори даних можна перерозподіляти лише з юридичною владою, яка може походити з ліцензії, винятків з авторського права або умов договору. Незаконна перерозподіл може привести до юридичних наслідків, включаючи порушення авторського права або порушення договору. Тому чітка ідентифікація неконформності є необхідною.

Порушення розподілу, виявлені згідно з критерієм 4.4. дотримання законодавства, наведеним у статті.
Дослідження виявило 9905 випадків неконформного перерозподілу наборів даних, розділених на дві категорії: 83,5% були явно заборонені ліцензійними умовами, що робило перерозподіл явним юридичним порушенням; і 16,5% включали набори даних з конфліктними умовами ліцензії, де перерозподіл був дозволений теоретично, але не відповідав необхідним умовам, створюючи юридичні ризики вниз по ланцюжку.
Автори визнають, що критерії ризику, запропоновані в NEXUS, не є універсальними і можуть варіюватися залежно від юрисдикції і застосування ІІ, і що майбутні поліпшення повинні зосередитися на адаптації до змін глобальних регуляцій, а також на вдосконаленні юридичної оцінки, керованої ІІ.
Висновок
Це довга і в основному незручна стаття, але вона розглядає, можливо, найбільший гальмівний фактор у поточному промисловому прийнятті ІІ – можливість того, що очевидні “відкриті” дані пізніше будуть оскаржуватися різними суб’єктами, особами та організаціями.
Згідно з DMCA, порушення можуть юридично передбачати величезні штрафи за кожен випадок. Там, де порушення можуть досягати мільйонів, як у випадках, виявлених дослідниками, потенційна юридична відповідальність є дійсно суттєвою.
Крім того, компанії, які можуть бути доведені до того, що вони отримали вигоду від даних, які передували їм, не можуть (як зазвичай) посилатися на невідання як виправдання, принаймні на впливовому ринку США. Крім того, вони зараз не мають жодних реалістичних інструментів, за допомогою яких вони могли б проникнути в лабіринтні наслідки, приховані в ліцензійних угодах наборів даних, які вважаються відкритими.
Проблема полягає в тому, що створення системи, такої як NEXUS, було б досить складним, навіть якщо б її потрібно було відкалібрувати на рівні окремої держави в США або окремої країни в ЄС; перспектива створення глобальної структури (типу “Інтерполу для походження наборів даних”) підкреслюється не лише суперечливими мотивами різних урядів, а й тим, що ці уряди та їхні поточні закони в цій сфері постійно змінюються.
* Моя заміна гіперпосилань на цитати авторів.
† Шість типів передбачені в статті, але останні два не визначені.
Перша публікація – п’ятниця, 7 березня 2025 року












