Погляд Anderson

Автоматизація захисту авторських прав у зображеннях, згенерованих штучним інтелектом

mm
ChatGPT-4o: ' 1792x1024px image of a Front view of a British high court tribunal composed of three robots in judicial wigs. They are all examining an 8x10 photograph, but we cannot see what the photograph is, because its back is towards us. HQ, cinematic still'

Як обговорювалося на минулому тижні, навіть основні моделі, що стоять за популярними системами генерації штучного інтелекту, можуть створювати матеріали, що порушують авторські права, через недостатню або неправильну кураторську роботу, а також через наявність декількох версій одного й того ж зображення у навчальних даних, що призводить до переобучення та збільшує ймовірність появи впізнаваних копій.

Незважаючи на спроби домінувати у сфері генерації штучного інтелекту та зростаючий тиск щодо обмеження порушень авторських прав, великі платформи, такі як MidJourney та DALL-E від OpenAI, продовжують стикатися з проблемами у запобіганні непередбачуваному відтворенню матеріалів, що охороняються авторськими правами:

Спроможність генеративних систем відтворювати дані, що охороняються авторськими правами, регулярно з'являється в ЗМІ.

Спроможність генеративних систем відтворювати дані, що охороняються авторськими правами, регулярно з’являється в ЗМІ.

Як нові моделі з’являються, а китайські моделі отримують домінування, обмеження матеріалів, що охороняються авторськими правами, у основних моделях є складною задачею; фактично, лідер ринку OpenAI заявив минулого року, що ‘неможливо’ створити ефективні та корисні моделі без матеріалів, що охороняються авторськими правами.

Попередній досвід

Відносно непередбачуваного створення матеріалів, що охороняються авторськими правами, дослідницька сфера стикається з подібною проблемою, як і включення порнографічного контенту та іншого забороненого матеріалу до джерельних даних: одна хоче отримати користь від знань (тобто правильну анатомію людини, яка історично завжди базувалася на студіях оголеної натури) без можливості зловживати цим.

Аналогічно, творці моделей хочуть отримати користь від величезного обсягу матеріалів, що охороняються авторськими правами, які потрапляють до гіпермасштабних наборів даних, таких як LAION, без того, щоб модель розвивала можливість фактично порушувати авторські права.

Ігноруючи етичні та юридичні ризики спроб приховати використання матеріалів, що охороняються авторськими правами, фільтрація для другого випадку значно складніше. Порнографічний контент часто містить особливі низькорівневі латентні ознаки, які дозволяють ефективно фільтрувати без прямого порівняння з реальним матеріалом. Натомість латентні вкладення, які визначають мільйони матеріалів, що охороняються авторськими правами, не зводяться до набору легко ідентифікованих ознак, що робить автоматичне виявлення значно складніше.

CopyJudge

Людське судження є дефіцитною та дорогою річчю, як у кураторській роботі з наборами даних, так і у створенні фільтрів та систем безпеки, призначених для запобігання передачі матеріалів, що охороняються авторськими правами, користувачам API-орієнтованих порталів, таких як MidJourney та здатність генерації зображень ChatGPT.

Отже, нове академічне співробітництво між Швейцарією, Sony AI та Китаєм пропонує CopyJudge – автоматичний метод організації послідовних груп змовних «суддів» на основі ChatGPT, які можуть перевірити вхідні дані на ознаки ймовірного порушення авторських прав.

CopyJudge оцінює різні випадки порушення авторських прав у генерації штучного інтелекту. Джерело: https://arxiv.org/pdf/2502.15278

CopyJudge оцінює різні випадки порушення авторських прав у генерації штучного інтелекту. Джерело: https://arxiv.org/pdf/2502.15278

CopyJudge пропонує автоматичний каркас, який використовує великі моделі мови та зору (LVLM) для визначення суттєвої схожості між матеріалами, що охороняються авторськими правами, та зображеннями, згенерованими моделями дифузії тексту у зображення.

Підхід CopyJudge використовує навчання з підкріпленням для оптимізації підказок, які порушують авторські права, а потім використовує інформацію з цих підказок для створення нових підказок, які менш ймовірно викличуть заборонені зображення.

Підхід CopyJudge використовує навчання з підкріпленням для оптимізації підказок, які порушують авторські права, а потім використовує інформацію з цих підказок для створення нових підказок, які менш ймовірно викличуть заборонені зображення.

Хоча багато онлайн-генераторів зображень, що використовують штучний інтелект, фільтрують підказки користувачів щодо заборонених матеріалів, порнографічного контенту, відтворення реальних людей та інших заборонених доменів, CopyJudge використовує розвинені «порушуючі» підказки для створення «очищених» підказок, які менш ймовірно викличуть заборонені зображення, без наміру безпосередньо блокувати підказку користувача.

Хоча це не новий підхід, він частково звільняє API-орієнтовані генеративні системи від простого відмови у підказці користувача (не в останню чергу тому, що це дозволяє користувачам розробити обхідні шляхи до заборонених генерацій через експерименти).

Одна з недавніх уразливостей (яка була виправлена розробниками) дозволяла користувачам генерувати порнографічний матеріал на платформі генерації штучного інтелекту Kling просто включивши видатний хрест або хрест у зображенні, завантаженому у робочий процес генерації зображення з відео.

У вразливості, виправленій розробниками Kling у кінці 2024 року, користувачі могли змусити систему генерувати заборонені порнографічні відео просто вимагаючи, щоб хрест або хрест були видатними на початку відео. Хоча не було жодного пояснення щодо логіки цього хаку, можна уявити, що це було призначено для дозволу «припустимої» християнської (чоловічої) оголеності у зображенні розп'яття; і що виклик хреста фактично «розблокував» ширший порнографічний контент; але ми можемо ніколи не дізнатися! Джерело: Discord

У вразливості, виправленій розробниками Kling у кінці 2024 року, користувачі могли змусити систему генерувати заборонені порнографічні відео просто включивши хрест або хрест у зображенні, завантаженому у робочий процес генерації зображення з відео. Хоча не було жодного пояснення щодо логіки цього хаку. Джерело: Discord

Такі випадки підкреслюють необхідність санітарної обробки підказок у онлайн-генеративних системах, не в останню чергу тому, що машинне забування, при якому сама основна модель змінюється для видалення заборонених концепцій, може мати небажані наслідки для корисності кінцевої моделі.

Шукаючи менш радикальні рішення, система CopyJudge імітує людські юридичні судження, використовуючи штучний інтелект для розбиття зображень на ключові елементи, такі як композиція та колір, для фільтрації некопірованних частин та порівняння того, що залишилося. Вона також включає метод, керований штучним інтелектом, для регулювання підказок та модифікації генерації зображень, що допомагає уникнути порушень авторських прав, зберігаючи творчий контент.

Експериментальні результати, як стверджують автори, демонструють еквівалентність CopyJudge до найкращих підходів у цій сфері, і свідчать про те, що система демонструє вищу універсальність та інтерпретацію порівняно з попередніми роботами.

Новий документ називається CopyJudge: Автоматична ідентифікація та пом’якшення порушень авторських прав у моделях дифузії тексту у зображення, і надходить від п’яти дослідників з EPFL, Sony AI та Університету Вестлейк у Китаї.

Метод

Хоча CopyJudge використовує GPT для створення послідовних груп автоматичних суддів, автори підкреслюють, що система не оптимізована для продукту OpenAI, і що будь-яка кількість альтернативних великих моделей мови та зору (LVLM) могла б бути використана замість цього.

У першому випадку авторів потрібен каркас абстракції-фільрації-порівняння для розбиття джерельних зображень на складові частини, як показано у лівій частині схеми нижче:

Концептуальна схема для першої фази робочого процесу CopyJudge.

Концептуальна схема для першої фази робочого процесу CopyJudge.

У нижньому лівому куті ми бачимо агент фільтрації, який розбиває секції зображень у спробі визначити характеристики, які могли б бути властиві матеріалу, що охороняється авторськими правами, у співпраці, але які самі по собі були б надто загальними, щоб кваліфікуватися як порушення.

Потім використовуються декілька великих моделей мови та зору (LVLM) для оцінки відфільтрованих елементів – підхід, який був доведений ефективним у роботах, таких як пропозиція CSAIL 2023 року Поліпшення фактичності та розуміння у моделях мови через багатогранний дебат, і ChatEval, серед інших різноманітних робіт, визнаних у новій роботі.

Автори заявляють:

‘[Ми] приймаємо повністю з’єднаний синхронний комунікаційний підхід дебатів, у якому кожна LVLM отримує [відгуки] від інших LVLM перед тим, як зробити наступний суд. Це створює динамічний зворотний зв’язок, який посилює надійність та глибину аналізу, оскільки моделі адаптують свої оцінки на основі нових ідей, представлених їхніми колегами.

‘Кожна LVLM може регулювати свій бал на основі відгуків від інших LVLM або залишити його незмінним.’

Парні зображень, оцінені людьми, також включаються у процес через небагато прикладів навчання у контексті’

Після того, як «трибунали» у циклі прийшли до консенсусного балу, який знаходиться у межах прийнятності, результати передаються «мета-судді» LVLM, який синтезує результати у підсумковий бал.

Пом’якшення

Далі автори зосередилися на процесі пом’якшення підказок, описаному раніше.

Схема CopyJudge для пом'якшення порушень авторських прав шляхом уточнення підказок та латентного шуму. Система регулює підказки ітеративно на основі ітеративної зворотного зв'язку та використовує навчання з підкріпленням для модифікації латентних змінних, зменшуючи ризик порушення.

Схема CopyJudge для пом’якшення порушень авторських прав шляхом уточнення підказок та латентного шуму. Система регулює підказки ітеративно, використовуючи навчання з підкріпленням для модифікації латентних змінних, оскільки підказки еволюціонують, сподіваючись зменшити ризик порушення.

Два методи, використані для пом’якшення підказок, були контроль підказок на основі LVLM, при якому ефективні не-порушуючі підказки ітеративно розробляються через кластери GPT – підхід, який є повністю «чорним ящиком», не вимагаючи внутрішнього доступу до архітектури моделі; і підхід, заснований на навчанні з підкріпленням (RL), у якому винагорода призначена для покарання виводів, які порушують авторські права.

Дані та тести

Для тестування CopyJudge були використані різні набори даних, включаючи D-Rep, який містить справжні та фальшиві пари зображень, оцінені людьми за балом від 0 до 5.

Дослідження набору даних D-Rep на Hugging Face. Ця колекція містить пари справжніх та згенерованих зображень. Джерело: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

Дослідження набору даних D-Rep на Hugging Face. Ця колекція містить пари справжніх та згенерованих зображень. Джерело: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

Схема CopyJudge вважала зображення D-Rep, які мали бал 4 або вище, прикладами порушень, а решта була залишена як не-IP-релевантна. 4000 офіційних зображень у наборі даних були використані як тестові зображення. Крім того, дослідники обрали та курирували зображення 10 відомих персонажів мультфільмів з Вікіпедії.

Три архітектури, засновані на дифузії, які використовувалися для генерації потенційно порушуючих зображень, були Stable Diffusion V2; Kandinsky2-2; і Stable Diffusion XL. Автори вручну обрали одне порушуюче зображення та одне не-порушуюче зображення з кожної моделі, отримавши 60 позитивних та 60 негативних зразків.

Базові методи, вибрані для порівняння, були: L2 норма; Вивчена перцептивна подібність зображень (LPIPS); SSCD; RLCP; і PDF-Emb. Для метрик використовувалися Точність та F1 бал як критерії порушення.

GPT-4o був використаний для популяції внутрішніх дебатних команд CopyJudge, використовуючи три агенти для максимальної кількості п’яти ітерацій для будь-якого поданого зображення. Випадкові три зображення з кожного балу в D-Rep були використані як людські апріорні для агентів.

Результати порушення для CopyJudge у першому раунді.

Результати порушення для CopyJudge у першому раунді.

З цих результатів автори коментують:

‘[Це] очевидно, що традиційні методи виявлення копій зображень мають обмеження у завдання ідентифікації порушень авторських прав. Наш підхід значно перевершує більшість методів. Для методу стану справи, PDF-Emb, який був навчений на 36 000 зразках з D-Rep, наша продуктивність на D-Rep трохи гірша.

‘Однак, його погана продуктивність на наборі даних Cartoon IP і Artwork підкреслює його відсутність універсальності, тоді як наш метод демонструє однаково чудові результати у всіх наборах даних.’

Автори також зазначають, що CopyJudge забезпечує «відносно» більш чітку межу між дійсними та порушуючими випадками:

Додаткові приклади з тестових раундів, у додатковому матеріалі до нової роботи.

Додаткові приклади з тестових раундів, у додатковому матеріалі до нової роботи.

Дослідники порівняли свій підхід з співробітництвом Sony AI з 2024 року під назвою Виявлення, пояснення та пом’якшення запам’ятовування у моделях дифузії. Ця робота використовувала дофільтрований модель Stable Diffusion з 200 запам’ятованими (тобто переобученими) зображеннями для виклику даних, що охороняються авторськими правами, під час інференсу.

Автори нової роботи виявили, що їхній власний метод пом’якшення підказок, порівняно з підходом 2024 року, був здатний генерувати зображення, менш схильні до порушення.

Результати пом'якшення запам'ятовування з CopyJudge проти роботи 2024 року.

Результати пом’якшення запам’ятовування з CopyJudge проти роботи 2024 року.

Автори коментують тут:

‘[Наш] підхід міг генерувати зображення, менш схильні до порушення, зберігаючи порівняну, трохи зменшену точність збігів. Як показано [нижче], наш метод ефективно уникнув недоліків [попереднього] методу, включаючи невдачу у пом’якшенні запам’ятовування або генерацію високODEVованих зображень.’

Порівняння згенерованих зображень та підказок до та після пом'якшення запам'ятовування.

Порівняння згенерованих зображень та підказок до та після пом’якшення запам’ятовування.

Автори провели додаткові тести щодо пом’якшення порушень, вивчаючи явні та неявні порушення.

Явне порушення відбувається, коли підказки прямо посилаються на матеріали, що охороняються авторськими правами, наприклад ‘Генеруйте зображення Міккі Мауса’. Для тестування цього дослідники використали 20 зразків мультфільмів та художніх робіт, генеруючи порушуючі зображення у Stable Diffusion v2 з підказками, які явно включали назви або авторські атрибути.

Порівняння між методом Латентного Контролю (LC) авторів та методом Контролю Підказок (PC) попередньої роботи, у різних варіантах, використовуючи Stable Diffusion для створення зображень, що зображують явне порушення.

Порівняння між методом Латентного Контролю (LC) авторів та методом Контролю Підказок (PC) попередньої роботи, у різних варіантах, використовуючи Stable Diffusion для створення зображень, що зображують явне порушення.

Неявне порушення відбувається, коли підказка не містить явних посилань на авторські права, але все ж таки призводить до порушення через певні описові елементи – сценарій, який особливо актуальний для комерційних текст-у-зображення моделей, які часто включають системи виявлення контенту для ідентифікації та блокування підказок, пов’язаних з авторськими правами.

Для вивчення цього автори використали ті самі зразки матеріалів, що охороняються авторськими правами, як і у тесті явного порушення, але генерували порушуючі зображення без прямого посилання на авторські права, використовуючи DALL-E 3 (хоча у роботі зазначається, що вбудований модуль безпеки моделі відхилив певні підказки, які спрацювали його фільтри).

Неявне порушення за допомогою DALLE-3, з балами порушення та CLIP.

Неявне порушення за допомогою DALLE-3, з балами порушення та CLIP.

Автори заявляють:

‘[Це] видно, що наш метод значно знижує ймовірність порушення, як для явного, так і для неявного порушення, з лише незначним зниженням балу CLIP. Бал порушення після лише латентного контролю відносно вищий, ніж після контролю підказки, оскільки отримання не-порушуючих латентних змінних без зміни підказки досить складне. Однак ми все ж таки можемо ефективно знижувати бал порушення, зберігаючи вищу якість зіставлення зображення та тексту.’

‘[Нижче] показані візуальні результати, де можна побачити, що ми уникнули порушення авторських прав, зберігаючи вимоги користувача.’

Згенеровані зображення до та після пом'якшення порушень авторських прав.

Згенеровані зображення до та після пом’якшення порушень авторських прав.

Висновок

Хоча дослідження пропонує перспективний підхід до захисту авторських прав у зображеннях, згенерованих штучним інтелектом, залежність від великих моделей мови та зору (LVLM) для виявлення порушень може викликати занепокоєння щодо упередженості та узгодженості, оскільки судження, кероване штучним інтелектом, не завжди можуть відповідати юридичним стандартам.

Можливо, найважливіше, що цей проект також припускає, що виконання авторських прав можна автоматизувати, незважаючи на реальні юридичні рішення, які часто включають суб’єктивні та контекстні фактори, які штучний інтелект може мати труднощі з інтерпретацією.

У реальному світі автоматизація юридичної згоди, особливо щодо виводу штучного інтелекту, здається, залишається спірним питанням далеко за межами цього часу та далеко за межами області, розглянутої в цій роботі.

 

Перша публікація понеділка, 24 лютого 2025 року

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]