Угол Андерсона
Автоматизация защиты авторских прав в изображениях, созданных с помощью ИИ

Как обсуждалось на прошлой неделе, даже основные базовые модели, лежащие в основе популярных систем генеративного ИИ, могут создавать контент, нарушающий авторские права, из-за неадекватное или неправильное курирование, а также наличие нескольких версий одного и того же изображения в обучающих данных, что приводит к переобученияи повышение вероятности узнаваемых репродукций.
Несмотря на попытки доминировать в сфере генеративного ИИ и растущее давление с целью пресечения нарушений прав интеллектуальной собственности, такие крупные платформы, как MidJourney и DALL-E от OpenAI, продолжают столкнуться с проблемами в предотвращении непреднамеренного воспроизведения контента, защищенного авторским правом:

Способность генеративных систем воспроизводить данные, защищенные авторским правом, регулярно всплывает в средствах массовой информации.
По мере появления новых моделей и китайских моделей получить доминирование, подавление защищенного авторским правом материала в моделях Foundation является обременительной перспективой; фактически, лидер рынка open.ai заявил в прошлом году, что это 'невозможно' создавать эффективные и полезные модели без данных, защищенных авторским правом.
Уровень техники
Что касается непреднамеренного создания материалов, защищенных авторским правом, исследовательская сфера сталкивается с той же проблемой, что и при включении порнографии и других материалов NSFW в исходные данные: кто-то хочет получить пользу от знаний (т. е. правильная анатомия человека, который исторически всегда был основано на исследованиях обнаженной натуры) без возможности злоупотреблять им.
Аналогичным образом, производители моделей хотят воспользоваться преимуществами огромного объема защищенного авторским правом материала, который находит свое применение в таких гипермасштабных наборах, как Laion, без разработки модели, которая фактически могла бы нарушать права интеллектуальной собственности.
Не принимая во внимание этические и юридические риски попытки скрыть использование защищенного авторским правом материала, фильтрация в последнем случае значительно сложнее. Контент NSFW часто содержит отчетливые скрытые низкоуровневые функции которые позволяют более эффективную фильтрацию без необходимости прямого сравнения с реальным материалом. Напротив, скрытые вложения определяющие миллионы произведений, защищенных авторским правом, не сводятся к набору легко идентифицируемых маркеров, что значительно усложняет автоматическое обнаружение.
КопироватьСудья
Человеческое суждение — дефицитный и дорогой товар как при обработке наборов данных, так и при создании фильтров постобработки и систем «безопасности», призванных гарантировать, что материалы с блокировкой IP-адреса не будут доставлены пользователям порталов на базе API, таких как MidJourney, и пользователям возможностей генерации изображений ChatGPT.
Поэтому новое академическое сотрудничество между Швейцарией, Sony AI и Китаем предлагает КопироватьСудья – автоматизированный метод организации последовательных групп сговорившихся «судей» на базе ChatGPT, которые могут проверять входные данные на наличие признаков вероятного нарушения авторских прав.

CopyJudge оценивает различные поколения искусственного интеллекта, ограничивающего права интеллектуальной собственности. Источник: https://arxiv.org/pdf/2502.15278
CopyJudge эффективно предлагает автоматизированную структуру, использующую большие модели визуального языка (LVLM) для определения существенного сходства между изображениями, защищенными авторским правом, и изображениями, созданными с помощью моделей диффузии текста в изображение.

Подход CopyJudge использует обучение с подкреплением и другие подходы для оптимизации подсказок, нарушающих авторские права, а затем использует информацию из таких подсказок для создания новых подсказок, которые с меньшей вероятностью будут ссылаться на изображения, нарушающие авторские права.
Хотя многие онлайн-генераторы изображений на основе искусственного интеллекта фильтруют запросы пользователей на наличие контента NSFW, материалов, защищенных авторским правом, изображений реальных людей и других запрещенных доменов, CopyJudge вместо этого использует уточненные запросы на «нарушение прав» для создания «очищенных» запросов, которые с наименьшей вероятностью вызовут появление запрещенных изображений, не намереваясь напрямую блокировать отправку пользователя.
Хотя это не новый подход, он в некоторой степени позволяет генеративным системам на основе API просто отказываться от пользовательского ввода (не в последнюю очередь потому, что это позволяет пользователям разрабатывать бэкдор-доступ запрещенным поколениям, путем экспериментов).
Недавно подобная уязвимость (которая впоследствии была закрыта разработчиками) позволяла пользователям создавать порнографические материалы на платформе генеративного искусственного интеллекта Kling, просто добавляя заметный крест или распятие в изображение, загружаемое в процессе преобразования изображения в видео.

В лазейке, исправленной разработчиками Kling в конце 2024 года, пользователи могли заставить систему выдавать запрещенный NSFW-контент, просто включив крест или распятие в начальное изображение I2V. Логика этого теперь уже недействительного взлома пока не объяснена. Источник: Discord
Подобные примеры подчеркивают необходимость быстрой очистки в онлайн-генеративных системах, не в последнюю очередь потому, что машинное обучение, при котором сама базовая модель изменяется для удаления запрещенных концепций, может иметь нежелательные эффекты от удобства использования окончательной модели.
В поисках менее радикальных решений система CopyJudge имитирует человеческие юридические решения, используя ИИ для разбиения изображений на ключевые элементы, такие как композиция и цвет, для фильтрации не защищенных авторским правом частей и сравнения того, что осталось. Она также включает в себя метод на основе ИИ для настройки подсказок и изменения генерации изображений, помогая избегать проблем с авторским правом, сохраняя при этом творческий контент.
Экспериментальные результаты, как утверждают авторы, демонстрируют эквивалентность CopyJudge современным подходам в этом направлении и указывают на то, что система демонстрирует превосходство обобщение и интерпретируемость по сравнению с предыдущими работами.
The Новый документ называется CopyJudge: Автоматизированное выявление и устранение нарушений авторских прав в моделях преобразования текста в изображениеи разработан пятью исследователями из EPFL, Sony AI и китайского Университета Вестлейк.
Способ доставки
Хотя CopyJudge использует GPT для создания скользящих трибуналов автоматизированных судей, авторы подчеркивают, что система не оптимизирована для продукта OpenAI и что вместо нее можно использовать любое количество альтернативных моделей языка программирования больших машинных кодов (LVLM).
В первую очередь, для разложения исходных изображений на составные части необходима разработанная авторами структура абстракции-фильтрации-сравнения, как показано в левой части схемы ниже:

Концептуальная схема начального этапа рабочего процесса CopyJudge.
В нижнем левом углу мы видим фильтрующий агент, разбивающий части изображения в попытке определить характеристики, которые могут быть свойственны работе, защищенной авторским правом, в совокупности, но которые сами по себе были бы слишком общими, чтобы квалифицироваться как нарушение.
Затем для оценки отфильтрованных элементов используются несколько LVLM — подход, эффективность которого доказана в таких работах, как CSAIL 2023 г. предлагающий Улучшение фактичности и рассуждения в языковых моделях посредством многоагентных дебатов и ЧатЭвал, среди прочих, отмеченных в новой статье.
Авторы заявляют:
«[Мы] принимаем полностью связанный синхронный коммуникационный подход к дебатам, где каждый LVLM получает [ответы] от [других] LVLM, прежде чем вынести следующее суждение. Это создает динамическую петлю обратной связи, которая усиливает надежность и глубину анализа, поскольку модели адаптируют свои оценки на основе новых идей, представленных их коллегами.
«Каждый LVLM может скорректировать свой рейтинг на основе ответов других LVLM или оставить его без изменений».
В процесс также включаются несколько пар изображений, оцененных людьми, с помощью контекстного обучения на основе нескольких снимков.
После того, как «трибуналы» в цикле приходят к единому мнению относительно приемлемой оценки, результаты передаются «мета-судье» LVLM, который синтезирует результаты в окончательную оценку.
риска
Далее авторы сосредоточились на процессе оперативного смягчения последствий, описанном ранее.

Схема CopyJudge для минимизации нарушений авторских прав путём уточнения подсказок и скрытого шума. Система итеративно корректирует подсказки, используя обучение с подкреплением для изменения скрытых переменных по мере развития подсказок, что, как ожидается, снижает риск нарушения авторских прав.
Для смягчения последствий были использованы два метода: контроль запросов на основе LVLM, где эффективные запросы, не нарушающие авторские права, итеративно разрабатываются в кластерах GPT – подход, который представляет собой полностью «черный ящик», не требующий внутреннего доступа к архитектуре модели; и усиление обученияподход, основанный на RL (Relationally Relationship Based), при котором вознаграждение призвано наказывать за результаты, нарушающие авторские права.
Данные и тесты
Для тестирования CopyJudge использовались различные наборы данных, в том числе D-Республиканец, который содержит реальные и поддельные пары изображений, оцененные людьми по шкале от 0 до 5.

Исследуем набор данных D-Rep в Hugging Face. Эта коллекция объединяет реальные и сгенерированные изображения. Источник: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/
Схема CopyJudge рассматривала изображения D-Rep, набравшие 4 или более баллов, как примеры нарушения, а остальные удерживались как не имеющие отношения к интеллектуальной собственности. 4000 официальных изображений в наборе данных использовались в качестве тестовых изображений. Кроме того, исследователи отобрали и отобрали изображения 10 известных персонажей мультфильмов из Википедии.
Для создания потенциально контрафактных изображений использовались три архитектуры на основе диффузии: Стабильная диффузия V2; Кандинский2-2и Стабильная диффузия XL. Авторы вручную выбрали одно изображение, нарушающее авторские права, и одно изображение, не нарушающее авторские права, из каждой модели, получив 60 положительных и 60 отрицательных образцов.
Для сравнения были выбраны следующие базовые методы: L2 норма; Полученное сходство участков перцептивного изображения (ЛПИПС); SSCD; РЛКПи PDF-Emb. Для метрик, точности и Счет F1 использовались в качестве критериев нарушения.
GPT-4o использовался для заполнения внутренних команд дебатов CopyJudge, используя трех агентов для максимум пяти итераций на каждом конкретном представленном изображении. Случайные три изображения из каждой оценки в D-Rep использовались в качестве человеческих приоры для рассмотрения агентами.

Результаты по нарушению авторских прав для CopyJudge в первом раунде.
Авторы комментируют эти результаты следующим образом:
«[Очевидно], что традиционные методы обнаружения копий изображений демонстрируют ограничения в задаче идентификации нарушения авторских прав. Наш подход значительно превосходит большинство методов. Для современного метода PDF-Emb, который был обучен на 36,000 XNUMX образцах из D-Rep, наша производительность на D-Rep немного ниже.
«Однако его низкая эффективность на наборах данных Cartoon IP и Artwork подчеркивает отсутствие у него возможности обобщения, тогда как наш метод демонстрирует одинаково превосходные результаты для всех наборов данных».
Авторы также отмечают, что CopyJudge обеспечивает «относительно» более четкую границу между допустимыми и нарушающими авторские права случаями:

Дополнительные примеры из раундов тестирования приведены в дополнительных материалах новой статьи.
Исследователи сравнили свои методы с методами искусственного интеллекта Sony. сотрудничества с 2024 года под названием Обнаружение, объяснение и смягчение запоминания в диффузионных моделяхВ этой работе использовалась точно настроенная модель стабильной диффузии с 200 запомненными (т. е. переобученными) изображениями для извлечения данных, защищенных авторским правом, во время вывода.
Авторы новой работы обнаружили, что их собственный метод оперативного смягчения последствий, в отличие от подхода 2024 года, позволил создавать изображения, которые с меньшей вероятностью могут стать причиной нарушения прав.

Результаты снижения запоминания с помощью CopyJudge по сравнению с работой 2024 года.
Авторы комментируют здесь:
«[Наш] подход позволяет генерировать изображения, которые с меньшей вероятностью нарушают авторские права, сохраняя при этом сопоставимую, но немного сниженную точность сопоставления. Как показано на [изображении ниже], наш метод эффективно устраняет недостатки [предыдущего] метода, включая невозможность снизить эффект запоминания или создание изображений с сильными отклонениями».

Сравнение сгенерированных изображений и подсказок до и после смягчения запоминания.
Авторы провели дополнительные тесты в отношении смягчения последствий нарушения, изучая явный и безоговорочно нарушение.
Явное нарушение происходит, когда подсказки напрямую ссылаются на материалы, защищенные авторским правом, например «Создай изображение Микки Мауса»Чтобы проверить это, исследователи использовали 20 образцов мультфильмов и произведений искусства, создавая изображения, нарушающие авторские права, в Stable Diffusion v2 с подсказками, которые явно включали имена или указание авторства.

Сравнение метода латентного контроля (LC) авторов и метода оперативного контроля (PC) из предыдущей работы в различных вариациях с использованием стабильной диффузии для создания изображений, отображающих явное нарушение.
Неявное нарушение происходит, когда в подсказке отсутствуют явные ссылки на авторские права, но из-за определенных описательных элементов изображение все равно нарушает права. Такой сценарий особенно актуален для коммерческих моделей преобразования текста в изображение, которые часто включают системы обнаружения контента для выявления и блокировки подсказок, связанных с авторскими правами.
Чтобы исследовать это, авторы использовали те же образцы с блокировкой IP-адресов, что и в тесте на явное нарушение авторских прав, но сгенерировали нарушающие авторские права изображения без прямых ссылок на авторские права, используя DALL-E 3 (хотя в статье отмечается, что встроенный в модель модуль обнаружения безопасности отклонял определенные подсказки, которые запускали его фильтры).

Неявное нарушение с использованием DALLE-3, с оценками нарушений и CLIP.
Авторы заявляют:
'[Видно], что наш метод значительно снижает вероятность нарушения, как явного, так и неявного, с небольшим падением оценки CLIP. Оценка нарушения после только скрытого контроля относительно выше, чем после контроля подсказок, поскольку извлечение не нарушающих латентных элементов без изменения подсказок является довольно сложной задачей. Тем не менее, мы все еще можем эффективно снизить оценку нарушения, сохраняя при этом более высокое качество сопоставления изображения и текста.
«[На изображении ниже] показаны результаты визуализации, из которых видно, что мы избегаем нарушения прав интеллектуальной собственности, сохраняя при этом требования пользователей».

Сгенерированные изображения до и после устранения нарушений прав интеллектуальной собственности.
Заключение
Хотя исследование представляет собой многообещающий подход к защите авторских прав на изображениях, созданных с помощью ИИ, опора на большие модели визуального языка (LVLM) для обнаружения нарушений может вызвать опасения относительно предвзятости и последовательности, поскольку решения, принимаемые с помощью ИИ, не всегда могут соответствовать правовым стандартам.
Возможно, самое важное то, что проект также предполагает, что защита авторских прав может быть автоматизирована, несмотря на реальные правовые решения, которые часто включают субъективные и контекстуальные факторы, которые ИИ может с трудом интерпретировать.
В реальном мире автоматизация правового консенсуса, особенно в отношении результатов работы ИИ, по всей видимости, останется спорным вопросом и после этого времени, и далеко за пределами области, рассматриваемой в данной работе.
Впервые опубликовано Понедельник, 24 февраля 2025 г.