Взгляд Anderson

Методы IP-стирки в ИИ

Published March 16, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated image of Lady Justice surrounded by 'laundered' data. GPT-1.5.

Если надвигается правовое расследование по поводу использования интеллектуальной собственности при обучении ИИ, то существуют также несколько методов сокрытия такого использования.

Мнение Текущая, быстро развивающаяся революция в генеративном ИИ происходит в наиболее правовом хрупком окружении, которое сопровождало любое трансформационное технологическое развитие с девятнадцатого века.

До 3-4 лет назад сообщество исследователей машинного обучения пользовалось молчаливым (часто явным) разрешением на использование материалов, защищенных авторским правом, при разработке новых систем; поскольку эти системы еще не были успешными, в плане зрелости или коммерческой жизнеспособности, результаты были, во всех смыслах, академическими.

В этот период внезапный успех нового поколения диффузионных моделей крупного языка (LLM, таких как ChatGPT и Claude) и моделей видения-языка (VLM, таких как Sora) сигнализировал о том, что эти абстрактные и ранее ‘безобидные’ направления исследований переросли в коммерческую жизнеспособность и выросли из своего ‘бесплатного пропуска’, насколько это касается использования чужой интеллектуальной собственности.

С этого момента правообладатели будут добиваться доли в плодах систем ИИ, обученных в основном или частично на их защищенных авторским правом или иным образом защищенных данных, что приведет к продолжающемуся лавине судебных дел, требующих некоторых усилий, чтобы даже отслеживать их.

Ограниченный только делами, возбужденными в США, новые дела появляются с лихорадочным темпом в Соединенных Штатах и за их пределами. Источник - https://copyrightalliance.org/artificial-intelligence-copyright/court-cases/

Здесь ограниченный только делами, возбужденными в США, новые дела появляются с лихорадочным темпом в Соединенных Штатах и за их пределами. Источник

Обязывающий ‘бесплатный обед’

Финансовые обязательства текущие в отношении инфраструктуры ИИ были выдвинуты некоторыми голосами как попытка укрепить ‘опасные для авторского права’ ИИ так глубоко в экономике общества, что он станет не только ‘слишком большим, чтобы потерпеть неудачу’, но и ‘слишком мощным, чтобы судить’ – или слишком мощным, чтобы успешные судебные дела могли быть допущены к тому, чтобы разрушить революцию.

В направлении этого общего настроения, текущий президент США вводит в политику свое мнение, что ‘Вы не можете ожидать иметь успешную программу ИИ, когда каждая статья, книга или все, что вы прочитали или изучили, вы должны заплатить за это’.

Действительно? Ничто подобное или сравнимое не произошло в западной промышленной эпохе, и это представляет собой движение, которое сильно противоречит традиционной американской культуре судебных разбирательств и возмещения ущерба; возможно, наиболее близкие подобные позиции – обязательное истечение патентов на лекарства после 20 лет (которое само по себе часто подвергается нападкам), и ограничение ожиданий конфиденциальности в общественных местах.

Однако времена меняются; в отсутствие гарантии того, что текущая тенденция к ‘вынужденной толерантности’ против защиты ИИ не ослабнет или не будет позже обращена, существуют несколько второстепенных подходов, которые становятся стандартной практикой в разработке систем ИИ и обработке спорной обучающей информации, которая питает его.

Наборы данных по прокси

Один из этих подходов принимает замечательно похожий подход к (не всегда успешной) защите торрент-сайтов, которые утверждают, что они не хранят никаких оспариваемых материалов – или любых материалов вообще.

Помимо исключения необходимости хранить и обслуживать большие объемы слабо сжимаемых изображений или видеоданных, такие коллекции позволяют быстро обновлять – например, удаление материалов по запросу правообладателей – и версионировать.

Как и торренты являются только указателями на то, где можно найти оспариваемые материалы, несколько очень влиятельных наборов данных сами по себе являются только ‘указателями’ в виде списков существующих данных; если конечный пользователь хочет использовать эти списки как список загрузки для своего собственного набора данных, это зависит от него, насколько это касается ответственности кураторов.

Среди них есть Conceptual 12M от Google Research, который предоставляет подписи к изображениям, но только указывает на места в сети, где эти изображения существуют (или существовали на момент курирования):

Два примера из Conceptual 12M от Google Research. Источник

Другим заметным примером является LAION набор данных, который облегчил появление генеративной системы Stable Diffusion в 2022 году – первой такой платформы, которая предложила мощные открытые генеративные изображения конечным пользователям, как раз когда проприетарные системы казались готовыми установить такие услуги как исключительно коммерческую область:

Один из многих вариантов проекта LAION, представляющий современные и защищенные авторским правом произведения искусства. Источник

Во многих случаях большие размеры файлов некоторых из этих ‘указателей’ указывают на включение изображений в загружаемый и размещаемый файл; однако, не тривиальные размеры загрузки часто обусловлены большим объемом текстового содержания и иногда включением извлеченных вложений или функций – полученных суммирований или узлов иначе применимого содержания, извлеченного из исходных данных во время процесса обучения.

Видеопремиум

Видеонаборы данных представляют еще более сильный случай для подхода ‘набор данных по прокси’ или указателя, поскольку большой объем хранилищ данных, необходимый для агрегации значимого и полезного количества видеороликов в одну загружаемую коллекцию, запрещен, и желателен ‘распределенный’ метод.

Однако, в обоих случаях – но особенно с видео – загружаемые исходные URL представляют данные, которые будут нуждаться в значительном дальнейшем внимании перед использованием в процессах обучения. И изображения, и видео будут нуждаться в изменении размера или принятии решений о обрезке, чтобы создать образцы, которые будут помещаться в доступное пространство GPU. Даже сильно десэмплированные видео также будут требовать обрезки до очень коротких длин, таких как 3-5 секунд, обычно.

Заметные видеонаборы данных, которые используют ссылки на онлайн-видео (а не курирование и прямую упаковку видео), включают Kinetics Human Action Video Dataset от Google и коллекцию YouTube-8M от поискового гиганта, которая использует сегментную аннотацию для указания того, как обращаться с каждым видео после загрузки – но которая снова оставляет конечного пользователя получить видео из предоставленных URL.

Закрытое и открытое

Наконец, в этой категории ‘открытые’ данные VFX могут быть сгенерированы с закрытыми платформами, которые затем публикуют и делают доступным результирующий набор данных. Разумно задуматься, почему это происходит, и рассмотреть, может быть, это происходит потому, что компания-источник хочет санитарно обработать модель, не дружественную к ИИ, для своего собственного использования; или же потому, что ‘очищенный’ набор был запрошен извне.

Одним из таких случаев ‘генерационной стирки’ является, возможно, Omni-VFX набор данных, который включает многие данные из Open-VFX набора данных (который сам по себе ссылается на многие закрытые и полуоткрытые платформы, такие как Pika и PixVerse).

Чтобы быть честным, Omni-VFX даже не пытается скрыть это:

В открытом наборе данных Omni-VFX знакомое лицо. Источник

Предковая ответственность

Второй основной подход к стирке ИИ заключается в использовании защищенных авторским правом материалов на одном или нескольких уровнях удаления. Одним из методов в этой категории является использование синтетических данных, которые были обучены в какой-то момент выше на защищенных авторским правом данных. В таких случаях, особенно когда синтетические данные могут получить аутентично выглядящие результаты, защищенные авторским правом работы поставляют преобразования, которые не могли бы разумно быть угаданы или приближены общими моделями мира или неспециализированными моделями.

Это особенно верно в случае генеративных видеосистем, которые должны генерировать ‘невозможные’ события и события, которые в целом попадают в категорию ‘визуальных эффектов’ (VFX).

На самом деле, то, что привело эту тему к моему вниманию, было последним в серии исследовательских работ, предлагающих возможность ‘абстрагировать’ различные типы визуальных эффектов, таких как производство лазерных лучей из неправдоподобных частей тела, либо путем обучения на заказанных или ‘открытых’ клипах VFX (а не на более очевидном источнике, таком как очень дорогие клипы VFX из фильмов кинематографической вселенной Marvel):

Примеры из веб-сайта EffectMaker, где ‘действие’ в исходном клипе (далеко слева) применяется к исходному изображению (центр). Источник

Вышеуказанные примеры взяты из проектной страницы для EffectMaker проекта. EffectMaker не является даже первым предложением этого года, которое стремится извлечь динамику VFX из одного видеоклипа и транспонировать ее в новый клип, и на самом деле это становится отдельной задачей в исследованиях ИИ VFX*.

Осознав, что медиагиганты, такие как Marvel, имеют более высокую вероятность выиграть судебные дела по ИИ (даже в вышеупомянутой климате ‘принудительной терпимости’), компании по визуальным эффектам и стартапы сейчас идут на значительные длины, чтобы обеспечить, чтобы их генеративные платформы VFX были свободны от чужой корпоративной ИИ.

Прежде всего, это Meta, которая, как сообщалось на subreddit r/vfx, провела хорошо оплачиваемую зимнюю кампанию по найму в 2026 году, предлагая художникам VFX работу по обучению моделей ИИ для вывода высокоуровневых визуальных эффектов. Хотя оплата не была указана в различных постах, один назвал ее ‘денежной пенсией’.

Следуйте за деньгами

Однако, можно задуматься, сколько денег даже такие компании, как Meta, готовы заплатить за真正е разнообразие и изобилие ад hoc клипов VFX, учитывая, что средний отдельный клип VFX для блокбастера составляет около 42 000 долларов США – и многие стоят намного дороже.

Более того, разумно предположить, что заказанные модели VFX будут подчиняться популярному спросу, включая различные стандартные эффекты-тропы из наиболее популярных и дорогих категорий фильмов.

Помимо точки зрения, что ‘остаточные’ профессионалы VFX могут в конечном итоге воссоздать сцены, над которыми они работали для существующего каталога фильмов^† – что само по себе контекстуализирует ‘пользовательские’ данные как имитационные – нет гарантии, что эти дорогие новые образцы в конечном итоге будут обучены ‘с нуля’ в совершенно новой архитектуре.

Действительно, если такие рекреации будут перенаправлены в дополнительные модули, такие как LoRAs, которые полагаются на базовую модель, то процесс является столь же обоснованным, как и базовая модель ‘чистая от ИИ’ – и не многие из них.

Аналогично, если ‘новый’ процесс использует другие ‘гибридные’ методы, такие как тонкая настройка, где ценность визуального эффекта зависит от моделей, априорных или вложений из старых коллекций или моделей неопределенной целостности, оригинальность работы является, по сути, косметической и подлежит оспариванию.

Невозможные миссии

Область вывода VFX представляет собой особенно интересный кейс-стадию в отношении потенциальной стирки ИИ в наборах данных, поскольку визуальные эффекты часто изображают ‘невозможные’ вещи, для которых не будет альтернативных открытым источникам.

Например, хотя разрушение здания можно обучить в генеративную модель из различных публичных доменов или иначе доступных клипов, если вы хотите обучить модель для вывода человеческих лазерных лучей, вам придется обучать на клипах VFX, украденных или заказанных; такие вещи не происходят нигде больше.

Даже в случае других типов стихийных бедствий, таких как драматическое наводнение, доступные реальные источники материалов вряд ли смогут воспроизвести драматические точки зрения на катастрофические события, потому что (с некоторыми исключениями) люди обычно не транслят из катастрофических мест. Следовательно, ‘крутые виды’ на катастрофы редки в реальных наборах данных, и любая модель ИИ, которая может генерировать их, вероятно, получила информацию из другого источника.

Большинство желаемых потоков задач ИИ не имеют такого же уровня конкретики, и в таких случаях сокрытие преимуществ защищенных авторским правом данных может не требовать стольких усилий.

Заключение: Запутанная паутина

Только те, кто использовал генеративный ИИ обширно и в течение длительного периода, интуитивно понимают, что такие системы испытывают трудности при комбинации нескольких концепций, когда нет сравнимых примеров в их обучающих данных.

Этот ограничение известно как запутанность, при которой различные аспекты обученных концепций склонны кластеризоваться вместе с связанными элементами, а не разлагаться на удобные, лего-стильные строительные блоки, которые можно расположить в любую новую конфигурацию, которую пользователь может пожелать.

Запутанность является архитектурной гравитационной ямой, которую практически невозможно избежать, по крайней мере для диффузионных подходов, которые характеризуют все основные текущие платформы ИИ. Однако возможно, что появятся новые подходы в течение следующих нескольких лет, которые будут лучше разбивать обученные концепции, чтобы они могли быть склеены более ловко, и предлагать меньше указаний на их происхождение.

* Я не делаю обвинений против EffectMaker, но комментирую здесь общность появляющейся практики в исследованиях видео ИИ.

^†Потому что эти сцены, в этих типах фильмов, генерировали и продолжают генерировать деньги.

Опубликовано впервые в понедельник, 16 марта 2026 года