Искусственный интеллект
Возрождение Hunyuan видео Deepfakes

Из-за характера некоторых материалов, обсуждаемых здесь, эта статья будет содержать меньше ссылок и иллюстраций, чем обычно.
Что-то примечательное происходит в настоящее время в сообществе синтеза ИИ, хотя его значение может занять некоторое время, чтобы стать ясным. Хоббиисты обучают модели видео генерации ИИ для воспроизведения сходства людей, используя видео-основанные LoRAs на недавно выпущенной открытой платформе Hunyuan Video.*
Нажмите, чтобы воспроизвести. Разнообразные результаты из Hunyuan-основанных настроек LoRA, доступные бесплатно в сообществе Civit. Обучая модели низкоранговой адаптации (LoRAs), проблемы с временной стабильностью, которые мучили генерацию видео ИИ в течение двух лет, значительно снижаются. Источники: civit.ai
В видео выше, сходства актрис Натали Портман, Кристины Хендрикс и Скарлетт Йоханссон, вместе с лидером технологий Илоном Маском, были обучены в относительно небольшие файлы дополнения для системы видео генерации Hunyuan, которые можно установить без фильтров контента (таких как фильтры NSFW) на компьютере пользователя.
Создатель LoRA Кристины Хендрикс, показанной выше, утверждает, что для разработки модели потребовалось только 16 изображений из телешоу Mad Men (что является всего лишь 307 МБ для скачивания); множество постов из сообщества Stable Diffusion на Reddit и Discord подтверждают, что LoRAs этого типа не требуют больших объемов обучающих данных или длительного времени обучения в большинстве случаев.
Нажмите, чтобы воспроизвести. Арнольд Шварценеггер оживает в видео LoRA Hunyuan, которое можно скачать на Civit. См. https://www.youtube.com/watch?v=1D7B9g9rY68 для дальнейших примеров Арни, от энтузиаста ИИ Боба Дойла.
LoRAs Hunyuan можно обучать как на статических изображениях, так и на видео, хотя обучение на видео требует больших аппаратных ресурсов и увеличения времени обучения.
Модель видео Hunyuan имеет 13 миллиардов параметров, превышая 12 миллиардов параметров Sora, и значительно превышая менее способную модель Hunyuan-DiT, выпущенную в открытом доступе летом 2024 года, которая имеет только 1,5 миллиарда параметров.
Как и два с половиной года назад со Stable Diffusion и LoRA (см. примеры ‘родных’ знаменитостей Stable Diffusion 1.5 здесь), базовая модель в вопросе имеет гораздо более ограниченное понимание личностей знаменитостей по сравнению с уровнем достоверности, который можно получить через ‘внедренные’ реализации LoRA.
По сути, настраиваемая, ориентированная на личность LoRA получает ‘бесплатную поездку’ на значительные возможности синтеза базовой модели Hunyuan, предлагая заметно более эффективный человеческий синтез, чем можно получить либо с помощью моделей 2017 года автоэнкодирования deepfakes, либо путем добавления движения к статическим изображениям через системы, такие как известная LivePortrait.
Все LoRAs, показанные здесь, можно скачать бесплатно из популярного сообщества Civit, а более многочисленные старые настраиваемые ‘статические изображения’ LoRAs также потенциально могут создать ‘семенные’ изображения для процесса создания видео (т. е. изображение-в-видео, предстоящий релиз для Hunyuan Video, хотя обходные пути возможны на данный момент).
Нажмите, чтобы воспроизвести. Выше, образцы из ‘статического’ Flux LoRA; ниже, примеры из видео LoRA Hunyuan с музыкантом Тейлор Свифт. Обе эти LoRAs доступны бесплатно в сообществе Civit.
Когда я пишу, сайт Civit предлагает 128 результатов поиска по запросу ‘Hunyuan’*. Почти все они каким-то образом связаны с NSFW-моделями; 22 изображают знаменитостей; 18 предназначены для облегчения генерации порнографии; и только семь из них изображают мужчин, а не женщин.
Итак, что нового?
Из-за эволюционирующей природы термина deepfake и ограниченного понимания общественностью (довольно серьезных) ограничений рамок синтеза видео человека ИИ на данный момент, значение Hunyuan LoRA не легко понять для человека, который случайно следует за сценой генеративного ИИ. Давайте рассмотрим некоторые из ключевых различий между Hunyuan LoRAs и предыдущими подходами к генерации видео на основе идентификации ИИ.
1: Неограниченная локальная установка
Самым важным аспектом Hunyuan Video является тот факт, что его можно скачать локально, и что он ставит очень мощную и нецензурированную систему генерации видео ИИ в руках случайного пользователя, а также сообщества VFX (в той мере, в которой лицензии могут разрешать это в разных географических регионах).
Последний раз это произошло летом 2022 года с выпуском модели Stable Diffusion в открытом доступе. В то время OpenAI’s DALL-E2 завоевал общественное воображение, хотя DALLE-2 был платной услугой с заметными ограничениями (которые выросли со временем).
Когда Stable Diffusion стал доступен, и Low-Rank Adaptation затем сделал возможным генерировать изображения идентификации любого человека (знаменитости или нет), огромный центр внимания разработчиков и потребителей помог Stable Diffusion затмить популярность DALLE-2; хотя последний был более способной системой из коробки, его процедуры цензуры были признаны наложенными многими из его пользователей, и настройка не была возможна.
Справедливо ли то, что та же ситуация сейчас применяется между Sora и Hunyuan – или, более точно, между Sora-классом проприетарных генеративных видеосистем и открытыми аналогами, из которых Hunyuan является первым – но, вероятно, не последним (здесь рассмотрите, что Flux в конечном итоге получит значительную поддержку на Stable Diffusion).
Пользователи, которые хотят создать вывод Hunyuan LoRA, но которые не имеют эффективного оборудования, могут, как и раньше, передать аспект GPU обучения в онлайн-вычислительные услуги такие как RunPod. Это не то же самое, что создание видео ИИ на платформах, таких как Kaiber или Kling, поскольку нет семантической или изображения-основанной фильтрации (цензуры), связанной с арендой онлайн-GPU для поддержки локальной рабочей нагрузки.
2: Нет необходимости в ‘хост’-видео и высоком усилии
Когда deepfakes взорвались на сцене в конце 2017 года, анонимно опубликованный код будет развиваться в основные ветки DeepFaceLab и FaceSwap (а также систему реального времени deepfaking DeepFaceLive).
Этот метод требовал тщательного подбора тысяч изображений лица каждого идентификатора, чтобы поменять; меньше усилий, вложенных в эту стадию, менее эффективной будет модель. Кроме того, время обучения варьировалось между 2-14 днями, в зависимости от доступного оборудования, напрягая даже способные системы в долгосрочной перспективе.
Когда модель наконец была готова, она могла только наложить лица в существующее видео и обычно требовала ‘цель’ (т. е. реальную) идентификацию, близкую по внешнему виду к наложенной идентификации.
Более недавно, ROOP, LivePortrait и многочисленные аналогичные рамки предоставили аналогичную функциональность с гораздо меньшим усилием и часто с лучшими результатами – но без возможности генерировать точные полные глубокие подделки – или любой элемент, кроме лиц.

Примеры ROOP Unleashed и LivePortrait (вставка нижний левый), из контент-потока Боба Дойла на YouTube. Источники: https://www.youtube.com/watch?v=i39xeYPBAAM и https://www.youtube.com/watch?v=QGatEItg2Ns
В отличие от этого, Hunyuan LoRAs (и аналогичные системы, которые неизбежно последуют) позволяют создавать целые миры, включая полную имитацию пользовательской обученной LoRA-идентификации.
3: Значительно улучшенная временная последовательность
Временная последовательность была Священным Граалем диффузионного видео в течение нескольких лет. Использование LoRA, вместе с подходящими подсказками, дает генерации видео Hunyuan постоянную идентификацию ссылки, которой она должна следовать. Теоретически (это ранние дни), можно было бы обучить несколько LoRAs конкретной идентификации, каждая из которых носит конкретную одежду.
Под этими обстоятельствами одежда также менее вероятно ‘мутирует’ на протяжении всего видео генерации (поскольку генеративная система основывает следующий кадр на очень ограниченном окне предыдущих кадров).
(Альтернативно, как и в случае с системами LoRA на основе изображений, можно просто применить несколько LoRAs, таких как идентификация + костюм LoRAs, к одному видео генерации)
4: Доступ к ‘человеческому эксперименту’
Как я недавно отметил, проприетарный и FAANG-уровень генеративного ИИ-сектора теперь, кажется, так осторожен относительно потенциальной критики, связанной с возможностями человеческого синтеза своих проектов, что фактические люди редко появляются в страницах проектов для крупных объявлений и выпусков. Вместо этого связанная с этим литература все чаще склоняется к показу ‘милых’ и в остальном ‘неугрожающих’ объектов в синтезированных результатах.
С появлением Hunyuan LoRAs впервые у сообщества есть возможность расширить границы синтеза видео человека LDM в высоко способной (а не маргинальной) системе и полностью исследовать предмет, который интересует большинство из нас – людей.
Последствия
Поскольку поиск ‘Hunyuan’ в сообществе Civit в основном показывает LoRAs знаменитостей и ‘жесткие’ LoRAs, центральным последствием появления Hunyuan LoRAs является то, что они будут использоваться для создания видео ИИ-порнографии (или других клеветнических) видео реальных людей – знаменитостей и неизвестных.
Для целей соблюдения правил хоббиисты, которые создают Hunyuan LoRAs и которые экспериментируют с ними на различных серверах Discord, осторожны в том, чтобы запретить примеры реальных людей от публикации. Реальность заключается в том, что даже изображение-основанные deepfakes теперь серьезно вооружены; и перспектива добавления真正 реалистичных видео в смесь может наконец оправдать возросшие страхи, которые были периодическими в СМИ в течение последних семи лет, и которые привели к новым регуляциям.
Двигатель
Как и всегда, порнография остается двигателем прогресса технологий. Что бы мы ни думали о таком использовании, этот неумолимый двигатель импульса стимулирует достижения в области передового опыта, которые могут в конечном итоге принести пользу более широкому внедрению.
В данном случае возможно, что цена будет выше, чем обычно, поскольку открытие гиперреалистичного видео-создания имеет очевидные последствия для преступного, политического и этического злоупотребления.
Одна группа Reddit (которую я не буду называть здесь), посвященная генерации видео контента ИИ NSFW, имеет связанный открытый сервер Discord, где пользователи совершенствуют ComfyUI-потоки для генерации видео порнографии на основе Hunyuan. Ежедневно пользователи публикуют примеры видео NSFW – многие из которых можно разумно назвать ‘экстремальными’, или, по крайней мере, напрягающими ограничения, указанные в правилах форума.
Это сообщество также поддерживает значительный и хорошо разработанный репозиторий GitHub, в котором представлены инструменты, которые могут скачать и обработать видео порнографии, чтобы обеспечить обучающие данные для новых моделей.
Поскольку наиболее популярный тренер LoRA, Kohya-ss, теперь поддерживает обучение Hunyuan LoRA, барьеры для входа в неограниченное генеративное видео-обучение снижаются ежедневно, вместе с требованиями к оборудованию для обучения и генерации видео Hunyuan.
Критический аспект посвященных схем обучения для порнографии ИИ (а не идентификации-моделей, таких как знаменитости) заключается в том, что стандартная базовая модель, такая как Hunyuan, не обучена конкретно на выходе NSFW, и может поэтому либо работать плохо, когда ее просят генерировать контент NSFW, либо не смогут различать выученные понятия и ассоциации в выполненном или убедительном виде.
Разрабатывая тонко настроенные модели NSFW и LoRAs, будет все более возможно проецировать обученные идентификации в посвященную ‘порнографическую’ область видео; после всего, это только видео-версия того, что уже произошло для статических изображений за последние два с половиной года.
VFX
Огромный рост временной последовательности, который предлагают LoRAs Hunyuan Video, является очевидным благом для индустрии визуальных эффектов ИИ, которая сильно опирается на адаптацию открытого программного обеспечения.
Хотя подход Hunyuan Video LoRA генерирует весь кадр и окружение, компании VFX, вероятно, уже начали экспериментировать с изоляцией временно последовательных человеческих лиц, которые можно получить с помощью этого метода, чтобы наложить или интегрировать лица в реальное исходное видео.
Как и сообщество хоббиистов, компании VFX должны ждать функциональности image-to-video и video-to-video Hunyuan Video, которая потенциально является наиболее полезным мостом между LoRA-управляемым, идентификацией-основанным ‘глубоким подделкам’ контентом; или же импровизировать и использовать интервал, чтобы исследовать внешние возможности рамки и потенциальных адаптаций, и даже проприетарных внутренних ветвей Hunyuan Video.
Хотя лицензионные условия для Hunyuan Video технически разрешают изображение реальных людей, если только разрешение не дано, они запрещают его использование в ЕС, Великобритании и в Южной Корее. На принципе ‘что происходит в Вегасе, остается в Вегасе’, это не обязательно означает, что Hunyuan Video не будет использоваться в этих регионах; однако перспектива внешних аудитов данных, чтобы обеспечить соблюдение растущих регуляций вокруг генеративного ИИ, может сделать такое незаконное использование рискованным.
Другой потенциально неоднозначный аспект условий лицензии гласит:
‘Если на дату выпуска версии Tencent Hunyuan количество ежемесячных активных пользователей всех продуктов или услуг, доступных от имени или для Лицензиата, превышает 100 миллионов ежемесячных активных пользователей в предыдущем календарном месяце, Вам необходимо запросить лицензию у Tencent, которую Tencent может предоставить Вам по своему усмотрению, и Вы не уполномочены осуществлять какие-либо права в соответствии с этим Соглашением, если только и пока Tencent не предоставит Вам такие права явно.’
Этот пункт明но направлен на множество компаний, которые, вероятно, будут ‘посредниками’ Hunyuan Video для относительно техно-необразованной массы пользователей и которые будут обязаны включить Tencent в действие выше определенного потолка пользователей.
Неясно, может ли широкая формулировка также охватывать косвенное использование (т. е. через предоставление видео-визуальных эффектов, активированных Hunyuan, в популярных фильмах и телешоу); это может потребовать разъяснения.
Заключение
Поскольку видео deepfakes существуют уже давно, было бы легко недооценить значение Hunyuan Video LoRA как подхода к синтезу идентификации и глубоким подделкам; и предположить, что текущие разработки, проявляющиеся в сообществе Civit и на связанных Discord и subreddit, представляют собой лишь незначительный толчок к действительно контролируемому человеческому видео-синтезу.
Более вероятно, что текущие усилия представляют только часть потенциала Hunyuan Video для создания полностью убедительных полных глубоких подделок; как только компонент image-to-video будет выпущен (что, как говорят, произойдет в этом месяце), гораздо более детальный уровень генеративной силы станет доступен как сообществу хоббиистов, так и профессионалов.
Когда Stability.ai выпустила Stable Diffusion в 2022 году, многие наблюдатели не могли определить, почему компания просто отдала такую ценную и мощную генеративную систему. С Hunyuan Video мотив прибыли встроен непосредственно в лицензию – хотя он может оказаться трудным для Tencent определить, когда компания запускает схему разделения прибыли.
В любом случае результат один и тот же, как и в 2022 году: посвященные сообщества разработчиков сформировались сразу и с интенсивным пылом вокруг выпуска. Некоторые из путей, которые эти усилия будут брать в течение следующих 12 месяцев, вероятно, приведут к новым заголовкам.
* До 136 к моменту публикации.
Опубликовано впервые во вторник, 7 января 2025 года










