Взгляд Anderson
Возрождение Hunyuan Видео Дипфейков

Из-за характера некоторых обсуждаемых здесь материалов, эта статья будет содержать меньше ссылок и иллюстраций, чем обычно.
Что-то примечательное сейчас происходит в сообществе синтеза ИИ, хотя его значение может занять некоторое время, чтобы стать ясным. Хоббиисты обучают генеративные модели видео ИИ для воспроизведения сходства людей, используя видео-основанные LoRAs на недавно выпущенной открытой платформе Hunyuan Video.*
Нажмите, чтобы воспроизвести. Разнообразные результаты из настроек Hunyuan, доступные бесплатно в сообществе Civit. Обучая модели низкоранговой адаптации (LoRAs), проблемы с временной стабильностью, которые мучили генерацию видео ИИ в течение двух лет, значительно снижаются. Источники: civit.ai
В видео выше, сходства актрис Натали Портман, Кристины Хендрикс и Скарлетт Йоханссон, вместе с лидером технологий Илоном Маском, были обучены в относительно небольшие файлы для системы генерации видео Hunyuan, которую можно установить без фильтров контента (таких как фильтры NSFW) на компьютере пользователя.
Создатель LoRA Кристины Хендрикс, показанной выше, заявляет, что для разработки модели потребовалось только 16 изображений из телешоу Mad Men (которая является всего лишь 307 МБ для скачивания); несколько постов из сообщества Stable Diffusion на Reddit и Discord подтверждают, что LoRAs такого типа не требуют больших объемов обучающих данных или длительного времени обучения в большинстве случаев.
Нажмите, чтобы воспроизвести. Арнольд Шварценеггер оживает в LoRA видео Hunyuan, которое можно скачать на Civit. См. https://www.youtube.com/watch?v=1D7B9g9rY68 для дальнейших примеров Арни от энтузиаста ИИ Боба Дойла.
Hunyuan LoRAs можно обучать как на статических изображениях, так и на видео, хотя обучение на видео требует больших аппаратных ресурсов и увеличенного времени обучения.
Модель видео Hunyuan имеет 13 миллиардов параметров, превышая 12 миллиардов параметров Sora и значительно превышая менее способную модель Hunyuan-DiT, выпущенную в открытом доступе летом 2024 года, которая имеет только 1,5 миллиарда параметров.
Как было случае два с половиной года назад со Stable Diffusion и LoRA (см. примеры ‘родных’ знаменитостей Stable Diffusion 1.5 здесь), базовая модель имеет гораздо более ограниченное понимание личностей знаменитостей по сравнению с уровнем точности, который можно получить с помощью ‘инъекции идентификатора’ реализаций LoRA.
По сути, настраиваемая, ориентированная на личность LoRA получает ‘бесплатную поездку’ на значительные возможности синтеза базовой модели Hunyuan, предлагая заметно более эффективный человеческий синтез, чем можно получить либо с помощью моделей 2017 года автоэнкодирования дипфейков, либо путем добавления движения к статическим изображениям через системы, такие как известная LivePortrait.
Все LoRAs, показанные здесь, можно скачать бесплатно из популярного сообщества Civit, а более многочисленные старые настраиваемые ‘статические’ LoRAs также потенциально могут создать ‘семенные’ изображения для процесса создания видео (т.е. изображение-видео, запланированное для выпуска Hunyuan Video, хотя обходные пути возможны на данный момент).
Нажмите, чтобы воспроизвести. Выше, образцы из ‘статического’ Flux LoRA; ниже, примеры из видео LoRA Hunyuan с музыкантом Тейлор Свифт. Оба этих LoRAs доступны бесплатно в сообществе Civit.
Как я пишу, сайт Civit предлагает 128 результатов поиска по запросу ‘Hunyuan’*. Почти все они каким-то образом связаны с NSFW-моделями; 22 изображают знаменитостей; 18 предназначены для облегчения генерации хардкор-порнографии; и только семь из них изображают мужчин, а не женщин.
Что нового?
Из-за эволюционирующей природы термина дипфейк и ограниченного понимания общественностью (очень серьезных) ограничений рамок синтеза видео ИИ на данный момент, значение LoRA Hunyuan не легко понять для человека, случайно следующего за сценой генеративного ИИ. Давайте рассмотрим некоторые ключевые различия между LoRAs Hunyuan и предыдущими подходами к генерации видео ИИ на основе идентификатора.
1: Неограниченная локальная установка
Самым важным аспектом видео Hunyuan является тот факт, что его можно скачать локально, и что он ставит очень мощную и нецензурированную систему генерации видео ИИ в руки обычного пользователя, а также сообщества VFX (в той мере, в которой лицензии могут разрешать в разных географических регионах).
В последний раз это произошло с выпуском в открытом доступе модели Stable Diffusion летом 2022 года. В то время OpenAI’s DALL-E2 завоевал общественное воображение, хотя DALLE-2 был платной службой с заметными ограничениями (которые росли со временем).
Когда Stable Diffusion стал доступен, и Low-Rank Adaptation затем сделал возможным генерировать изображения идентификатора любого человека (знаменитости или нет), огромный центр внимания разработчиков и потребителей помог Stable Diffusion превзойти популярность DALLE-2; хотя последняя была более способной системой из коробки, ее цензурные процедуры были признаны наложенными многими из ее пользователей, и настройка не была возможна.
Справедливо ли то, что та же самая ситуация теперь применяется между Sora и Hunyuan – или, более точно, между системами Sora и открытыми аналогами, из которых Hunyuan является первым – но, вероятно, не последним (здесь рассмотрите, что Flux в конечном итоге получит значительное преимущество над Stable Diffusion).
Пользователи, которые хотят создать выходные данные LoRA Hunyuan, но не имеют эффективно мощного оборудования, могут, как и раньше, передать аспект GPU обучения в онлайн-службы вычислений такие как RunPod. Это не то же самое, что создание видео ИИ на платформах, таких как Kaiber или Kling, поскольку в этом нет семантического или изображение-основанного фильтра (цензуры), связанного с арендой онлайн-GPU для поддержки в противном случае локальной рабочей нагрузки.
2: Нет необходимости в ‘хост’-видео и высоком усилии
Когда дипфейки впервые появились на сцене в конце 2017 года, анонимно опубликованный код эволюционировал в основные ветки DeepFaceLab и FaceSwap (а также систему реального времени дипфейков DeepFaceLive).
Этот метод требовал тщательного подбора тысяч изображений лица каждой идентификатора для замены; чем меньше усилий было вложено на этом этапе, тем менее эффективной была модель. Кроме того, время обучения варьировалось от 2 до 14 дней, в зависимости от доступного оборудования, напрягая даже способные системы в долгосрочной перспективе.
Когда модель наконец была готова, она могла только внедрить лица в существующее видео и обычно требовала ‘целевого’ (т.е. реального) идентификатора, который был близок по внешности к наложенному идентификатору.
Более недавно, ROOP, LivePortrait и многочисленные подобные рамки предоставили аналогичную функциональность с гораздо меньшим усилием и часто с лучшими результатами – но без возможности генерировать точные полные дипфейки – или любой элемент, кроме лиц.

Примеры ROOP Unleashed и LivePortrait (вставка внизу слева), из контента Боба Дойла на YouTube. Источники: https://www.youtube.com/watch?v=i39xeYPBAAM и https://www.youtube.com/watch?v=QGatEItg2Ns
В отличие от этого, LoRAs Hunyuan (и подобные системы, которые неизбежно последуют) позволяют создавать целые миры, включая полное тело и окружающую среду.
3: Значительно улучшенная временная последовательность
Временная последовательность была Священным Граалем диффузионного видео в течение нескольких лет. Использование LoRA, вместе с соответствующими подсказками, дает генерации видео Hunyuan постоянную ссылку на идентификатор для соблюдения. В теории (это ранние дни), можно было бы обучить несколько LoRAs определенного идентификатора, каждый из которых носит определенные костюмы.
В этих условиях костюм также менее вероятно ‘мутирует’ в течение видео генерации (поскольку генеративная система основывает следующий кадр на очень ограниченном окне предыдущих кадров).
(Альтернативно, как и в случае с системами LoRA на основе изображений, можно просто применить несколько LoRAs, таких как идентификатор + костюм LoRAs, к одной видео генерации)
4: Доступ к ‘человеческому эксперименту’
Как я недавно отметил, проприетарный и FAANG-уровень сектора генеративного ИИ теперь, кажется, так боится потенциальной критики, связанной с возможностями человеческого синтеза своих проектов, что фактические люди редко появляются в страницах проектов для основных объявлений и выпусков. Вместо этого связанная с этим литература все чаще показывает ‘милое’ и иное ‘неугрожающее’ предметы в синтезированных результатах.
С появлением LoRAs Hunyuan, впервые у сообщества есть возможность расширить границы синтеза видео ИИ на основе человека в высоко способной (а не маргинальной) системе и полностью исследовать предмет, который интересует большинство из нас – людей.
Последствия
Поскольку поиск ‘Hunyuan’ в сообществе Civit в основном показывает LoRAs знаменитостей и ‘хардкор’ LoRAs, центральным последствием появления LoRAs Hunyuan является то, что они будут использоваться для создания видео ИИ-порнографии (или других клеветнических) видео реальных людей – знаменитостей и неизвестных.
Для соблюдения правил хоббиисты, которые создают LoRAs Hunyuan и экспериментируют с ними на различных серверах Discord, тщательно запрещают примеры реальных людей от быть опубликованными. Реальность заключается в том, что даже изображение-основанные дипфейки теперь серьезно оружены; и перспектива добавления真正 реалистичных видео в смесь может наконец оправдать повышенные страхи, которые были повторяющимися в СМИ в течение последних семи лет, и которые привели к новым регуляциям.
Двигатель
Как всегда, порнография остается двигателем технологий. Что бы мы ни думали о таком использовании, этот неумолимый двигатель импульса стимулирует достижения в состоянии искусства, которые могут в конечном итоге принести пользу более широкому внедрению.
В данном случае возможно, что цена будет выше, чем обычно, поскольку открытый доступ к гиперреалистичному видео созданию имеет очевидные последствия для преступного, политического и этического злоупотребления.
Одна группа Reddit (которую я не буду называть здесь), посвященная генерации видео ИИ NSFW, имеет связанный открытый сервер Discord, где пользователи совершенствуют ComfyUI-потоки для генерации видео-порнографии на основе Hunyuan. Ежедневно пользователи публикуют примеры клипов NSFW – многие из которых можно разумно назвать ‘экстремальными’, или, по крайней мере, напрягающими ограничения, указанные в правилах форума.
Это сообщество также поддерживает значительную и хорошо разработанную репозиторий GitHub, в котором представлены инструменты, которые могут загружать и обрабатывать порнографические видео, чтобы обеспечить обучающие данные для новых моделей.
Поскольку наиболее популярный тренер LoRA, Kohya-ss, теперь поддерживает обучение LoRA Hunyuan, барьеры для входа в генеративное видео обучение снижаются ежедневно, вместе с аппаратными требованиями для обучения и генерации видео Hunyuan.
Критический аспект посвященных схем обучения для порнографии ИИ (а не идентификатор-моделей, таких как знаменитости) заключается в том, что стандартная базовая модель, такая как Hunyuan, не обучена конкретно на выходных данных NSFW, и может поэтому либо работать плохо, когда ее просят генерировать контент NSFW, либо не смогут диссоциировать выученные понятия и ассоциации в выполненном или убедительном виде.
Разрабатывая тонко настроенные модели NSFW и LoRAs, будет все более возможно проецировать обученные идентификаторы в посвященную область ‘порнографии’ видео; после всего, это только видео-версия того, что уже произошло для статических изображений в течение последних двух с половиной лет.
VFX
Значительное увеличение временной последовательности, которое предлагают LoRAs видео Hunyuan, является очевидным благом для отрасли визуальных эффектов ИИ, которая сильно полагается на адаптацию открытого программного обеспечения.
Хотя подход LoRA видео Hunyuan генерирует весь кадр и окружающую среду, компании VFX, вероятно, уже начали экспериментировать с изоляцией временно-последовательных человеческих лиц, которые можно получить с помощью этого метода, чтобы наложить или интегрировать лица в реальное видео.
Как и сообщество хоббиистов, компании VFX должны ждать выпуска компонентов image-to-video и video-to-video Hunyuan Video, который потенциально является наиболее полезным мостом между контентом LoRA, основанным на идентификаторе, ‘дипфейком’; или импровизировать и использовать интервал, чтобы изучить внешние возможности рамки и потенциальных проприетарных внутренних форков Hunyuan Video.
Хотя лицензионные условия Hunyuan Video технически разрешают изображение реальных людей, если дано разрешение, они запрещают его использование в ЕС, Великобритании и в Южной Корее. На принципе ‘что происходит в Вегасе, остается в Вегасе’, это не обязательно означает, что Hunyuan Video не будет использоваться в этих регионах; однако перспектива внешних аудитов данных для обеспечения расширяющихся правил вокруг генеративного ИИ может сделать такое незаконное использование рискованным.
Один другой потенциально неоднозначный аспект условий лицензии гласит:
‘Если, на дату выпуска версии Tencent Hunyuan, количество активных пользователей всех продуктов или услуг, доступных для Лицензиата, превышает 100 миллионов активных пользователей в предыдущем календарном месяце, Вы должны запросить лицензию у Tencent, которую Tencent может предоставить Вам по своему усмотрению, и Вы не имеете права осуществлять какие-либо права по этому Соглашению, если только и пока Tencent не предоставит Вам такие права.’
Этот пункт明но направлен на множество компаний, которые, вероятно, будут ‘посредниками’ Hunyuan Video для относительно неосведомленного тела пользователей, и которые будут обязаны включить Tencent в действие выше определенного потолка пользователей.
Неясно, может ли широкая формулировка также охватывать косвенное использование (т.е. через предоставление визуальных эффектов видео, активированных Hunyuan, в популярные фильмы и телешоу); может потребоваться разъяснение.
Заключение
Поскольку видео дипфейков существует уже давно, было бы легко недооценить значение LoRA видео Hunyuan как подхода к синтезу идентификатора и дипфейкам; и предположить, что текущие усилия, проявляющиеся в сообществе Civit, и в связанных Discord и subreddit, представляют собой лишь незначительный толчок к真正 контrollable человеческому синтезу видео.
Более вероятно, что текущие усилия представляют только часть потенциала Hunyuan Video для создания полностью убедительных полных дипфейков; как только компонент image-to-video будет выпущен (что, как говорят, должно произойти в этом месяце), гораздо более детальный уровень генеративной силы станет доступен как для сообщества хоббиистов, так и для профессионалов.
Когда Stability.ai выпустила Stable Diffusion в 2022 году, многие наблюдатели не могли понять, почему компания просто отдала такую ценную и мощную генеративную систему. С Hunyuan Video мотив прибыли встроен直接 в лицензию – хотя, возможно, для Tencent будет сложно определить, когда компания запускает схему разделения прибыли.
В любом случае результат один и тот же, что и в 2022 году: посвященные сообщества разработчиков сформировались сразу и с интенсивным пылом вокруг выпуска. Некоторые из путей, которые эти усилия будут принимать в течение следующих 12 месяцев, вероятно, приведут к новым заголовкам.
* До 136 к моменту публикации.
Опубликовано во вторник, 7 января 2025 года.












