Искусственный интеллект

Подъем видео Hunyuan Deepfakes

опубликованный 7 января 2025

Мартин Андерсон

Видео LoRA Арни Хуньюаня, продемонстрированное Бобом Дойлом на ComfyUI на YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – и, на врезке справа, отрывки из различных примеров видео для того же LoRA на Civit.ai

В связи с характером некоторых обсуждаемых здесь материалов в этой статье будет меньше ссылок и иллюстраций, чем обычно.

В настоящее время в сообществе синтеза ИИ происходит нечто примечательное, хотя его значимость может занять некоторое время, чтобы стать ясной. Любители обучают генеративные видеомодели ИИ воспроизводить образы людей, используя видео на основе LoRA на недавно выпущенном Tencent проекте с открытым исходным кодом Видеофреймворк Hunyuan.*

Нажмите, чтобы играть. Различные результаты настроек LoRA на основе Hunyuan, свободно доступные в сообществе Civit. Благодаря обучению моделей адаптации низкого ранга (LoRA) проблемы с временной стабильностью, которые преследовали генерацию видео ИИ в течение двух лет, значительно сокращаются. Источники: civit.ai

В показанном выше видео образы актрис Натали Портман, Кристины Хендрикс и Скарлетт Йоханссон, а также технического лидера Илона Маска были преобразованы в относительно небольшие файлы дополнений для генеративной видеосистемы Hunyuan, которые можно установить без фильтров контента (например, фильтры NSFW) на компьютере пользователя.

Создатель LoRA Кристины Хендрикс, показанного выше, утверждает, что только 16 изображений из Mad Men Для разработки модели (загрузка которой занимает всего 307 МБ) потребовалось телешоу; многочисленные посты сообщества Stable Diffusion на Reddit и Discord подтверждают, что LoRA такого рода в большинстве случаев не требуют больших объемов обучающих данных или длительного времени обучения.

Cлизни, чтобы играть. Арнольд Шварценеггер оживает в видео LoRA на языке хуньюань, которое можно скачать на Civit. Смотрите https://www.youtube.com/watch?v=1D7B9g9rY68 для дополнительных примеров Арни от энтузиаста ИИ Боба Дойла.

Системы Hunyuan LoRA можно обучать как на статических изображениях, так и на видео, хотя обучение на видео требует больших аппаратных ресурсов и большего времени обучения.

Модель Hunyuan Video включает 13 миллиардов параметров, что превышает 12 миллиардов параметров Sora и значительно превосходит менее мощные Хуньюань-DiT модель будет выпущена в открытый исходный код летом 2024 года, что имеет всего 1.5 миллиарда параметров.

Как было в случае два с половиной года назад с Stable Diffusion и LoRA (см. примеры «родных» знаменитостей Stable Diffusion 1.5 здесь), рассматриваемая базовая модель имеет гораздо более ограниченное понимание личностей знаменитостей по сравнению с уровнем точности, который может быть достигнут посредством реализаций LoRA с «внедрением идентификаторов».

Фактически, настраиваемый, ориентированный на личность LoRA получает «бесплатный проезд» на значительных возможностях синтеза базовой модели Hunyuan, предлагая значительно более эффективный человеческий синтез, чем тот, который можно было бы получить к 2017 году автоэнкодер deepfakes или пытаясь добавить движение к статическим изображениям с помощью таких систем, как feted LiveПортрет.

Все LoRA, представленные здесь, можно бесплатно загрузить из очень популярного сообщества Civit, в то время как более многочисленные старые пользовательские LoRA для «статичных изображений» также потенциально могут создавать «исходные» изображения для процесса создания видео (т.е. преобразования изображения в видео, ожидаемого релиза для Hunyuan Video, хотя Возможны обходные пути, на данный момент).

Нажмите, чтобы играть. Выше — примеры из «статичного» Flux LoRA; ниже — примеры из видео LoRA от Hunyuan с участием певицы Тейлор Свифт. Оба эти LoRA доступны бесплатно в сообществе Civit.

На момент написания статьи сайт Civit выдаёт 128 результатов поиска по запросу «Хуньюань»*. Почти все из них в той или иной степени являются моделями NSFW; 22 из них изображают знаменитостей; 18 предназначены для распространения жёсткой порнографии; и только семь из них изображают мужчин, а не женщин.

Так что нового?

В связи с развивающаяся природа срока Deepfake , и ограниченное понимание общественностью (довольно суровый) ограничения фреймворков синтеза видео с использованием ИИ на сегодняшний день, значение Hunyuan LoRA сложно понять человеку, не слишком хорошо разбирающемуся в генеративном ИИ. Давайте рассмотрим некоторые ключевые различия между Hunyuan LoRA и предыдущими подходами к генерации видео с использованием ИИ на основе идентификации.

1: Неограниченная локальная установка

Самым важным аспектом Hunyuan Video является тот факт, что его можно загрузить локально, и что он предоставляет очень мощный и без цензуры Система генерации видео на основе ИИ в руках обычного пользователя, а также сообщества VFX (в той мере, в какой это позволяют лицензии в разных географических регионах).

В последний раз это произошло с выходом в открытый доступ модели Stability.ai Stable Diffusion. летом 2022В то время DALL-E2 от OpenAI имел захваченный общественное воображение, хотя DALLE-2 был платным сервисом с заметными ограничениями (которые со временем усилились).

Когда Стабильная Диффузия стала доступной, и Низкоранговая Адаптация позволила генерировать изображения идентичности любое человек (знаменитость или нет), огромный центр интереса разработчиков и потребителей помог Stable Diffusion затмить популярность DALLE-2; хотя последняя была более эффективной системой из коробки, ее процедуры цензуры были рассматривается как обременительный многими пользователями, и настройка была невозможна.

Можно утверждать, что тот же сценарий теперь применяется между Сора и Хуньюань – или, точнее, между Сора-класс фирменные генеративные видеосистемы и конкуренты с открытым исходным кодом, среди которых Hunyuan является первым, но, вероятно, не последним (здесь учтите, что Поток в конечном итоге получит значительное распространение в теории стабильной диффузии).

Пользователи, желающие создать выход Hunyuan LoRA, но не имеющие эффективного мощного оборудования, могут, как всегда, переложить часть нагрузки на GPU-процессоры на онлайн-вычислительные сервисы. такие как RunPod. Это не то же самое, что создание видеороликов с использованием ИИ на таких платформах, как Kaiber или Kling, поскольку при аренде онлайн-GPU для поддержки локального рабочего процесса не применяется семантическая или основанная на изображениях фильтрация (цензурирование).

2: Нет необходимости в «ведущих» видео и больших усилиях

Когда в конце 2017 года на сцену вышли deepfakes, анонимно опубликованный код превратился в основные форки DeepFaceLab и обмен лицами (так же хорошо как DeepFaceLive система дипфейкинга в реальном времени).

Этот метод требовал кропотливого курирования тысяч изображений лиц каждой личности для обмена; чем меньше усилий было вложено на этом этапе, тем менее эффективной была модель. Кроме того, время обучения варьировалось от 2 до 14 дней в зависимости от доступного оборудования, что в долгосрочной перспективе подвергало стрессу даже способные системы.

Когда модель была наконец готова, она могла только накладывать лица на существующее видео и обычно нуждалась в «целевой» (т. е. реальной) личности, которая была бы близка по внешнему виду к наложенной личности.

В последнее время, РУОП, LivePortrait и многочисленные аналогичные фреймворки предоставляют схожую функциональность с гораздо меньшими усилиями и часто с превосходными результатами, но без возможности создания точных полноразмерные deepfake – или любой другой элемент, кроме лиц.

Примеры ROOP Unleashed и LivePortrait (вставка слева внизу) из потока контента Боба Дойла на YouTube. Источники: https://www.youtube.com/watch?v=i39xeYPBAAM и https://www.youtube.com/watch?v=QGatEItg2Ns

Напротив, системы LoRA компании Hunyuan (и аналогичные системы, которые неизбежно последуют за ними) позволяют беспрепятственно создавать целые миры, включая полномасштабную симуляцию обученной пользователем идентичности LoRA.

3: Значительно улучшенная временная согласованность

Временная последовательность была Святой Грааль диффузионного видео уже несколько лет. Использование LoRA вместе с подходящими подсказками дает видеогенерации Hunyuan постоянную ссылку на идентичность, которой нужно придерживаться. Теоретически (это ранние дни) можно обучить несколько LoRA определенной идентичности, каждый из которых будет носить определенную одежду.

Под этим предлогом одежда также менее склонна «мутировать» в ходе генерации видео (поскольку генеративная система основывает следующий кадр на очень ограниченном окне предыдущих кадров).

(В качестве альтернативы, как и в системах LoRA на основе изображений, можно просто применить несколько LoRA, например LoRA идентичности + костюма, к одному видеопоколению)

4: Доступ к «Человеческому эксперименту»

Насколько я недавно наблюдалось, сектор генеративного ИИ уровня FAANG теперь, похоже, настолько настороженно относится к потенциальной критике, касающейся возможностей человеческого синтеза в его проектах, что фактически люди Они редко появляются на страницах проектов, где публикуются важные анонсы и релизы. Вместо этого в соответствующей рекламной литературе всё чаще демонстрируются «милые» и в остальном «не представляющие угрозы» темы в синтезированных результатах.

С появлением Hunyuan LoRAs у сообщества впервые появилась возможность расширить границы человеческого видеосинтеза на основе LDM в высокопроизводительной (а не маргинальной) системе и полностью изучить тему, которая больше всего интересует большинство из нас — людей.

Значение

Поскольку поисковый запрос «Hunyuan» в сообществе Civit в основном выдает LoRA знаменитостей и «хардкорных» LoRA, главным последствием появления LoRA Hunyuan является то, что они будут использоваться для создания с помощью ИИ порнографических (или иных клеветнических) видеороликов реальных людей — как знаменитостей, так и неизвестных.

В целях соответствия, любители, которые создают Hunyuan LoRA и экспериментируют с ними на различных серверах Discord, тщательно запрещают публиковать примеры реальных людей. Реальность такова, что даже изображение- основанные на дипфейках теперь серьезно вооружен; и перспектива добавления в этот микс по-настоящему реалистичных видеороликов может, наконец, оправдать возросшие опасения, которые постоянно возникали в СМИ в течение последних семи лет и которые привели к появлению новых правила.

Движущая сила

Как всегда, порно остатки движущая сила технологий. Независимо от нашего мнения о таком использовании, этот неустанный двигатель импульса стимулирует прогресс в области современных технологий, который в конечном итоге может способствовать более широкому внедрению.

В этом случае цена может быть выше обычной, поскольку открытый доступ к гиперреалистичному видеопроизводству имеет очевидные последствия для криминального, политического и этического злоупотребления.

Одна группа Reddit (которую я здесь не назову), посвященная созданию искусственного интеллекта для создания видеоконтента NSFW, имеет связанный с ней открытый сервер Discord, где пользователи совершенствуют Удобный интерфейс Рабочие процессы для создания порнографических видеороликов на основе хуньюаня. Ежедневно пользователи публикуют примеры NSFW-клипов, многие из которых можно обоснованно назвать «экстремальными» или, по крайней мере, нарушающими ограничения, установленные правилами форума.

Это сообщество также поддерживает большой и хорошо развитый репозиторий GitHub с инструментами, которые позволяют загружать и обрабатывать порнографические видеоролики, чтобы предоставлять данные для обучения новых моделей.

Так как самый популярный тренер LoRA, Kohya-ss, теперь поддерживает обучение Hunyuan LoRAбарьеры для входа на рынок неограниченного генеративного видеообучения снижаются с каждым днем, вместе с требованиями к оборудованию для обучения и создания видео Hunyuan.

Важнейший аспект специализированных схем обучения для ИИ на основе порнографии (а не личность-модели, основанные на данных, например, знаменитостях), заключается в том, что стандартная базовая модель, такая как Хуньюань, не обучена специально на выходных данных NSFW и поэтому может либо плохо работать, когда ее просят сгенерировать контент NSFW, либо не справляться с этой задачей. распутывать усвоенные концепции и ассоциации в перформативной или убедительной форме.

Разрабатывая точно настроенные модели NSFW-основы и LoRA, станет все более возможным проецировать обученные идентичности в специализированный домен видео «порно». В конце концов, это всего лишь видеоверсия чего-то, что уже произошло для неподвижных изображений за последние два с половиной года.

VFX

Значительное увеличение временной согласованности, которое обеспечивает Hunyuan Video LoRA, является очевидным благом для индустрии визуальных эффектов ИИ, которая в значительной степени опирается на адаптацию программного обеспечения с открытым исходным кодом.

Хотя подход Hunyuan Video LoRA генерирует целый кадр и среду, компании VFX, несомненно, начали экспериментировать с изоляцией согласованных во времени человеческих лиц, которые можно получить с помощью этого метода, чтобы накладывать или интегрировать лица в реальные исходные кадры.

Как и сообщество энтузиастов, компании, занимающиеся визуальными эффектами, должны дождаться функциональности Hunyuan Video по преобразованию изображений в видео и видео в видео, которая потенциально является самым полезным мостом между контентом «дипфейк» на основе LoRA и ID; или же импровизировать и использовать этот интервал для изучения внешних возможностей фреймворка и потенциальных адаптаций, а также собственных внутренних ответвлений Hunyuan Video.

Хотя условия лицензии Hunyuan Video технически разрешает изображение реальных людей при условии получения разрешения, однако запрещает его использование в ЕС, Великобритании и Южной Корее. Согласно принципу «оставайтесь в Лас-Вегасе», это не обязательно означает, что Hunyuan Video не будет использоваться в этих регионах; однако перспектива внешнего аудита данных для обеспечения соблюдения Растущее регулирование вокруг генеративного ИИ, может сделать такое незаконное использование рискованным.

Еще один потенциально двусмысленный раздел условий лицензии гласит:

«Если на дату выпуска версии Tencent Hunyuan ежемесячное количество активных пользователей всех продуктов или услуг, предоставленных Лицензиатом или для него, превысит 100 миллионов ежемесячно активных пользователей в предыдущем календарном месяце, Вы должны запросить у Tencent лицензию, которую Tencent может предоставить Вам по своему усмотрению, и Вы не будете уполномочены осуществлять какие-либо права по настоящему Соглашению, если только Tencent иным образом не предоставит Вам такие права».

Этот пункт явно нацелен на множество компаний, которые, скорее всего, выступят посредниками между Hunyuan Video и относительно технически неграмотной группой пользователей, и которым придется привлекать Tencent к этому процессу, если число пользователей превышает определенный предел.

Может ли широкая формулировка также охватывать косвенный использование (т. е. посредством предоставления вывода визуальных эффектов с поддержкой Hunyuan в популярных фильмах и телепередачах) может потребовать разъяснений.

Заключение

Поскольку дипфейк-видео существует уже давно, было бы легко недооценить значимость Hunyuan Video LoRA как подхода к синтезу идентичности и дипфейку; и предположить, что разработки, которые в настоящее время наблюдаются в сообществе Civit, а также в связанных с ним Discord и сабреддитах, представляют собой лишь постепенный шаг к действительно контролируемому синтезу человеческого видео.

Более вероятно, что текущие усилия представляют собой лишь часть потенциала Hunyuan Video по созданию абсолютно убедительных дипфейков в полный рост и с полным охватом окружающей среды; как только компонент преобразования изображений в видео будет выпущен (по слухам, это произойдет в этом месяце), как любительскому, так и профессиональному сообществу станет доступен гораздо более детальный уровень генеративной мощности.

Когда Stability.ai выпустила Stable Diffusion в 2022 году, многие наблюдатели не могли определить, почему компания просто отдала то, что в то время было такой ценной и мощной генеративной системой. С Hunyuan Video мотив прибыли встроен непосредственно в лицензию — хотя Tencent может оказаться сложным определить, когда компания запускает схему распределения прибыли.

В любом случае, результат тот же, что и в 2022 году: преданные своему делу сообщества разработчиков сформировались немедленно и с большим энтузиазмом вокруг релиза. Некоторые из путей, по которым эти усилия пойдут в течение следующих 12 месяцев, наверняка вызовут новые заголовки.

* На момент публикации их число достигло 136.

Впервые опубликовано Вторник, 7 января 2025 г.

Похожие темы:видео ИИ создание ИИ-видео Deepfake DeepFakes XNUMX году

Мартин Андерсон

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai