Штучний Інтелект
Відео підйому Hunyuan Deepfakes

Через характер деяких матеріалів, які тут обговорюються, ця стаття міститиме менше довідкових посилань та ілюстрацій, ніж зазвичай.
Щось варте уваги зараз відбувається в спільноті синтезу штучного інтелекту, хоча може знадобитися деякий час, щоб прояснити його значення. Любителі навчають генеративні відеомоделі ШІ відтворювати схожість людей за допомогою відео LoRAs про нещодавно випущений Tencent з відкритим вихідним кодом Фреймворк Hunyuan Video.*
Натисніть, щоб відтворити. Різноманітні результати налаштувань LoRA на базі Hunyuan, які вільно доступні в спільноті Civit. Завдяки навчанню низькорангових адаптаційних моделей (LoRAs) значно зменшуються проблеми з тимчасовою стабільністю, які протягом двох років переслідували створення відео ШІ. Джерело: civit.ai
У відео, показаному вище, образи актрис Наталі Портман, Крістіни Хендрікс і Скарлетт Йоханссон разом із технічним керівником Ілоном Маском були навчені у відносно невеликі додаткові файли для генеративної відеосистеми Hunyuan, які можна встановити. без контент-фільтрів (наприклад, фільтри NSFW) на комп’ютері користувача.
Творець зображеного вище LoRA Крістіни Хендрікс стверджує, що лише 16 зображень із Mad Men Для розробки моделі потрібне телевізійне шоу (це лише 307 Мб завантаження); Численні публікації від спільноти Stable Diffusion на Reddit і Discord підтверджують, що LoRA такого роду в більшості випадків не вимагають великої кількості навчальних даних або тривалого навчання.
Cлизати грати. Арнольд Шварценеггер оживає у відео Hunyuan LoRA, яке можна завантажити на Civit. Дивіться https://www.youtube.com/watch?v=1D7B9g9rY68 для інших прикладів Арні від ентузіаста ШІ Боба Дойла.
Hunyuan LoRAs можна навчати на статичних зображеннях або відео, хоча навчання на відео вимагає більших апаратних ресурсів і тривалого навчання.
Модель Hunyuan Video має 13 мільярдів параметрів, що перевищує 12 мільярдів параметрів Sora та значно перевершує менш потужні моделі. Хуньюань-ДіТ модель, випущену з відкритим кодом влітку 2024 року, яка має лише 1.5 мільярда параметрів.
Як і було два з половиною роки тому зі Stable Diffusion та LoRA (див. приклади «місцевих» знаменитостей Stable Diffusion 1.5 тут), розглянута модель фонду має набагато обмеженіше розуміння особистостей знаменитостей порівняно з рівнем точності, який можна отримати за допомогою впровадження LoRA з «впровадженням ідентифікатора».
Фактично, налаштована, орієнтована на особистість LoRA отримує «безкоштовне користування» значними можливостями синтезу базової моделі Hunyuan, пропонуючи значно ефективніший людський синтез, ніж той, що можна отримати до 2017 року. autoencoder deepfakes або намагаючись додати рух до статичних зображень за допомогою таких систем, як feted LivePortrait.
Усі LoRA, зображені тут, можна безкоштовно завантажити з дуже популярної спільноти Civit, тоді як більша кількість старих LoRA зі «статичними зображеннями», створених на замовлення, також потенційно може створювати «начальні» зображення для процесу створення відео (тобто перетворення зображення на відео, реліз для Hunyuan Video очікується). можливі обхідні шляхи, на даний момент).
Натисніть, щоб відтворити. Вище – зразки зі «статичної» Flux LoRA; нижче – приклади з відео LoRA від Hunyuan за участю музикантки Тейлор Свіфт. Обидва ці LoRA вільно доступні у спільноті Civit.
На момент написання цієї статті вебсайт Civit пропонує 128 результатів пошуку за запитом «Хун'юань»*. Майже всі вони є певним чином моделями для роботи з жінками; 22 зображують знаменитостей; 18 створені для сприяння створенню жорсткої порнографії; і лише сім з них зображують чоловіків, а не жінок.
So What's New?
Внаслідок природа, що розвивається терміну глибокий розбірта обмежене розуміння громадськістю (досить важка) обмеження фреймворків для синтезу відео за участю штучного інтелекту з використанням людини на сьогоднішній день, значення Hunyuan LoRA нелегко зрозуміти людині, яка випадково стежить за сферою генеративного ШІ. Давайте розглянемо деякі ключові відмінності між Hunyuan LoRA та попередніми підходами до генерації відео за допомогою ШІ на основі ідентифікації.
1: Безперешкодна локальна інсталяція
Найважливішим аспектом Hunyuan Video є той факт, що його можна завантажити локально, і що воно надає дуже потужний і без цензури Система генерації відео штучного інтелекту в руках звичайного користувача, а також спільноти VFX (наскільки це дозволено ліцензіями в різних географічних регіонах).
Останній раз це сталося з появою випуску з відкритим кодом моделі Stability.ai Stable Diffusion влітку 2022 рокуНа той час DALL-E2 від OpenAI мав захоплений уява громадськості, хоча DALLE-2 була платною послугою з помітними обмеженнями (які з часом зростали).
Коли стали доступними стабільна дифузія та адаптація низького рангу, стало можливим генерувати зображення ідентичності будь-який особа (знаменита особа чи ні), величезний локус інтересу розробників і споживачів допоміг Stable Diffusion затьмарити популярність DALLE-2; хоча остання була більш потужною системою з коробки, її процедури цензури були розглядається як обтяжливий багатьма його користувачами, і налаштування було неможливим.
Можливо, той самий сценарій зараз застосовується між Сорою та Хуньюанем – або, точніше, між ними Сора-сорт пропрієтарні генеративні відеосистеми та конкуренти з відкритим вихідним кодом, серед яких Hunyuan є першим – але, ймовірно, не останнім (тут вважайте, що Потік врешті-решт здобуде значну позицію щодо стабільної дифузії).
Користувачі, які бажають створювати вихідні дані Hunyuan LoRA, але яким не вистачає потужного обладнання, можуть, як завжди, перенести аспект GPU навчання на онлайн-обчислювальні служби. наприклад RunPod. Це не те саме, що створення відео зі штучним інтелектом на таких платформах, як Kaiber або Kling, оскільки оренда онлайн-графічного процесора для підтримки локального робочого процесу не потребує семантичної фільтрації чи фільтрації на основі зображень (цензури).
2: Немає потреби у «хост-відео» та великих зусиль
Коли наприкінці 2017 року на сцену з’явилися дипфейки, анонімно опублікований код перетворився на мейнстрімні форки. DeepFaceLab та Заміна обличчя (а також DeepFaceLive система дипфейкинга в реальному часі).
Цей метод вимагав копіткої обробки тисяч зображень облич кожної особистості, які потрібно було замінити; чим менше зусиль буде докладено на цьому етапі, тим менш ефективною буде модель. Крім того, час навчання коливався від 2 до 14 днів, залежно від доступного обладнання, що навантажувало навіть ефективні системи в довгостроковій перспективі.
Коли модель нарешті була готова, вона могла лише накладати обличчя на існуюче відео та зазвичай потребувала «цільової» (тобто реальної) ідентичності, яка була б близька за зовнішнім виглядом до накладеної ідентичності.
Останнім часом, ROOP, LivePortrait і численні подібні фреймворки надали подібну функціональність із набагато меншими зусиллями та часто з кращими результатами, але не мали можливості генерувати точні дипфейки на все тіло – або будь-який інший елемент, крім облич.

Приклади ROOP Unleashed та LivePortrait (вставка внизу ліворуч) з потоку контенту Боба Дойла на YouTube. Джерела: https://www.youtube.com/watch?v=i39xeYPBAAM і https://www.youtube.com/watch?v=QGatEItg2Ns
Навпаки, Hunyuan LoRAs (і подібні системи, які неминуче з’являться за ними) дозволяють безперешкодно створювати цілі світи, включаючи симуляцію всього тіла особи LoRA, навченої користувачем.
3: Значно покращена тимчасова консистенція
Тимчасова узгодженість була Святий Грааль дифузійного відео вже кілька років. Використання LoRA разом із відповідними підказками надає генерації відео Hunyuan постійне посилання на ідентифікацію, якого слід дотримуватися. Теоретично (наразі на початку), можна було б навчити кількох LoRA певної ідентичності, кожен з яких носив би певний одяг.
Під цим захистом одяг також менш схильний до «мутації» протягом генерації відео (оскільки генеративна система базує наступний кадр на дуже обмеженому вікні попередніх кадрів).
(Альтернативно, як і в системах LoRA на основі зображень, можна просто застосувати кілька LoRA, як-от ідентичність + костюм LoRA, до одного покоління відео)
4: Доступ до «Експерименту на людях»
Як я нещодавно спостерігаєтьсявласний сектор генеративного штучного інтелекту на рівні FAANG настільки обережно ставиться до потенційної критики, пов’язаної з можливостями людського синтезу його проектів, що фактичні люди рідко з'являються на сторінках проектів для важливих оголошень та релізів. Натомість, у відповідній рекламній літературі все частіше показують «милих» та в іншому «незагрозливих» об'єктів у синтезованих результатах.
З появою Hunyuan LoRAs уперше спільнота має можливість розширити межі синтезу людського відео на основі LDM у високопродуктивній (а не маргінальній) системі та повністю вивчити тему, яка найбільше цікавить більшість з нас – людей.
Наслідки
Оскільки пошук за запитом «Hunyuan» у спільноті Civit здебільшого показує LoRA зірок та «хардкорних» LoRA, головним наслідком появи Hunyuan LoRA є те, що їх використовуватимуть для створення порнографічних (або інших наклепницьких) відео зі штучним інтелектом з реальними людьми – як знаменитостями, так і невідомими.
З метою відповідності любителі, які створюють Hunyuan LoRA та експериментують з ними на різних серверах Discord, ретельно забороняють публікувати приклади реальних людей. Реальність така навіть зображенняна основі глибоких фейків зараз сильно озброєний; і перспектива додавання справді реалістичних відео до суміші може нарешті виправдати підвищені страхи, які постійно виникали в ЗМІ протягом останніх семи років і які спонукали до нових правила.
Рушійна сила
Як завжди, порно залишається рушійна сила технологій. Якою б не була наша думка щодо такого використання, цей невпинний двигун стимулює прогрес у найсучаснішому стані, який зрештою може сприяти більш широкому прийняттю.
У цьому випадку цілком можливо, що ціна буде вищою, ніж зазвичай, оскільки створення гіперреалістичного відео з відкритим кодом має очевидні наслідки для кримінального, політичного та етичного використання.
Одна група Reddit (яку я не буду тут називати), присвячена створенню відеовмісту NSFW штучним інтелектом, має пов’язаний відкритий сервер Discord, де користувачі вдосконалюють ComfyUI робочі процеси для створення порнографічних відео на основі Хуньюаня. Щодня користувачі публікують приклади кліпів NSFW, багато з яких можна обґрунтовано назвати «екстремальними» або, принаймні, такими, що порушують обмеження, зазначені в правилах форуму.
Ця спільнота також підтримує значний і добре розвинений репозиторій GitHub із інструментами, які можуть завантажувати та обробляти порнографічні відео, щоб надавати навчальні дані для нових моделей.
Оскільки найпопулярніший тренер LoRA, Kohya-ss, тепер підтримує навчання Hunyuan LoRA, бар’єри для доступу до необмеженого генеративного відеотренінгу щодня знижуються, разом із вимогами до обладнання для навчання Hunyuan та створення відео.
Вирішальним аспектом спеціальних навчальних схем для штучного інтелекту на основі порнографії (а не особистістьмоделі на основі знаменитостей) полягає в тому, що стандартна базова модель, як-от Hunyuan, спеціально не навчена виходу NSFW, і тому може або погано працювати, коли запитують створити вміст NSFW, або не справлятися розплутати засвоєні концепції та асоціації у виконавській або переконливій формі.
Розробляючи вдосконалені моделі фундаменту NSFW та LoRA, стане дедалі можливішим проектувати навчені ідентичності у спеціалізований домен «порнографічного» відео; зрештою, це лише відеоверсія чогось, що вже відбулося для нерухомих зображень за останні два з половиною роки.
VFX
Значне збільшення часової узгодженості, яке пропонують Hunyuan Video LoRAs, є очевидною перевагою для індустрії візуальних ефектів ШІ, яка дуже сильно спирається на адаптацію програмного забезпечення з відкритим кодом.
Хоча підхід Hunyuan Video LoRA генерує цілий кадр і середовище, компанії VFX майже напевно почали експериментувати з виділенням узгоджених у часі людських облич, які можна отримати за допомогою цього методу, щоб накласти або інтегрувати обличчя в реальний вихідний матеріал. .
Як і спільнота хобістів, компанії, що займаються візуальними ефектами, повинні чекати на функціональність Hunyuan Video «зображення у відео» та «відео у відео», яка потенційно є найкориснішим містком між контентом «діпфейків» на основі LoRA та ідентифікації; або ж імпровізувати та використовувати цей проміжок часу для дослідження зовнішніх можливостей фреймворку та потенційних адаптацій, і навіть власних форків Hunyuan Video.
Хоча це умови ліцензії Хоча Hunyuan Video технічно дозволяє зображення реальних осіб за умови надання дозволу, вони забороняють його використання в ЄС, Великій Британії та Південній Кореї. Згідно з принципом «залишається у Вегасі», це не обов'язково означає, що Hunyuan Video не використовуватиметься в цих регіонах; однак, перспектива зовнішніх аудитів даних для забезпечення дотримання зростаючі правила навколо генеративного ШІ, може зробити таке незаконне використання ризикованим.
Ще одна потенційно неоднозначна частина умов ліцензії зазначає:
«Якщо на дату випуску версії Tencent Hunyuan щомісячна кількість активних користувачів усіх продуктів або послуг, наданих Ліцензіатом або для нього, перевищує 100 мільйонів активних користувачів щомісяця за попередній календарний місяць, Ви повинні запросити ліцензію від Tencent, яку Tencent може надати Вам на власний розсуд, і Ви не маєте права здійснювати будь-які права за цією Угодою, доки Tencent прямо не надасть Вам такі права».
Цей пункт явно спрямований на безліч компаній, які, ймовірно, будуть «посередниками» Hunyuan Video для відносно технічно неграмотної групи користувачів, і яким потрібно буде залучити Tencent до цієї діяльності, якщо кількість користувачів перевищить певну межу.
Чи може широке формулювання також охоплювати непрямий використання (тобто через надання візуальних ефектів із підтримкою Hunyuan у популярних фільмах і на телебаченні), можливо, потребуватиме роз’яснення.
Висновок
Оскільки deepfake відео існує вже давно, було б легко недооцінити значення Hunyuan Video LoRA як підходу до синтезу ідентичності та deepfaking; і припустити, що події, які зараз проявляються в спільноті Civit, а також у пов’язаних Discords і subreddits, являють собою лише поступовий поштовх до справді керованого людського відеосинтезу.
Більш імовірно, що поточні зусилля представляють лише частину потенціалу Hunyuan Video для створення повністю переконливих діпфейків на все тіло та повне оточення; як тільки буде випущено компонент перетворення зображень на відео (за чутками, це станеться цього місяця), набагато більш детальний рівень генеративної потужності стане доступним як для любителів, так і для професійних спільнот.
Коли Stability.ai випустив Stable Diffusion у 2022 році, багато спостерігачів не могли зрозуміти, чому компанія просто віддала те, що на той час було такою цінною та потужною генеруючою системою. У Hunyuan Video мотив прибутку вбудований безпосередньо в ліцензію, хоча Tencent може виявитися складним визначити, коли компанія запускає схему розподілу прибутку.
У будь-якому випадку результат такий самий, як і в 2022 році: миттєво та з великим завзяттям навколо випуску сформувалися спеціалізовані спільноти розробників. Деякі з доріг, якими ці зусилля пройдуть у наступні 12 місяців, безсумнівно, викличуть нові заголовки.
* До 136 на момент публікації.
Вперше опубліковано у вівторок, 7 січня 2025 р