Umělá inteligence
Vzestup Hunyuan Video Deepfakes

Vzhledem k povaze některých zde diskutovaných materiálů bude tento článek obsahovat méně referenčních odkazů a ilustrací než obvykle.
V komunitě pro syntézu umělé inteligence se v současnosti děje něco pozoruhodného, i když jeho význam může chvíli trvat, než se objasní. Hobbyisté trénují generativní modely videa AI, aby reprodukovaly podoby lidí pomocí videa LoRAs o nedávno vydaném open source softwaru od společnosti Tencent Hunyuan Video framework.*
Klepnutím přehrajte. Různé výsledky přizpůsobení LoRA založené na Hunyuanu volně dostupné v komunitě Civit. Trénováním adaptačních modelů s nízkou úrovní (LoRA) se výrazně snižují problémy s časovou stabilitou, které sužovaly generování AI videa po dva roky. Zdroje: civit.ai
Ve výše uvedeném videu byly podobizny hereček Natalie Portman, Christina Hendricks a Scarlett Johansson spolu s technologickým lídrem Elonem Muskem vycvičeny do relativně malých přídavných souborů pro generativní video systém Hunyuan, který lze nainstalovat. bez obsahových filtrů (například filtry NSFW) na počítači uživatele.
Tvůrce výše uvedeného LoRA Christiny Hendricks uvádí, že pouze 16 obrázků z Mad Men K vývoji modelu byla potřeba televizní show (což je pouhých 307 MB ke stažení); četné příspěvky od komunity Stable Diffusion na Redditu a Discordu potvrzují, že LoRA tohoto druhu ve většině případů nevyžadují velké množství trénovacích dat ani dlouhé tréninkové časy.
Clízat hrát. Arnold Schwarzenegger je přiveden k životu v hunyuanském videu LoRA, které lze stáhnout na Civit. Další příklady Arnieho od nadšence pro umělou inteligenci Boba Doyla najdete na https://www.youtube.com/watch?v=1D7B9g9rY68.
Hunyuan LoRA lze trénovat buď na statických obrázcích, nebo na videích, ačkoli trénování na videích vyžaduje větší hardwarové zdroje a delší dobu školení.
Model Hunyuan Video obsahuje 13 miliard parametrů, což překračuje 12 miliard parametrů Sora a daleko převyšuje méně výkonné... Hunyuan-DiT model vydán na open source v létě 2024, což má pouze 1.5 miliardy parametrů.
Jak tomu bylo v případě před dvěma a půl lety se Stable Diffusion a LoRA (viz příklady „domorodých“ celebrit ze Stable Diffusion 1.5 zde), daný model nadace má mnohem omezenější chápání osobností celebrit ve srovnání s úrovní věrnosti, které lze dosáhnout implementacemi LoRA s „injektováním ID“.
V podstatě tak přizpůsobená, na osobnost zaměřená LoRA získává „volnou jízdu“ na významných syntetických schopnostech základního modelu Hunyuan a nabízí výrazně efektivnější lidskou syntézu, než jakou lze dosáhnout v éře roku 2017. autoencoder deepfakes nebo pokusem přidat pohyb ke statickým obrázkům prostřednictvím systémů, jako je feted Živý portrét.
Všechny zde zobrazené LoRA si lze volně stáhnout z velmi populární komunity Civit, zatímco větší počet starších LoRA se „statickým obrazem“ na míru může také potenciálně vytvářet „základní“ obrazy pro proces tvorby videa (tj. převod obrazu na video, což je pro Hunyuan Video v plánu). řešení jsou možná, pro tuto chvíli).
Klepnutím přehrajte. Nahoře jsou ukázky ze „statického“ Flux LoRA; níže ukázky z video LoRA od Hunyuan s hudebnicí Taylor Swift. Obě tyto LoRA jsou volně dostupné v komunitě Civit.
V době psaní tohoto textu nabízí webové stránky Civit 128 výsledků vyhledávání pro výraz „Hunyuan“*. Téměř všechny z nich jsou nějakým způsobem modelky NSFW; 22 zobrazuje celebrity; 18 je navrženo tak, aby usnadňovalo tvorbu tvrdé pornografie; a pouze sedm z nich zobrazuje muže spíše než ženy.
Tak co je nového?
V důsledku vyvíjející se přírodě termínu deepfakea omezené veřejné chápání (docela těžké) omezení rámců pro syntézu lidského videa s využitím umělé inteligence, význam Hunyuan LoRA není pro člověka, který běžně sleduje scénu generativní umělé inteligence, snadno pochopitelný. Pojďme se podívat na některé klíčové rozdíly mezi Hunyuan LoRA a předchozími přístupy ke generování videa s využitím umělé inteligence na základě identity.
1: Neomezená místní instalace
Nejdůležitějším aspektem Hunyuan Video je skutečnost, že jej lze stáhnout lokálně a že poskytuje velmi výkonný a necenzurovaný Systém generování videa AI v rukou běžného uživatele i komunity VFX (v rozsahu, který licence umožňují napříč zeměpisnými regiony).
Naposledy se tak stalo s příchodem vydání modelu Stability.ai Stable Diffusion na open source v létě 2022V té době měl DALL-E2 od OpenAI zachytil představivost veřejnosti, ačkoli DALLE-2 byla placená služba s výraznými omezeními (která postupem času rostla).
Když se stal dostupným Stable Diffusion a Low-Rank Adaptation, bylo možné generovat obrazy identity žádný osoba (celebrita nebo ne), obrovské ohnisko zájmu vývojářů a spotřebitelů pomohlo Stable Diffusion zastínit popularitu DALLE-2; ačkoli druhý byl schopnějším systémem, jeho cenzurní postupy byly vnímáno jako náročné mnoha jeho uživateli a přizpůsobení nebylo možné.
Pravděpodobně stejný scénář nyní platí mezi Sora a Hunyuan – nebo přesněji mezi nimi Sora-grade proprietární generativní video systémy a soupeři s otevřeným zdrojovým kódem, z nichž Hunyuan je první – ale pravděpodobně ne poslední (zde zvažte, že Proudění by nakonec získal významnou pozici na stabilní difúzi).
Uživatelé, kteří chtějí vytvořit výstup Hunyuan LoRA, ale postrádají efektivně robustní vybavení, mohou jako vždy přesunout aspekt školení GPU na online výpočetní služby. jako je RunPod. To není totéž jako vytváření AI videí na platformách, jako je Kaiber nebo Kling, protože neexistuje žádné sémantické nebo obrazové filtrování (cenzura) spojené s pronájmem online GPU na podporu jinak místního pracovního postupu.
2: Není potřeba „hostitelská“ videa a vysoké úsilí
Když se na konci roku 2017 objevily na scéně deepfakes, anonymně zveřejněný kód by se vyvinul do mainstreamových forků DeepFaceLab si Výměna tváře (stejně jako DeepFaceLive systém deepfaking v reálném čase).
Tato metoda vyžadovala pečlivé ošetřování tisíců obrazů tváří každé identity, které měly být vyměněny; čím méně úsilí vložíte do této fáze, tím méně efektivní bude model. Kromě toho se doba školení pohybovala mezi 2-14 dny v závislosti na dostupném hardwaru, což z dlouhodobého hlediska zatěžovalo i schopné systémy.
Když byl model konečně hotový, mohl do existujícího videa pouze vkládat obličeje a obvykle potřeboval „cílovou“ (tj. skutečnou) identitu, která se vzhledem blížila překrývající se identitě.
Poslední dobou, ROOP, LivePortrait a četné podobné rámce poskytly podobnou funkcionalitu s mnohem menším úsilím a často s vynikajícími výsledky – ale bez schopnosti generovat přesné celotělové deepfakes – nebo jakýkoli jiný prvek než tváře.

Příklady ROOP Unleashed a LivePortrait (vložka vlevo dole) z content streamu Boba Doylea na YouTube. Zdroje: https://www.youtube.com/watch?v=i39xeYPBAAM a https://www.youtube.com/watch?v=QGatEItg2Ns
Naproti tomu Hunyuan LoRA (a podobné systémy, které budou nevyhnutelně následovat) umožňují neomezené vytváření celých světů, včetně celotělové simulace uživatelem trénované identity LoRA.
3: Masivně vylepšená časová konzistence
Časová konzistence byla svatý grál šíření videa již několik let. Použití LoRA spolu s vhodnými výzvami dává generování videa Hunyuan konstantní odkaz na identitu, který je třeba dodržovat. Teoreticky (toto jsou rané dny) by se dalo trénovat několik LoRA určité identity, z nichž každý měl na sobě specifické oblečení.
Pod touto záštitou je také méně pravděpodobné, že se oblečení v průběhu generování videa „mění“ (protože generační systém zakládá další snímek na velmi omezeném okně předchozích snímků).
(Alternativně, stejně jako u systémů LoRA založených na obrázcích, lze jednoduše použít více LoRA, jako jsou LoRA identity + kostýmy, na jednu generaci videa)
4: Přístup k „lidskému experimentu“
Jako já nedávno pozorováno, proprietární sektor generativní umělé inteligence na úrovni FAANG se nyní zdá být tak ostražitý vůči potenciální kritice týkající se schopností lidské syntézy jeho projektů, že lidé zřídka se objevují na stránkách projektů u důležitých oznámení a vydání. Místo toho se v souvisejících publicistických materiálech stále častěji zobrazují „roztomilé“ a jinak „neohrožující“ subjekty v syntetizovaných výsledcích.
S příchodem Hunyuan LoRAs má komunita poprvé příležitost posunout hranice lidské video syntézy založené na LDM ve vysoce schopném (spíše než okrajovém) systému a plně prozkoumat téma, které nejvíce zajímá většinu. nás – lidí.
Důsledky
Vzhledem k tomu, že vyhledávání výrazu „Hunyuan“ v komunitě Civit většinou zobrazuje LoRA celebrit a „hardcore“ LoRA, hlavním důsledkem příchodu Hunyuan LoRA je, že budou použity k vytváření pornografických (nebo jinak hanlivých) videí skutečných lidí s umělou inteligencí – celebrit i neznámých osob.
Pro účely dodržování předpisů, fandové, kteří vytvářejí Hunyuan LoRA a kteří s nimi experimentují na různých serverech Discord, pečlivě zakazují zveřejňování příkladů skutečných lidí. Realita je taková, že dokonce obraz-založené deepfakes jsou nyní těžce ozbrojený; a vyhlídka na přidání skutečně realistických videí do mixu může konečně ospravedlnit zvýšené obavy, které se v médiích opakovaly za posledních sedm let a které vyvolaly nové předpisy.
Hnací síla
Jako vždy porno zbytky hnací silou technologie. Ať už je náš názor na takové použití jakýkoli, tento neúprosný motor impulsu pohání pokroky ve stavu techniky, které mohou v konečném důsledku prospět většímu mainstreamovému přijetí.
V tomto případě je možné, že cena bude vyšší než obvykle, protože open-sourcing tvorby hyperrealistického videa má zjevné důsledky pro kriminální, politické a etické zneužití.
Jedna skupina Reddit (kterou zde nebudu jmenovat) věnovaná AI generování videoobsahu NSFW má přidružený otevřený Discord server, kde uživatelé vylepšují ComfyUI pracovní postupy pro generování videoporna založené na platformě Hunyuan. Uživatelé denně zveřejňují příklady klipů NSFW – z nichž mnohé lze oprávněně označit za „extrémní“ nebo přinejmenším za porušující omezení uvedená v pravidlech fóra.
Tato komunita také spravuje rozsáhlé a dobře vyvinuté úložiště GitHub obsahující nástroje, které dokážou stahovat a zpracovávat pornografická videa a poskytovat tréninková data pro nové modely.
Od nejpopulárnějšího trenéra LoRA, Kohya-ss, nyní podporuje školení Hunyuan LoRApřekážky vstupu pro neomezený generativní videotrénink se každým dnem snižují, spolu s hardwarovými požadavky pro školení Hunyuan a generování videa.
Klíčovým aspektem vyhrazených školicích programů pro umělou inteligenci založenou na pornu (spíše než identitazaložené na modelech, jako jsou celebrity) spočívá v tom, že standardní nadační model, jako je Hunyuan, není speciálně vyškolen na výstup NSFW, a proto může buď fungovat špatně, když je požádán o generování obsahu NSFW, nebo selhat rozmotat naučené pojmy a asociace performativním nebo přesvědčivým způsobem.
Vývojem vyladěných modelů NSFW foundation a LoRA bude stále více možné promítat trénované identity do specializované „porno“ video domény; koneckonců se jedná pouze o video verzi něčeho, co již došlo pro statické snímky za posledních dva a půl roku.
VFX
Obrovský nárůst časové konzistence, který Hunyuan Video LoRA nabízí, je zjevným přínosem pro průmysl vizuálních efektů AI, který se velmi opírá o přizpůsobení softwaru s otevřeným zdrojovým kódem.
Ačkoli přístup Hunyuan Video LoRA generuje celý snímek a prostředí, společnosti VFX téměř jistě začaly experimentovat s izolací časově konzistentních lidských tváří, které lze získat touto metodou, aby je mohli překrýt nebo integrovat do skutečného zdrojového záznamu. .
Stejně jako komunita amatérů, i společnosti zabývající se vizuálními efekty musí čekat na funkci převodu obrázků do videa a videa do videa od Hunyuan Video, která je potenciálně nejužitečnějším mostem mezi „deepfake“ obsahem založeným na LoRA a ID; nebo improvizovat a využít tento interval k prozkoumání vnějších možností frameworku a potenciálních adaptací, a dokonce i proprietárních interních forků Hunyuan Video.
Ačkoli licenční podmínky I když Hunyuan Video technicky umožňuje zobrazování skutečných osob, pokud je uděleno povolení, zakazují jeho použití v EU, Spojeném království a Jižní Koreji. Na základě principu „zůstáváme v Las Vegas“ to nutně neznamená, že Hunyuan Video nebude v těchto regionech používáno; nicméně existuje možnost externích auditů dat za účelem vynucení… rostoucí regulace kolem generativní umělé inteligence, by takové nezákonné použití mohlo být riskantní.
Jedna další potenciálně nejednoznačná oblast licenčních podmínek uvádí:
„Pokud k datu vydání verze Tencent Hunyuan přesáhne počet aktivních uživatelů všech produktů nebo služeb zpřístupněných Držitelem licence nebo pro něj v předchozím kalendářním měsíci měsíčně 100 milionů aktivních uživatelů měsíčně, musíte si od společnosti Tencent vyžádat licenci, kterou vám společnost Tencent může udělit dle vlastního uvážení, a nejste oprávněni vykonávat žádná z práv vyplývajících z této Smlouvy, pokud vám společnost Tencent tato práva výslovně neudělí.“
Tato klauzule je jasně zaměřena na množství společností, které pravděpodobně budou „zprostředkovávat“ Hunyuan Video pro relativně technicky negramotný okruh uživatelů a které budou muset do hry zapojit i Tencent, pokud počet uživatelů překročí určitý limit.
Zda by široké frázování mohlo také pokrýt nepřímý použití (tj. prostřednictvím poskytování výstupu vizuálních efektů s podporou Hunyuan v populárních filmech a TV) může vyžadovat objasnění.
Proč investovat do čističky vzduchu?
Protože deepfake video existuje již dlouhou dobu, bylo by snadné podcenit význam Hunyuan Video LoRA jako přístupu k syntéze identity a deepfakingu; a předpokládat, že vývoj, který se v současnosti projevuje v komunitě Civit a na souvisejících Discords a subreddits, představuje pouhý postupný posun ke skutečně ovladatelné lidské videosyntéze.
Pravděpodobnější je, že současné úsilí představuje pouze zlomek potenciálu Hunyuan Video vytvářet naprosto přesvědčivé deepfaky s vyobrazením celého těla a celého prostředí; jakmile bude spuštěna komponenta pro převod obrazu na video (o čemž se spekuluje tento měsíc), bude k dispozici mnohem granulárnější úroveň generativní síly jak pro amatérskou, tak pro profesionální komunitu.
Když Stability.ai vydal Stable Diffusion v roce 2022, mnoho pozorovatelů nedokázalo určit, proč by společnost jen rozdávala to, co bylo v té době tak cenným a výkonným generativním systémem. U Hunyuan Video je motiv zisku zabudován přímo do licence – i když pro Tencent může být obtížné určit, kdy společnost spustí schéma sdílení zisku.
V každém případě je výsledek stejný jako v roce 2022: okamžitě a s intenzivním zápalem kolem vydání se vytvořily specializované vývojářské komunity. Některé z cest, kterými se toto úsilí v příštích 12 měsících ubere, jsou jistě nastaveny tak, aby vyvolaly nové titulky.
* Až 136 v době zveřejnění.
Poprvé zveřejněno v úterý 7. ledna 2025