Sztuczna inteligencja
Wzrost Hunyuan Video Deepfakes

Z powodu charakteru niektórych materiałów omawianych tutaj, ten artykuł zawiera mniej odnośników i ilustracji niż zwykle.
Coś godnego uwagi dzieje się obecnie w społeczności syntezy AI, chociaż jego znaczenie może potrwać trochę czasu, zanim stanie się jasne. Hobbyści szkolą generatywne modele wideo AI, aby odtwarzać podobieństwa ludzi, używając wideo opartych na LoRAs na niedawno wydanym otwartym źródłem Hunyuan Video framework.*
Kliknij, aby odtworzyć. Różnorodne wyniki z personalizacji Hunyuan opartych na LoRA dostępne są bezpłatnie w społeczności Civit. Dzięki szkoleniu modeli adaptacji o niskim ranku (LoRAs), problemy ze stabilnością czasową, które dotykały generacji wideo AI przez dwa lata, są znacznie zmniejszone. Źródła: civit.ai
W powyższym filmie wideo podobieństwa aktorek Natalie Portman, Christina Hendricks i Scarlett Johansson, wraz z liderem technologicznym Elonem Musk, zostały przeszkolone w relatywnie małe pliki dodatkowe dla systemu generatywnego wideo Hunyuan, które mogą być zainstalowane bez filtrów treści (takich jak filtry NSFW) na komputerze użytkownika.
Twórca LoRA Christina Hendricks wyświetlany powyżej stwierdza, że do opracowania modelu potrzebowano tylko 16 obrazów z serialu telewizyjnego Mad Men (co jest zaledwie 307mb do pobrania); wiele postów z społeczności Stable Diffusion na Reddit i Discord potwierdza, że LoRAs tego rodzaju nie wymagają dużej ilości danych szkoleniowych ani długiego czasu szkolenia, w większości przypadków.
Kliknij, aby odtworzyć. Arnold Schwarzenegger został ożywiony w LoRA wideo Hunyuan, który można pobrać na Civit. Zobacz https://www.youtube.com/watch?v=1D7B9g9rY68, aby uzyskać więcej przykładów Arnie, od entuzjasty AI Boba Doyle.
LoRAs Hunyuan mogą być szkolone na statycznych obrazach lub wideo, chociaż szkolenie na wideo wymaga większych zasobów sprzętowych i zwiększonego czasu szkolenia.
Model wideo Hunyuan posiada 13 miliardów parametrów, przewyższając 12 miliardów parametrów Sory i znacznie przewyższając mniej zdolny model Hunyuan-DiT wydany na otwarte źródło w lecie 2024 roku, który ma tylko 1,5 miliarda parametrów.
Podobnie jak dwa i pół roku temu ze Stable Diffusion i LoRA (zobacz przykłady “rodnych” celebrytów Stable Diffusion 1.5 tutaj), model podstawowy w question ma znacznie ograniczoną wiedzę o osobowościach celebrytów w porównaniu z poziomem wierności, jaki można uzyskać za pomocą wstrzykniętych “ID” implementacji LoRA.
Efektywnie, dostosowana, ukierunkowana na osobowość LoRA otrzymuje “bezpłatną przejażdżkę” na znacznych możliwościach syntezy podstawowego modelu Hunyuan, oferując znacznie bardziej skuteczną syntezę ludzką niż można uzyskać albo przez autoencoder deepfakes z 2017 roku, albo przez dodanie ruchu do statycznych obrazów za pomocą systemów takich jak LivePortrait.
Wszystkie LoRAs przedstawione tutaj mogą być pobrane bezpłatnie ze społeczności Civit, podczas gdy znacznie większa liczba starszych, dostosowanych “statycznych” LoRAs może również potencjalnie tworzyć “nasiona” obrazów do procesu tworzenia wideo (tj. obraz do wideo, planowane wydanie dla Hunyuan Video, chociaż są możliwe obejścia, na razie).
Kliknij, aby odtworzyć. Powyżej, próbki z “statycznego” Flux LoRA; poniżej, przykłady z LoRA wideo Hunyuan z muzykiem Taylor Swift. Obie te LoRAs są dostępne bezpłatnie w społeczności Civit.
Podczas pisania tego tekstu, strona Civit oferuje 128 wyników wyszukiwania dla ‘Hunyuan’*. Niemal wszystkie z nich są w jakiś sposób modelami NSFW; 22 przedstawiają celebrytów; 18 są zaprojektowane do ułatwienia generowania hardcore pornografii; i tylko siedem z nich przedstawia mężczyzn, a nie kobiety.
Co Nowego?
Z powodu ewoluującej natury terminu deepfake i ograniczonej publicznej wiedzy o (bardzo surowych) ograniczeniach ram generacji wideo AI do tej pory, znaczenie LoRA Hunyuan nie jest łatwe do zrozumienia dla osoby przypadkowo obserwującej generatywną scenę AI. Przeanalizujmy niektóre z kluczowych różnic między LoRAs Hunyuan a poprzednimi podejściami do generacji wideo AI opartej na tożsamości.
1: Nieograniczona Instalacja Lokalna
Najważniejszym aspektem Hunyuan Video jest fakt, że może być pobrany lokalnie, i że umieszcza bardzo potężny i niecenzurowany system generacji wideo AI w rękach użytkownika, a także społeczności VFX (w zakresie, w jakim mogą to umożliwić licencje na przestrzeni regionów geograficznych).
Ostatni raz zdarzyło się to latem 2022 roku, kiedy Stability.ai wydało model Stable Diffusion na otwarte źródło. W tym czasie OpenAI DALL-E2 złapało wyobraźnię publiczną, chociaż DALLE-2 był usługą płatną zgodnie z ograniczeniami (które rosły z czasem).
Kiedy Stable Diffusion stało się dostępne, a następnie Low-Rank Adaptation umożliwiło generowanie obrazów tożsamości każdej osoby (celebryty lub nie), ogromne zainteresowanie społeczności deweloperskiej i konsumentów pomogło Stable Diffusion wyprzedzić popularność DALLE-2; chociaż ten ostatni był bardziej zdolnym systemem, jego rutyny cenzorskie były postrzegane jako uciążliwe przez wielu jego użytkowników, a dostosowanie nie było możliwe.
Można argumentować, że ten sam scenariusz dotyczy obecnie Sory i Hunyuan – lub, bardziej dokładnie, systemów generatywnych wideo Sory i otwartych rywali, z których Hunyuan jest pierwszym – ale prawdopodobnie nie ostatnim (w tym miejscu rozważ, że Flux ostatecznie zyskałby znaczną przewagę nad Stable Diffusion).
Użytkownicy, którzy chcą tworzyć dane wyjściowe LoRA Hunyuan, ale którzy nie mają odpowiednio wydajnego sprzętu, mogą, jak zawsze, przenieść aspekt GPU szkolenia do usług obliczeniowych online takich jak RunPod. Nie jest to takie samo, jak tworzenie filmów wideo AI na platformach takich jak Kaiber lub Kling, ponieważ nie ma semanticznego ani opartego na obrazie filtrowania (cenzurowania) w wyniku wynajmu GPU do obsługi innego lokalnego przepływu pracy.
2: Brak Potrzeby ‘Gospodarza’ Wideo i Wysilek
Kiedy deepfakes pojawiły się na scenie pod koniec 2017 roku, anonimowo opublikowany kod rozwinął się w głównych forkach DeepFaceLab i FaceSwap (oraz system DeepFaceLive do streamingu deepfake w czasie rzeczywistym).
Ta metoda wymagała mozolnego kuracji tysięcy obrazów twarzy każdej tożsamości, które miały być zamienione; im mniej wysiłku włożonego w tym etapie, tym mniej skuteczny był model. Dodatkowo, czasy szkolenia różniły się od 2 do 14 dni, w zależności od dostępnego sprzętu, stresując nawet zdolne systemy w dłuższej perspektywie.
Kiedy model był w końcu gotowy, mógł tylko narzucić twarze w istniejącym wideo, i zwykle potrzebował “celu” (tj. prawdziwej) tożsamości, która była podobna w wyglądzie do nadrukowanej tożsamości.
Niedawno ROOP, LivePortrait i liczne podobne ramy dostarczyły podobną funkcjonalność z znacznie mniej wysiłku, i często z lepszymi wynikami – ale bez możliwości generowania dokładnych pełnych deepfake – lub jakiegokolwiek elementu poza twarzami.

Przykłady ROOP Unleashed i LivePortrait (wstawione w lewym dolnym rogu), z przepływu treści Boba Doyle’a na YouTube. Źródła: https://www.youtube.com/watch?v=i39xeYPBAAM i https://www.youtube.com/watch?v=QGatEItg2Ns
W przeciwieństwie do tego, LoRAs Hunyuan (i podobne systemy, które nieuchronnie będą następować) pozwalają na nieograniczoną twórczość całych światów, w tym pełnej symulacji użytkownika przeszkolonej LoRA tożsamości.
3: Ogromnie Poprawiona Spójność Czasowa
Spójność czasowa była Świętym Graalem dyfuzji wideo przez kilka lat. Użycie LoRA, wraz z odpowiednimi podpowiedziami, daje generacji wideo Hunyuan stałą odniesienie tożsamości, do której może się stosować. Teoretycznie (to są wczesne dni), można by przeszkolić wiele LoRAs określonej tożsamości, każdej noszącej określony strój.
W takich okolicznościach strój jest mniej prawdopodobny, aby “mutować” w trakcie generacji wideo (ponieważ system generatywny opiera się na bardzo ograniczonym oknie poprzednich klatek).
(Alternatywnie, jak w systemach LoRA opartych na obrazach, można zastosować wiele LoRAs, takich jak tożsamość + kostium LoRAs, do pojedynczej generacji wideo)
4: Dostęp do ‘Eksperymentu Ludzkiego’
Jak niedawno zauważyłem, sektor generatywnej AI, w tym sektor FAANG, wydaje się teraz tak niepewny potencjalnej krytyki dotyczącej możliwości syntezy ludzkiej swoich projektów, że rzeczywiste ludzie rzadko pojawiają się w stronach projektów dla głównych ogłoszeń i wydanych wersji. Zamiast tego, literatura reklamowa coraz częściej pokazuje “słodkie” i inne “niewygórowane” tematy w wynikach syntezy.
Z pojawieniem się LoRAs Hunyuan, po raz pierwszy społeczność ma okazję przesunąć granice syntezy wideo ludzkiego opartego na LDM w bardzo zdolnym (a nie marginalnym) systemie i w pełni zbadać temat, który najbardziej interesuje większość z nas – ludzi.
Wnioski
Ponieważ wyszukiwanie ‘Hunyuan’ w społeczności Civit pokazuje głównie LoRAs celebrytów i “hardcore”, centralnym wnioskiem z pojawienia się LoRAs Hunyuan jest to, że będą one używane do tworzenia AI-pornograficznych (lub innych zniesławiających) wideo rzeczywistych ludzi – celebrytów i nieznanych osób.
Dla celów zgodności, hobbystom, którzy tworzą LoRAs Hunyuan i którzy eksperymentują z nimi na różnych serwerach Discord i subredditach, jest zabronione publikowanie przykładów rzeczywistych osób. Rzeczywistość jest taka, że nawet obraz-oparte deepfakes są teraz znacznie uzbrojone; i perspektywa dodania prawdziwie realistycznych wideo do mieszanki może ostatecznie uzasadnić nasilone obawy, które były powtarzane w mediach przez ostatnie siedem lat i które spowodowały nowe przepisy.
Napęd
Jak zawsze, pornografia pozostaje napędem postępu. Nieważne, jaki jest nasz pogląd na takie użycie, ten nieustanny napęd postępu napędza postępy w stanie sztuki, które mogą ostatecznie przynieść korzyści bardziej głównemu nurtowi.
W tym przypadku możliwe, że cena będzie wyższa niż zwykle, ponieważ otwarte źródło hyperrealistycznej twórczości wideo ma oczywiste implikacje dla przestępczego, politycznego i etycznego nadużycia.
Jeden serwer Reddit (którego nie będę nazywał tutaj) poświęcony generowaniu treści wideo NSFW AI ma powiązany, otwarty serwer Discord, na którym użytkownicy udoskonalają przepływy pracy ComfyUI dla generacji wideo pornograficznego opartego na Hunyuan. Codziennie użytkownicy publikują przykłady klipów NSFW – wiele z nich można uzasadnić jako “ekstremalne” lub przynajmniej napinające ograniczenia określone w zasadach forum.
Ta społeczność utrzymuje również znaczną i dobrze rozwiniętą repozytorium GitHub, zawierające narzędzia, które mogą pobrać i przetworzyć filmy pornograficzne, aby zapewnić dane szkoleniowe dla nowych modeli.
Ponieważ najpopularniejszy trener LoRA, Kohya-ss, teraz obsługuje szkolenie LoRA Hunyuan, bariery wejścia dla nieograniczonej generatywnej twórczości wideo są obniżane codziennie, wraz z wymaganiami sprzętowymi dla szkolenia i generacji wideo Hunyuan.
Kluczowym aspektem dedykowanych schematów szkoleniowych dla AI opartej na pornografii (zamiast modeli opartych na tożsamości, takich jak celebryci) jest to, że standardowy model podstawowy, taki jak Hunyuan, nie jest szkolony specjalnie na danych wyjściowych NSFW, i może więc albo słabo wykonywać generowanie treści NSFW, albo nie jest w stanie rozłączyć nauczone pojęcia i skojarzenia w sposób wydajny lub przekonywujący.
Poprzez rozwijanie wyrafinowanych modeli podstawowych NSFW i LoRAs, będzie coraz bardziej możliwe rzutowanie przeszkolonych tożsamości na dedykowaną “porn” domenę wideo; przecież jest to tylko wersja wideo czegoś, co już się wydarzyło dla statycznych obrazów przez ostatnie dwa i pół roku.
VFX
Ogromny wzrost spójności czasowej, jaki oferują LoRAs Hunyuan Video, jest oczywistym bonusem dla przemysłu AI wizualnych efektów, który bardzo silnie opiera się na adaptacji oprogramowania open source.
Chociaż podejście LoRA Hunyuan Video generuje całą klatkę i środowisko, firmy VFX z pewnością zaczęły eksperymentować z izolowaniem spójnych czasowo twarzy ludzkich, które można uzyskać tym sposobem, w celu nałożenia lub zintegrowania twarzy z prawdziwymi źródłami wideo.
Podobnie jak społeczność hobbystów, firmy VFX muszą czekać na funkcjonalność image-to-video i video-to-video Hunyuan Video, która jest potencjalnie najbardziej przydatnym mostem między LoRA-napędzaną, opartą na tożsamości treścią “deepfake”; albo improwizować i używać przerwy, aby zbadać zewnętrzne możliwości ramy i potencjalnych adaptacji, a nawet własnych, własnych forków Hunyuan Video.
Chociaż warunki licencyjne Hunyuan Video technicznie zezwalają na przedstawienie prawdziwych osób, o ile jest udzielone pozwolenie, zabraniają ich użycia w UE, Wielkiej Brytanii i Korei Południowej. Na zasadzie “co się dzieje w Vegas, zostaje w Vegas” niekoniecznie oznacza to, że Hunyuan Video nie będzie używany w tych regionach; jednak perspektywa zewnętrznych audytów danych, w celu egzekwowania rozszerzających się regulacji wokół generatywnej AI, mogłaby uczynić takie nielegalne użycie ryzykownym.
Innym potencjalnie niejasnym obszarem warunków licencyjnych jest:
‘Jeśli w dniu wydania wersji Tencent Hunyuan, miesięczna liczba aktywnych użytkowników wszystkich produktów lub usług udostępnionych przez lub dla Licencjobiorcę przekracza 100 milionów aktywnych użytkowników miesięcznie w poprzednim miesiącu kalendarzowym, musisz poprosić o licencję u Tencent, którą Tencent może udzielić Ci według własnego uznania, i nie jesteś upoważniony do wykonywania żadnych praw na mocy niniejszej Umowy, chyba że i dopóki Tencent nie udzieli Ci takich praw w sposób wyraźny.’
Ten klauzula jest wyraźnie skierowany do wielu firm, które prawdopodobnie “pośredniczyć” w Hunyuan Video dla dość niezbyt technicznie wykształconej grupy użytkowników, i które będą musiały włączyć Tencent do akcji, powyżej pewnego progu użytkowników.
Czy szerokie sformułowanie może również obejmować pośrednie użycie (tj. za pośrednictwem dostarczania wyników wizualnych efektów Hunyuan w popularnych filmach i serialach telewizyjnych) może wymagać wyjaśnienia.
Podsumowanie
Ponieważ deepfake wideo istnieje już od dawna, byłoby łatwo zlekceważyć znaczenie LoRA Hunyuan Video jako podejścia do syntezy tożsamości i deepfakingu; i założyć, że rozwijające się obecnie wysiłki w społeczności Civit i powiązanych Discord i subredditach reprezentują jedynie niewielki krok w kierunku całkowicie kontrolowanej syntezy wideo ludzkiej.
Bardziej prawdopodobne jest to, że obecne wysiłki reprezentują tylko ułamek potencjału Hunyuan Video do tworzenia całkowicie przekonywujących pełnych deepfake i pełnych środowisk; kiedy składnik image-to-video zostanie wydany (podobno ma to nastąpić w tym miesiącu), znacznie bardziej szczegółowy poziom generatywnej mocy stanie się dostępny dla społeczności hobbystów i profesjonalistów.
Kiedy Stability.ai wydało Stable Diffusion w 2022 roku, wielu obserwatorów nie mogło zrozumieć, dlaczego firma po prostu oddała coś, co w tym czasie było tak cennym i potężnym systemem generatywnym; z Hunyuan Video motyw zysku jest wbudowany bezpośrednio w licencję – chociaż może okazać się trudne dla Tencent, aby określić, kiedy firma wyzwala schemat podziału zysków.
W każdym razie wynik jest taki sam, jak w 2022 roku: poświęcone społeczności deweloperskie natychmiastowo i z wielkim zapałem ukształtowały się wokół wydania. Niektóre z dróg, które te wysiłki podejmą w ciągu najbliższych 12 miesięcy, są pewnie przeznaczone do wywołania nowych nagłówków.
* Do 136 w momencie publikacji.
Pierwotnie opublikowane w wtorek, 7 stycznia 2025










