Kontakt z nami

Artificial Intelligence

Rozwój Deepfake'ów wideo Hunyuan

mm
Film Arniego Hunyuana LoRA zademonstrowany przez Boba Doyle’a na ComfyUI na YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – a także, wstawka po prawej, fragmenty różnych przykładowych filmów dla tej samej LoRA na Civit.ai

Ze względu na charakter niektórych materiałów omawianych w tym artykule, liczba odnośników i ilustracji będzie mniejsza niż zwykle.

W społeczności syntezy AI dzieje się obecnie coś godnego uwagi, choć jego znaczenie może się jeszcze trochę wyjaśnić. Hobbyści trenują generatywne modele wideo AI, aby odtwarzały podobizny ludzi, korzystając z wideo LoRA na niedawno wydanym oprogramowaniu typu open source firmy Tencent Ramka wideo Hunyuan.*

Kliknij aby zagrać. Różnorodne wyniki z dostosowań LoRA opartych na Hunyuan, dostępnych bezpłatnie w społeczności Civit. Poprzez szkolenie modeli adaptacji niskiej rangi (LoRA) problemy ze stabilnością czasową, które nękały generowanie wideo AI przez dwa lata, zostały znacznie zredukowane. Źródła: civit.ai

Na powyższym filmie podobizny aktorek Natalie Portman, Christiny Hendricks i Scarlett Johansson, a także lidera technologicznego Elona Muska, zostały przeszkolone do stosunkowo niewielkich plików dodatkowych dla generatywnego systemu wideo Hunyuan, który można zainstalować bez filtrów treści (takich jak filtry NSFW) na komputerze użytkownika.

Twórca przedstawionego powyżej obrazu Christina Hendricks LoRA stwierdza, że ​​tylko 16 obrazów z Szaleni ludzie Do opracowania modelu potrzebne były programy telewizyjne (których rozmiar do pobrania to zaledwie 307 MB); liczne posty społeczności Stable Diffusion na Reddicie i Discordzie potwierdzają, że LoRA tego typu w większości przypadków nie wymagają dużej ilości danych treningowych ani długiego czasu treningu.

Clizać, żeby grać. Arnold Schwarzenegger ożywa w filmie Hunyuan LoRA, który można pobrać z Civit. Zobacz https://www.youtube.com/watch?v=1D7B9g9rY68, aby uzyskać więcej przykładów Arniego, od entuzjasty AI Boba Doyle'a.

Hunyuan LoRA można trenować na obrazach statycznych lub materiałach wideo, jednak trenowanie na materiałach wideo wymaga większych zasobów sprzętowych i dłuższego czasu.

Model Hunyuan Video ma 13 miliardów parametrów, co przewyższa 12 miliardów parametrów Sory i znacznie przewyższa modele o mniejszych możliwościach Hunyuan-DiT model udostępniony jako oprogramowanie open source latem 2024 r., który ma tylko 1.5 miliarda parametrów.

Tak jak było dwa i pół roku temu ze stabilną dyfuzją i LoRA (zobacz przykłady „natywnych” gwiazd Stable Diffusion 1.5 w tym miejscu), omawiany model fundacji charakteryzuje się znacznie bardziej ograniczoną znajomością osobowości celebrytów w porównaniu z poziomem wierności, jaki można uzyskać poprzez implementację LoRA z „wstrzykiwanym identyfikatorem”.

W efekcie spersonalizowana, zorientowana na osobowość LoRA korzysta z „darmowej” możliwości syntezy podstawowego modelu Hunyuan, oferując znacznie bardziej efektywną syntezę ludzką niż ta, którą można uzyskać w 2017 r. autoenkoder deepfake lub próbując dodać ruch do statycznych obrazów za pomocą systemów takich jak feted Portret na żywo.

Wszystkie przedstawione tutaj LoRA można pobrać bezpłatnie z niezwykle popularnej społeczności Civit, natomiast większa liczba starszych, niestandardowych LoRA ze „statycznym obrazem” może potencjalnie tworzyć obrazy „zalążkowe” do procesu tworzenia wideo (tj. obraz do wideo, oczekująca wersja dla Hunyuan Video, choć możliwe są obejścia, na razie).

Kliknij aby zagrać. Powyżej próbki z „statycznego” Flux LoRA; poniżej przykłady z filmu Hunyuan LoRA z udziałem piosenkarki Taylor Swift. Oba te LoRA są dostępne bezpłatnie w społeczności Civit.

W chwili pisania tego tekstu strona Civit oferuje 128 wyników wyszukiwania dla hasła „Hunyuan”*. Prawie wszystkie z nich to w jakiś sposób modele NSFW; 22 przedstawiają gwiazdy; 18 ma na celu ułatwienie generowania ostrej pornografii; a tylko siedem z nich przedstawia mężczyzn, a nie kobiety.

Co więc nowego?

Ze względu na rozwijająca się przyroda terminu Deepfakei ograniczone zrozumienie tego przez opinię publiczną (dość poważny) ograniczenia dotychczasowych ram syntezy wideo z udziałem człowieka opartej na sztucznej inteligencji, znaczenie modelu Hunyuan LoRA nie jest łatwe do zrozumienia dla osoby pobieżnie śledzącej generatywną sztuczną inteligencję. Przyjrzyjmy się kluczowym różnicom między modelami Hunyuan LoRA a wcześniejszymi podejściami do generowania wideo opartego na tożsamościach w sztucznej inteligencji.

1: Nieograniczona instalacja lokalna

Najważniejszym aspektem Hunyuan Video jest fakt, że można go pobrać lokalnie i że jest bardzo wydajny i uncensored System generowania wideo oparty na sztucznej inteligencji w rękach przeciętnego użytkownika, jak i społeczności zajmującej się efektami wizualnymi (w zakresie, w jakim licencje na to pozwalają w różnych regionach geograficznych).

Ostatnim razem, gdy coś takiego miało miejsce, było udostępnienie na zasadzie open source modelu Stability.ai Stable Diffusion latem 2022 rW tym czasie OpenAI DALL-E2 miał Zajęte wyobraźnię opinii publicznej, choć DALLE-2 było usługą płatną, z pewnymi ograniczeniami (które z czasem rosły).

Gdy stała się dostępna technologia Stable Diffusion i Low-Rank Adaptation, możliwe stało się generowanie obrazów tożsamości każdy niezależnie od tego, czy jest to osoba znana, czy nie, ogromne skupisko zainteresowań programistów i konsumentów pomogło Stable Diffusion przyćmić popularność DALLE-2; chociaż ten drugi był bardziej wydajnym systemem od razu po wyjęciu z pudełka, jego procedury cenzury były postrzegany jako uciążliwy przez wielu użytkowników, a dostosowanie nie było możliwe.

Można by rzec, że ten sam scenariusz ma teraz zastosowanie między Sorą a Hunyuanem – lub, mówiąc dokładniej, między Klasa Sora zastrzeżone systemy generatywnego wideo i rywale z otwartym kodem źródłowym, z których Hunyuan jest pierwszym – ale prawdopodobnie nie ostatnim (tutaj należy wziąć pod uwagę, że Topnik z czasem zyskałby znaczący udział w stabilnej dyfuzji).

Użytkownicy, którzy chcą tworzyć dane wyjściowe Hunyuan LoRA, ale nie dysponują wydajnym sprzętem, mogą, jak zwykle, odciążyć aspekt szkolenia GPU, przekazując go do usług obliczeniowych online takie jak RunPod. Nie jest to to samo, co tworzenie filmów AI na platformach takich jak Kaiber lub Kling, ponieważ nie ma żadnego semantycznego lub opartego na obrazach filtrowania (cenzury) związanego z wynajmowaniem internetowego GPU w celu obsługi lokalnego przepływu pracy.

2: Brak konieczności tworzenia filmów „Host” i dużego wysiłku

Gdy pod koniec 2017 r. deepfake’i wkroczyły na scenę, anonimowo opublikowany kod przekształcił się w główne rozwidlenia GłębokaTwarzLab oraz Zamiana twarzy (tak dobrze jak DeepFace na żywo system deepfakingu w czasie rzeczywistym).

Ta metoda wymagała żmudnej selekcji tysięcy obrazów twarzy każdej tożsamości, które miały zostać zamienione; im mniej wysiłku włożono w ten etap, tym mniej skuteczny był model. Ponadto czas szkolenia wahał się od 2 do 14 dni, w zależności od dostępnego sprzętu, co obciążało nawet sprawne systemy w dłuższej perspektywie.

Gdy model był już gotowy, mógł jedynie nakładać twarze na istniejące nagranie wideo i zazwyczaj potrzebował „docelowej” (czyli prawdziwej) tożsamości, która wyglądem przypominałaby nałożoną tożsamość.

Ostatnio, ROOP, LivePortrait i wiele podobnych struktur zapewniały podobną funkcjonalność przy znacznie mniejszym wysiłku i często z lepszymi wynikami – ale bez możliwości generowania dokładnych deepfake'i całego ciała – lub jakikolwiek element inny niż twarze.

Przykłady ROOP Unleashed i LivePortrait (wstawka w lewym dolnym rogu) z strumienia treści Boba Doyle'a na YouTube. Źródła: https://www.youtube.com/watch?v=i39xeYPBAAM i https://www.youtube.com/watch?v=QGatEItg2Ns

Przykłady ROOP Unleashed i LivePortrait (wstawka u dołu po lewej) z treści strumieniowych Boba Doyle'a w serwisie YouTube. Źródła: https://www.youtube.com/watch?v=i39xeYPBAAM i https://www.youtube.com/watch?v=QGatEItg2Ns

Natomiast Hunyuan LoRA (i podobne systemy, które nieuchronnie pojawią się później) pozwalają na nieograniczone tworzenie całych światów, w tym symulację całego ciała wyszkolonej przez użytkownika tożsamości LoRA.

3: Znacznie ulepszona spójność czasowa

Spójność czasowa została Święty Graal wideo dyfuzji od kilku lat. Użycie LoRA, wraz z odpowiednimi monitami, daje generowaniu wideo Hunyuan stałe odniesienie tożsamości, którego należy przestrzegać. Teoretycznie (to wczesne dni) można by wytrenować wiele LoRA o określonej tożsamości, każdy noszący określone ubranie.

Pod tymi auspicjami ubranie także jest mniej podatne na „mutację” w trakcie generacji filmu (gdyż system generatywny opiera kolejną klatkę na bardzo ograniczonym przedziale klatek poprzednich).

(Alternatywnie, podobnie jak w przypadku systemów LoRA opartych na obrazach, można po prostu zastosować wiele LoRA, takich jak LoRA tożsamości i kostiumu, do jednego pokolenia wideo)

4: Dostęp do „eksperymentu na ludziach”

Jak ja ostatnio obserwowanesektor sztucznej inteligencji generatywnej na poziomie własnościowym i FAANG wydaje się obecnie tak bardzo obawiać potencjalnej krytyki związanej z możliwościami syntezy ludzkiej w swoich projektach, że w rzeczywistości ludzie Rzadko pojawiają się na stronach projektów w związku z ważnymi ogłoszeniami i premierami. Zamiast tego, w materiałach promocyjnych coraz częściej pojawiają się „urocze” i w inny sposób „niegroźne” tematy w syntetycznych wynikach.

Dzięki pojawieniu się Hunyuan LoRAs społeczność po raz pierwszy ma okazję poszerzyć granice syntezy wideo opartej na LDM w systemie o bardzo dużych możliwościach (a nie marginalnych), a także w pełni zbadać temat, który najbardziej interesuje większość z nas – ludzi.

Implikacje

Ponieważ wyszukiwanie hasła „Hunyuan” w społeczności Civit powoduje wyświetlenie głównie celebryckich LoRA i „hardkorowych” LoRA, główną konsekwencją pojawienia się Hunyuan LoRA jest to, że będą one wykorzystywane do tworzenia wspomaganych sztuczną inteligencją filmów pornograficznych (lub w inny sposób zniesławiających) przedstawiających prawdziwych ludzi – zarówno celebrytów, jak i osoby nieznane.

W celu zachowania zgodności hobbyści, którzy tworzą Hunyuan LoRAs i eksperymentują z nimi na różnych serwerach Discord, starannie zabraniają publikowania przykładów prawdziwych osób. Rzeczywistość jest taka, że ​​nawet obraz-oparte na deepfake'ach są teraz poważnie uzbrojony; a perspektywa dodania do miksu naprawdę realistycznych filmów może w końcu uzasadnić rosnące obawy, które powtarzały się w mediach przez ostatnie siedem lat i które wywołały nowe regulamin.

Siła jazdy

Jak zwykle, porno szczątki siła napędowa technologii. Niezależnie od naszej opinii na temat takiego wykorzystania, ten nieustępliwy silnik napędowy napędza postęp w najnowocześniejszych rozwiązaniach, co ostatecznie może przynieść korzyści szerszej adopcji.

W tym przypadku istnieje możliwość, że cena będzie wyższa niż zwykle, ponieważ udostępnianie kodu źródłowego do tworzenia hiperrealistycznych filmów niesie za sobą oczywiste konsekwencje dla nadużyć o charakterze kryminalnym, politycznym i etycznym.

Jedna grupa na Reddicie (której nie wymienię tutaj), poświęcona tworzeniu przez sztuczną inteligencję treści wideo NSFW, ma powiązany, otwarty serwer Discord, na którym użytkownicy udoskonalają Wygodny interfejs użytkownika Przepływy pracy dla generowania filmów porno w Hunyuan. Użytkownicy codziennie publikują przykłady klipów NSFW – wiele z nich można słusznie określić mianem „ekstremalnych” lub co najmniej przekraczających ograniczenia określone w regulaminie forum.

Społeczność ta utrzymuje także obszerne i dobrze rozwinięte repozytorium GitHub, w którym znajdują się narzędzia umożliwiające pobieranie i przetwarzanie filmów pornograficznych w celu zapewnienia danych szkoleniowych dla nowych modeli.

Ponieważ najpopularniejszym trenerem LoRA jest Kohya-ss, teraz obsługuje szkolenie Hunyuan LoRAbariery wejścia do nieograniczonego generatywnego szkolenia wideo obniżają się z dnia na dzień, wraz z wymaganiami sprzętowymi do szkoleń i generowania materiałów wideo Hunyuan.

Kluczowym aspektem dedykowanych programów szkoleniowych dla sztucznej inteligencji opartej na pornografii (a nie tożsamość-opartych na modelach, takich jak celebryci), polega na tym, że standardowy model podstawowy, taki jak Hunyuan, nie jest specjalnie szkolony pod kątem wyników NSFW i dlatego może albo słabo sobie radzić, gdy zostanie poproszony o wygenerowanie treści NSFW, albo nie potrafi tego zrobić. rozwikłać poznane koncepcje i skojarzenia w sposób performatywny i przekonujący.

Dzięki opracowaniu precyzyjnie dostrojonych modeli bazowych NSFW i LoRA coraz bardziej możliwe będzie projektowanie wyszkolonych tożsamości w dedykowanej domenie wideo „pornograficznego”; w końcu jest to tylko wersja wideo czegoś, co już nastąpiło za zdjęcia wykonane w ciągu ostatnich dwóch i pół roku.

VFX

Ogromny wzrost spójności czasowej, jaki oferuje Hunyuan Video LoRAs, jest oczywistą korzyścią dla branży efektów wizualnych opartych na sztucznej inteligencji, która w dużym stopniu opiera się na adaptacji oprogramowania typu open source.

Chociaż podejście Hunyuan Video LoRA generuje całą klatkę i środowisko, firmy zajmujące się efektami wizualnymi prawdopodobnie zaczęły eksperymentować z izolowaniem spójnych czasowo twarzy ludzkich, które można uzyskać tą metodą, w celu nałożenia lub zintegrowania twarzy z rzeczywistym materiałem źródłowym.

Podobnie jak społeczność hobbystów, firmy zajmujące się efektami wizualnymi muszą poczekać na funkcjonalność Hunyuan Video umożliwiającą przekształcanie obrazu na wideo i wideo na wideo, która jest potencjalnie najbardziej użytecznym pomostem między treściami „deepfake” opartymi na technologii LoRA i ID; albo improwizować i wykorzystać ten czas do sprawdzenia zewnętrznych możliwości frameworka i potencjalnych adaptacji, a nawet zastrzeżonych wewnętrznych rozwidleń Hunyuan Video.

Chociaż Warunki licencji W przypadku Hunyuan Video technicznie zezwala się na przedstawianie prawdziwych osób, o ile uzyskano na to zgodę, zabrania się jednak jego używania w UE, Wielkiej Brytanii i Korei Południowej. Zgodnie z zasadą „pozostaje w Las Vegas”, nie oznacza to, że Hunyuan Video nie będzie używany w tych regionach; jednakże perspektywa zewnętrznych audytów danych w celu wyegzekwowania… rosnące regulacje dotyczące sztucznej inteligencji generatywnej, może sprawić, że takie nielegalne użycie będzie ryzykowne.

Inny potencjalnie niejasny fragment warunków licencji stanowi:

„Jeżeli w dniu wydania wersji Tencent Hunyuan miesięczna liczba aktywnych użytkowników wszystkich produktów lub usług udostępnianych przez Licencjobiorcę lub dla niego przekroczy 100 milionów aktywnych użytkowników miesięcznie w poprzednim miesiącu kalendarzowym, musisz wystąpić do Tencent o licencję, którą Tencent może przyznać Tobie według własnego uznania, a Ty nie jesteś upoważniony do wykonywania żadnych praw wynikających z niniejszej Umowy, chyba że lub dopóki Tencent w inny sposób wyraźnie nie przyzna Ci takich praw”.

Klauzula ta jest wyraźnie skierowana do wielu firm, które mogą pośredniczyć w udostępnianiu Hunyuan Video stosunkowo słabo obeznanej z technologią grupie użytkowników i które będą zobowiązane do włączenia Tencent do akcji, jeśli przekroczy ona pewną liczbę użytkowników.

Czy szerokie sformułowanie może również obejmować pośredni sposób wykorzystania (np. poprzez zapewnienie efektów wizualnych obsługujących Hunyuan w popularnych filmach i programach telewizyjnych) może wymagać wyjaśnienia.

Podsumowanie

Ponieważ technologia deepfake wideo istnieje od dawna, łatwo byłoby niedocenić znaczenie Hunyuan Video LoRA jako podejścia do syntezy tożsamości i deepfakingu; i założyć, że zmiany, które obecnie zachodzą w społeczności Civit oraz na powiązanych Discordach i subredditach, stanowią jedynie niewielki krok w kierunku naprawdę kontrolowanej syntezy wideo przez człowieka.

Bardziej prawdopodobne jest, że obecne wysiłki stanowią jedynie ułamek potencjału Hunyuan Video w zakresie tworzenia całkowicie przekonujących deepfake'ów obejmujących całe ciało i całe otoczenie; gdy tylko zostanie wydany komponent przekształcający obraz w wideo (co według plotek ma nastąpić w tym miesiącu), zarówno hobbyści, jak i profesjonaliści uzyskają dostęp do znacznie bardziej szczegółowego poziomu mocy twórczej.

Kiedy Stability.ai wydało Stable Diffusion w 2022 r., wielu obserwatorów nie potrafiło określić, dlaczego firma po prostu oddała coś, co w tamtym czasie było tak cennym i potężnym systemem generatywnym. W przypadku Hunyuan Video motyw zysku jest wbudowany bezpośrednio w licencję – choć dla Tencent może być trudne określenie, kiedy firma uruchamia schemat podziału zysków.

W każdym razie wynik jest taki sam, jak w 2022 r.: oddane społeczności deweloperskie utworzyły się natychmiast i z wielkim zapałem wokół wydania. Niektóre z dróg, którymi te wysiłki podążą w ciągu najbliższych 12 miesięcy, z pewnością wywołają nowe nagłówki.

 

* Do 136 w momencie publikacji.

Pierwsze opublikowanie wtorek, 7 stycznia 2025 r.

Autor tekstów o uczeniu maszynowym, specjalista domenowy w syntezie obrazów ludzkich. Były szef treści badawczych w Metaphysic.ai.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai