Kąt Andersona

Zauważalny Postęp w Filmach Wideo Napędzanych przez Człowieka AI

Published April 4, 2025

Updated April 3, 2026

Martin Anderson

Examples from the DreamActor project page.

Uwaga: Strona projektu dla tej pracy zawiera 33 automatycznie odtwarzane filmy w wysokiej rozdzielczości, których łączna objętość wynosi pół gigabajta, co destabilizowało mój system podczas ładowania. Z tego powodu nie będę bezpośrednio odnosił się do niej. Czytelnicy mogą znaleźć adres URL w abstrakcie lub pliku PDF, jeśli zdecydują się na to.

Jednym z głównych celów badań nad syntezą wideo jest generowanie pełnego wydajności wideo napędzanego przez sztuczną inteligencję z jednego obrazu. W tym tygodniu nowy artykuł z Bytedance Intelligent Creation przedstawił, co może być najbardziej kompleksowym systemem tego rodzaju dotąd, zdolnym do produkcji pełnych i półtoraciała animacji, które łączą wyraziste szczegóły twarzy z dokładnymi dużymi ruchami, a także osiągają poprawioną spójność tożsamości – obszar, w którym nawet wiodące systemy komercyjne często zawodzą.

W poniższym przykładzie widzimy występ napędzany przez aktora (góra lewa) i pochodzący z jednego obrazu (góra prawa), który dostarcza niezwykle elastyczną i zwinność renderowania, bez typowych problemów związanych z tworzeniem dużych ruchów lub “przewidywaniem” ukrytych obszarów (tj. części odzieży i kątów twarzy, które muszą być wnioskowane lub wymyślane, ponieważ nie są widoczne na zdjęciu źródłowym):

ZAWARTOŚĆ DŹWIĘKOWA. Kliknij, aby odtworzyć. Występ powstaje z dwóch źródeł, w tym z synchronizacją ust, która zwykle jest zastrzeżona dla dedykowanych systemów pomocniczych. Jest to wersja zmniejszona ze strony źródłowej (patrz uwaga na początku artykułu – dotyczy to wszystkich innych osadzonych filmów wideo tutaj).

Chociaż możemy zobaczyć pewne pozostałe wyzwania dotyczące trwałości tożsamości w każdym klipie, jest to pierwszy system, który widziałem, który ogólnie (choć nie zawsze) utrzymuje tożsamość przez dłuższy okres bez użycia LoRAs:

ZAWARTOŚĆ DŹWIĘKOWA. Kliknij, aby odtworzyć. Dalsze przykłady z projektu DreamActor.

Nowy system, zatytułowany DreamActor, wykorzystuje trójczęściowy hybrydowy system sterowania, który poświęca specjalną uwagę wyrazistości twarzy, rotacji głowy i projekcji szkieletu, umożliwiając występy napędzane przez sztuczną inteligencję, w których ani twarz, ani ciało nie cierpią na rzecz drugiego – rzadka, a nawet nieznana zdolność wśród podobnych systemów.

Poniżej widzimy jedną z tych cech, rotację głowy, w działaniu. Kolorowa kula w rogu każdej miniatury w prawo wskazuje rodzaj wirtualnej głowicy, który definiuje orientację głowy niezależnie od ruchu twarzy i wyrazu, który jest tutaj napędzany przez aktora (dolna lewa).

Kliknij, aby odtworzyć. Wizualizacja wielokolorowej kuli przedstawiona tutaj reprezentuje oś obrotu głowy awatara, podczas gdy wyraz jest zasilany przez oddzielną moduł i poinformowany o występie aktora (widoczny tutaj dolna lewa).

Jedną z najbardziej interesujących funkcjonalności projektu, która nie jest nawet właściwie uwzględniona w testach artykułu, jest jego zdolność do pochodzenia ruchu synchronizacji ust bezpośrednio z dźwięku – funkcjonalność, która działa niezwykle dobrze, nawet bez napędzania aktora-wideo.

Badacze podjęli się najlepszych uczestników w tym przedsięwzięciu, w tym bardzo chwalonego Runway Act-One i LivePortrait, i donoszą, że DreamActor był w stanie osiągnąć lepsze wyniki ilościowe.

Ponieważ badacze mogą ustalać własne kryteria, wyniki ilościowe nie są koniecznie empirycznym standardem; ale towarzyszące testy jakościowe wydają się potwierdzać wnioski autorów.

Niestety, ten system nie jest przeznaczony do wydania publicznego, a jedyną wartością, jaką społeczność może potencjalnie uzyskać z tej pracy, jest ewentualne odtworzenie metodologii opisanych w artykule (jak to zostało zrobione zgodnie z równie zamkniętym Google Dreambooth w 2022 roku).

Artykuł stwierdza*:

‘Animacja obrazu ludzkiego ma możliwe ryzyka społeczne, takie jak niewłaściwe wykorzystanie do tworzenia fałszywych filmów wideo. Proponowana technologia mogłaby być wykorzystana do tworzenia fałszywych filmów wideo osób, ale istniejące narzędzia wykrywania [Demamba, Dormant] mogą wykryć te fałszywe filmy wideo.

‘Aby zmniejszyć te ryzyka, konieczne są jasne reguły etyczne i wytyczne dotyczące odpowiedzialnego użytkowania. Będziemy ściśle ograniczać dostęp do naszych podstawowych modeli i kodów, aby zapobiec niewłaściwemu użytkowaniu.’

Naturalnie, rozważania etyczne tego rodzaju są wygodne z punktu widzenia handlowego, ponieważ zapewniają uzasadnienie dla dostępu API-only do modelu, który może być następnie komercjalizowany. ByteDance już raz zrobił to w 2025 roku, udostępniając bardzo chwalone OmniHuman za opłatą na stronie Dreamina. Dlatego, ponieważ DreamActor jest możliwie jeszcze lepszym produktem, wydaje się to prawdopodobnym wynikiem. Co pozostaje do zobaczenia, to stopień, w jakim jego zasady, o ile są one opisane w artykule, mogą pomóc społeczności open source.

Nowy artykuł pt. DreamActor-M1: Holistyczna, wyrazista i niezawodna animacja obrazu ludzkiego z hybrydowym sterowaniem, pochodzi od sześciu badaczy Bytedance.

Metoda

System DreamActor proponowany w artykule ma na celu wygenerowanie animacji ludzkiej z obrazu odniesienia i filmu napędzającego, przy użyciu Diffusion Transformer (DiT) ramy dostosowanej do przestrzeni latentnej (wydaje się, że jest to jakiś rodzaj Stable Diffusion, chociaż artykuł cytuję tylko 2022 publikację).

Zamiast polegać na zewnętrznych modułach do obsługi warunków odniesienia, autorzy łączą cechy wyglądu i ruchu bezpośrednio wewnątrz DiT, umożliwiając interakcję w przestrzeni i czasie za pomocą uwagi:

Schemat nowego systemu: DreamActor koduje pozę, ruch twarzy i wygląd w oddzielne latenty, łącząc je z hałasowanymi latencjami wideo wyprodukowanymi przez 3D VAE. Sygnały te są łączone wewnątrz Diffusion Transformer przy użyciu samouwagi i uwagi krzyżowej, z udostępnionymi wagami na gałęziach. Model jest nadzorowany przez porównywanie oczyszczonych danych wyjściowych z czystymi latencjami wideo. Źródło: https://arxiv.org/pdf/2504.01724

Aby to zrobić, model wykorzystuje wstępnie wytrenowany 3D wariacyjny autoencoder do zakodowania zarówno wejściowego filmu, jak i obrazu odniesienia. Te latenty są patchyfikowane, łączone i wprowadzane do DiT, który przetwarza je wspólnie.

Ta architektura odbiega od powszechnego praktyki dołączania pomocniczej sieci do wstrzykiwania odniesienia, co było podejściem dla wpływowych Animate Anyone i Animate Anyone 2 projektów.

Zamiast tego DreamActor buduje fuzję w samym modelu, upraszczając projekt i poprawiając przepływ informacji między wskazówkami wyglądu i ruchu. Model jest następnie wytrenowany przy użyciu dopasowania przepływu zamiast standardowego celu dyfuzji (dopasowanie przepływu trenuje modele dyfuzji, bezpośrednio przewidując pola prędkości między danymi a hałasem, pomijając szacowanie wyniku).

Hybrydowe Sterowanie Ruchem

Metoda hybrydowego sterowania ruchem, która informuje renderowania neuronalne, łączy tokeny pozy z pochodzącymi z 3D szkieletów ciała i sfery głowy; niejawne reprezentacje twarzy wyodrębnione przez wstępnie wytrenowany kodujący twarz; oraz tokeny wyglądu odniesienia pobrane z obrazu źródłowego.

Elementy te są integrowane wewnątrz Diffusion Transformer przy użyciu odrębnych mechanizmów uwagi, umożliwiając systemowi koordynację globalnego ruchu, wyrazu twarzy i tożsamości wizualnej w całym procesie generacji.

Dla pierwszego z nich, zamiast polegać na punktach orientacyjnych twarzy, DreamActor wykorzystuje niejawne reprezentacje twarzy do sterowania generacją wyrazu, co wydaje się umożliwiać bardziej szczegółową kontrolę nad dynamiką twarzy, a także rozdziela tożsamość i pozycję głowy od wyrazu.

Aby utworzyć te reprezentacje, potok najpierw wykrywa i obcina obszar twarzy w każdym klatce filmu napędzającego, zmieniając rozmiar na 224×224. Obcięte twarze są przetwarzane przez kodujący ruch twarzy wstępnie wytrenowany na PD-FGC zestawie danych, który jest następnie warunkowany przez warstwę MLP.

PD-FGC, zastosowany w DreamActor, generuje głowę mówcę z obrazu odniesienia z rozdzielonym sterowaniem synchronizacji ust (z dźwięku), położeniem głowy, ruchem oczu i wyrazem (z oddzielnych filmów wideo), umożliwiając precyzyjną, niezależną manipulację każdym. Źródło: https://arxiv.org/pdf/2211.14506

Wynikiem jest sekwencja tokenów ruchu twarzy, które są wstrzykiwane do Diffusion Transformer przez warstwę uwagi krzyżowej.

Ten sam framework obsługuje również napędzany dźwiękiem wariant, w którym oddzielny kodujący mapuje dane wejściowe dźwięku bezpośrednio na tokeny ruchu twarzy. To umożliwia generowanie zsynchronizowanej animacji twarzy – w tym ruchów ust – bez filmu napędzającego.

ZAWARTOŚĆ DŹWIĘKOWA. Kliknij, aby odtworzyć. Synchronizacja ust pochodzi wyłącznie z dźwięku, bez odniesienia do aktora. Jedynym wejściem postaci jest statyczne zdjęcie widoczne w prawym górnym rogu.

Drugie, w celu kontrolowania położenia głowy niezależnie od wyrazu twarzy, system wprowadza reprezentację sfery głowy 3D (patrz film wideo osadzony wcześniej w tym artykule), która rozdziela dynamikę twarzy od globalnego ruchu głowy, poprawiając precyzję i elastyczność podczas animacji.

Sfery głowy są generowane przez wyodrębnienie parametrów twarzy 3D – takich jak rotacja i położenie kamery – z filmu napędzającego przy użyciu FaceVerse metody śledzenia.

Schemat projektu FaceVerse. Źródło: https://www.liuyebin.com/faceverse/faceverse.html

Te parametry są wykorzystywane do renderowania kolorowej sfery rzutowanej na 2D płaszczyznę obrazu, przestrzennie wyrównanej z głową napędzającą. Rozmiar sfery odpowiada głowie odniesienia, a jej kolor odzwierciedla orientację głowy. Ta abstrakcja redukuje złożoność uczenia się ruchu głowy 3D, pomagając zachować stylizowane lub przesadzone kształty głowy w postaciach pobranych z animacji.

Wizualizacja sfery kontrolnej wpływającej na orientację głowy.

Wreszcie, w celu sterowania pełnym ruchem ciała, system wykorzystuje 3D szkielety ciała z adaptacyjną normalizacją długości kości. Parametry ciała i rąk są szacowane przy użyciu 4DHumans i HaMeR, oba działające na SMPL-X modelu ciała.

SMPL-X stosuje siatkę parametryczną na całe ciało ludzkie na obrazie, wyrównując z oszacowaną pozycją i wyrazem, umożliwiając manipulację pozycją przy użyciu siatki jako przewodnika objętościowego. Źródło: https://arxiv.org/pdf/1904.05866

Z tych danych wyjściowych wybierane są kluczowe stawy, projekcje 2D i łączone w mapy szkieletowe oparte na liniach. W przeciwieństwie do metod takich jak Champ, które renderują pełne siatki ciała, to podejście unika narzucania ustalonych priorytetów kształtu, a poprzez poleganie wyłącznie na strukturze szkieletu, model jest zachęcany do wnioskowania kształtu i wyglądu ciała bezpośrednio z obrazów odniesienia, redukując uprzedzenia w kierunku ustalonych typów ciała i poprawiając uogólnienie na różne pozycje i budowy.

Podczas treningu 3D szkielety ciała są łączone z sferami głowy i przechodzą przez kodujący pozycję, który wyprowadza cechy, które są następnie łączone z hałasowanymi latencjami wideo w celu wytworzenia tokenów hałasu używanych przez Diffusion Transformer.

W czasie inferencji system uwzględnia różnice szkieletowe między podmiotami przez normalizację długości kości. SeedEdit wstępnie wytrenowany model edycji obrazu transformuje oba obrazy odniesienia i napędzające do standardowej konfiguracji kanonicznej. RTMPose jest następnie używany do wyodrębnienia proporcji szkieletu, które są wykorzystywane do dostosowania szkieletu napędzającego do anatomii podmiotu odniesienia.

Przegląd potoku inferencji. Pseudo-odniesienia mogą być generowane w celu wzbogacenia wskazówek wyglądu, podczas gdy hybrydowe sygnały sterujące – niejawne ruch twarzy i jawne położenie z sfer głowy i szkieletów ciała – są wyodrębnione z filmu napędzającego. Następnie są one wprowadzane do modelu DiT w celu wytworzenia animowanego danych wyjściowych, z ruchem twarzy rozdzielonym od położenia ciała, umożliwiając użycie dźwięku jako sterowania.

Sterowanie Wyglądem

Aby poprawić wierność wyglądu, zwłaszcza w obszarach zakrytych lub rzadko widocznych, system uzupełnia główny obraz odniesienia o pseudo-odniesienia pobrane z filmu wejściowego.

Kliknij, aby odtworzyć. System przewiduje potrzebę dokładnego i spójnego renderowania obszarów zakrytych. Jest to jeden z najbliższych przykładów, jakich widziałem, w projekcie tego rodzaju, do podejścia CGI-bitmapy.

Te dodatkowe klatki są wybrane ze względu na różnorodność położenia przy użyciu RTMPose i filtrowane przy użyciu CLIP-opartego podobieństwa, aby upewnić się, że pozostają one spójne z tożsamością podmiotu.

Wszystkie ramki odniesienia (główne i pseudo) są zakodowane przez ten sam kodujący wygląd i łączone za pomocą mechanizmu samouwagi, umożliwiając modelowi dostęp do uzupełniających wskazówek wyglądu. To ustawienie poprawia pokrycie szczegółów, takich jak widoki profilowe lub tekstury kończyn. Pseudo-odniesienia są zawsze używane podczas treningu i opcjonalnie podczas inferencji.

Trening

DreamActor został wytrenowany w trzech etapach, aby stopniowo wprowadzać złożoność i poprawiać stabilność.

W pierwszym etapie użyto tylko 3D szkieletów ciała i sfer głowy jako sygnałów sterujących, wykluczając reprezentacje twarzy. To pozwoliło na adaptację podstawowego modelu generacji wideo, zainicjowanego z MMDiT, do animacji ludzkiej bez zalewania go drobnymi kontrolami.

W drugim etapie dodano niejawne reprezentacje twarzy, ale wszystkie inne parametry zamrożono. Tylko kodujący ruch twarzy i warstwy uwagi twarzy były trenowane w tym momencie, umożliwiając modelowi naukę wyrazistych szczegółów w izolacji.

W trzecim etapie wszystkie parametry zostały odblokowane do optymalizacji wspólnej w zakresie wyglądu, położenia i dynamiki twarzy.

Dane i Testy

Do fazy testowej model jest inicjowany z wstępnie wytrenowanego punktu kontrolnego DiT i trenowany w trzech etapach: 20 000 kroków dla każdego z pierwszych dwóch etapów i 30 000 kroków dla trzeciego.

Aby poprawić uogólnienie na różne długości i rozdzielczości, klipy wideo były losowo wybrane z długościami między 25 a 121 klatkami. Następnie zostały one przeskalowane do 960×640 px, zachowując proporcje.

Trening został przeprowadzony na ośmiu (Chiny-skierowany) NVIDIA H20 GPU, każdy z 96 GB pamięci VRAM, przy użyciu optymalizatora AdamW z (tolerowanym wysokim) współczynnikiem uczenia 5e−6.

Podczas inferencji każdy segment wideo zawierał 73 klatki. Aby utrzymać spójność między segmentami, ostateczna latencja z jednego segmentu była ponownie użyta jako początkowa latencja dla następnego, co kontekstualizuje zadanie jako sekwencyjną generację obrazu do wideo.

Sterowanie bez klasyfikatora zostało zastosowane z wagą 2,5 zarówno dla obrazów odniesienia, jak i sygnałów sterujących ruchem.

Autorzy zbudowali zestaw danych szkoleniowych (nie podano źródeł w artykule) składający się z 500 godzin filmów wideo pochodzących z różnych dziedzin, zawierających przypadki (między innymi) tańca, sportu, filmu i przemówień publicznych. Zestaw danych został zaprojektowany w celu przechwycenia szerokiego spektrum ruchu i wyrazu ludzkiego, z równym rozkładem między pełnymi i półtoraciałymi ujęciami.

Aby poprawić jakość syntezy twarzy, Nersemble został uwzględniony w procesie przygotowania danych.

Przykłady z zestawu danych Nersemble, wykorzystanego do uzupełnienia danych dla DreamActor. Źródło: https://www.youtube.com/watch?v=a-OAWqBzldU

Do oceny autorzy wykorzystali swój zestaw danych również jako benchmark do oceny uogólnienia w różnych scenariuszach.

Wyniki modelu zostały zmierzone przy użyciu standardowych miar z poprzednich prac: Fréchet Inception Distance (FID); Wskaźnik podobieństwa strukturalnego (SSIM); Nauczony Perceptualny Podobieństwo Patches Obrazu (LPIPS); oraz Maksymalny Współczynnik Sygnału do Szumu (PSNR) do jakości klatki. Fréchet Video Distance (FVD) został użyty do oceny spójności czasowej i ogólnej wierności wideo.

Autorzy przeprowadzili eksperymenty na zadaniach animacji ciała i portretu, wszystkie z wykorzystaniem jednego (docelowego) obrazu odniesienia.

Dla animacji ciała DreamActor-M1 został porównany z Animate Anyone; Champ; MimicMotion; i DisPose.

Porównania ilościowe z rywalizującymi ramami.

Chociaż PDF zawiera statyczny obraz jako porównanie wizualne, jeden z filmów wideo ze strony projektu może bardziej wyraźnie podkreślić różnice:

ZAWARTOŚĆ DŹWIĘKOWA. Kliknij, aby odtworzyć. Porównanie wizualne między ramami wyzwań. Film napędzający jest widoczny w lewym górnym rogu, a wniosek autorów, że DreamActor produkuje najlepsze wyniki, wydaje się uzasadniony.

Do testów animacji portretu model został oceniony w porównaniu z LivePortrait; X-Portrait; SkyReels-A1; i Act-One.

Porównania ilościowe dla animacji portretu.

Autorzy zauważają, że ich metoda wygrywa w testach ilościowych i twierdzą, że jest również lepsza jakościowo.

ZAWARTOŚĆ DŹWIĘKOWA. Kliknij, aby odtworzyć. Przykłady porównań animacji portretu.

Można argumentować, że trzeci i ostatni z klipów wideo wyświetlanych powyżej wykazuje mniej przekonywującą synchronizację ust w porównaniu z kilkoma rywalizującymi ramami, chociaż ogólna jakość jest niezwykle wysoka.

Podsumowanie

Przewidując potrzebę tekstur, które są implikowane, ale nie są rzeczywiście obecne w jednym obrazie odniesienia, który napędza te odtworzenia, ByteDance rozwiązał jeden z największych wyzwań stojących przed generacją wideo opartą na dyfuzji – spójne, trwałe tekstury. Następnym logicznym krokiem po udoskonaleniu takiego podejścia byłoby stworzenie atlasu odniesienia z wygenerowanego klipu, który mógłby być zastosowany do następnych, różnych generacji, w celu utrzymania wyglądu bez LoRAs.

Chociaż takie podejście byłoby w zasadzie nadal zewnętrznym odniesieniem, nie różniłoby się to od mapowania tekstur w tradycyjnych technikach CGI, a jakość realizmu i wiarygodności byłaby znacznie wyższa niż ta, którą mogą osiągnąć starsze metody.

To, co najbardziej imponuje w DreamActor, to połączony trójczęściowy system sterowania, który w sposób genialny łączy tradycyjną przepaść między syntezą skupioną na twarzy a syntezą skupioną na ciele.

Pozostaje teraz zobaczyć, czy niektóre z tych podstawowych zasad mogą być wykorzystane w bardziej dostępnych ofertach; jak się teraz wydaje, DreamActor wydaje się przeznaczony do stania się kolejną usługą syntetyzującą, surowo ograniczoną przez ograniczenia użytkowania i nieprzydatność doświadczalną z komercyjną architekturą.

* Moja substitucja hiperłączy dla autorów; cytaty w tekście

^†Jak wcześniej wspomniano, nie jest jasne, jaki smak Stable Diffusion został użyty w tym projekcie.

Pierwotnie opublikowany w piątek, 4 kwietnia 2025