Kąt Andersona

Poza zasięgiem wzroku, poza umysłem: rozwiązywanie największego problemu w AI Video

mm
Detail from the first page of the March 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

Największym problemem nawet z najlepszych generatorów AI video jest to, że mają one przewlekłą amnezję – wyzwanie, które nowe badania z Chin próbują rozwiązać.

 

Największym problemem nawet z najlepszymi i najnowocześniejszymi systemami generacji AI video jest to, że wszystkie one mają przewlekłą amnezję: jeśli kamera odwróci się od tego, na co jest skierowana, a następnie ponownie zwróci się w stronę obiektu, nigdy nie znajdzie tego, co było na początku – obiekty znikną, zmienią wygląd i/lub rodzaj ruchu, a tło również ulegnie zmianie.

Wynika to z faktu, że system generacji oparty na dyfuzji ma ograniczone okno uwagi, a ponadto zawsze zajmuje się tym, co może zobaczyć w tym momencie; w prawdziwej realizacji solipsyzmu to, co jest poza klatką, nie istnieje dla generatywnej AI – zostaje dosłownie usunięte z pamięci.

Stanowi to nigdy nie był problemem w tradycyjnym CGI, które może zawsze odnosić się do i dokładnie odtwarzać obiekt, w tym wygląd i ruch, w dowolnym punkcie renderowanego filmu, w którym mogą być potrzebne ponownie:

Tradycyjne siatki CGI i tekstury bitmapowe mogą zawsze być rysowane w renderze, zapewniając spójny wygląd – sztuczkę, która jest znacznie trudniejsza do osiągnięcia w podejściach AI, ponieważ nie ma równoważnego 'plaskiego odniesienia'.

Tradycyjne siatki CGI i tekstury bitmapowe mogą zawsze być rysowane w renderze, zapewniając spójny wygląd – sztuczkę, która jest znacznie trudniejsza do osiągnięcia w podejściach AI, ponieważ nie ma równoważnego ‘plaskiego odniesienia’ pliku lub kolekcji powiązanych plików.

Wynika to z faktu, że elementy składowe CGI, takie jak siatka i tekstury (patrz obraz powyżej), a także pliki ruchu i inne zachowania dynamiczne, mogą istnieć oddzielnie na dysku i być rysowane w kompozycji w dowolnym momencie.

W generatywnej AI video nie ma takiego ‘plaskiego repozytorium’; najbliższe, jakie może osiągnąć, to LoRA – specjalnie wytrenowane pliki dodatkowe, które mogą być wytrenowane na sprzęcie konsumentów, umożliwiając nowe postacie i określone ubrania do być “wymuszonych” do filmu:

Kliknij, aby odtworzyć. Problem solipsyzmu AI video może być do pewnego stopnia złagodzony przez użycie LoRA – ale wyniki mogą być przytłaczające.

To nie jest idealne rozwiązanie. Po pierwsze, LoRA są związane z dokładną wersją modelu podstawowego (takiego jak Wan2+ lub Hunyuan Video), a potrzebują odtworzenia za każdym razem, gdy model podstawowy ulega zmianie. Po drugie, LoRA mają tendencję do zniekształcania wag modelu podstawowego, tak że tożsamość wytrenowana przez LoRA jest nakładana na wszystkie postacie w scenie. Dodatkowo, metody dostrajania tego rodzaju są bardzo wrażliwe na źle skuratedane zestawy.

Dokładne powtórzenia

Teraz nowe współpraca akademicko-przemysłowa z Chin proponuje pierwsze znaczące rozwiązanie, które zwróciło moją uwagę w ciągu ponad trzech lat raportowania na ten temat. Metoda ta wykorzystuje tzw. hybrydową pamięć, aby utrzymać postać poza klatką i jej bezpośrednie otoczenie aktywne i dokładne w przestrzeni latentnej modelu, tak aby gdy nasz punkt widzenia powróci do nich, efekt jest spójny:

Kliknij, aby odtworzyć. Z witryny projektu nowego artykułu, dwa przykłady AI wygenerowanych (WAN) postaci opuszczających klatkę i dokładnie wchodzących ponownie. Źródło 

Należy podkreślić, że nie jest to to samo, co osiągnięcie spójności postaci w różnych ujęciach – coś, co zostało zażądane rok temu w Runway’s Gen 4 release, i które pozostaje prowadzoną działalnością w literaturze.

Raczej, to, co zostało tutaj rozwiązane, to coś, czego nie potrafiło osiągnąć żadne komercyjne ani eksperymentalne ramy, które widziałem – spójne ponowne pojawienie się poprzedniego wyglądu, ruchu i środowiska postaci poza klatką:

Kliknij, aby odtworzyć. Dwa główne przykłady podane na nowej stronie projektu.

Oczywiście zasady działające tutaj mogą być równie dobrze stosowane w innych dziedzinach, takich jak eksploracja miejska, jazda z punktu widzenia, lub inne rodzaje renderowań niezwiązanych z postaciami.

Należy podkreślić również, że nowe podejście nie rozwiązuje ani nie rozwiązuje problemu, który Runway Gen4 i inne zamknięte platformy twierdzą, że rozwiązały, odtwarzając postacie w różnych ujęciach; zamiast tego robi to, czego nie udało się im jeszcze – utrzymywanie postaci i środowiska w pamięci, bez potrzeby ich widoczności dla widza w każdym momencie.

Nowa praca składa się z dedykowanego zestawu danych wygenerowanego za pomocą Unreal Engine, a także niestandardowych metryk dla problemu solipsyzmu*, oraz specjalnie opracowanego ramy generatywnej zbudowanej nad WAN. W testach przeciwko kilku analogicznym systemom dostępnym, autorzy twierdzą, że osiągnęli wyniki na poziomie stanu techniki, i komentują:

‘[Pamięć] mechanizmy wyłoniły się jako krytyczna granica w rozwoju modeli świata, ponieważ pojemność pamięci dyktuje przestrzenną i czasową spójność generowanego treści.

‘Konkretnie, jest to poznawcza kotwica, która pozwala modelowi na utrzymanie historycznego kontekstu podczas przesunięć punktu widzenia lub długoterminowej ekstrapolacji.

‘Bez solidnej pamięci, symulowany świat szybko rozpada się na niepołączone, chaotyczne klatki.’

Artykuł nowy nosi tytuł Poza zasięgiem wzroku, ale nie poza umysłem: hybrydowa pamięć dla dynamicznych modeli świata wideo, i pochodzi od siedmiu badaczy z Huazhong University of Science and Technology, oraz zespołu Kling w Kuaishou Technology.

Metoda

Centralnym elementem nowej pracy jest hybrydowa pamięć, która umożliwia ‘ekstrapolację poza klatką’ – utrzymanie postaci i ich kontekstów, podczas gdy widz ‘odwraca się’ (lub gdy postać sama opuszcza klatkę). W tym scenariuszu, ramy są wymagane do wykonania przestrzennego rozłączenia, w którym jest jednocześnie skupiony na widocznej dla widza generacji, i pozaklatkowym istnieniu postaci, która jest teraz poza klatką.

Przykłady ruchu kamery wejścia/wyjścia. W tych przypadkach jest to ruch kamery, który powoduje, że postać opuszcza klatkę, ale w różnorodnych próbkach możemy również obserwować, jak postać sama tymczasowo wyprowadza się poza klatkę. Źródło - https://arxiv.org/pdf/2603.25716

Przykłady ruchu kamery wejścia/wyjścia. W tych przypadkach jest to ruch kamery, który powoduje, że postać opuszcza klatkę, ale w różnorodnych próbkach możemy również obserwować, jak postać sama tymczasowo wyprowadza się poza klatkę. Źródło

Autorzy zauważają, że w latentnych wektorach, cechy, które należy wyodrębnić i użyć, są silnie połączone z innymi cechami i właściwościami; i że próba ich wyodrębnienia często powoduje, że obiekt “zamraża” w tle. Z tego powodu opracowali i opracowali zestaw danych HM-World, specjalnie przeznaczony do szkolenia hybrydowej pamięci**:

Z artykułu, próbki z czterech kategorii zawartych w zestawie danych HM-World.

Z artykułu, próbki z czterech kategorii zawartych w zestawie danych HM-World.

Zbiór jest zbudowany wzdłuż czterech wymiarów: ścieżki postaci, ścieżki kamery, sceny, i postacie.

Dane syntetyczne w HM-World zawierają 17 scen i 49 postaci, w tym ludzi o różnym wyglądzie, a także zwierzęta różnych gatunków. Kombinacje tych są proceduralnie umieszczane w scenie za pomocą Unreal Engine, każda z unikalną animacją ruchu, a następnie ustawiana na losowo wybranej ścieżce.

Autorzy stwierdzają, że zróżnicowany zbiór wyjścia-wejścia jest przedstawiony w zestawie danych, z 28 różnymi ścieżkami kamery, każdą z wieloma punktami startowymi.

Końcowy zbiór składa się z 59 225 klipów wideo, każdy z nich opatrzony MiniCPM-V wielomodalnym modelem językowym (MLLM).

Badacze wskazują na zalety statystyczne swojego zbioru w porównaniu z poprzednimi zestawami WorldScore; Context-As-Memory; Multi-Cam Video; i 360° Motion :

Porównanie między istniejącymi zestawami danych a zestawem danych HM-World, gdzie 'Dynamiczna postać' oznacza obecność poruszających się obiektów, 'Postać wyjścia-wejścia' oznacza klipy zawierające postacie opuszczające i wchodzące ponownie do klatki, a 'Postawa postaci' odnosi się do włączenia adnotowanych 3D pozycji.

Porównanie między istniejącymi zestawami danych a zestawem danych HM-World, gdzie ‘Dynamiczna postać’ oznacza obecność poruszających się obiektów, ‘Postać wyjścia-wejścia’ oznacza klipy zawierające postacie opuszczające i wchodzące ponownie do klatki, a ‘Postawa postaci’ odnosi się do włączenia adnotowanych 3D pozycji.

Mniej uczęszczana droga

Dane kilka poprzednich klatek i znany ścieżka kamery, zadaniem jest przewidzieć przyszłe widoki, gdy perspektywa widza się zmienia, biorąc pod uwagę postacie, które poruszają się niezależnie i mogą opuścić klatkę, zanim ponownie wejdą. Wymaga to więcej niż utrzymanie stabilnego tła, ponieważ model musi również utrzymać spójny wewnętrzny zapis, jak wygląda i zachowuje się każda poruszająca się postać, nawet w okresach, gdy nie jest widoczna.

Autorzy Hybrydowej Dynamicznej Uwagi (HyDRA) metody rozwiązują ten problem, wprowadzając dedykowaną ścieżkę pamięci, która oddziela dynamiczne postacie od statycznej reprezentacji sceny, pozwalając im na trwanie w czasie, i ponowne pojawienie się z spójnym wyglądem i ruchem:

Schemat koncepcyjny modelu HyDRA.

Schemat koncepcyjny modelu HyDRA.

HyDRA jest zbudowany nad Wan2.1-T2V-1.3B, z rdzeniowym potokiem dyfuzji pozostawionym w dużej mierze nietkniętym, podczas gdy wprowadza się zmodyfikowany blok transformatora, który włącza dynamiczną uwagę odzyskiwania. Pozwala to modelowi na selektywne odzyskiwanie wskazówek ruchu i wyglądu z poprzednich klatek, zamiast polegania na ustalonym lub lokalnym kontekście.

Proces ten wykorzystuje dostosowany Flow Matching cel szkolenia w miejsce standardowego błędu dyfuzji.

Aby utrzymać sceny wyrównane z ruchem kamery, ścieżki kamery są wstrzykiwane jako jawne sygnał warunkowy, z każdą klatką, której położenie jest określone przez rotację i translację, a następnie przekształcone w kompaktową reprezentację, która ujmuje, jak punkt widzenia ewoluuje w czasie.

W zgodzie z poprzednią (Kling) inicjatywą ReCamMaster, wynikiem jest następnie parsowany przez kodujący kamerę, zaimplementowany jako wielowarstwowa sieć neuronowa, a następnie emitowany i dodawany do cech transformatora dyfuzji, pozwalając modelowi na utrzymanie spójnego umiejscowienia obiektów, gdy kamera się porusza.

Tokenizacja

Surowe latentne wektory dyfuzji łączą ruch postaci, wygląd i tło w jedną splątaną reprezentację, a próba ich odzyskania bezpośrednio z tej przestrzeni ryzykuje wprowadzenie nieistotnego kontekstu lub spowodowanie, że poruszające się postacie “zlewają się” z tłem.

HyDRA rozwiązuje to za pomocą 3D-convolution-based Memory Tokenizer, który przetwarza przestrzeń i czas razem – zamiast do przodu pełnej historii latentnej, kompresuje ją do kompaktowych, świadomych ruchu tokenów pamięci, które zachowują, jak postacie wyglądają i poruszają się:

Przegląd HyDRA. Po lewej, Tokenizer pamięci konwertuje poprzednie klatki na kompaktowe, świadome ruchu tokeny pamięci; po prawej, Dynamiczna Uwaga Odzyskiwania ocenia bieżące zapytanie wobec tych tokenów, odzyskuje najbardziej istotne i używa ich do przywrócenia spójnego wyglądu i ruchu w wygenerowanej klatce.

Przegląd HyDRA. Po lewej, Tokenizer pamięci konwertuje poprzednie klatki na kompaktowe, świadome ruchu tokeny pamięci; po prawej, Dynamiczna Uwaga Odzyskiwania ocenia bieżące zapytanie wobec tych tokenów, odzyskuje najbardziej istotne i używa ich do przywrócenia spójnego wyglądu i ruchu w wygenerowanej klatce.

Te tokeny tworzą strukturalną hybrydową pamięć, która filtruje szum, podczas gdy zachowuje długoterminową dynamikę. Przekazane do modułu Dynamicznej Uwagi Odzyskiwania, pozwalają one modelowi na selektywne odzyskiwanie postaci poza klatką, tak aby pojawiały się one ponownie z spójnym wyglądem, ruchem i kontekstem.

Dynamiczna Uwaga Odzyskiwania

Mechanizm pamięci HyDRA wykorzystuje również dynamiczną uwagę odzyskiwania w odrębnej, ale uzupełniającej roli w ramach.

Tokenizacja pamięci kompresuje poprzednie reprezentacje latentne w strukturalne, świadome ruchu tokeny, które oddzielają dynamiczne postacie od statycznego tła treści, zmniejszając splątanie, które często powoduje, że postacie “zlewają się” z tłem. Te tokeny tworzą trwały bank pamięci, a nie pełną historię klatek.

Dynamiczna Uwaga Odzyskiwania działa następnie nad tym bankiem podczas generacji, oceniając bieżące zapytanie wobec przechowywanych tokenów i selektywnie odzyskując te, które są najbardziej istotne dla ewoluującej klatki. Pozwala to postaciom poza klatką na kontynuowanie ich latentnej ewolucji (tj. na dalsze poruszanie się, bieganie, gdy ich nie widać), i pojawiają się one ponownie z spójnym wyglądem i ruchem, gdy ponownie wchodzą do klatki, zamiast resetowania lub degradacji.

Dane i testy

W testach, system HyDRA oparty na Wan zakodował i podsamplował 77 kontekstowych klatek przed przetworzeniem ich 3D Variational Autoencoder (VAE), podczas gdy wspomniany tokenizer pamięci wykorzystywał 3D konwolucję o rozmiarze jądra 2x4x4.

Model został wytrenowany na HM-World przez 10 000 iteracji na 32 (nieokreślonych) GPU, przy rozmiarze partii 32.

Niezwykle wysoka liczba metryk została użyta w testach: poza zwyczajowym Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM), i Learned Perceptual Similarity Metrics (LPIPS), autorzy również zastosowali spójność postaci i spójność tła z VBench suite, aby ocenić spójność klatek.

Dodatkowo, opracowali niestandardową metrykę zatytułowaną Dynamiczna Spójność Postaci (DSC), która wykorzystuje bounding boxy z YOLO V11, aby utworzyć obcięte regiony zawierające poruszające się postacie, z których wyodrębniono cechy semantyczne, a następnie obliczono ich podobieństwo.

HyDRA został porównany z Diffusion Forcing Transformer (DFoT), i Context-As-Memory, wobec modelu bazowego Wan2.1-T2V-1.3B wyposażonego w kodujący kamerę (aby reprezentować subiektywny punkt widzenia wspólny dla wszystkich klipów). Wszystkie modele zostały wytrenowane na HM-World, a WorldPlay został również użyty jako zero-shot, dodatkowy zbiór testowy:

W początkowych porównaniach ilościowych, HyDRA przewyższył wszystkie modele bazowe, zwiększając PSNR z 18,696 do 20,357, i SSIM z 0,517 do 0,606. Osiągnął również najwyższe wyniki kontekstowe i wyniki zgodne z rzeczywistością, 0,827 i 0,849, przy czym Spójność Postaci i Spójność Tła osiągnęły 0,926 i 0,932:

Wyniki początkowego porównania ilościowego z poprzednimi podejściami.

Wyniki początkowego porównania ilościowego z poprzednimi podejściami.

DFoT osiągnął 17,693 PSNR i Context as Memory 18,921, z zyskami przypisanymi do tokenizacji pamięci w połączeniu z dynamiczną uwagą odzyskiwania:

Porównanie ilościowe HyDRA z bieżącym stanem techniki.

Porównanie ilościowe HyDRA z bieżącym stanem techniki.

W odniesieniu do testów przeciwko WorldPlay, autorzy stwierdzają:

‘Nasza metoda przewyższa WorldPlay we wszystkich metrykach, z znaczącą luką PSNR wynoszącą 5,502. Chociaż WorldPlay wykazuje niższą wydajność w metrykach odniesionych do rzeczywistości (np. PSNR 14,855, DSCGT 0,832) z powodu luki w dystrybucji domeny i braku specyficznego dostrajania, wykazuje ono znaczącą wytrzymałość w metrykach kontekstowych, osiągając DSCctx 0,822.

‘To spostrzeżenie nie tylko potwierdza, że model jest dobrze wytrenowany, ale także pośrednio potwierdza racjonalność naszych proponowanych metryk DSC w odzwierciedlaniu dynamicznej spójności postaci.

‘Ostatecznie, te imponujące wyniki podkreślają wyjątkowe możliwości naszego modelu, demonstrując jego wyższość nawet nad ustanowionymi modelami komercyjnymi.’

Artykuł oferuje statyczną reprezentację porównań jakościowych przeprowadzonych w testach:

Porównanie jakościowe wyjścia i wejścia pod ruchem kamery. Autorzy twierdzą, że HyDRA zachowuje tożsamość postaci, postawę i ciągłość ruchu po opuszczeniu i powrocie do klatki, ściśle odpowiadając rzeczywistości, podczas gdy konkurencyjne metody wykazują dryf, niezgodny ruch lub degradację postaci, podkreślone na czerwono (spójne odzyskiwania są oznaczone na zielono).

Porównanie jakościowe wyjścia i wejścia pod ruchem kamery. Autorzy twierdzą, że HyDRA zachowuje tożsamość postaci, postawę i ciągłość ruchu po opuszczeniu i powrocie do klatki, ściśle odpowiadając rzeczywistości, podczas gdy konkurencyjne metody wykazują dryf, niezgodny ruch lub degradację postaci, podkreślone na czerwono (spójne odzyskiwania są oznaczone na zielono).

Z tych wyników, autorzy komentują:

‘W przypadku złożonych zdarzeń wyjścia i wejścia, model bazowy i Context-as-Memory wykazują ciężką deformację postaci i niezgodny ruch. DFoT nie jest w stanie utrzymać integralności postaci, co prowadzi do całkowitego zniknięcia. Podczas gdy WorldPlay jest w stanie utrzymać spójność wyglądu postaci, cierpi on na szarpanie ruchu i nienaturalne działania.

‘Nasza metoda z powodzeniem utrzymuje spójność hybrydową, zachowując zarówno tożsamość postaci, jak i spójność ruchu po ponownym wejściu postaci do klatki.’

Dalsze wyniki można zobaczyć w formacie wideo na stronie uzupełniającej, z której pierwsze cztery przykłady zostały złożone (przez nas) w poniższym wideo:

Kliknij, aby odtworzyć. Cztery z sześciu wyników testowych przedstawionych na stronie projektu. Źródło 

Wnioski

Chociaż każda próba rozwiązania jednego z największych problemów generacji AI video jest mile widziana, wydaje się, że optymalne rozwiązanie problemów wyjścia/wejścia będzie takie same, jak w przypadku CGI – w postaci odrębnych materiałów referencyjnych, które mogą być edytowane i wprowadzane do kompozycji.

To, co próbuje się zrobić, czyli utrzymanie żywej wektora w sposób ad hoc i na bieżąco, wydaje się wyczerpujące, i nie oferuje również żadnej wyraźnej drogi do spójności wewnątrz klatki, która jest teraz dostępna w różnych portalach, takich jak Runway. Jeśli okaże się, że następny strzał wymaga dostępu do przestrzeni latentnej poprzedniego strzału, dlaczego nie umieścić obu instancji w oddzielnym, odrębnym wektorze postaci?

 

* Nikt inny nie nadał mu nazwy, a dyskusja jest trudna bez wspólnych terminów.

** Obecnie zgłoszono, że jest “wkrótce”, na stronie projektu.

Pierwotnie opublikowano w piątek, 27 marca 2026

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.