Anderson’un Açısı

Görünmeyen, Hafızasız: AI Video’daki En Büyük Sorunu Çözme

Published March 27, 2026

Updated May 16, 2026

Martin Anderson

Detail from the first page of the March 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

En iyi AI video üreticilerinin bile kronik hafıza kaybı gibi bir sorunu vardır – bu sorunu Çin’den yeni bir araştırma ile çözme çalışmaları devam etmektedir.

En iyi ve en gelişmiş AI video üretim sistemlerinin hepsi kronik hafıza kaybı gibi bir soruna sahiptir: kamera odaklandığı şeyden uzaklaşıp sonra tekrar döndüğünde, o şey hiçbir zaman bulunamaz – karakterler kaybolur, görünümü değişir ve/veya hareket türü değişir ve arka plan da muhtemelen değişmiştir.

Bu, difüzyon tabanlı üretim sisteminin sınırlı bir dikkat penceresi olduğu ve her zaman o an gördüğü şey ile ilgilenmektedir; gerçek bir solipsizm uygulamasında, çerçeveye dışında olan şey, üretken AI için var olmaz – literal olarak hafızadan silinir.

Bu, geleneksel CGI için hiçbir zaman bir sorun olmamıştır, bu sistemler her zaman bir konuyu referans alabilir ve precisa olarak yeniden üretebilir, görünüm ve hareket dahil, herhangi bir noktada gerekli olabilecek bir video renderinde.

Geleneksel CGI mesh’leri ve bitmap metinleri her zaman bir render’a çizilebilir, tutarlı bir görünüm sağlar – bu, AI yaklaşımlarında daha zor bir işlemdir, çünkü eşdeğer bir ‘düz référence’ dosyası veya ilgili dosyalar yoktur.

Bu, CGI’nin bileşen elemanlarının, mesh ve metinler (yukarıdaki resme bakın) gibi, hareket dosyaları ve diğer dinamik davranışlar, diske ayrı olarak yaşayabilir ve her zaman bir kompozisyona çekilebilir.

Üretken video AI’de böyle bir ‘düz depo’ yoktur; buna en yakın şey LoRAs – tüketici ekipmanlarında eğitilebilen, özel karakterlerin ve belirli giysilerin video’ya ‘zorlanabileceği’ şekilde eğitilen dosyalar:

Çalma

Bu, ideal bir çözüm değildir. Birincisi, LoRAs belirli bir temel model versiyonuna (örneğin Wan2+ veya Hunyuan Video) bağlıdır ve her temel model değiştiğinde yeniden yaratılması gerekir. İkincisi, LoRAs temel modelin ağırlıklarını bozar, böylece LoRA’nın eğitilen kimliği sahnedeki tüm karakterlere uygulanır. Ayrıca, ince ayar yöntemleri kötü düzenlenmiş veri setlerine karşı çok hassastır.

Doğru Tekrarlar

Şimdi, Çin’den yeni bir akademik ve endüstriyel işbirliği, benim dikkatime gelen ilk önemli çözüm sunuyor. Bu method, araştırmacıların hibrit hafıza dedikleri şeyi kullanır, kameranın görüş alanından outside karakteri ve doğrudan çevresini aktif ve doğru bir şekilde tutmak için, böylece görüş alanımıza geri döndüğümüzde, tutarlı bir etki elde edilir:

Çalma Proje sitesinden, AI tarafından üretilen (WAN) karakterlerin çerçeveden çıkıp tekrar girdiği iki örnek. Kaynak

Bu, karakter tutarlılığını farklı çekimlerde elde etmekle aynı şey değildir – bu, bir yıl önce Runway’in Gen 4 sürümünde elde edildiği iddia edildi ve hala devam eden araştırmaların konu olarak kalıyor.

Aslında, burada çözülen şey, hiçbir ticari veya deneysel çerçevenin başaramadığı şey – görünür olarak tutarlı yeniden görünme bir karakterin önceki görünümü, hareketi ve ortamı:

Çalma Yeni girişimin proje sitesindeki diğer iki ana örnek.

Açıkçası, burada çalışan ilkeler diğer alanlara da eşit olarak uygulanabilir, örneğin şehir keşfi, POV sürüşü veya diğer türdeki karakter olmayan renderlama.

Bu yeni yaklaşımın, Runway Gen4 ve diğer kapalı kaynaklı platformların iddia ettiği gibi, farklı çekimlerde karakterleri yeniden yaratma sorununu çözmediği veya ele almadığı da vurgulanmalıdır; bunun yerine, hiçbiri başaramadığı şeyi yapar – bir karakteri ve ortamı, görüntüye ihtiyaç duymadan, hafızada tutar.

Yeni çalışma, Unreal Engine aracılığıyla oluşturulan özel bir veri seti ve WAN üzerine inşa edilmiş özel bir üretken çerçeve içerir. Testlerde, birkaç analoji sistemiyle karşılaştırıldığında, yazarlar devlet-sanatlı sonuçlar elde ettiklerini iddia ediyorlar ve şunları söylüyorlar:

‘Hafıza mekanizmaları, dünya modellerini ilerletmede kritik bir ön cephe olarak ortaya çıktı, çünkü hafıza kapasitesi, üretilen içeriğin mekansal ve zamanlı tutarlılığını belirler.

‘Özellikle, bu, modelin görüş değişiklikleri veya uzun süreli tahmin sırasında tarihi bağlamı korumasına izin veren bilişsel bir ankrajdır.

‘Güçlü bir hafızası olmadan, bir simüle edilmiş dünya nhanh chóng kopuk ve kaotik çerçevelere dönüşür.’

Yeni makale, Görünmeyen, Hafızasız Değil: Dinamik Video Dünya Modelleri için Hibrit Hafıza başlığını taşır ve Huazhong Bilim ve Teknoloji Üniversitesi’nden ve Kuaishou Teknoloji’deki Kling Ekibinden yedi araştırmacı tarafından yazılmıştır.

Yöntem

Yeni çalışmanın merkezi, hibrit hafızadır, bu da ‘görünmeyen extraplasyon’u sağlar – karakterlerin ve bağlamlarının, izleyici ‘bakmazken’ (veya karakter kendisinin görüş alanından çıkarken) tutulması. Bu senaryoda, çerçeve, ‘görünür üretim’e odaklanırken, aynı zamanda görüş alanından outside karakterin varlığını da gerçekleştirmek zorundadır.

Kamera girişi/çıkışı hareketi örnekleri. Bu örneklerde, kameranın hareketi karakterin çerçeveden çıkmasına neden olur, ancak çeşitli örneklerde karakterin kendisinin geçici olarak ekran dışına itildiğini de görebiliriz. Kaynak

Yazarlar, difüzyon latent gömmelerinde, çıkarılması gereken ve kullanılan özelliklerin, diğer özellikler ve özelliklerle nặng bir şekilde dolaşık olduğunu ve bunları çıkarmaya çalışmanın konuyu ‘donmasına’ neden olabileceğini belirtiyorlar. Bu nedenle, HM-Dünya veri setini özel olarak hibrit hafızayı eğitmek için tasarladılar ve oluşturdular**:

Makaleden, HM-Dünya veri setindeki dört kategoriden örnekler.

Toplama, dört boyutta inşa edilmiştir: karakter yörüngeleri, kamera yörüngeleri, sahneler ve karakterler.

HM-Dünya’daki sentetik veriler, 17 sahne ve 49 karakter içerir, çeşitli görünümdeki insanlar ve çoklu türdeki hayvanlar da dahil. Bu kombinasyonlar, Unreal Engine aracılığıyla bir sahneye prosedürel olarak yerleştirilir, her biri benzersiz bir hareket animasyonu ile ve sonra rastgele seçilen bir yörüngeye yerleştirilir.

Yazarlar, veri setinde çeşitli çıkış-giriş olaylarının temsil edildiğini, 28 farklı kamera yörüngesinin her birinin birden fazla başlangıç noktası ile birlikte olduğunu belirtiyorlar.

Final koleksiyon, her biri MiniCPM-V Multimodal Büyük Dil Modeli (MLLM) tarafından anotlanmış 59,225 video klip içerir.

Araştırmacılar, koleksiyonlarının önceki veri setlerine karşı istatistiksel avantajlarını vurguluyorlar: DünyaSkor; Context-As-Hafıza; Çoklu Kamera Video ve 360° Hareket:

Mevcut veri setleri ile HM-Dünya veri seti arasındaki karşılaştırma, ‘Dinamik Konu’ hareketli varlıkların varlığını, ‘Konu Çıkış-Giriş’ çerçeveden çıkan ve yeniden giren konuları ve ‘Konu Poz’ 3B pozların dahil edilmesini gösterir.

Az İzlenen Yol

Belirli geçmiş çerçeveler ve bilinen bir kamera yolu verildiğinde, görev, görüş açısının değişmesi sırasında gelecekteki görüntüleri tahmin etmektir, aynı zamanda bağımsız olarak hareket eden ve çerçeveden çıkıp tekrar girebilecek konuları hesaba katmak gerekir. Bu, sadece stabil bir arka planı korumakla kalmaz, aynı zamanda modelin her hareketli konunun nasıl göründüğünü ve davrandığını tutarlı bir şekilde hatırlaması gerekir, görünür olmadıkları zamanlarda bile.

Yazarların Hybrid Dynamic Retrieval Attention (HyDRA) yöntemi, dinamik konuları statik sahne temsilinden ayıran özel bir hafıza yolu tanıtlayarak bu sorunu çözer, böylece bunlar zaman içinde kalabilir ve tutarlı bir görünüm ve hareketle yeniden ortaya çıkabilir:

HyDRA modelinin kavramsal şeması.

HyDRA, Wan2.1-T2V-1.3B üzerine inşa edilmiştir, difüzyon pipeline’nin büyük ölçüde korunmasına rağmen, dinamik geri çağırma dikkati içeren değiştirilmiş bir transformer bloğu tanıtılır. Bu, modelin geçmiş çerçevelerden hareket ve görünüm ipuçlarını seçerek geri çağırmasına olanak tanır, sabit veya yerel bağlama güvenmek yerine.

Bu işlem, standart difüzyon kaybı yerine uyarlanmış bir Akış Eşleme eğitim hedefi kullanır.

Sahneleri kamera hareketiyle hizalamak için, kamera yörüngeleri açık bir koşul sinyali olarak enjekte edilir, her çerçevede döndürme ve çevirme yoluyla tanımlanan bir poz, sonra zaman içinde görüş açısının evrimini yakalayan bir.compakt temsil içine dönüştürülür.

Önceki (Kling) ReCamMaster girişimiyle paralel olarak, sonuç, bir Çok Katmanlı Perceptron olarak uygulanan bir kamera kodlayıcısı tarafından parse edilir, sonra yayılır ve Difüzyon Transformer özelliklerine eklenir, böylece modelin kamera hareket ederken nesne yerleştirme tutarlılığını korumasına olanak tanır.

Parçalama

Ham difüzyon latents, konu hareketi, görünümü ve arka planı tek bir dolaşık temsil içine karıştırır ve bunlardan doğrudan geri çağırma denemesi, alakasız bağlamı tanıtabilir veya hareketli konuları ‘arka plana karıştırabilir’.

HyDRA, bu sorunu, uzay ve zamanı birlikte işleyen 3D-convolution tabanlı bir Hafıza Parçalayıcı ile çözer – tam latent geçmişini ileriye aktarmak yerine, bunlar, konu görünümü ve hareketini koruyan kompakt, hareket bilincinde hafıza tokenlerine sıkıştırılır:

HyDRA’nın genel görünümü. Sol, Hafıza Parçalayıcı geçmiş çerçeveleri kompakt, hareket bilincinde hafıza tokenlerine dönüştürür; sağ, Dinamik Geri Çağırma Dikkati, mevcut sorguyu bu tokenlere karşı değerlendirir, en ilgili olanları geri çağırır ve tutarlı bir görünüm ve hareketle üretilen çerçeveyi restore eder.

Bu tokenler, gürültüyü filtrelerken uzun menzilli dinamikleri koruyan yapılandırılmış bir hibrit hafıza oluşturur. Dinamik Geri Çağırma Dikkati modülüne geçirilen bu tokenler, modelin görüş alanından outside konuları seçerek geri çağırmasına olanak tanır, böylece bunlar tutarlı bir görünüm, hareket ve bağlamla yeniden ortaya çıkar.

Dinamik Geri Çağırma Dikkati

HyDRA’nın çift hafıza mekanizması, ayrıca dinamik geri çağırma dikkatini, çerçevenin bir parçası olarak ayrı, ancak tamamlayıcı bir rolde kullanır.

Hafıza parçalama, geçmiş latent temsilini, dinamik konuları statik sahne içeriğinden ayıran yapılandırılmış, hareket bilincinde tokenlere sıkıştırır. Bu tokenler, tam bir çerçeve geçmişinden ziyade kalıcı bir hafıza bankası oluşturur.

Dinamik Geri Çağırma Dikkati, bu bankada, üretilme sırasında çalışır, mevcut sorguyu depolanan tokenlere karşı değerlendirir ve üretilen çerçeveye en ilgili olanları seçerek geri çağırır. Bu, görüş alanından outside konuların, görünür olmadıkları zamanlarda bile, latent evrimlerini (örneğin, görünmez olsalar bile yürümeye veya koşmaya devam etmelerini) sürdürmelerine ve görünüm ve hareket tutarlılığı ile yeniden ortaya çıkmalarına olanak tanır.

Veri ve Testler

Testlerde, Wan tabanlı HyDRA sistemi, 77 bağlam çerçevesini kodladı ve downsamples etti, sonra bunları 3D Varyasyonel Otokodlayıcı (VAE) ile parse etti, mentre hafıza parçalayıcı 3D konvolüsyon kullanarak bir çekirdek boyutu 2x4x4’te işledi.

Model, HW-Dünya’da 10,000 iterasyon için 32 (belirtilmeyen) GPU’da, 32’lik bir toplu iş boyutunda eğitildi.

Testlerde, alışılmadık bir şekilde çok sayıda metrik kullanıldı: geleneksel Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM) ve Learned Perceptual Similarity Metrics (LPIPS)’in yanı sıra, yazarlar ayrıca konu tutarlılığı ve arka plan tutarlılığı için VBench suitinden metriklere de başvurdu, çerçeve düzeyinde tutarlılığı değerlendirmek için.

Ayrıca, YOLO V11’den sınırlayıcı kutular kullanarak, hareketli konuları içeren kırpılmış bölgeleri oluşturan ve sonra bu bölgelerden semantic özellikler çıkaran ve benzerliklerini hesaplayan özel bir metrik olan Dinamik Konu Tutarlılığı (DSC) adlı bir metriği tasarladılar.

HyDRA, Difüzyon Zorlama Transformer (DFoT) ve Context-As-Hafıza ile karşılaştırıldı, bir referans Wan2.1-T2V-1.3B modeli, kamera kodlayıcısı ile donatılmış olarak. Tüm modeller, HW-Dünya’da eğitildi ve WorldPlay de ikincil bir test koleksiyonu olarak kullanıldı:

İlk nicel karşılaştırmalarda, HyDRA tüm referansları aştı, PSNR’ı 18.696’dan 20.357’ye ve SSIM’i 0.517’den 0.606’ya çıkardı. Ayrıca, en yüksek bağlamsal ve gerçeklik dice puanlarına ulaştı, sırasıyla 0.827 ve 0.849, Konu ve Arka Plan Tutarlılığı 0.926 ve 0.932’ye ulaştı:

Önceki yaklaşımlarla yapılan ilk nicel karşılaştırma sonuçları.

DFoT, 17.693 PSNR ve Context-as-Hafıza 18.921 elde etti, kazanımlar hafıza parçalama ve dinamik geri çağırma dikkatinin birleşimine atfedildi:

HyDRA’nın güncel durum-sanatıyla karşılaştırılması.

WorldPlay’e karşı testlerle ilgili olarak, yazarlar şunları söylüyorlar:

‘Yöntemimiz, tüm metriklere göre WorldPlay’i aşar, özellikle PSNR’de 5.502’lik bir farkla. WorldPlay, GT-referanslı metriklere (örneğin, PSNR 14.855, DSCGT 0.832) düşük performans gösterir, ancak bağlamsal referanslı metriklere (örneğin, DSCctx 0.822) karşı etkileyici bir dayanıklılık gösterir.

‘Bu gözlem, sadece geniş çapta eğitilmiş modellerin hibrit tutarlılığa sahip olduğunu doğrulamakla kalmaz, aynı zamanda dinamik konu tutarlılığını yansıtan DSC metriklerimizin rasyonelliğini de dolaylı olarak doğrular.

‘Sonuç olarak, bu etkileyici sonuçlar, modelimizin yeteneklerini vurgular ve kurulu ticari modeller üzerinde bile üstünlüğünü gösterir.’

Makale, testlerde yapılan nitel karşılaştırmaların statik bir temsilini sunar:

Kamera hareketi altında çıkış ve yeniden giriş nitel karşılaştırması. Yazarlar, HyDRA’nın, karakterin kimliğini, pozunu ve hareket sürekliliğini, çerçeveden çıkıp tekrar girdiğinde koruduğunu, gerçekliğe yakın bir şekilde, diğer yöntemlerin ise kayma, tutarsız hareket veya karakter bozulmasına uğradığını, bunları kırmızı ile vurgulandı (tutarlı geri çağırma yeşil ile işaretlenmiştir).

Bu sonuçlarla ilgili olarak, yazarlar şunları söylüyorlar:

‘Çıkış ve yeniden giriş olaylarında, referans ve Context-as-Hafıza, ciddi konu bozulmasına ve hareket tutarsızlığına sahiptir. DFoT, konu bütünlüğünü korumayı başarısız olur, bu da konunun tamamen kaybolmasına neden olur. WorldPlay, konunun görünüm tutarlılığını korur, ancak stepped hareketler ve doğal olmayan eylemler gösterir.

‘Karşılaştırmayla, bizim yöntemimiz, hibrit tutarlılığı başarıyla korur, konunun kimliğini ve hareket bütünlüğünü, konu çerçeveye yeniden girdiğinde korur.’

Ek sonuçlar, ek sitede video formatında görülebilir, ilk dört örneği (bizim tarafımızdan) birleştirerek aşağıdaki videoyu oluşturduk:

Çalma

Sonuç

AI video üretiminin en büyük sorunlarından birini çözmeye yönelik herhangi bir girişimi memnuniyetle karşılamaktayız, ancak bu tür çıkış/giriş sorunlarının optimal çözümü, CGI’de olduğu gibi, ayrı référence materyallerinin kullanılmasından geleceğe benzemektedir.

Bu, bir représentasyonun, bir ad hoc ve anlık şekilde canlı tutulmaya çalışılması gibi görünüyor ve ayrıca, şimdi Runway gibi çeşitli black-box portallarda sunulan intra-çekim tutarlılığına doğru ilerleme yolunda net bir ilerleme yolu sunmuyor.

Eğer bir takip çekimi, önceki çekimin latent uzayına erişimi gerektirecekse, neden her iki örneğin de ayrı ve ayrı bir karakter gömme işlemi yapmıyorsunuz?

* Hiç kimse buna ad vermedi ve ortak terimler olmadan tartışma zordur.

** Şu anda proje sayfasında ‘yakında geliyor’ olarak rapor ediliyor.

Cuma, 27 Mart 2026’da ilk kez yayımlandı