Anderson'ın Açısı

Gözden Uzak, Akıldan Uzak: Yapay Zeka Videolarındaki En Büyük Sorunu Ele Almak

Yayınlanan 27 Mart, 2026

Martin Anderson

Mart 2026 tarihli 'Gözden Uzak Ama Akıldan Çıkmaz: Dinamik Video Dünya Modelleri için Hibrit Bellek' başlıklı makalenin ilk sayfasından bir detay. Kaynak - https://arxiv.org/pdf/2603.25716

En iyi yapay zekâ video oluşturucularının bile en büyük sorunu, kronik hafıza kaybı yaşamalarıdır; Çin'den gelen yeni araştırmalar bu sorunu ele almaya çalışıyor.

En iyi ve en gelişmiş yapay zekâ video oluşturma sistemlerinin bile en büyük sorunu, hepsinin aynı şeye sahip olmasıdır. kronik amneziKamera odaklandığı nesneden uzaklaşıp sonra tekrar odaklandığında, başlangıçta orada olanı asla bulamayacaktır; karakterler kaybolmuş, görünüşleri ve/veya hareket biçimleri değişmiş olacak ve arka plan da büyük olasılıkla değişmiş olacaktır.

Bunun nedeni, difüzyon tabanlı üretim sisteminin sınırlı bir yuvarlanma özelliğine sahip olmasıdır. dikkat penceresive çünkü her zaman bununla uğraşıyor. o anda ne görebiliyor; gerçek bir uygulamada tekbencilik, nedir dışında Üretken yapay zeka için çerçeve mevcut değildir; kelimenin tam anlamıyla bellekten silinir.

Bu var Geleneksel CGI'da bu hiçbir zaman sorun olmadı.Bu sayede, bir nesnenin görünümünü ve hareketini de içeren ayrıntıları, oluşturulmuş bir videoda tekrar ihtiyaç duyulabileceği herhangi bir noktada her zaman doğru bir şekilde yeniden oluşturabilir ve ona atıfta bulunabilirler:

Geleneksel CGI ağları ve bitmap dokuları her zaman bir render işlemine dahil edilebilir ve tutarlı bir görünüm sağlar; bu, yapay zeka yaklaşımlarında elde edilmesi çok daha zor bir yöntemdir çünkü eşdeğer bir 'düz referans' yoktur.

Geleneksel CGI ağları ve bitmap dokuları her zaman bir render işlemine geri çizilebilir ve tutarlı bir görünüm sağlayabilir; bu, yapay zeka yaklaşımlarında elde edilmesi çok daha zor bir yöntemdir, çünkü eşdeğer bir 'düz referans' dosyası veya ilgili dosyalar koleksiyonu yoktur.

Bunun nedeni, CGI'nin bileşen unsurlarının, örneğin ağ ve dokular (yukarıdaki resme bakın), hareket dosyaları ve diğer dinamik davranışların, diskte ayrı ayrı saklanabilmesi ve istenildiği zaman bir kompozisyona dahil edilebilmesidir.

Üretken video yapay zekasında böyle bir 'düz veri deposu' yoktur; bu işlevselliğe en yakın yaklaşım şudur: LoRA'lar – Tüketici ekipmanları üzerinde eğitilebilen, özel olarak eğitilmiş yardımcı dosyalar; yeni karakterler ve özel kıyafetlere olanak tanır. videoya 'zorla' dahil edilmek:

Oynatmak için tıklayın. Yapay zekâ videolarının benmerkezcilik sorunu, LoRA'lar kullanılarak bir ölçüde hafifletilebilir; ancak sonuçlar bunaltıcı olabilir.

Ancak bu ideal bir çözüm değil. Birincisi, LoRA'lar belirli bir temel model sürümüne (örneğin Wan2+ veya Hunyuan Video), Ve yeniden oluşturulması gerekiyor Temel model her değiştiğinde. Bir diğeri ise LoRA'lar. ağırlıkları bozmaya eğilimlidirler Temel modelin bir parçası olarak, LoRA'nın eğitilmiş kimliği bir sahnedeki tüm karakterlere uygulanır. Ek olarak, ince ayar Bu tür yöntemler şunlardır: çok hassas Kötü düzenlenmiş veri kümelerine.

Doğru Tekrar Gösterileri

Şimdi ise Çin'den yeni bir akademik/endüstriyel iş birliği, bu konu üzerine üç yılı aşkın süredir yaptığım haberlerde dikkatimi çeken ilk önemli çözümü sunuyor. Araştırmacıların "teknik yöntem" olarak adlandırdığı bir yöntemi kullanıyor. hibrit bellek Ekran dışındaki karakteri ve doğrudan çevresini aktif ve doğru tutmak için gizli alan Modelin özelliklerine göre, bakış açımız onlara geri döndüğünde etki tutarlı olur:

Oynatmak için tıklayın. Yeni makalenin proje sitesinden, yapay zeka tarafından üretilen (WAN) karakterlerin çerçeveden çıkıp doğru bir şekilde tekrar girmesine dair iki örnek. Kaynak

Şunu vurgulamak gerekir ki, bu, başarmakla aynı şey değildir. karakter tutarlılığı farklı çekimler arasında – başarıldığı iddia edilen bir şey. bir yıl önce Runway'in 4. nesil sürümünde yer alan ve halen de varlığını sürdüren özellik. an devam takip Araştırma literatüründe.

Daha doğrusu, burada çözülen şey, gördüğüm hiçbir ticari veya deneysel çerçevenin başaramadığı bir şeydir – görsel olarak tutarlı yeniden ortaya çıkış Ekran dışında kalan bir karakterin önceki görünümü, hareketleri ve ortamı:

Oynatmak için tıklayın. Yeni girişimin proje alanında verilen diğer iki ana örnek şunlardır.

Açıkçası, burada geçerli olan prensipler, kentsel keşif, birinci şahıs bakış açısıyla araç kullanma veya karakter dışı diğer görselleştirme türleri gibi diğer alanlara da eşit şekilde uygulanabilir.

Ayrıca, bu yeni yaklaşımın, Runway Gen4 ve diğer kapalı kaynaklı platformların karakterleri yeniden oluşturarak ele aldığını iddia ettiği sorunu çözmediğini veya gidermediğini de vurgulamak gerekir. farklı çekimlerdeBunun yerine, onların henüz hiçbirinin başaramadığı şeyi yapıyor: bir karakteri ve ortamı hafızada kalıcı kılıyor. izleyici tarafından her zaman görünür kalmalarına gerek kalmadan.

Yeni çalışma, özel olarak oluşturulmuş bir veri kümesini içermektedir. Unreal EngineAyrıca, solipsizm problemi* için özel ölçütler ve WAN üzerinden oluşturulmuş özel bir üretken çerçeve de bulunmaktadır. Yazarlar, mevcut birkaç benzer sisteme karşı yapılan testlerde en iyi sonuçları elde ettiklerini iddia ediyor ve şu yorumu yapıyorlar:

'[Bellek] mekanizmaları, dünya modellerini geliştirmede kritik bir sınır olarak ortaya çıkmıştır; çünkü bellek kapasitesi, üretilen içeriğin mekansal ve zamansal tutarlılığını belirler.

'Özellikle, modelin bakış açısı değişiklikleri veya uzun vadeli tahminler sırasında tarihsel bağlamı korumasını sağlayan şey bilişsel dayanak noktasıdır.'

'Sağlam bir hafıza olmadan, simüle edilmiş bir dünya hızla birbirinden kopuk, kaotik karelere dönüşür.'

MKS yeni kağıt başlıklı Gözden Uzak Ama Akıldan Çıkmaz Değil: Dinamik Video Dünya Modelleri için Hibrit BellekBu çalışma, Huazhong Bilim ve Teknoloji Üniversitesi'nden yedi araştırmacı ve Kuaishou Teknoloji'deki Kling Ekibi tarafından gerçekleştirildi.

Yöntem

Yeni çalışmanın temel taşı şudur: hibrit bellekBu, 'görüş dışı ekstrapolasyonu' kolaylaştırır; yani izleyici 'başka yöne bakarken' (veya karakterin kendisi görüş alanından çıkarken) karakterlerin ve bağlamlarının korunmasını sağlar. Bu senaryoda, çerçeve şu işlevi yerine getirmelidir: uzaysal-zamansal ayrışmaBu eserde, hem izleyicinin görebildiği nesile, hem de artık görünür olmayan karakterin ekran dışındaki varlığına aynı anda odaklanılmaktadır.

Giriş/çıkış kamera hareketine örnekler. Bu örneklerde, karakterin kadrajdan çıkmasına neden olan kameranın hareketidir, ancak çeşitli örneklerde karakterin kendisinin de geçici olarak ekran dışına çıktığını gözlemleyebiliriz. Kaynak

Yazarlar, difüzyon latentinde şu hususa dikkat çekiyorlar: kalıplamalarınÇıkarılması ve kullanılması gereken özellikler oldukça fazladır. dolaşık Diğer özellikler ve niteliklerle birlikte; ve bunları ayıklamaya çalışmanın genellikle konunun arka planda 'donup kalmasına' neden olduğu; bu nedenle de tasarladıkları ve derledikleri yöntemle, HM-Dünyası Özellikle hibrit bellek eğitimine yönelik veri seti**:

Makalede, HM-World veri setinde yer alan dört kategoriye ait örnekler gösterilmiştir.

Koleksiyon dört boyutta oluşturulmuştur: konu yörüngeleri, kamera yörüngeleri, Sahneler, ve konular.

MKS sentetik veri HM-World, çeşitli görünümlere sahip insanlar ve birden fazla türden hayvan da dahil olmak üzere 17 sahne ve 49 özne içeriyor. Bunların kombinasyonları, Unreal Engine aracılığıyla prosedürel olarak bir sahneye yerleştiriliyor, her birinin kendine özgü bir hareket animasyonu var ve ardından rastgele seçilen bir yörüngeye yerleştiriliyor.

Yazarlar, çeşitli bir dizi unsurun bulunduğunu belirtiyorlar. çıkış-giriş Veri setinde, her biri birden fazla başlangıç noktasına sahip 28 farklı kamera yörüngesi içeren olaylar gösterilmektedir.

Son koleksiyon, her biri açıklama eklenmiş 59,225 video klibinden oluşuyor. MiniCPM-V Çok Modlu Büyük Dil Modeli (MLLM).

Araştırmacılar, kendi veri setlerinin önceki veri setlerine kıyasla istatistiksel avantajlarına dikkat çekiyor. DünyaSkoru; Bağlam-Bellek Olarak; Çoklu Kamera Videosu; Ve 360° Hareket:

Mevcut veri kümeleri ile HM-World veri kümesi arasındaki karşılaştırmada, 'Dinamik Özne' hareketli varlıkların varlığını, 'Özne Çıkış-Giriş' öznelerin çerçeveden çıkıp tekrar girdiği klipleri ve 'Özne Duruşu' ise açıklama eklenmiş 3B duruşların dahil edilmesini ifade eder.

Daha Az Gidilen Yol

Geçmişteki birkaç kare ve bilinen bir kamera yolu göz önüne alındığında, görev, izleyicinin bakış açısı değiştikçe gelecekteki görüntüleri tahmin etmek ve aynı zamanda bağımsız olarak hareket eden ve geri dönmeden önce kadrajdan çıkabilen nesneleri hesaba katmaktır. Bu, sabit bir arka planı korumaktan daha fazlasını gerektirir, çünkü model, görünür olmadığı dönemlerde bile, hareket eden her nesnenin nasıl göründüğüne ve davrandığına dair tutarlı bir iç kayıt tutmalıdır.

Yazarların Hibrit Dinamik Geri Çağırma Dikkat (HyDRA) yöntemi, dinamik özneleri statik sahne temsilinden ayıran özel bir bellek yolu oluşturarak bu sorunu ele alır; bu sayede özneler zaman içinde varlıklarını sürdürebilir ve tutarlı görünüm ve hareketle yeniden ortaya çıkabilirler:

HyDRA modeli için kavramsal şema.

HyDRA, üzerine inşa edilmiştir. Wan2.1-T2V-1.3BÇekirdek difüzyon hattı büyük ölçüde aynı kalırken, değiştirilmiş bir yöntem tanıtıldı. transformatör Dinamik geri çağırma dikkatini içeren bir blok. Bu, modelin sabit veya yerel bağlama güvenmek yerine, geçmiş karelerden hareket ve görünüm ipuçlarını seçici olarak hatırlamasını sağlar.

Bu süreç, uyarlanmış bir yöntem kullanmaktadır. Akış Eşleştirme standart yerine eğitim hedefi difüzyon kaybı.

Sahnelerin kamera hareketleriyle uyumlu kalmasını sağlamak için, kamera yörüngeleri açık bir koşullandırma sinyali olarak eklenir; her karenin pozisyonu döndürme ve öteleme ile tanımlanır ve daha sonra bakış açısının zaman içinde nasıl geliştiğini yakalayan kompakt bir gösterime dönüştürülür.

Öncekiyle (Kling) uyumlu olarak ReCamMaster Bu girişim sonucunda, kamera kodlayıcı tarafından ayrıştırılan ve şu şekilde uygulanan bir veri elde edilir: Çok Katmanlı Algılayıcıdaha sonra yayınlandı ve eklendi Difüzyon Trafosu Bu özellikler, kameranın hareketine bağlı olarak modelin nesne yerleşimini tutarlı bir şekilde korumasını sağlar.

dizgeciklere

Ham difüzyon latentleri, öznenin hareketini, görünümünü ve arka planını tek bir iç içe geçmiş temsile karıştırır ve bu alandan doğrudan bilgi almaya çalışmak, alakasız bağlam ekleme veya hareket eden öznelerin manzaraya 'kaynaşmasına' neden olma riskini taşır.

HyDRA, bu sorunu, uzay ve zamanı birlikte işleyen 3 boyutlu evrişim tabanlı bir Bellek Belirteci ile çözüyor; tam gizli geçmişi iletmek yerine, deneklerin nasıl göründüğünü ve hareket ettiğini koruyan, hareket algılayıcı kompakt bellek belirteçlerine sıkıştırıyor:

HyDRA'ya genel bakış. Solda, Bellek Belirteçleyici geçmiş kareleri kompakt, harekete duyarlı bellek belirteçlerine dönüştürür; sağda, Dinamik Alma Dikkat Mekanizması mevcut sorguyu bu belirteçlere karşı değerlendirir, en alakalı olanları alır ve bunları oluşturulan karede tutarlı görünüm ve hareketi geri yüklemek için kullanır.

Bu belirteçler, uzun menzilli dinamikleri korurken gürültüyü filtreleyen yapılandırılmış bir hibrit bellek oluşturur. Dinamik Geri Çağırma Dikkat modülüne aktarılan bu belirteçler, modelin ekran dışındaki nesneleri seçici olarak hatırlamasını sağlayarak, bunların tutarlı görünüm, hareket ve bağlamla yeniden ortaya çıkmasını mümkün kılar.

Dinamik Geri Çağırma Dikkat

HyDRA'nın çift bellek mekanizması da aynı zamanda şunları kullanır: dinamik geri çağırma dikkati Çerçeve içerisinde farklı ancak tamamlayıcı bir rol üstleniyorlar.

Bellek belirteçleme, geçmişteki gizli temsilleri yapılandırılmış, harekete duyarlı belirteçlere sıkıştırarak dinamik nesneleri statik sahne içeriğinden ayırır ve nesnelerin arka plana karışmasına neden olan karışıklığı azaltır. Bu belirteçler, tam bir kare geçmişi yerine kalıcı bir bellek bankası oluşturur.

Dinamik Geri Alma Dikkat Mekanizması, oluşturma sırasında bu veri bankası üzerinde çalışır, mevcut sorguyu depolanmış belirteçlerle karşılaştırır ve gelişen çerçeveye en uygun olanları seçici olarak geri çağırır. Bu, ekran dışında kalan nesnelerin gizli evrimlerine devam etmelerini (yani, onları göremediğinizde yürümeye, koşmaya devam etmelerini) ve sıfırlanmak veya bozulmak yerine, tekrar görünür hale geldiklerinde tutarlı bir görünüm ve hareketle yeniden ortaya çıkmalarını sağlar.

Veriler ve Testler

Testlerde, Wan tabanlı HyDRA sistemi, 77 bağlam karesini kodlayıp örnekleme oranını düşürdükten sonra bunları 3 boyutlu Varyasyonel Otomatik Kodlayıcı (3D Variational Autoencoder) ile ayrıştırdı.VAE), yukarıda bahsedilen bellek belirteçleyici ise kullanıldı. 3 boyutlu evrişim Bir de çekirdek boyutu 2x4x4 boyutlarında.

Model, 32 (belirtilmemiş) GPU üzerinde 10,000 yineleme boyunca HW-World veri kümesinde eğitildi. Parti boyutu 32 evi.

Testlerde alışılmadık derecede yüksek sayıda ölçüm kullanıldı: alışılagelmiş Tepe Sinyal-Gürültü Oranına ek olarak (PSNR), Yapısal Benzerlik Endeksi (SSIM) ve Öğrenilmiş Algısal Benzerlik Ölçütleri (LPIPS'lerYazarlar ayrıca şu yöntemleri de kullandılar: konu tutarlılığı ve arka plan tutarlılığı itibaren VBank Çerçeve düzeyinde tutarlılığı değerlendirmek için kullanılan paket.

Ek olarak, özel bir ölçüt geliştirdiler: Dinamik Konu Tutarlılığı (DSC), sınırlayıcı kutuları kullanır. YOLO V11, hareket eden nesneleri içeren kırpılmış bölgeler oluşturmak, bu bölgelerden anlamsal özellikleri çıkarmak ve ardından benzerliklerini hesaplamak için kullanıldı.

HyDRA'ya karşı bir teklif sunuldu. Difüzyon Zorlama Dönüştürücü (DFoT) ve Bağlam-Bellek OlarakTüm modeller, kamera kodlayıcısı ile donatılmış (tüm kliplerde ortak olan öznel bakış açısını temsil etmek için) temel bir Wan2.1-T2V-1.3B modeli üzerinde eğitilmiştir. Tüm modeller HW-World üzerinde eğitilmiştir ve Dünya Oyunu Sıfır çekimlik, ikincil test koleksiyonu olarak da kullanıldı:

İlk nicel karşılaştırmalarda, HyDRA tüm temel yöntemlerden daha iyi performans göstererek PSNR'yi 18.696'dan 20.357'ye ve SSIM'i 0.517'den 0.606'ya yükseltti. Ayrıca, 0.827 ve 0.849 ile en yüksek bağlamsal ve gerçek Dice puanlarını elde etti; Konu ve Arka Plan Tutarlılığı ise sırasıyla 0.926 ve 0.932'ye ulaştı.

Önceki yaklaşımlarla yapılan ilk nicel karşılaştırmanın sonuçları.

DFoT 17.693 PSNR'ye, Context as Memory ise 18.921 PSNR'ye ulaştı; bu kazanımlar, bellek belirteçlemesinin dinamik geri çağırma dikkat mekanizmasıyla birleştirilmesine atfedildi:

HyDRA'nın mevcut en gelişmiş teknolojiyle nicel karşılaştırması.

Yazarlar, WorldPlay'e karşı yapılan testlerle ilgili olarak şunları belirtiyor:

'Yöntemimiz, tüm ölçütlerde WorldPlay'i geride bırakıyor ve 5.502'lik kayda değer bir PSNR farkı gösteriyor. WorldPlay, alan dağılımı farkı ve özel ince ayar eksikliği nedeniyle GT referanslı ölçütlerde (örneğin, 14.855 PSNR, 0.832 DSCGT) daha düşük performans gösterse de, 0.822'lik bir DSCctx değeri elde ederek bağlam referanslı ölçütlerde dikkat çekici bir sağlamlık sergiliyor.'

'Bu gözlem, kapsamlı bir şekilde eğitilmiş modellerin makul düzeyde hibrit tutarlılığa sahip olduğunu doğrulamakla kalmıyor, aynı zamanda dinamik özne tutarlılığını yansıtmada önerdiğimiz DSC metriklerinin rasyonelliğini dolaylı olarak doğruluyor.'

'Sonuç olarak, bu etkileyici sonuçlar modelimizin olağanüstü yeteneklerini vurgulayarak, yerleşik ticari modellere kıyasla bile üstünlüğünü göstermektedir.'

Makale, testler için gerçekleştirilen niteliksel karşılaştırmaların statik bir temsilini sunmaktadır:

Kamera hareketi altında çıkış ve yeniden girişin niteliksel karşılaştırması. Yazarlar, HyDRA'nın öznenin kimliğini, duruşunu ve hareket sürekliliğini çerçeveden ayrıldıktan ve geri döndükten sonra koruduğunu ve gerçek duruma çok yakın olduğunu, buna karşılık rakip yöntemlerin kayma, tutarsız hareket veya özne bozulması sergilediğini (kırmızı ile vurgulanmıştır) iddia etmektedir (tutarlı kurtarmalar yeşil ile işaretlenmiştir).

Yazarlar bu sonuçlar hakkında şu yorumu yapıyor:

'Karmaşık giriş-çıkış olaylarında, temel durum ve Bağlam-Bellek yaklaşımı ciddi özne bozulması ve hareket tutarsızlığı sergiler. DFoT, özne bütünlüğünü koruyamaz ve tamamen kaybolmasına yol açar. WorldPlay, öznenin görünüm tutarlılığını korumayı başarsa da, kekeleyen hareketlerden ve doğal olmayan eylemlerden muzdariptir.'

'Buna karşılık, yöntemimiz, öznenin kadraja yeniden girmesinden sonra hem öznenin kimliğini hem de hareket tutarlılığını koruyarak hibrit tutarlılığı başarıyla sürdürmektedir.'

Daha fazla sonuç video formatında şu adreste görülebilir: ek siteBunlardan ilk dört örneği (bizim tarafımızdan) aşağıdaki videoda bir araya getirdik:

Oynatmak için tıklayın. Proje sahasında yapılan altı test sonucundan dördü sergilendi. Kaynak

Sonuç

Yapay zekâ video üretiminin en büyük sorunlarından birini ele almaya yönelik her türlü girişim memnuniyetle karşılanırken, bana göre bu tür çıkış/yeniden giriş sorunları için en uygun çözümün, tıpkı CGI'da olduğu gibi, ayrı ayrı düzenlenebilen ve bir kompozisyon alanına getirilebilen farklı referans materyalleri şeklinde olacağı kaçınılmaz görünüyor.

Bir şeyi canlı tutmaya çalışmakla ilgili bu iş... özel Ve anlık olarak yapılan bu işlem oldukça yorucu görünüyor ve Runway gibi çeşitli kara kutu portallarında sunulan çekim içi tutarlılığa giden net bir yol da sunmuyor. Eğer bir sonraki çekimin önceki çekimin gizli alanına erişim gerektireceği ortaya çıkarsa, neden her iki örnekte de ayrı ve bağımsız bir karakter yerleştirmesi olmasın?

* Henüz kimse ona bir isim vermedi ve ortak terimler olmadan tartışmak zor.

** Proje sayfasında şu anda 'yakında geliyor' olarak belirtiliyor.

İlk yayın tarihi Cuma, 27 Mart 2026

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai