Anderson’un Açısı
Neden AI Videosu Bazen Geriye Dönük Olur

Eğer 2022, geniş bir kamuoyunun hayal gücünü yakalayan yıl olduysa, 2025 yılı, Çin’den gelen yeni nesil generatif video çerçevelerinin de aynı şeyi yapacağı yıl gibi görünüyor.
Tencent’in Hunyuan Video’su, açık kaynaklı bir dünya video difüzyon modelinin tam sürümünü yayınlayarak, kullanıcıların ihtiyaçlarına göre uyarlayabilecekleri bir modeli hobbyist AI topluluğu üzerinde büyük bir etki yaratmıştır.
Bunun hemen ardından, Alibaba’nın daha yakın zamanda yayınlanan Wan 2.1’i, bu dönemdeki en güçlü görüntü-videya FOSS çözümlerinden biri olarak ortaya çıktı ve şimdi Wan LoRAs aracılığıyla özelleştirme desteği sunuyor.
Yakın zamanda yayınlanan insan merkezli temel model SkyReels’in yanı sıra, yazıldığı sırada Alibaba’nın kapsamlı VACE video oluşturma ve düzenleme suitinin yayınlanmasını da bekliyoruz:
Oynatmak için tıklayın. Alibaba’nın çok fonksiyonlu AI düzenleme suitinin VACE’nin beklenen yayınlanması kullanıcı topluluğunu heyecanlandırdı. Kaynak: https://ali-vilab.github.io/VACE-Page/
Ani Etki
Generatif video AI araştırması sahnesi de aynı derecede patlayıcı; hala Mart ayının ilk yarısında ve Salı günü Arxiv’in Bilgisayar Görme bölümüne (generatif AI makaleleri için bir merkez) gelen gönderiler neredeyse 350 girişe ulaştı – bu, konferans sezonunun zirvesiyle ilgili bir rakam.
2022 yazında Stable Diffusion’un lançmanından (ve ardından Dreambooth ve LoRA özelleştirme yöntemlerinin geliştirilmesinden) bu yana geçen iki yıl, büyük ölçüde önemli gelişmelerin eksikliğiyle karakterize edildi, ancak son birkaç haftada yeni sürümler ve yenilikler öyle bir hızda ilerledi ki, hepsini takip etmek neredeyse imkansız, hiç konuşmak değil.
Video difüzyon modelleri gibi Hunyuan ve Wan 2.1, nihayet, yıllar süren yüzlerce araştırma girişiminin başarısızlıklarından sonra, insanların, çevrelerin ve nesnelerin oluşturulmasına ilişkin zamanlı tutarlılık sorununu çözdü.
Kuşkuya yer bırakmayacak şekilde, VFX stüdyoları şu anda yüz değiştirme gibi acil zorlukları çözmek için yeni Çin video modellerini uyarlamak için personel ve kaynaklar uyguluyor, şimdilik ControlNet tarzı yardımcı mekanizmaların eksikliğine rağmen.
Bir böyle önemli engel potansiyel olarak aşılmış olsa da, bu, beklenen yollardan değil.
Kalan sorunlardan biri, önemsiz değil:
Oynatmak için tıklayın. ‘Küçük bir kayanın dik, kayalık bir yamacın aşağısına yuvarlanarak toprak ve küçük taşları yerinden çıkardığı’ promtına dayalı olarak Wan 2.1, yeni makalede en yüksek puanları alan bir hata yaptı. Kaynak: https://videophy2.github.io/
Yokuş Yukarı Geriye
Mevcut tüm metin-videya ve görüntü-videya sistemleri, ticari kapalı kaynaklı modeller dahil, yukarıdaki gibi fiziksel hatalar üretme eğilimindedir, burada video, ‘Küçük bir kayanın dik, kayalık bir yamacın aşağısına yuvarlanarak toprak ve küçük taşları yerinden çıkardığı‘ promtına dayalı olarak bir kayayı yokuş yukarı yuvarlanan bir video gösterir.
Bunun neden olduğu konusunda bir teori, yakın zamanda Alibaba ve UAE arasındaki bir akademik işbirliği tarafından önerildi, modeller her zaman tek resimler üzerinde eğitim görür, video eğitim amaçları için bile, ve önce ve sonra resimlerinin doğru zamanlı sıralamasını öğrenmeyebilir.
En muhtemel çözüm, ilgili modellerin eğitim veri kümesinde hem ileri hem de geri yönde oynatılan kaynak eğitim kliplerine maruz kaldıklarıdır, böylece eğitim verilerini etkili bir şekilde iki katına çıkarmış olurlar.
Uzun süredir bilinmektedir ki, bu, bazı hareketler tersine çalışırken, birçok hareketin tersine çalışmadığı için keyfi olarak yapılmamalıdır. Bir 2019 çalışması, UK’nin Bristol Üniversitesi’nden, bir yöntem geliştirmeye çalıştı.

Üç tür hareketin örnekleri, yalnızca biri serbestçe tersine dönebilir ve fiziksel dinamiklerini korur. Kaynak: https://arxiv.org/abs/1909.09422
Çalışmanın yazarları sorunu net bir şekilde tanımlar:
‘Tersine çevrilmiş videoların gerçekçiliğinin, tersine çevrilme artefaktları tarafından tehlikeye atıldığını bulduk, bunlar doğal bir dünyada mümkün olmayan sahne unsurlarıdır. Bazı artefaktlar ince, diğerleri ise kolayca görülebiliyor, örneğin tersine çevrilmiş bir ‘atma’ eylemi, atılan nesnenin zeminden kendiliğinden yükselmesi.
‘İki tür tersine çevrilme artefaktı gözlemledik, fiziksel, doğa yasalarını ihlal edenler ve olasılık dışı, olası ancak muhtemel olmayan senaryoları betimleyenler. Bunlar birbirini dışlamıyor ve birçok tersine çevrilmiş eylem her iki tür artefaktı da sergiliyor, örneğin bir kağıdı buruştururken.
‘Fiziksel artefakt örnekleri arasında: tersine çevrilmiş yerçekimi (ör. ‘bir şeyi bırakmak’), nesnelerde kendiliğinden oluşan itişler (ör. ‘bir kalemi döndürmek’) ve tersine çevrilemeyen durum değişiklikleri (ör. ‘bir mum yakmak’) yer alır. Olası bir artefakt örneği: bir tabağı dolaptan almak, onu kurutmak ve kurutma raftına koymak.
‘Bu tür veri yeniden kullanımının eğitim sırasında çok yaygın olduğu ve faydalı olabileceği bilinmektedir – örneğin, modelin yalnızca bir görüntüye veya nesneye bir bakış açısıyla öğrenmesini engellemek için.
‘Bu, elbette, yalnızca gerçekten simetrik olan nesneler için çalışır; ve bir videodan fizik öğrenmek, yalnızca tersine çevrilmiş versiyonun, ileri yönde olduğu kadar mantıklı olması durumunda işe yarar.’
Geçici Tersine Çevirme
Hunyuan Video ve Wan 2.1 gibi sistemlerin, eğitim sırasında keyfi olarak ‘tersine çevrilmiş’ kliplere maruz kaldıklarına dair hiçbir kanıtımız yok (araştırmacılar veri artırma rutinleri hakkında özel değildi).
Ancak, pek çok rapor (ve kendi pratik deneyimim) karşısında, tek makul alternatif olasılık, bu modelleri çalıştıran hyperscale veri kümelerinin, aslında tersine hareket eden klipleri içerebileceğidir.
Yukarıdaki örnek videoda kullanılan kaya, Wan 2.1 kullanılarak oluşturuldu ve video difüzyon modellerinin fiziksel hareketi nasıl işlediğini inceleyen yeni bir çalışmada yer alıyor.
Bu projedeki testlerde Wan 2.1, fiziksel yasalarına uyumu açısından yalnızca %22’lik bir puan elde etti.
Bu, test edilen herhangi bir sistemin en iyi puanı, bu nedenle video AI için bir sonraki engelimizi bulmuş olabiliriz:

Önde gelen açık ve kapalı kaynaklı sistemlerin aldığı puanlar, çerçevelerin çıktısı insan annotatörler tarafından değerlendirildi. Kaynak: https://arxiv.org/pdf/2503.06800
Araştırmacılar, ikinci sürümünde VideoPhy adlı bir benchmarking sistemi geliştirdiler, kod GitHub’da mevcuttur.
Kapsam, burada kapsamlı bir şekilde ele alınamayacak olsa da, metodolojisi ve fiziksel hareketi tersine çevrilmesini önlemek için model eğitim oturumlarını yönlendirmeye yardımcı olabilecek bir ölçüt oluşturma potansiyeli hakkında genel bir bakış alalım.
Çalışma, UCLA ve Google Research’tan altı araştırmacı tarafından yürütülen VideoPhy-2: Video Oluşturma için Zorlu Bir Eylem Merkezli Fiziksel Anlam Değerlendirmesi olarak adlandırıldı. Bir proje sitesi de mevcuttur, ayrıca GitHub’da kod ve veri setleri ve Hugging Face’de bir veri seti görüntüleyicisi bulunmaktadır.
Oynatmak için tıklayın. Burada, OpenAI Sora modeli, küreklerin ve yansımanın etkileşimlerini anlamakta başarısız oluyor ve hem kürek çeken kişi hem de küreğin onunla etkileşimi için mantıklı bir fiziksel akış sağlayamıyor.
Yöntem
Araştırmacılar, VideoPhy-2‘yi ‘gerçek dünya eylemleri için zorlu bir ortak anlayış değerlendirmesi veri kümesi’ olarak tanımlarlar. Toplama, çeşitli fiziksel aktiviteleri ve nesne etkileşimlerini içeren 197 eylem içerir.
Bir büyük dil modeli (LLM), bu temel eylemlerden 3840 promt oluşturur ve promtler, çeşitli çerçeveler aracılığıyla videolara sentezlenmek için kullanılır.
Sürecin tamamında, araştırmacılar, AI tarafından oluşturulan videoların uyması gereken ‘aday’ fiziksel kurallar ve yasaları listeledi ve bunları görme-dil modelleri kullanarak değerlendirdi.
Araştırmacılar şöyle diyor:
‘Örneğin, bir tenis oynayan sporcunun videosunda, bir fiziksel kural, tenis topunun yerçekimi altında parabolik bir yol izlemesidir. Altın standardı için, insan annotatörlerden her videoyu genel anlamsal uyuma ve fiziksel anlama göre puanlamalarını ve çeşitli fiziksel kurallara uymasını istemekteyiz.’

Üstte: Bir eylem kullanarak bir LLM ve bir metin-videya oluşturucuyla bir video oluşturmak için bir metin promtı oluşturulur. Bir görme-dil modeli, videoyu altyazılıyor ve oynanan olası fiziksel kuralları tanımlıyor. Altta: İnsan annotatörleri, videonun gerçekçiliğini değerlendiriyor, kural ihlallerini onaylıyor, eksik kuralları ekliyor ve videonun orijinal promt ile eşleşip eşleşmediğini kontrol ediyor.
İlk olarak, araştırmacılar, AI tarafından oluşturulan videolarda fiziksel anlamlılığı değerlendirmek için bir dizi eylem derlediler. Kinetics, UCF-101 ve SSv2 veri kümelerinden 600’den fazla eylem ile başladılar, spor, nesne etkileşimleri ve gerçek dünya fiziksel aktiviteleri içeren faaliyetlere odaklandılar.
İki bağımsız STEM eğitimi almış öğrenci annotatör grubu (en az lisans derecesi ile) listeyi gözden geçirdi ve süzgeçten geçirdi, yerçekimi, momentum ve esneklik gibi ilkeleri test eden eylemleri seçti ve düşük hareketli görevleri çıkardı.
Sonraki aşamada, Gemini-2.0-Flash-Exp ile daha da rafine edildi ve 197 eylem içeren nihai veri kümesini oluşturdu, 54’ü nesne etkileşimlerini ve 143’ü fiziksel ve spor aktiviteleri içeriyordu:

Damıtılmış eylemlerin örnekleri.
İkinci aşama için araştırmacılar, Gemini-2.0-Flash-Exp’ı her eylem için 20 promt oluşturmak için kullandı, toplam 3.940 promt elde edildi. Oluşturma süreci, net bir şekilde temsil edilebilen görünen fiziksel etkileşimlere odaklandı.
Örneğin, basit bir promt gibi ‘Okçu oku bırakır‘ yerine, model daha ayrıntılı bir versiyon üretmeye yönlendirildi: ‘Okçu yayı tam gerilimle gerer, sonra oku bırakır, oku düz bir çizgi izler ve bir kağıt hedefin merkezine isabet eder‘.
Modern video modelleri daha uzun açıklamaları yorumlayabildiğinden, araştırmacılar, görüntüleri eklemek için Mistral-NeMo-12B-Instruct promt artırıcıyı kullandı, ancak orijinal anlamı değiştirmeden.

VideoPhy-2’den örnek promtler, fiziksel aktivitelere veya nesne etkileşimlerine göre kategorize edilmiştir. Her promt, ilgili eylemi ve test ettiği ilgili fiziksel ilkeyi eşleştirir.
Üçüncü aşama için fiziksel kurallar, metin promtlarından değil, oluşturulan videolardan türetilmedi. Generatif modeller, koşullu metin promtlarına uymakta zorlanabilir.
Videolar, VideoPhy-2 promtleri kullanılarak oluşturuldu, ardından Gemini-2.0-Flash-Exp ile ‘up-caption’ kullanılarak ana ayrıntılar çıkarıldı. Model, her video için üç beklenen fiziksel kural önerdi, insan annotatörleri bunları gözden geçirdi ve olası ihlalleri tanımlayarak genişletti.

Artırılan altyazıların örnekleri.
Daha sonra, araştırmacılar, 197 eylemin tamamında modelin tutarlı bir şekilde hem promtları hem de temel fiziksel anlamlılığı takip edemediği 60 eylem seçti.
Bu eylemler, disk atma中的 momentum transferi, bir nesneyi kırana kadar bükme gibi fiziksel zengin etkileşimleri, denge görevlerini, geri sıçramaları, sırıkla atlama ve pizza atma gibi karmaşık hareketleri içeriyordu. Toplam 1.200 promt seçildi, alt veri kümesinin zorluğunu artırmak için.
Veri kümesi, 3.940 kaptı – önceki sürümün 5,72 katı. Orijinal altyazıların ortalama uzunluğu 16 token, artırılan altyazılar ise 138 token – sırasıyla 1,88 ve 16,2 kat daha uzun.
Veri kümesi ayrıca, çeşitli video oluşturma modelleri boyunca anlamsal uyuma, fiziksel anlamlılığa ve kural ihlallerine ilişkin 102.000 insan annotasyonu içerir.
Değerlendirme
Araştırmacılar, videoları değerlendirmek için net kriterler belirlediler. Ana hedef, her videonun girdi promtuna ne kadar uyduğunu ve temel fiziksel ilkeleri ne kadar iyi takip ettiğini değerlendirmekti.
İnsan annotatörlerden, videoları bir beş puanlık ölçekte değerlendirmeleri istendi, böylece daha ayrıntılı yargılara izin verildi ve değerlendirme ayrıca videoların çeşitli fiziksel kurallara ve yasalara uyup uymadığını kontrol etti.
İnsan değerlendirme için, Amazon Mechanical Turk (AMT) denemelerinden 12 annotatör seçildi ve ayrıntılı uzaktan talimatlar aldıktan sonra puanlar verdi.
Annotatörler, videoların girdi promtlarına ne kadar uyduğunu değerlendirdi, ardından fiziksel olasılık için ayrı olarak puanladı, kural ihlallerini ve genel gerçekçiliği bir beş puanlık ölçekte değerlendirdi. Sadece orijinal promtlar gösterildi, böylece modeller arasında adil bir karşılaştırma sağlandı.

AMT annotatörlerine sunulan arayüz.
İnsan yargısı hala altın standart olsa da, pahalı ve bir dizi sınırlamaya sahiptir. Bu nedenle, daha hızlı ve ölçeklenebilir model değerlendirmeleri için otomatik değerlendirme gereklidir.
Çalışmanın yazarları, Gemini-2.0-Flash-Exp ve VideoScore dahil olmak üzere çeşitli video-dil modellerini, anlamsal doğruluk ve ‘fiziksel anlamlılık’ için videolara puan verme yeteneklerini test etti.
Modeller, her videoyu bir beş puanlık ölçekte puanladı, ayrıca bir sınıflandırma görevi, fiziksel kuralların uyumlu, ihlal edildiği veya belirsiz olduğu konusunda karar verdi.
Deneyler, mevcut video-dil modellerinin insan yargılarını eşleştirmekte zorluk çektiğini gösterdi,主要 olarak zayıf fiziksel akıl yürütme ve promtların karmaşıklığı nedeniyle. Otomatik değerlendirmeyi iyileştirmek için araştırmacılar, VideoPhy-2-Autoeval adlı bir 7B-parametre modeli geliştirdiler, üç kategoride daha doğru tahminler sağlamak için tasarlandı: anlamsal uyuma; fiziksel anlamlılık; ve kural uyumu, VideoCon-Physics modeli kullanılarak 50.000 insan annotasyonu ile fine-tune edildi.
Veri ve Testler
Bu araçlarla donanmış olarak, araştırmacılar, hem yerel kurulumlar aracılığıyla hem de gerekli olduğunda ticari API’ler aracılığıyla çeşitli generatif video sistemlerini test etti: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; ve Luma Ray.
Modeller, mümkün olduğunda artırılan promtler ile uyarıldı, ancak Hunyuan Video ve VideoCrafter2, 77-token CLIP sınırlamalarına tabidir ve belirli bir uzunluğun üzerindeki promtları kabul edemez.
Oluşturulan videolar 6 saniyeden kısa tutuldu, çünkü daha kısa çıktı daha kolay değerlendirilir.
İtici veri, VideoPhy-2 veri kümesinden geldi, bu da bir benchmark ve eğitim kümesine bölündü. Her model için 590 video oluşturuldu, Sora ve Ray2 hariç, bunlar için daha az video oluşturuldu (maliyet faktöründen dolayı).
(Kaynak makaleye bakınız, daha fazla değerlendirme ayrıntısı için, orada ayrıntılı olarak belgelenmiştir)
İlk değerlendirme, fiziksel aktivite/spor (PA) ve nesne etkileşimleri (OI) ile ilgilendi ve hem genel veri kümesini hem de yukarıda bahsedilen ‘daha zor’ alt kümesini test etti:

İlk tur sonuçları.
Araştırmacılar şunları belirtiyor:
‘En iyi performans gösteren model, Wan2.1-14B, yalnızca tam veri kümemizde %32.6 ve zor alt kümemizde %21.9 puan elde ediyor. Nispeten güçlü performansı, çok modlu eğitim verisinin çeşitliliği ve yüksek kaliteli videoları koruyan güçlü hareket filtrelemesine atfedilebilir.
‘Ayrıca, kapalı modellerin, örneğin Ray2, açık modeller gibi Wan2.1-14B ve CogVideoX-5B’den daha kötü performans gösterdiğini gözlemliyoruz. Bu, kapalı modellerin fiziksel anlamlılığı yakalamada açık modellerden daha iyi olmadığını gösteriyor.
‘Önemli olarak, Cosmos-Diffusion-7B, zor alt kümede ikinci en iyi puanı elde ediyor, hatta daha büyük HunyuanVideo-13B modelini geride bırakıyor. Bu, eğitim verisinde insan eylemlerinin yüksek temsilinden ve sentetik olarak oluşturulan simülasyonlardan kaynaklanabilir.’
Sonuçlar, video modellerinin fiziksel aktivitelere (örneğin spor) göre nesne etkileşimlerinden daha fazla zorlandığını gösterdi. Bu, bu alanda AI tarafından oluşturulan videoları iyileştirmek için daha iyi veri kümelerine, özellikle de tenis, disk atma, beyzbol ve kriket gibi sporların yüksek kaliteli görüntülerine ihtiyaç duyulduğunu gösteriyor.
Çalışma ayrıca, bir modelin fiziksel olasılığın diğer video kalite ölçümleriyle, örneğin estetik veya hareket pürüzsüzlüğü ile ilişkili olup olmadığını araştırdı. Bulgular, güçlü bir korelasyon göstermedi, yani bir model VideoPhy-2’de performansını geliştirebilmek için yalnızca görsel olarak çekici veya akıcı hareket üretemez – daha derin bir fiziksel anlamlılık anlayışına ihtiyaç duyar.
Çalışma, birçok niteliksel örnek sunuyor, ancak PDF’de sunulan statik örneklerin çoğu, yazarların projenin sitesindeki geniş video örnekleriyle ilgili görünmüyor. Bu nedenle, birkaç statik örneğe ve ardından bazı gerçek proje videolarına bakacağız.

Üst satır, Wan2.1 tarafından oluşturulan videoları gösterir. (a) Ray2’de jet ski solda geri kalıyor, sonra geriye doğru hareket ediyor. (b) Hunyuan-13B’de çekiç orta vuruşta deforme oluyor ve bir ahşap tahta beklenmedik bir şekilde ortaya çıkıyor. (c) Cosmos-7B’de cirit, zemine temas etmeden önce kumu dışarı atıyor.
Yukarıdaki nitel test hakkında araştırmacılar şunları söylüyor:
‘Fiziksel anlamlılık ihlallerini gözlemliyoruz, örneğin jet skilerin tersine hareket etmesi ve bir katı çekiçnin deformasyonu, esneklik ilkelerine aykırı olarak.
‘Ayrıca, Wan2.1’in de fiziksel anlamlılıktan yoksun olduğunu gösteriyoruz, bu makalenin başında gömülü olan klipte görüldüğü gibi, bir kaya yuvarlanmaya başlıyor ve ivmelenerek yokuş yukarı hareket ediyor, yerçekimi yasasına aykırı olarak.’
Proje sitesinden daha fazla örnek:
Oynatmak için tıklayın. Burada altyazı, ‘Bir kişi bir havluyla şiddetli bir şekilde döner, su dışarıya doğru görünür bir yay oluşturur’ idi, ancak suyun kaynağı bir hortumdan çok bir havlu gibi görünüyor.
Oynatmak için tıklayın.Burada altyazı, ‘Bir kimyager, bir beakerdan bir test tüpüne dikkatlice bir sıvı döküyor, dökülmeleri önlüyor’ idi, ancak test tüpüne eklenen su hacmi, kaptan çıkan su miktarıyla tutarlı değil.
Projenin kapsamı, burada kapsamlı bir şekilde ele alınamayacak kadar geniş. Lütfen yazarların prosedürlerinin ayrıntılı bir özeti ve daha fazla test örnekleri ve prosedürel ayrıntılar için kaynak makaleye, projenin sitesine ve yukarıda belirtilen ilgili sitelere bakınız.
* Notasyonların kökeni hakkında, makale yalnızca ‘bu görevler için edinildi’ni belirtiyor – 12 AMT çalışanı tarafından üretilmiş gibi görünüyor.
İlk olarak 13 Mart 2025 Perşembe günü yayınlandı.












