Anderson’un Açısı

AI Videosu Kedi Selfie’yi Mükemmelleştirir

mm
A still from a demo video for the paper 'Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models', depicting a POV of a 'cat selfie', while a dog skateboards in the background. Source: https://vita-epfl.github.io/FVG/

AI video üreticileri genellikle metin-prompt’un istediği şeyi vermek konusunda yakın ama yeterli değil. Ancak yeni bir yüksek düzeyde düzeltme her şeyi değiştiriyor.

 

Üretken video sistemleri genellikle gerçekten yaratıcı veya vahşi videolar oluşturmakta zorlanırlar ve genellikle kullanıcıların metin-prompt’larının beklentilerini karşılayamazlar.

Bunun nedenlerinden biri entanglement – vizyon/dil modellerinin kaynak verilerine ne kadar eğitim aldıklarında bir uzlaşma yapmaları gerektiğidir. Eğitim süresinin kısa olması, kavramların esnek olmasına rağmen tam olarak oluşmamasına neden olur – fazla eğitim alınması, kavramların doğru olmasına ancak artık yeni kombinasyonlara dahil edilmeyecek kadar esnek olmamasına neden olur.

Videoyu oynatarak fikir edinebilirsiniz. Solda, birçok AI sisteminin talepkar bir prompt’a (prompt, videonun üstünde dört örnekte de görünür) karşılık olarak verdiği türden bir orta yol uzlaşması vardır. Sağ tarafta ise, prompt’a daha iyi uyan bir AI çıkışı vardır:

Çalma (ses yok). Sağ tarafta, ‘factorized’ WAN 2.2’nin gerçekten prompt’lara uymasını görüyoruz, ‘vanilla’ Wan 2.2’nin belirsiz yorumlarına kıyasla. Daha iyi çözünürlük ve daha fazla örnek için lütfen kaynak video dosyalarına başvurun, ancak bu makale için derlenen sürümler proje sitesinde mevcut değildir.Kaynak

İyi ki, alkışlayan ördeklerin insan ellerini (!) affedebiliriz, ancak sağ taraftaki örneklerin orijinal metin-prompt’a çok daha iyi uyması açık.

İlginçtir, her iki mimari de esasen aynı mimaridir – popüler ve çok yetenekli Wan 2.2, bu yıl açık kaynak ve hobi topluluklarında önemli bir yer kazanmış bir Çin sürümü.

Fark, ikinci üretken boru hattının factorized olmasıdır, bu durumda büyük bir dil modeli (LLM), videonun ilk (tohum) çerçevesini yeniden yorumlamak için kullanılır, böylece sistem kullanıcıların istediği şeyi vermek için çok daha kolay hale gelir.

Bu ‘görsel ankraj’, LLM ile geliştirilmiş bir prompt’tan oluşturulan bir görüntüyü üretken boru hattına ‘başlangıç çerçevesi’ olarak enjekte etmeyi ve ‘davetsiz’ çerçeveyi video oluşturma sürecine entegre etmeye yardımcı olmak için bir LoRA yorumlama modeli kullanmayı içerir.

Sonuçlar, prompt sadakati açısından oldukça dikkat çekicidir, özellikle de bu kadar zarif bir çözüm için:

Çalma (ses yok). ‘Factorized’ video üretiminin gerçekten senaryoya uymasını gösteren daha fazla örnek. Daha iyi çözünürlük ve daha fazla örnek için lütfen kaynak video dosyalarına başvurun, ancak bu makale için derlenen sürümler proje sitesinde mevcut değildir.

Bu çözüm, yeni makale Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models ve video dolu eşlik proje websitesi şeklinde gelir.

Çoğu güncel sistem, metin-prompt’larını daha doğru hale getirmek için dil modellerini kullanarak belirsiz veya eksik olarak belirtilen metinleri yeniden yazmaya çalışır, ancak yeni çalışma, bu stratejinin hala başarısızlığa yol açtığını, modelin dahili sahne temsilinin kusurlu olduğu durumlarda savunur.

Makalede denir*:

‘[Metin-videolara] modeller sık sık dağıtılmış çerçeveler üretirler, ancak I2V modellerine benzer [değerlendirme puanları] elde ederler, bu da hareket modellemelerinin doğal olduğu anlamına gelir, ancak sahne doğruluğu zayıf olabilir.’

‘[Görüntüden-videolara] modeller tam tersi davranır, güçlü [değerlendirme puanları] elde ederler, ancak zayıf zamanlı tutarlılık gösterir, I2V+metin her iki yönü dengeler.’

‘Bu karşıtlık, mevcut T2V modellerinde yapısal bir uyumsuzluk olduğunu gösterir: sahne zeminlenmesi ve zamanlı sentez, farklı endüktif önyargılardan yararlanmasına rağmen, mevcut mimariler her ikisini aynı anda tek bir model içinde öğrenmeye çalışır.’

Bir tanısal karşılaştırma, modellerin sahne Ankrajı olmadan puanlarının hareket üzerinde iyi olduğunu, ancak genellikle sahne düzenini feda ettiğini, görüntüye bağlı yaklaşımların ise tersini gösterdiğini buldu:

İki veri kümesinde video üretim modlarının karşılaştırması, I2V+text'in en iyi çerçeve kalitesi (FID) ve zamanlı tutarlılığı (FVD) elde ettiğini, sahne oluşturmadan hareketi ayırmanın faydalarını vurguluyor. Kaynak - https://arxiv.org/pdf/2512.16371

İki veri kümesinde video üretim modlarının karşılaştırması, I2V+text’in en iyi çerçeve kalitesi (FID) ve zamanlı tutarlılığı (FVD) elde ettiğini, sahne oluşturmadan hareketi ayırmanın faydalarını vurguluyor. Kaynak

Bu bulgular, mevcut modellerin sahne düzeni ve animasyonu aynı anda öğrenmeye çalıştığı bir yapısal kusura işaret etmektedir, ancak bu iki görev farklı türden endüktif önyargılardan yararlanmasına rağmen, ayrı ayrı ele alınması daha iyidir.

Belki de en ilginci, bu ‘hile’nin yerel olarak Wan 2.1 ve 2.2 gibi modellerin ve benzer video difüzyon modellerinin kurulumlarına uygulanabileceği olasılığıdır. Anektod olarak, Kling ve Runway gibi ticari generatif portallarla karşılaştırıldığında, çoğu büyük API sağlayıcısının açık kaynak teklifleri olan WAN’a LoRAs ile ve – görünen o ki – bu yeni makaledeki türden hilelerle iyileştiğini söyleyebiliriz. Dolayısıyla bu yaklaşım, FOSS topluluğunun yakalaması için bir fırsat olabilir.

Yöntem için yapılan testler, bu basit ve modüler yaklaşımın T2V-CompBench benchmark’unda yeni bir devlet-sanat sunmayı sağladığını, tüm test edilen modellerde önemli ölçüde iyileşme olduğunu gösterdi. Yazarlar, sonuçta, sistemlerinin radikal olarak sadakatını iyileştirdiğini, ancak kimlik kayması sorununu ele almadığını, çünkü bunu yapmak için tasarlanmadığını not eder.

Yeni makale, İsviçre’deki Ecole Polytechnique Fédérale de Lausanne (EPFL) bünyesinde dört araştırmacıdan gelir.

Yöntem ve Veri

Yeni tekniğin merkezi önerisi, metin-videolara (T2V) difüzyon modellerinin gerçekten istenen metin-prompt’a uyan başlangıç çerçevelerine ‘ankraj’lanması gerektiğidir.

Modelin başlangıç çerçevesine saygı göstermesini sağlamak için, yeni yöntem standard difüzyon sürecini, temiz bir latant ‘yi başlangıç görüntüsünden enjekte ederek bozar, bu da modelin kullanıcıların istediği şeyi vermek için çok daha kolay hale gelmesini sağlar.

Görsel ankraj ile metin-videolara dayalı üretim için iki aşamlı yöntem: Sol, modelin enjekte edilen temiz latanti sabit bir sahne kısıtlaması olarak işlemek için hafif bir LoRA ile fine-tune edilmesi. Sağ, prompt'un ilk çerçeve başlığını oluşturmak için bölünmesi ve bu başlığın, videoyu yönlendiren ankraj görüntüsünü üretmek için kullanılması.

Görsel ankraj ile metin-videolara dayalı üretim için iki aşamlı yöntem: Sol, modelin enjekte edilen temiz latanti sabit bir sahne kısıtlaması olarak işlemek için hafif bir LoRA ile fine-tune edilmesi. Sağ, prompt’un ilk çerçeve başlığını oluşturmak için bölünmesi ve bu başlığın, videoyu yönlendiren ankraj görüntüsünü üretmek için kullanılması.

Testler, her bir metin-prompt’unun önce Qwen2.5-7B-Instruct kullanılarak iyileştirildiğini, ardından ‘tohum’ görüntüsünü oluşturmak için QwenImage kullanıldığını gösterdi.

Kullanılan benchmark’lar, T2V-CompBench ve VBench 2.0 idi. Vbench 2.0, daha geniş bir akıl yürütme ve tutarlılığı 18 metriğe göre değerlendirdi, bunlar yaratıcılık, ortak akıl, kontrollülük, insan doğruluğu ve fizik olarak gruplandırıldı:

T2V-CompBench'in tüm yedi değerlendirme kategorisinde, faktörlü T2V yöntemi, standart ve örneklenmiş T2V referanslarını her test edilen model için aştı, kazançlar %53,25'e ulaştı. En yüksek puan alan varyantlar genellikle PixVerse-V3 benchmark'ını eşledi veya aştı.

T2V-CompBench’in tüm yedi değerlendirme kategorisinde, faktörlü T2V yöntemi, standart ve örneklenmiş T2V referanslarını her test edilen model için aştı, kazançlar %53,25’e ulaştı. En yüksek puan alan varyantlar genellikle PixVerse-V3 benchmark’ını eşledi veya aştı.

Yazarlar, ilk test turu hakkında şunları belirtir*:

‘Tüm modellerde, ankraj görüntüsü eklenmesi tutarlı olarak bileşik performansları iyileştirir. Tüm küçük Faktörlü modeller (CogVideo 5B, Wan 5B ve Wan 1B) daha büyük Wan 14B T2V modelini aşar.

Faktörlü Wan 5B’miz, referans olarak bildirilen en iyi model olan ticari PixVerse-V3’i de aşar. Bu, görsel Ankrajın, küçük kapasiteli modellerde bile sahne ve eylem anlayışını önemli ölçüde geliştirdiğini gösterir.’

‘Her model ailesinde, faktörlü sürüm orijinal modeli aşar. Özellikle, hafif Ankrajlı LoRA’mız, WAN 14B’de ön eğitimli I2V 14B varyantı (0.661 vs. 0.666) ile karşılaştırılabilir bir performans gösterir, ancak tam yeniden eğitim gerektirmez.’

Sonraki Vbench2.0 turu geldi:

Faktörlü T2V yaklaşımının, bileşik, ortak akıl, kontrollülük ve fizik açısından Vbench 2.0 performansını tutarlı olarak iyileştirdiği, bazı kazançların %60'ı aştığı görüldü - ancak insan doğruluğu, ticari Veo 3 benchmark'ının altında kaldı.

Faktörlü T2V yaklaşımının, bileşik, ortak akıl, kontrollülük ve fizik açısından Vbench 2.0 performansını tutarlı olarak iyileştirdiği, bazı kazançların %60’ı aştığı görüldü – ancak insan doğruluğu, ticari Veo 3 benchmark’ının altında kaldı.

Tüm mimarilerde, faktörlü yaklaşım, insan doğruluğu dışında her Vbench kategorisinde puanları artırdı, ancak insan doğruluğu slightly düştü, hatta prompt’lar örneklenerek artırıldı.

Kalitatif testler için makale statik görüntüler sağlar, ancak daha net bir fikir için bu makaledeki derlenen videolara başvurmanızı öneririz. Kalitatif sonuçlarla ilgili olarak makalede denir:

‘Ankrajlı videolar tutarlı olarak daha doğru sahne bileşimi, daha güçlü nesne-öznitelik bağlantısı ve daha net zamanlı ilerleme gösterir.’

Faktörlü yöntem, difüzyon adımlarının sayısının 50’den 15’e düşürülmesi durumunda bile kararlı kaldı ve T2V-CompBench’de neredeyse hiç performans kaybı göstermedi. Buna karşılık, metin-sadece ve örneklenmiş referanslar aynı koşullarda keskin bir şekilde bozuldu.

Adımların azaltılması teorik olarak üç kat daha hızlı olabileceği düşünülse de, tam üretim.pipeline’si yalnızca 2,1 kat daha hızlı hale geldi, çünkü Ankraj-görüntü oluşturmasından sabit maliyetler vardı. Yine de sonuçlar, Ankrajın sadece örnek kalitesini iyileştirmekle kalmadığını, aynı zamanda difüzyon sürecini stabilize ettiğini ve daha hızlı ve verimli üretim olmadan doğruluk kaybı olmadan desteklediğini gösterdi.

Proje websitesi, örneklenmiş karşılaştırmalı yeni yöntem üretimleri örnekleri sağlar, bunlardan birkaçını (daha düşük çözünürlükte) burada sunuyoruz:

Çalma (ses yok). Ankrajlı yaklaşım ile karşılaştırıldığında, başlangıç kaynaklarının örneklenmiş hali.

Yazarlar sonuçta şunları belirtir:

‘Sonuçlarımız, iyileştirilmiş Ankrajın, yalnızca kapasite artışı değil, aynı zamanda eşit derecede önemli olabileceğini gösterir. Son T2V difüzyonundaki ilerlemeler, büyük ölçüde model boyutunu ve eğitim verilerini artırmaya dayanmaktadır, ancak büyük modeller bile metin-prompt’larından tutarlı bir başlangıç sahnesi çıkarmakta zorlanabilir.

‘Bu, görüntü difüzyonundan farklıdır, burada ölçeklendirme nispeten basittir; video modellerinde, her mimari geliştirme, ek bir zaman boyutu üzerinde çalışmalıdır, bu da ölçeklendirme çok daha kaynak yoğundur.’

‘Buluntularımız, iyileştirilmiş Ankrajın, farklı bir darboğazı ele alabileceğini, yani hareket sentezi başlamadan önce doğru sahneyi oluşturmayı gösterir. Video üretimini sahne oluşturma ve zamanlı modelleme olarak faktörleştirerek, birkaç ortak başarısızlık modunu, önemli ölçüde daha büyük modellere gerek kalmadan bertaraf edebiliriz. Bu, gelecekteki mimarilerin daha güvenilir ve yapılandırılmış video sentezi için rehberlik edecek bir tamamlayıcı tasarım ilkesi olarak görüyoruz.’

Sonuç

Entanglement sorunları çok gerçek ve özel çözümler gerektirebilir, ancak Ankrajın ‘çözülmesi’ beberapa zorlu ve ‘tutuklu’ kavram prompt-orchestrasyonlarını çok daha doğru renderlere dönüştürmesi, sadece orta düzeyde bir LoRA koşullandırması ve önemli ölçüde geliştirilmiş bir başlangıç/tohum görüntüsü ile mümkün olmuştur.

Kaynaklar arasındaki uçurum, yerel hobiçi çıkarımı ve ticari çözümler arasında o kadar büyük olmayabilir, çünkü neredeyse tüm sağlayıcılar, tüketiciye yapılan önemli GPU kaynağı harcamalarını rasyonelleştirmeye çalışıyor.

Anektod olarak, generatif video sağlayıcılarının çoğu, Çin FOSS modellerinin markalı ve ‘güçlendirilmiş’ sürümlerini kullanıyor gibi görünüyor. Bu ‘aracılık’ sistemlerinin sahip olduğu ana ‘havuz’, LoRAs’ı eğitmeleri veya model ağırlıklarının tam fine-tune’ünü yapmalarıdır – bu, daha büyük bir masraf ve biraz daha büyük bir ödüle yol açar.

Bu tür içgörüler, bu boşluğu daha da kapatmaya yardımcı olabilir, özellikle de Çinlilerin, nedenleri ne olursa olsun, genelleştirilmiş AI’ı demokratikleştirmeye kararlı oldukları bir serbest bırakma sahnesinde.

 

* Yazarların vurguları, benim değil.

Makale, hangi GPU’nun seçildiğini veya kaç tane kullanıldığını belirtmez.

†† LoRA yolu daha muhtemeldir, hem ekonomik kolaylık hem de tam ağırlıkların, kuantize edilmiş ağırlıkların her zaman mevcut olmaması nedeniyle.

İlk olarak 19 Aralık 2025 Cuma günü yayımlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]