Anderson’un Açısı
Daha İyi Oluşturucu AI Videosu Çerçeveleri Eğitim Sırasında Karıştırarak

Bu hafta Arxiv’de yayımlanan yeni bir makale, Hunyuan Video veya Wan 2.1 AI video üreticilerini benimsemiş olan herkesin şimdiye kadar karşılaştığı bir sorunu ele alıyor: zamanabhükümleri, где oluşturucu işlem kritik anları hızlandırma, birleştirma, atlama veya başka şekilde bozma eğilimindedir:
Oynatmak için tıklayın. Yeni makalede vurgulanan, yeni nesil oluşturucu video sistemlerinde ortaya çıkan bazı zamanabhükümleri. Sağ tarafta, yeni FluxFlow yaklaşımının iyileştirici etkisi görülmektedir. Kaynak: https://haroldchen19.github.io/FluxFlow/
Yukarıdaki video, makaledeki (dikkat: khá kaotik) proje sitesinden örnek test videolarından alıntılar içerir. Yazarların yönteminin (video中的 sağ tarafta resmedilen) several artan olarak tanıdık sorunları nasıl giderdiğini görebiliyoruz; bu esasen herhangi bir oluşturucu video mimarisine uygulanabilen bir veri ön işleme tekniğidir.
İlk örnekte, ‘iki çocuk bir top ile oynuyor’ sahnesi, CogVideoX tarafından oluşturulmuştur ve (yukarıdaki derleme videosunun solunda ve aşağıdaki özel örnekte) yerel üretimdeki mikro-hareketleri hızla atlayarak çocukların aktivitesini ‘çizgi film’ hızına çıkararak gösterir. Buna karşılık, aynı veri kümesi ve yöntem, yeni ön işleme tekniği olan FluxFlow ile (alttaki videodaki resimdeki sağ tarafta) daha iyi sonuçlar verir:
Oynatmak için tıklayın.
İkinci örnekte (NOVA-0.6B kullanılarak), bir kedinin central hareketinin eğitim aşamasında bazı şekilde bozulduğu veya önemli ölçüde az örneklenerek oluşturucu sistemin ‘felç’ olması ve konuyu hareket ettirememesi görülür:
Oynatmak için tıklayın.
Bu sendrom, hareketin veya konunun ‘tıklanması’, HV ve Wan’ın çeşitli görüntü ve video sentez gruplarında en sık bildirilen hatalardan biridir.
Bu sorunların bazıları, kaynak veri kümesindeki video altyazı sorunlarıyla ilgili olabilir, bu konuya bu hafta göz attık; ancak yeni çalışmanın yazarları, çabalarını eğitim verilerinin zamanabhükümlerine odaklıyor ve bu perspektiften gelen zorlukları ele almanın faydalı sonuçlar doğurabileceğine ikna edici bir argüman sunuyorlar.
Önceki makalede de belirtildiği gibi, belirli sporlar kritik olayları (örneğin, bir slam dunk) gerekli dikkat ve özeni training tijdında alamadıkları için özellikle zorlayıcıdır:
Oynatmak için tıklayın.
Yukarıdaki örnekte, oluşturucu sistem bir sonraki hareket aşamasına nasıl geçeceğini bilmez ve mantıksız bir şekilde bir pozdan diğerine geçer, oyuncunun tutumunu ve geometrisini değiştirir.
Bu, eğitim sırasında kaybedilen büyük hareketlerdir, ancak aynı zamanda çok daha küçük ancak kritik hareketler de eşit derecede savunmasızdır, Örneğin bir kelebeğin kanat çırpması:
Oynatmak için tıklayın.
Slam dunk’un aksine, kanat çırpma bir ‘nadir’ değil, sondern sürekli ve monoton bir olaydır. Ancak, hareket o kadar hızlıdır ki, zamanabhükümlerini belirlemek çok zordur.
Bu sorunlar özellikle yeni değil, ancak güçlü oluşturucu video modelleri şimdiye kadar meraklıları için yerel olarak kurulabilir ve ücretsiz olarak oluşturulabilir hale geldiğinden daha fazla dikkat çekiyorlar.
Reddit ve Discord toplulukları, bu sorunları başlangıçta ‘kullanıcı ile ilgili’ olarak değerlendirdi. Bu, anlaşılabilir bir varsayımdır, çünkü ilgili sistemler çok yeni ve minimal belgelenmiştir. Bu nedenle, çeşitli uzmanlar, Hunyuan Video (HV) ve Wan 2.1 için çeşitli ComfyUI iş akışlarının ayarlarını değiştirme gibi çeşitli (ve her zaman etkili olmayan) çözümler önerdiler.
Bazı durumlarda, HV ve Wan, hızlı hareket yerine yavaş hareket üretir. Reddit ve ChatGPT’den (çoğunlukla Reddit’i kullanan) öneriler, oluşturulan videodaki çerçeve sayısını değiştirme veya çerçeve oranını radikal olarak düşürmeyi içerir.
Bu, umutsuz girişimler; ortaya çıkan gerçeklik, bu sorunların nedenini veya kesin çözümünü henüz bilmediğimizdir; clearly, oluşturma ayarlarını bu sorunları çalıştırmak için değiştirmek (özellikle bu, çıktı kalitesini düşürürse, örneğin çok düşük bir fps oranı ile) yalnızca kısa vadeli bir çözüm olup, araştırma sahnesinin bu yeni ortaya çıkan sorunları bu kadar hızlı ele alması iyi bir gelişme.
Bu nedenle, bu hafta video altyazılarının eğitimi nasıl etkilediğine baktığımız gibi, yeni makaleye ve oluşturucu video sahnesine потенsiyel olarak sağlayabileceği iyileştirmelere bir göz atalım.
Merkezi fikir oldukça basit ve hafif, ancak makale biraz fazla doldurulmuş ve gerekli olmayan kısımları içeriyor; bu nedenle, gerekli olmayan kısımları atlayacağız.

VideoCrafter çerçevesinin yerel üretimindeki balık durağanken, FluxFlow’de değiştirilen versiyon gerekli değişiklikleri yakalar. Kaynak: https://arxiv.org/pdf/2503.15417
Yeni çalışma Temporal Regularization Makes Your Video Generator Stronger başlığını taşıyor ve Everlyn AI, Hong Kong Üniversitesi Bilim ve Teknoloji (HKUST), Central Florida Üniversitesi (UCF) ve Hong Kong Üniversitesi (HKU) olmak üzere sekiz araştırmacının katkılarını içeriyor.
(yazının yazıldığı sırada, makalenin eşlik eden proje sitesinde bazı sorunlar vardı)
FluxFlow
Yazarların yeni ön eğitim şeması FluxFlow arkasındaki merkezi fikir, zamanabhükümleri ve zamanabhükümlerini çerçevelerin ve çerçeveler gruplarının temporal sıralarını karıştırarak aşmaktır:

FluxFlow’un arkasındaki merkezi fikir, blokları ve blokların gruplarını beklenmedik ve zamanabhükümlerine uymayan konumlara taşıyarak veri artırımını gerçekleştirmektir.
Makale şöyle diyor:
‘[Hatalar] temel bir sınırlamadan kaynaklanıyor: büyük ölçekli veri kümelerine rağmen, mevcut modeller genellikle eğitim verilerinin basitleştirilmiş zamanabhükümlerine (örneğin, sabit yürüme yönleri veya tekrarlanan çerçeve geçişleri) dayanmak yerine çeşitli ve inandırıcı zamanabhükümlerini öğrenmeye çalışırlar.
‘Bu sorun, eğitim sırasında açık zamanabhükümlerinin eksikliği ile daha da kötüleşir, modelleri sahte zamanabhükümlerine (örneğin, “çerçeve #5’in #4’ü izlemesi gerekir”) uymaya değil, çeşitli hareket senaryoları arasında genellemeye yol açar.’
Çoğu video oluşturma modeli, yazarlara göre, hala görüntü sentezinden çok şey ödünç alıyor, mekansal doğruluk üzerinde yoğunlaşırken zamanabhükümlerini büyük ölçüde ihmal ediyor. Spatial görüntü kalitesini iyileştirmeye yardımcı olan teknikler gibi kırpma, çevirme ve renk kararma gibi teknikler, videolara uygulanduğunda yeterli çözümler değildir, çünkü videolarda hareketin yanılsaması tutarlı geçişlere bağlıdır.
Sonuç olarak ortaya çıkan sorunlar arasında flickering dokular, çerçeveler arasındaki jarring kesmeler ve tekrarlayan veya aşırı basit hareket kalıpları yer alır.
Oynatmak için tıklayın.
Makale, bazı modellerin – Stable Video Diffusion ve LlamaGen gibi – giderek daha karmaşık mimariler veya mühendislik kısıtlamalarıyla bu sorunları telafi ettiğini, ancak bu çözümlerin hesaplama ve esneklik maliyetine yol açtığını savunuyor.
Zamanabhükümlerinin video anlama görevlerinde (örneğin, FineCliper, SeFAR ve SVFormer gibi çerçevelerde) faydalı olduğu already kanıtlandığından, yazarlar, bu taktiğin oluşturucu bağlamda neden nadiren uygulandığını şaşırarak belirtiyorlar.
Bozucu Davranış
Araştırmacılar, eğitim sırasında basit, yapılandırılmış zamanabhükümleri bozmasının modellerin gerçekçi, çeşitli hareketlere genellemesine yardımcı olabileceğini savunuyorlar:
‘Düzensiz sıralarda eğitim, oluşturucunun inandırıcı yörüngeleri öğrenmesini sağlar, böylece zamanabhükümlerini düzenliyor. FLUXFLOW, ayrımcı ve oluşturucu zamanabhükümleri arasındaki boşluğu doldurur ve zamanabhükümlerinin inandırıcı video oluşturulması için bir artırma çözümü sunar ve genel kaliteyi iyileştirir.
‘Mevcut yöntemlerin aksine, FLUXFLOW mimari değişiklikler veya son işlemlere güvenmek yerine doğrudan veri düzeyinde çalışır ve eğitim sırasında kontrol edilen zamanabhükümlerini tanıtır.’
Oynatmak için tıklayın.
Çerçeve düzeyindeki bozulmalar, yazarlara göre, bir dizi içinde ince düzeyde bozulmalar tanıtıyor. Bu bozulma, masking artırımına benzer, burada veri kısımları rastgele engellenir, böylece sistem aşırı uyumu önler ve daha iyi genellemeyi teşvik eder.
Testler
Bu fikir, đầy đủ bir makaleye ihtiyaç duymayacak kadar basit olsa da, bir test bölümü mevcut ve buna göz atabiliriz.
Yazarlar, dört sorgu için test etti: zamanabhükümlerinin iyileştirilmesi, mekansal doğruluğun korunması, hareket veya optik akış dinamiklerinin öğrenilmesi ve ana hiperparametrelere duyarlılık.
Araştırmacılar, FluxFlow’u üç oluşturucu mimariye uyguladı: U-Net tabanlı, VideoCrafter2 şeklinde; DiT tabanlı, CogVideoX-2B şeklinde; ve AR tabanlı, NOVA-0.6B şeklinde.
Adil bir karşılaştırma için, yazarlar bu mimarilerin temel modellerini FluxFlow ile bir ek eğitim aşaması olarak, bir epoch için, OpenVidHD-0.4M veri kümesi üzerinde fine-tuned etti.
Modeller, iki popüler benchmark karşılaştırıldı: UCF-101 ve VBench.
UCF için, Fréchet Video Distance (FVD) ve Inception Score (IS) metrikleri kullanıldı. VBench için, araştırmacılar zamanabhükümlerinin kalitesi, çerçeve bazlı kalite ve genel kaliteye odaklandı.

FluxFlow-Frame’in Nicel İlk Değerlendirmesi. "+ Orijinal" FLUXFLOW olmadan eğitimi gösterirken, "+ Num × 1" farklı FluxFlow-Frame konfigürasyonlarını gösterir. En iyi sonuçlar gölgeli, ikinci en iyi sonuçlar her model için alt çizgili olarak gösterilir.
Bu sonuçlar hakkında yorum yapan yazarlar:
‘Hem FLUXFLOW-FRAME hem de FLUXFLOW-BLOCK, zamanabhükümlerini önemli ölçüde iyileştiriyor, bu da Tablo 1, 2’deki (yani, FVD, Konu, Flicker, Hareket ve Dinamik) metriklerde ve [aşağıdaki resimdeki] nitel sonuçlarda görülmektedir.
‘Örneğin, VC2’deki sürüklenen arabanın, NOVA’daki kedinin kuyruğunu kovalayan hareketi ve CVX’deki sörfçünün dalgaya binmesi FLUXFLOW ile daha akıcı hale geliyor. Ayrıca, su püskürtmeleri, duman izleri ve dalga dokuları gibi net ayrıntılar ve mekansal ve genel doğruluk metrikleriyle birlikte, bu zamanabhükümleri iyileştirmeleri mekansal doğruluğu feda etmeden gerçekleştiriliyor.’
Aşağıda, yazarların atıfta bulunduğu nitel sonuçlardan seçilenler görülmektedir (tam sonuçlar ve daha iyi çözünürlük için orijinal makaleye bakınız):

Nitel sonuçlardan seçilenler.
Makale, hem çerçeve düzeyindeki hem de blok düzeyindeki bozulmaların zamanabhükümlerini iyileştirdiğini, ancak çerçeve düzeyindeki yöntemlerin daha iyi performans gösterdiğini öne sürüyor. Bu, daha ince düzeydeki ayarlamalara olanak tanıyan daha ince düzeyli doğası nedeniyle atribüt edilir. Blok düzeyindeki bozulmalar, bloklar içindeki sıkı bir şekilde bağlı mekansal ve zamanabhükümlerine sahip olabileceğinden, etkinliğini azaltan gürültü tanıtabilir.
Sonuç
Bu makale, bu hafta yayımlanan Bytedance-Tsinghua altyazı işbirliği ile birlikte, yeni nesil oluşturucu video modellerindeki görünür eksikliklerin, kullanıcı hatasından, kurumsal yanlış adımlarından veya fonlama sınırlamalarından değil, sondern daha acil zorluklara öncelik veren araştırma odakından kaynaklanabileceğini gösteriyor.
Yeni nesil oluşturucu video sistemleri, şimdiye kadar meraklıları tarafından yerel olarak kurulabilir ve ücretsiz olarak oluşturulabilir hale geldiğinden, bu sorunlara daha derin ve daha üretken bir ilgi gösteriliyor; umarım bu, aşılmaz engeller değildir.
* Wan’ın yerel çerçeve oranı sadece 16fps’dir ve kendi sorunlarıma yanıt olarak, forumların Wan 2.1 üretimleri için çerçeve sayısını değiştirmeyi veya çerçeve oranını 12fps’ye kadar düşürmeyi önerdiğini not ediyorum; sonra da FlowFrames veya diğer AI tabanlı yeniden akış sistemlerini kullanarak bu kadar az çerçevenin arasındaki boşlukları interpolasyonla doldurmayı öneriyorlar.
İlk olarak 21 Mart 2025 Cuma günü yayımlanmıştır












