Anderson'ın Açısı

Eğitim Sırasında Kareleri Karıştırarak Daha İyi Üretken AI Videosu

Yayınlanan 21 Mart, 2025

Martin Anderson

Adobe Firefly, çeşitli komutlar ve düzenlemeler.

Bu hafta Arxiv'de yayınlanan yeni bir makale, bu yöntemi benimseyen herkesin merak ettiği bir konuyu ele alıyor: Hunyuan Video or Geniş 2.1 Yapay zeka video üreteçleri artık şunları karşınıza çıkarmış olmalı: zamansal sapmalar, burada üretim süreci, üretilen videodaki önemli anları aniden hızlandırma, karıştırma, atlama veya başka şekillerde bozma eğilimindedir:

Oynamak için tıklayın. Yeni nesil üretken video sistemlerinin kullanıcılarına tanıdık gelmeye başlayan bazı zamansal aksaklıklar, yeni makalede vurgulanmıştır. Sağda, yeni FluxFlow yaklaşımının iyileştirici etkisi. Kaynak: https://haroldchen19.github.io/FluxFlow/

Yukarıdaki video, (uyarı: oldukça kaotik) örnek test videolarından alıntılar içeriyor proje sitesi Makale için. Yazarların yöntemiyle (videoda sağda resmedilmiştir) giderek daha tanıdık hale gelen birkaç sorunun giderildiğini görebiliyoruz; bu da etkili bir şekilde veri kümesi ön işleme Herhangi bir üretken video mimarisine uygulanabilen bir teknik.

İlk örnekte, 'bir topla oynayan iki çocuk' gösteriliyor ve CogVideoX(Yukarıdaki derleme videosunun solunda ve aşağıdaki özel örnekte) yerli neslin, çocukların aktivitelerini bir "çizgi film" sahnesine kadar hızlandırarak, birkaç temel mikro hareketi hızla geçtiğini görüyoruz. Buna karşılık, aynı veri seti ve yöntem, yeni ön işleme tekniğiyle daha iyi sonuçlar veriyor. Akış Akışı (Aşağıdaki videodaki görselin sağında):

Oynamak için tıklayın.

İkinci örnekte (kullanılarak) NOVA-0.6B) Bir kediyi ilgilendiren merkezi bir hareketin eğitim aşamasında bir şekilde bozulduğunu veya önemli ölçüde az örneklemlendiğini, üretici sistemin 'felç' haline geldiğini ve öznenin hareket etmesini sağlayamayacağını görüyoruz:

Oynamak için tıklayın.

Hareketin veya nesnenin 'takılıp kaldığı' bu sendrom, HV ve Wan'ın çeşitli görüntü ve video sentezi gruplarında en sık bildirilen korkulardan biridir.

Bu sorunların bir kısmı kaynak veri setindeki video altyazı sorunlarıyla ilgilidir; bunları bu haftaya bir göz attım; ancak yeni çalışmanın yazarları çabalarını eğitim verilerinin zamansal niteliklerine odaklıyor ve zorlukların bu perspektiften ele alınmasının yararlı sonuçlar üretebileceği yönünde ikna edici bir argüman ortaya koyuyorlar.

Video altyazıları hakkında daha önceki makalede belirtildiği gibi, bazı spor özellikle önemli anlara indirgenmesi zordur, bu da kritik olayların (kesin bir gol gibi) eğitim zamanında ihtiyaç duydukları ilgiyi görmediği anlamına gelir:

Oynamak için tıklayın.

Yukarıdaki örnekte, üretici sistem bir sonraki hareket aşamasına nasıl geçeceğini bilmiyor ve mantıksız bir şekilde bir pozdan diğerine geçiyor, bu süreçte oyuncunun tutumunu ve geometrisini değiştiriyor.

Bunlar eğitim sırasında kaybolan büyük hareketlerdir; ancak aynı derecede savunmasız olanlar, bir kelebeğin kanat çırpması gibi çok daha küçük ama önemli hareketlerdir:

Oynamak için tıklayın.

Slam-dunk'ın aksine, kanat çırpma 'nadir' bir olay değil, aksine sürekli ve monoton bir olaydır. Ancak, örnekleme sürecinde tutarlılığı kaybolur, çünkü hareket o kadar hızlıdır ki zamansal olarak tespit etmek çok zordur.

Bunlar aslında yeni sorunlar değil, ancak güçlü üretken video modellerinin yerel kurulum ve ücretsiz üretim için meraklıların kullanımına sunulmasıyla birlikte artık daha fazla ilgi görüyorlar.

Reddit ve Discord toplulukları başlangıçta bu sorunları "kullanıcıyla ilgili" olarak ele aldı. Söz konusu sistemler çok yeni ve çok az belgeye sahip olduğundan, bu anlaşılabilir bir varsayımdır. Bu nedenle, çeşitli uzmanlar, Hunyuan Video (HV) ve Wan 2.1 için çeşitli ComfyUI iş akışlarının çeşitli bileşenlerindeki ayarları değiştirmek gibi, burada belgelenen bazı aksaklıklar için çeşitli (ve her zaman etkili olmayan) çözümler önerdiler.

Bazı durumlarda, hızlı hareket üretmek yerine, hem HV hem de Wan üretecektir yavaş hareket. Reddit ve ChatGPT'den (çoğunlukla Reddit'i kullanan) gelen öneriler şunlardır: çerçeve sayısını değiştirme İstenilen nesilde veya kare hızını radikal bir şekilde düşürerek*.

Bunların hepsi umutsuz vakalar; ortaya çıkan gerçek şu ki, bu sorunların kesin nedenini veya kesin çözümünü henüz bilmiyoruz; açıkçası, bunları aşmak için nesil ayarlarını zorlamak (özellikle de bu durum çıktı kalitesini düşürdüğünde, örneğin çok düşük fps oranıyla) sadece kısa bir duraklama ve araştırma sahnesinin ortaya çıkan sorunları bu kadar hızlı bir şekilde ele aldığını görmek güzel.

Bu hafta altyazının eğitimi nasıl etkilediğine bakmanın yanı sıra, zamansal düzenlemeyle ilgili yeni makaleye ve bunun mevcut üretken video sahnesine sağlayabileceği iyileştirmelere bir göz atalım.

Ana fikir oldukça basit ve sadedir ve bu onu hiç de kötü etkilemez; yine de, öngörülen sekiz sayfaya ulaşmak için makale bir miktar dolguyla doldurulmuştur ve gerektiğinde bu dolguyu atlayacağız.

VideoCrafter çerçevesinin yerel neslindeki balık statiktir, FluxFlow tarafından değiştirilen sürüm ise gerekli değişiklikleri yakalar. Kaynak: https://arxiv.org/pdf/2503.15417

VideoCrafter çerçevesinin yerel neslindeki balık statiktir, oysa FluxFlow tarafından değiştirilen versiyon gerekli değişiklikleri yakalar. Kaynak: https://arxiv.org/pdf/2503.15417

MKS yeni iş başlıklı Zamansal Düzenleme Video Oluşturucunuzu Daha Güçlü Hale Getirirve Everlyn AI, Hong Kong Bilim ve Teknoloji Üniversitesi (HKUST), Central Florida Üniversitesi (UCF) ve Hong Kong Üniversitesi'nden (HKU) sekiz araştırmacının katkılarıyla oluşturulmuştur.

(Yazım sırasında, makalenin beraberindeki bazı sorunlar var proje sitesi)

Akış Akışı

Arkasındaki temel fikir Akış AkışıYazarların yeni ön eğitim şeması, yaygın sorunların üstesinden gelmektir titrek ve zamansal tutarsızlık Kaynak veriler eğitim sürecine maruz kaldıkça blokları ve blok gruplarını zamansal çerçeve sıralarında karıştırarak:

FluxFlow'un temel fikri, veri artırmanın bir biçimi olarak blokları ve blok gruplarını beklenmedik ve zamansız konumlara taşımaktır.

Kağıt şunları açıklıyor:

'[Yapay nesneler] temel bir sınırlamadan kaynaklanmaktadır: Büyük ölçekli veri kümelerinden yararlanılmasına rağmen, mevcut modeller genellikle çeşitli ve makul zamansal dinamikleri öğrenmek yerine eğitim verilerindeki basitleştirilmiş zamansal örüntülere (örneğin, sabit yürüme yönleri veya tekrarlayan kare geçişleri) güvenmektedir.

'Bu sorun, eğitim sırasında açık bir zamansal artırmanın olmaması nedeniyle daha da kötüleşiyor ve bu da modellerin çeşitli hareket senaryoları arasında genelleme yapmak yerine sahte zamansal korelasyonlara (örneğin, "5. kare 4. kareyi takip etmelidir") aşırı uyum sağlamaya eğilimli olmasına neden oluyor.'

Yazarlar, çoğu video üretim modelinin hala çok fazla ödünç aldığını açıklıyor görüntü sentez, zamansal ekseni büyük ölçüde göz ardı ederken uzamsal sadakate odaklanır. Kırpma, çevirme ve renk titremesi gibi teknikler statik görüntü kalitesini iyileştirmeye yardımcı olsa da, hareket yanılsamasının kareler arasında tutarlı geçişlere bağlı olduğu videolara uygulandığında yeterli çözümler değildir.

Ortaya çıkan sorunlar arasında titreyen dokular, kareler arasındaki uyumsuz geçişler ve tekrarlayan veya aşırı basitleştirilmiş hareket desenleri yer alıyor.

Oynatmak için tıklayın.

Makale, bazı modellerin (örneğin, Kararlı Video Dağıtımı ve LamaGen – Giderek karmaşıklaşan mimariler veya mühendislik kısıtlamalarıyla telafi edilmesi gereken bu durum, hesaplama ve esneklik açısından bir maliyete yol açar.

Zamansal veri artırmanın videoda zaten yararlı olduğu kanıtlanmıştır anlayış görevler (örneğin çerçevelerde) İnce kesici, SeFAR ve SVÖnceki) Yazarlar, bu taktiğin üretken bir bağlamda nadiren uygulanmasının şaşırtıcı olduğunu ileri sürüyorlar.

Yıkıcı davranış

Araştırmacılar, eğitim sırasında zamansal düzende yapılan basit, yapılandırılmış kesintilerin, modellerin gerçekçi, çeşitli hareketlere daha iyi genelleştirilmesine yardımcı olduğunu ileri sürüyorlar:

'Düzensiz diziler üzerinde eğitim alarak, jeneratör makul yörüngeleri kurtarmayı öğrenir ve zamansal entropiyi etkili bir şekilde düzenler. FLUXFLOW, ayrımcı ve üretken zamansal artırma arasındaki boşluğu kapatır ve genel [kaliteyi] iyileştirirken zamansal olarak makul video üretimi için tak ve çalıştır geliştirme çözümü sunar.

'Mimari değişiklikler yapan veya son işleme dayanan mevcut yöntemlerin aksine, FLUXFLOW doğrudan veri düzeyinde çalışır ve eğitim sırasında kontrollü zamansal bozulmalar yaratır.'

Oynatmak için tıklayın.

Yazarlar, çerçeve düzeyindeki bozulmaların bir dizi içinde ince taneli bozulmalara neden olduğunu belirtiyor. Bu tür bozulmalar, maskeleme artırma, sistemin çalışmasını engellemek için veri bölümlerinin rastgele engellendiği yer aşırı oturma veri noktalarına dayanarak ve daha iyi teşvik ederek genelleme.

Testler

Buradaki ana fikir, basitliği nedeniyle tam uzunlukta bir makaleye sığmasa da, yine de inceleyebileceğimiz bir test bölümü mevcut.

Yazarlar, mekansal sadakati korurken iyileştirilmiş zamansal kaliteyle ilgili dört sorguyu test etti; hareket/optik akış dinamiklerini öğrenme yeteneği; ekstraterm üretiminde zamansal kalitenin korunması; ve önemli hiperparametrelere duyarlılık.

Araştırmacılar FluxFlow'u üç üretken mimariye uyguladılar: U-Net tabanlı, VideoCrafter2; DIT-CogVideoX-2B biçiminde tabanlı; ve AR-NOVA-0.6B formundadır.

Adil bir karşılaştırma için, mimarilerin temel modellerini FluxFlow'u ek bir eğitim aşaması olarak kullanarak hassas bir şekilde ayarladılar. çağ, Üzerinde AçıkVidHD-0.4M Veri kümesi.

Modeller iki popüler kıyaslama ölçütüne göre değerlendirildi: UCF-101; Ve VBank.

UCF için, Fréchet Video Mesafesi (ÖVD) ve Başlangıç Puanı (IS) metrikleri kullanıldı. VBench için araştırmacılar zamansal kaliteye, çerçeve bazında kaliteye ve genel kaliteye yoğunlaştı.

FluxFlow-Frame'in kantitatif ilk değerlendirmesi.

FluxFlow-Frame'in nicel ilk değerlendirmesi. “+ Original” FLUXFLOW olmadan eğitimi belirtirken, “+ Num × 1” farklı FluxFlow-Frame yapılandırmalarını gösterir. En iyi sonuçlar gölgelendirilmiştir; her model için ikinci en iyiler altı çizilidir.

Yazarlar bu sonuçlara ilişkin şu yorumu yapıyor:

'Hem FLUXFLOW-FRAME hem de FLUXFLOW-BLOCK, Sekme 1 ve 2'deki ölçümler (yani, FVD, Konu, Titreşim, Hareket ve Dinamik) ve [aşağıdaki görüntüde] nitel sonuçlarla kanıtlandığı gibi, zamansal kaliteyi önemli ölçüde iyileştirir.

Örneğin, VC2'de sürüklenen arabanın hareketi, NOVA'da kuyruğunu kovalayan kedi ve CVX'te dalga üzerinde sörf yapan kişi, FLUXFLOW ile gözle görülür şekilde daha akıcı hale geliyor. Daha da önemlisi, bu zamansal iyileştirmeler, su sıçramalarının, duman izlerinin ve dalga dokularının keskin detaylarının yanı sıra mekansal ve genel doğruluk metrikleriyle de kanıtlandığı gibi, mekansal doğruluktan ödün vermeden elde ediliyor.

Aşağıda yazarların atıfta bulunduğu nitel sonuçlardan seçmeler görüyoruz (tam sonuçlar ve daha iyi çözünürlük için lütfen orijinal makaleye bakın):

Nitel sonuçlardan seçmeler.

Makale, hem çerçeve düzeyinde hem de blok düzeyinde bozulmaların zamansal kaliteyi artırmasına karşın, çerçeve düzeyindeki yöntemlerin daha iyi performans gösterme eğiliminde olduğunu ileri sürmektedir. Bu, daha hassas zamansal ayarlamalara olanak tanıyan daha ince taneliliklerine atfedilmektedir. Buna karşın, blok düzeyinde bozulmalar, bloklar içindeki sıkı bir şekilde birleştirilmiş mekansal ve zamansal örüntüler nedeniyle gürültüye neden olabilir ve bu da etkinliklerini azaltabilir.

Sonuç

Bu makale, Bytedance-Tsinghua ile birlikte altyazı işbirliği Bu hafta yayınlanan yeni nesil üretken video modellerindeki bariz eksikliklerin kullanıcı hatasından, kurumsal yanlış adımlardan veya finansman kısıtlamalarından kaynaklanmadığını, bunun yerine daha az önemli olan zamansal tutarlılık ve uyumluluk gibi daha acil sorunlara anlaşılabilir bir şekilde öncelik veren bir araştırma odağından kaynaklandığını açıkça ortaya koydu.

Yakın zamana kadar, serbestçe erişilebilen ve indirilebilen üretken video sistemlerinden elde edilen sonuçlar o kadar zayıftı ki, meraklı topluluktan sorunları düzeltmek için büyük bir çaba ortaya çıkmadı (en azından sorunlar temel nitelikte olduğu ve kolayca çözülemeyeceği için).

Artık tamamen yapay zeka tarafından üretilen fotogerçekçi video çıktılarının uzun zamandır öngörülen çağına çok daha yaklaştığımız şu dönemde, hem araştırma hem de gündelik toplulukların kalan sorunları çözmek için daha derin ve daha üretken bir ilgi gösterdiği açık; umarız ki bunlar aşılması zor engeller değildir.

* Wan'ın yerel kare hızı 16 fps'dir ve kendi sorunlarıma yanıt olarak, forumların kare hızını 12 fps'ye kadar düşürmeyi ve ardından Akış Çerçeveleri veya bu kadar seyrek sayıdaki kareler arasındaki boşlukları doldurmak için diğer yapay zeka tabanlı yeniden akış sistemleri.

İlk yayın tarihi Cuma, 21 Mart 2025

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai

Unite.AI

Eğitim Sırasında Kareleri Karıştırarak Daha İyi Üretken AI Videosu

Akış Akışı

Yıkıcı davranış

Testler

Sonuç

Beğenebilirsin