Bizimle iletişime geçin

Anderson'ın Açısı

Yapay Zeka Videolarının Bazen Neden Ters Yönde Olduğu

mm
ChatGPT/Firefly görüntüsünde, bir jet skicinin önünde iz bırakması imkansız görünüyor.

2022, üretken yapay zekanın daha geniş bir kitlenin hayal gücünü ele geçirdiği yıl olduysa, 2025 yeni nesil üretken yapay zekanın ortaya çıktığı yıldır. video Çin'den gelen çerçevelerin de aynı şeyi yapması bekleniyor.

Tencent'in Hunyuan Videosu büyük bir etki kullanıcıların tüm dünyayı kapsayan bir video yayılım modelinin açık kaynaklı sürümüyle hobi amaçlı AI topluluğuna ihtiyaçlarına göre uyarlayın.

Hemen arkasından Alibaba'nın daha yakın tarihli bir girişimi geliyor Geniş 2.1, bu dönemin en güçlü görüntü-video FOSS çözümlerinden biri – artık özelleştirmeyi destekliyor Wan LoRA'lar.

Son zamanlarda insan merkezli temel modelin kullanılabilirliğinin yanı sıra Gökyüzü MakaralarıBu yazıyı yazarken Alibaba'nın kapsamlı raporunun yayınlanmasını da bekliyoruz Tatil video oluşturma ve düzenleme paketi:

Oynatmak için tıklayın. Alibaba'nın çok işlevli yapay zeka düzenleme paketi VACE'nin piyasaya sürülmesi, kullanıcı topluluğunu heyecanlandırdı. Kaynak: https://ali-vilab.github.io/VACE-Page/

Sudden Impact

Üretken video yapay zeka araştırma sahnesi de aynı derecede patlayıcı; hala Mart ayının ilk yarısı ve Salı günü Arxiv'in Bilgisayar Görüntüsü bölümüne (üretici yapay zeka makaleleri için bir merkez) gönderilen başvurular yaklaşık 350'ye ulaştı; bu rakam daha çok konferans sezonunun zirvesiyle ilişkilendiriliyor.

İki yıl aradan sonra başlatmak 2022 yazında Kararlı Difüzyonun (ve ardından gelen gelişimin) Rüya kabini ve LoRA (özelleştirme yöntemleri) son birkaç haftaya kadar daha fazla önemli gelişmenin olmamasıyla karakterize edildi; yeni sürümler ve yenilikler o kadar baş döndürücü bir hızda ilerledi ki, hepsinden haberdar olmak neredeyse imkansız, hatta hepsini kapsamak bile imkansız.

Hunyuan ve Wan 2.1 gibi video yayılım modelleri nihayet çözüldü ve yüzlerce araştırma girişiminin yıllarca süren başarısız çabalarından sonra, sorun of zamansal tutarlılık İnsan nesliyle ilgili olduğu gibi, büyük ölçüde çevre ve nesnelerle de ilgilidir.

VFX stüdyolarının, yüz değiştirme gibi acil zorlukları çözmek için yeni Çin video modellerini uyarlamak için personel ve kaynak ayırdıkları konusunda çok az şüphe var; şu anda bu konuda bilgi eksikliği var. Kontrol AğıBu sistemler için -tarzı yardımcı mekanizmalar.

Öngörülen yollardan olmasa da, böylesine önemli bir engelin aşılmış olması büyük bir rahatlama olmalı.

Geriye kalan sorunlardan biri de şu:

Oynatmak için tıklayın. Yeni makalede en yüksek puanları alan Wan 2.1, 'Küçük bir kaya, dik ve kayalık bir yamaçtan aşağı yuvarlanıyor, toprağı ve küçük taşları yerinden oynatıyor' uyarısına dayanarak basit bir hata yapıyor. Kaynak: https://videophy2.github.io/

Tepeye Geriye Doğru

Ticari kapalı kaynak modelleri de dahil olmak üzere şu anda mevcut olan tüm metinden videoya ve görüntüden videoya sistemleri, yukarıdaki videoda bir kayanın yuvarlandığını gösteren gibi fizik hataları üretme eğilimindedir. yokuş yukarı, ' istemine dayanarakKüçük bir kaya, dik ve kayalık bir yamaçtan aşağı yuvarlanarak toprağı ve küçük taşları yerinden oynatıyor '.

Bunun neden olduğuna dair bir teori, son zamanlarda önerilen Alibaba ve BAE arasındaki akademik bir işbirliğinde, modellerin her zaman tek görüntüler üzerinde eğitildiği, hatta eğitim amaçlı tek kareli dizilere yazılan videolar üzerinde eğitim aldıkları ve doğru zamansal sırayı öğrenmeyebilecekleri belirtiliyor. 'önce' ve 'sonrasında' resimler.

Ancak en olası çözüm, söz konusu modellerin kullanılmış olmasıdır. veri büyütme kaynak eğitim klibini hem ileriye hem de geriye doğru modele maruz bırakmayı içeren rutinler ve geriye doğru, eğitim verilerini etkili bir şekilde iki katına çıkarır.

Bunun keyfi olarak yapılmaması gerektiği uzun zamandır biliniyor, çünkü bazı hareketler ters yönde çalışırken, çoğu hareket ters yönde çalışmıyor. 2019 çalışmada İngiltere'deki Bristol Üniversitesi'nden araştırmacılar, eşdeğer, değişmez ve tersinmez Tek bir veri kümesinde bir arada bulunan kaynak veri video klipleri (aşağıdaki resme bakın), uygun olmayan kaynak kliplerin veri artırma rutinlerinden filtrelenebileceği düşüncesiyle.

Üç tür hareketin örnekleri, bunlardan yalnızca biri makul fiziksel dinamikleri korurken serbestçe geri döndürülebilir. Kaynak: https://arxiv.org/abs/1909.09422

Üç tür hareketin örnekleri, bunlardan yalnızca biri makul fiziksel dinamikleri koruyarak serbestçe geri döndürülebilir. Kaynak: https://arxiv.org/abs/1909.09422

Bu eserin yazarları sorunu açık bir şekilde şöyle çerçevelendiriyorlar:

'Tersine çevrilmiş videoların gerçekçiliğinin, doğal bir dünyada mümkün olmayacak sahnenin yönleri olan tersine çevrilmiş eserler tarafından ihanete uğradığını görüyoruz. Bazı eserler belirsizken, diğerleri fark edilmesi kolaydır, örneğin atılan nesnenin kendiliğinden yerden yükseldiği ters bir 'fırlatma' eylemi gibi.

'İki tür tersine çevirme eseri gözlemliyoruz, fiziksel, doğa yasalarının ihlallerini sergileyenler ve olası ancak olası olmayan bir senaryoyu tasvir edenler. Bunlar birbirini dışlayan şeyler değil ve birçok tersine çevrilmiş eylem, bir kağıt parçasını açarken olduğu gibi, her iki tür esere de maruz kalıyor.

'Fiziksel eserlere örnek olarak şunlar verilebilir: ters yerçekimi (örneğin 'bir şeyi düşürmek'), nesneler üzerindeki kendiliğinden oluşan dürtüler (örneğin 'bir kalemi döndürmek') ve geri döndürülemez durum değişimleri (örneğin 'bir mum yakmak'). Olası olmayan bir esere örnek: dolaptan bir tabak almak, kurutmak ve kurutma rafına yerleştirmek.

'Verilerin bu şekilde yeniden kullanılması eğitim sırasında çok yaygındır ve faydalı olabilir; örneğin, modelin merkezi tutarlılığını ve mantığını kaybetmeden çevrilebilen veya döndürülebilen bir görüntü veya nesnenin yalnızca bir görünümünü öğrenmemesini sağlamada.

'Bu elbette yalnızca gerçekten simetrik nesneler için işe yarar; ve 'tersine' çevrilmiş bir videodan fizik öğrenmek, yalnızca ters çevrilmiş versiyonun ileri versiyonu kadar mantıklı olması durumunda işe yarar.'

Geçici Geri Dönüşler

Hunyuan Video ve Wan 2.1 gibi sistemlerin eğitim sırasında modele keyfi olarak 'tersine çevrilmiş' kliplerin gösterilmesine izin verdiğine dair hiçbir kanıtımız yok (araştırmacı gruplarından hiçbiri veri artırma rutinleri konusunda spesifik bir açıklama yapmadı).

Ancak, bu durum karşısında tek makul alternatif olasılık, çok fazla rapor (ve benim kendi pratik deneyimim), bu modeli destekleyen hiper ölçekli veri kümelerinin klipler içerebileceği anlaşılıyor aslında ters yönde gerçekleşen hareketleri içerir.

Yukarıda yer alan örnek videodaki kaya, Wan 2.1 kullanılarak üretilmiş olup, video difüzyon modellerinin fiziği ne kadar iyi ele aldığını inceleyen yeni bir çalışmada yer almaktadır.

Bu proje için yapılan testlerde Wan 2.1, fizik yasalarına tutarlı bir şekilde uyma yeteneği açısından yalnızca %22'lik bir puan alabildi.

Ancak bu, en iyi Video AI için bir sonraki engelimizi bulmuş olabileceğimizi gösteren, test edilen herhangi bir sistemin puanı:

Önde gelen açık ve kapalı kaynaklı sistemler tarafından elde edilen puanlar, çerçevelerin çıktıları insan açıklayıcılar tarafından değerlendirildi. Kaynak: https://arxiv.org/pdf/2503.06800

Önde gelen açık ve kapalı kaynaklı sistemler tarafından elde edilen puanlar, çerçevelerin çıktılarının insan yorumcular tarafından değerlendirilmesiyle elde edildi. Kaynak: https://arxiv.org/pdf/2503.06800

Yeni çalışmanın yazarları, şu anda ikinci yinelemesinde olan bir kıyaslama sistemi geliştirdiler. VideoFi, kodla birlikte GitHub'da mevcut.

Çalışmanın kapsamı burada kapsamlı bir şekilde ele alabileceğimizin ötesinde olsa da, metodolojisine ve gelecekteki model eğitim oturumlarının gidişatını bu tuhaf tersine dönme örneklerinden uzaklaştırmaya yardımcı olabilecek bir ölçüm oluşturma potansiyeline genel bir bakış atalım.

MKS ders çalışmaUCLA ve Google Research'ten altı araştırmacı tarafından yürütülen bu araştırmanın adı VideoPhy-2: Video Üretiminde Zorlu Bir Eylem Merkezli Fiziksel Sağduyu DeğerlendirmesiKalabalık bir eşlik eden proje sitesi kod ve veri kümeleriyle birlikte de mevcuttur GitHub'dave bir veri kümesi görüntüleyicisi Hugging Face'te.

Oynatmak için tıklayın. Burada, meşhur OpenAI Sora modeli kürekler ve yansımalar arasındaki etkileşimleri anlamakta başarısız oluyor ve ne teknedeki kişi için ne de teknenin onunla etkileşim şekli için mantıksal bir fiziksel akış sağlayamıyor.

Yöntem

Yazarlar çalışmalarının son halini şöyle anlatıyor: VideoPhy-2'Gerçek dünya eylemleri için zorlu bir sağduyu değerlendirme veri kümesi' olarak. Koleksiyon, çeşitli fiziksel aktivitelerden oluşan 197 eylemi içeriyor. hula-hop, Jimnastik ve tenis, nesne etkileşimlerinin yanı sıra, bir nesneyi kırılıncaya kadar bükmek.

Bu başlangıç ​​eylemlerinden 3840 adet istem üretmek için büyük bir dil modeli (LLM) kullanılır ve istemler daha sonra denenmekte olan çeşitli çerçeveler aracılığıyla videoları sentezlemek için kullanılır.

Yazarlar süreç boyunca, yapay zeka tarafından oluşturulan videoların karşılaması gereken 'aday' fiziksel kurallar ve yasalar listesi geliştirdiler ve değerlendirme için görme-dil modellerini kullandılar.

Yazarlar şunları belirtiyor:

'Örneğin, tenis oynayan bir sporcunun videosunda, bir fizik kuralı olarak, bir tenis topunun yerçekimi altında parabolik bir yörünge izlemesi gerekir. Altın standart yargılar için, insan yorumculardan her videoyu genel anlamsal uyum ve fiziksel sağduyu temelinde puanlamalarını ve çeşitli fizik kurallarına uygunluğunu işaretlemelerini istiyoruz.'

Yukarıda: Bir LLM kullanılarak bir eylemden bir metin istemi oluşturulur ve bir metinden videoya üreteçle bir video oluşturmak için kullanılır. Bir vizyon-dil modeli videoya altyazı ekler ve olası fiziksel kuralları belirler. Aşağıda: İnsan açıklayıcılar videonun gerçekçiliğini değerlendirir, kural ihlallerini onaylar, eksik kuralları ekler ve videonun orijinal istemle eşleşip eşleşmediğini kontrol eder.

Yukarıda: Bir LLM kullanılarak bir eylemden bir metin istemi oluşturulur ve bir metinden videoya üreteçle bir video oluşturmak için kullanılır. Bir vizyon-dil modeli videoya altyazı ekler ve olası fiziksel kuralları belirler. Aşağıda: İnsan açıklayıcılar videonun gerçekçiliğini değerlendirir, kural ihlallerini onaylar, eksik kuralları ekler ve videonun orijinal istemle eşleşip eşleşmediğini kontrol eder.

Başlangıçta araştırmacılar, AI tarafından oluşturulan videolarda fiziksel sağduyuyu değerlendirmek için bir dizi eylem düzenlediler. 600'den fazla eylemle başladılar kinetik, UCF-101, ve SSv2 spor, nesne etkileşimleri ve gerçek dünya fiziği içeren aktivitelere odaklanan veri kümeleri.

STEM konusunda eğitimli öğrenci açıklayıcılardan oluşan iki bağımsız grup (en az lisans yeterlilik belgesi almış), listeyi gözden geçirip filtreleyerek, şu gibi ilkeleri test eden eylemleri seçti: yerçekimi, moment, ve elastikiyet, düşük hareket gerektiren görevleri ortadan kaldırırken, yazarak, bir kediyi sevmekya da çiğneme.

Daha fazla iyileştirmeden sonra Gemini-2.0-Flaş-Deney Tekrarları ortadan kaldırmak için, son veri seti 197 eylem içeriyordu; bunlardan 54'ü nesne etkileşimlerini, 143'ü ise fiziksel ve spor aktivitelerini içeriyordu:

Damıtılmış eylemlerden örnekler.

Damıtılmış eylemlerden örnekler.

İkinci aşamada, araştırmacılar Gemini-2.0-Flash-Exp'i kullanarak veri setindeki her eylem için 20 istem üretti ve toplamda 3,940 istem elde etti. Üretim süreci, üretilen bir videoda açıkça temsil edilebilecek görünür fiziksel etkileşimlere odaklandı. Bu, görsel olmayan öğeleri hariç tuttu: duygular, Duyusal ayrıntılar, ve soyut dil, ancak çeşitli karakterleri ve nesneleri bünyesinde barındırıyordu.

Örneğin, ' gibi basit bir komut istemi yerineBir okçu oku fırlatır, modelin daha ayrıntılı bir versiyon üretmesi için yönlendirildi 'Bir okçu yay kirişini tam gerginliğe geri çeker, sonra düz bir şekilde uçan ve kağıt hedefte tam isabet eden oku serbest bırakır'.

Modern video modelleri daha uzun açıklamaları yorumlayabildiğinden, araştırmacılar altyazıları daha da rafine ettiler Mistral-NeMo-12B-Talimat Orijinal anlamı değiştirmeden görsel ayrıntılar eklemek için hızlı yukarı örnekleyici.

VideoPhy-2'den fiziksel aktivitelere veya nesne etkileşimlerine göre kategorize edilmiş örnek istemler. Her istem, karşılık gelen eylemi ve test ettiği ilgili fiziksel prensiple eşleştirilir.

VideoPhy-2'den fiziksel aktivitelere veya nesne etkileşimlerine göre kategorize edilmiş örnek istemler. Her istem, karşılık gelen eylemi ve test ettiği ilgili fiziksel prensiple eşleştirilir.

Üçüncü aşamada fiziksel kurallar metin istemlerinden değil, oluşturulan videolardan türetildi; çünkü üretken modeller koşullu metin istemlerine uymakta zorluk çekebilir.

Videolar ilk olarak VideoPhy-2 komutları kullanılarak oluşturuldu, ardından önemli ayrıntıları çıkarmak için Gemini-2.0-Flash-Exp ile altyazı eklendi. Model, video başına üç beklenen fiziksel kural önerdi ve insan yorumcular bunları inceleyip ek olası ihlalleri belirleyerek genişletti.

Üst örneklemli altyazılardan örnekler.

Üst örneklemli altyazılardan örnekler.

Daha sonra, en zorlu eylemleri belirlemek için araştırmacılar, CogVideoX-5B VideoPhy-2 veri kümesinden gelen istemlerle. Daha sonra, modelin hem istemleri hem de temel fiziksel sağduyuyu takip etmekte sürekli olarak başarısız olduğu 60 eylemden 197'ını seçtiler.

Bu eylemler, disk atmada momentum transferi, bir nesneyi kırılıncaya kadar bükmek gibi durum değişiklikleri, ip üstünde yürüme gibi denge görevleri ve geri taklalar, sırıkla atlama ve pizza fırlatma gibi karmaşık hareketler gibi fizik açısından zengin etkileşimleri içeriyordu. Alt veri setinin zorluğunu artırmak için toplamda 1,200 istem seçildi.

Ortaya çıkan veri kümesi 3,940 altyazıdan oluşuyordu - VideoPhy'nin önceki sürümünden 5.72 kat daha fazla. Orijinal altyazıların ortalama uzunluğu 16 token iken, örneklenmiş altyazılar 138 tokena ulaşıyor - sırasıyla 1.88 kat ve 16.2 kat daha uzun.

Veri setinde ayrıca, birden fazla video üretim modelinde semantik uyum, fiziksel sağduyu ve kural ihlallerini kapsayan 102,000 insan açıklaması da yer alıyor.

Değerlendirme

Araştırmacılar daha sonra videoları değerlendirmek için net kriterler tanımladılar. Ana hedef, her videonun girdi istemiyle ne kadar iyi eşleştiğini ve temel fizik prensiplerini ne kadar iyi takip ettiğini değerlendirmekti.

Videoları tercihe göre sıralamak yerine, belirli başarıları ve başarısızlıkları yakalamak için derecelendirmeye dayalı geri bildirim kullandılar. İnsan yorumcular, videoları beş puanlık bir ölçekte puanladılar ve bu da daha ayrıntılı yargılara olanak sağladı; değerlendirme ayrıca videoların çeşitli fiziksel kurallara ve yasalara uyup uymadığını da kontrol etti.

İnsan değerlendirmesi için, Amazon Mechanical Turk (AMT) üzerindeki denemelerden 12 yorumcudan oluşan bir grup seçildi ve ayrıntılı uzaktan talimatlar aldıktan sonra derecelendirmeler sağlandı. Adalet için, anlamsal bağlılık ve fiziksel sağduyu ayrı ayrı değerlendirildi (orijinal VideoPhy çalışmasında birlikte değerlendirildiler).

Açıklamacılar önce videoların girdi istemleriyle ne kadar iyi eşleştiğini derecelendirdiler, ardından fiziksel makullüğü ayrı ayrı değerlendirdiler, kural ihlallerini ve genel gerçekçiliği beş puanlık bir ölçekte puanladılar. Modeller arasında adil bir karşılaştırma sağlamak için yalnızca orijinal istemler gösterildi.

AMT yorumcularına sunulan arayüz.

AMT yorumcularına sunulan arayüz.

İnsan yargısı altın standart olmaya devam etse de pahalıdır ve beraberinde birtakım uyarıların sayısıBu nedenle daha hızlı ve daha ölçeklenebilir model değerlendirmeleri için otomatik değerlendirme esastır.

Makalenin yazarları, Gemini-2.0-Flash-Exp ve dahil olmak üzere çeşitli video dili modellerini test etti. VideoPuanı, videoları anlamsal doğruluk ve 'fiziksel sağduyu' açısından puanlama yeteneklerine göre.

Modeller yine her videoyu beş puanlık bir ölçekte derecelendirirken, ayrı bir sınıflandırma görevi fiziksel kurallara uyulup uyulmadığını, ihlal edilip edilmediğini veya belirsiz olup olmadığını belirledi.

Deneyler, mevcut video dili modellerinin, esas olarak zayıf fiziksel muhakeme ve istemlerin karmaşıklığı nedeniyle insan yargılarına uymakta zorlandığını gösterdi. Otomatik değerlendirmeyi iyileştirmek için araştırmacılar, VideoPhy-2-Otomatik Değerlendirme, üç kategoride daha doğru tahminler sağlamak için tasarlanmış 7B parametreli bir modeldir: anlamsal bağlılık; fiziksel sağduyu; Ve kural uyumu, ince ayarlı VideoCon-Fizik 50,000 insan açıklamasının kullanıldığı model*.

Veriler ve Testler

Yazarlar, bu araçları kullanarak hem yerel kurulumlar hem de gerektiğinde ticari API'ler aracılığıyla bir dizi üretken video sistemini test ettiler: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Kozmos-Yayılma; Wan2.1-14B; OpenAI Sora; Ve Işık ışını.

Modeller mümkün olduğunca yukarı örneklenmiş altyazılarla başlatıldı, ancak Hunyuan Video ve VideoCrafter2 77 belirteç altında çalışıyor CLIP sınırlamaları vardır ve belirli bir uzunluğun üzerindeki istemleri kabul edemezler.

Üretilen videoların uzunluğu 6 saniyeden kısa tutuldu, çünkü daha kısa çıktıların değerlendirilmesi daha kolay oluyor.

Sürüş verileri, bir kıyaslama ve eğitim setine bölünmüş olan VideoPhy-2 veri setinden alınmıştır. Maliyet faktörü nedeniyle Sora ve Ray590 hariç, model başına 2 video üretilmiştir (bunlar için eşdeğer daha az sayıda video üretilmiştir).

(Daha fazla değerlendirme ayrıntısı için lütfen kaynak makaleye bakın, orada ayrıntılı olarak açıklanmıştır)

İlk değerlendirme şu konularla ilgilendi: fiziksel aktiviteler/sporlar (PA) ve nesne etkileşimleri (OI) ve hem genel veri setini hem de yukarıda belirtilen 'daha zor' alt kümeyi test etti:

İlk tur sonuçları.

İlk tur sonuçları.

Yazarların yorumları şöyle:

'En iyi performans gösteren model olan Wan2.1-14B bile, veri setimizin tam ve sert bölümlerinde sırasıyla yalnızca %32.6 ve %21.9'a ulaşıyor. Diğer modellere kıyasla nispeten güçlü performansı, çok modlu eğitim verilerinin çeşitliliğine ve çok çeşitli eylemlerde yüksek kaliteli videoları koruyan sağlam hareket filtrelemesine atfedilebilir.

'Ayrıca, Ray2 gibi kapalı modellerin, Wan2.1-14B ve CogVideoX-5B gibi açık modellerden daha kötü performans gösterdiğini gözlemliyoruz. Bu, kapalı modellerin fiziksel sağduyuyu yakalamada açık modellerden mutlaka üstün olmadığını gösteriyor.

'Özellikle, Cosmos-Diffusion-7B, zorlu bölmede ikinci en iyi puanı elde etti ve çok daha büyük olan HunyuanVideo-13B modelini bile geride bıraktı. Bu, eğitim verilerinde insan eylemlerinin yüksek oranda temsil edilmesinden ve sentetik olarak oluşturulmuş simülasyonlardan kaynaklanıyor olabilir.'

Sonuçlar, video modellerinin spor gibi fiziksel aktivitelerle daha basit nesne etkileşimlerinden daha fazla mücadele ettiğini gösterdi. Bu, bu alanda AI tarafından üretilen videoları iyileştirmenin daha iyi veri kümeleri gerektireceğini gösteriyor - özellikle tenis, disk atma, beyzbol ve kriket gibi sporların yüksek kaliteli görüntüleri.

Çalışma ayrıca bir modelin fiziksel makullüğünün estetik ve hareket akıcılığı gibi diğer video kalitesi ölçütleriyle ilişkili olup olmadığını da inceledi. Bulgular güçlü bir korelasyon ortaya koymadı, yani bir model sadece görsel olarak çekici veya akıcı hareketler üreterek VideoPhy-2'deki performansını iyileştiremez - fiziksel sağduyuya dair daha derin bir anlayışa ihtiyacı vardır.

Makale bol miktarda nitel örnek sağlasa da, PDF'de sunulan statik örneklerin birkaçı, yazarların proje sahasında sunduğu kapsamlı video tabanlı örneklerle ilişkili görünüyor. Bu nedenle, statik örneklerden küçük bir seçkiye ve ardından gerçek proje videolarından birkaçına daha bakacağız.

Üst sırada Wan2.1 tarafından oluşturulan videolar gösterilmektedir. (a) Ray2'de, soldaki jet-ski geriye doğru hareket etmeden önce geride kalmaktadır. (b) Hunyuan-13B'de, balyoz vuruş sırasında deforme olmaktadır ve beklenmedik bir şekilde kırık bir tahta parçası ortaya çıkmaktadır. (c) Cosmos-7B'de, cirit yere temas etmeden önce kumu dışarı atmaktadır.

Üst sırada Wan2.1 tarafından oluşturulan videolar gösterilmektedir. (a) Ray2'de, soldaki jet-ski geriye doğru hareket etmeden önce geride kalmaktadır. (b) Hunyuan-13B'de, balyoz vuruş sırasında deforme olmaktadır ve beklenmedik bir şekilde kırık bir tahta parçası ortaya çıkmaktadır. (c) Cosmos-7B'de, cirit yere temas etmeden önce kumu dışarı atmaktadır.

Yazarlar yukarıdaki nitel testle ilgili olarak şu yorumu yapmaktadır:

'[Biz] jet skilerinin doğal olmayan bir şekilde ters yönde hareket etmesi ve katı bir balyozun elastiklik ilkelerine meydan okuyarak deformasyona uğraması gibi fiziksel sağduyunun ihlallerini gözlemliyoruz. Ancak, Wan bile [bu makalenin başında yer alan klipte] gösterildiği gibi fiziksel sağduyu eksikliğinden muzdariptir.

'Bu durumda, bir kayanın yokuş yukarı yuvarlanmaya ve hızlanmaya başladığını, yer çekiminin fiziksel yasasına meydan okuduğunu vurguluyoruz.'

Proje sahasından diğer örnekler:

Oynatmak için tıklayın. Burada altyazı şöyleydi: 'Bir kişi ıslak bir havluyu kuvvetlice büküyor, su gözle görülür bir yay çizerek dışarı doğru fışkırıyor' - ancak ortaya çıkan su kaynağı bir havludan çok bir su hortumuna benziyor.

Oynatmak için tıklayın. Burada başlık şöyleydi: 'Bir kimyager, dökülmelere dikkat ederek bir beherdeki berrak bir sıvıyı bir test tüpüne döküyor', ancak behere eklenen su hacminin sürahiden çıkan su miktarıyla tutarlı olmadığını görebiliyoruz.

Başta da belirttiğim gibi, bu projeyle ilgili materyalin hacmi burada ele alınabilecek miktarın çok ötesindedir. Bu nedenle, yazarların prosedürlerinin gerçekten kapsamlı bir özeti ve çok daha fazla test örneği ve prosedür detayı için lütfen daha önce bahsedilen kaynak makaleye, proje sitesine ve ilgili sitelere başvurun.

 

* Açıklamaların kaynağına gelince, makalede yalnızca 'bu görevler için edinilmiş' ifadesi yer alıyor; bunların 12 AMT çalışanı tarafından üretilmiş olması çok büyük bir rakam gibi görünüyor.

İlk yayın tarihi Perşembe, 13 Mart 2025

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai