Anderson'ın Açısı

Difüzyon Modellerinin Aynalar ve Yansımalar Hakkındaki Sınırlı Anlayışının Düzeltilmesi

Yayınlanan 28 Nisan 2025

Martin Anderson

Üretken yapay zeka kamuoyunun ilgisini çekmeye başladığından beri, bilgisayarlı görüş araştırma alanı, fiziksel yasaları anlayıp çoğaltabilen yapay zeka modelleri geliştirmeye olan ilgisini derinleştirdi; ancak, makine öğrenimi sistemlerine yerçekimi ve sıvı dinamiği en azından son yıllarda araştırma çabalarının önemli bir odağı olmuştur son beş yıl.

Dan beri gizli difüzyon modelleri (LDM'ler) 2022'de üretken yapay zeka sahnesine hakim olmaya başladı, araştırmacılar giderek daha fazla odaklanmış LDM mimarisinin fiziksel olayları anlama ve yeniden üretme konusundaki sınırlı kapasitesi üzerine. Şimdi ise bu konu, OpenAI'nin üretken video modelinin çığır açan gelişimiyle daha da önem kazandı. sora, ve (tartışmalı olarak) daha önemli olan açık kaynaklı son sürüm video modelleri Hunyuan Video ve Geniş 2.1.

Kötü Yansıtma

LDM'nin fizik anlayışını geliştirmeyi amaçlayan araştırmaların çoğu yürüyüş simülasyonu, parçacık fiziği ve Newton hareketinin diğer yönleri gibi alanlara odaklanmıştır. Bu alanlar dikkat çekmiştir çünkü temel fiziksel davranışlardaki yanlışlıklar, AI tarafından üretilen videonun gerçekliğini hemen baltalayacaktır.

Ancak, küçük ama büyüyen bir araştırma kolu LDM'nin en büyük zayıflıklarından birine odaklanıyor: göreceli yetersizlik doğru üretmek yansımalar.

Ocak 2025 tarihli 'Gerçekliği Yansıtmak: Difüzyon Modellerinin Sadık Ayna Yansımaları Üretmesini Sağlamak' başlıklı makaleden, araştırmacıların kendi yaklaşımlarına kıyasla 'yansıma başarısızlığı' örnekleri. Kaynak: https://arxiv.org/pdf/2409.14677

Ocak 2025 tarihli 'Gerçeği Yansıtmak: Difüzyon Modellerinin Sadık Ayna Yansımaları Üretmesini Sağlamak' başlıklı makaleden, araştırmacıların kendi yaklaşımlarına kıyasla 'yansıma başarısızlığı' örnekleri. Kaynak: https://arxiv.org/pdf/2409.14677

Bu sorun CGI döneminde de bir zorluktu ve video oyunları alanında da bir sorun olmaya devam ediyor. Işın izleme algoritmalar, ışığın yüzeylerle etkileşime girdiği yolu simüle eder. Işın izleme, sanal ışık ışınlarının gerçekçi yansımalar, kırılmalar ve gölgeler oluşturmak için nesnelerden nasıl sıçradığını veya geçtiğini hesaplar.

Ancak, her ek sıçrama hesaplama maliyetini önemli ölçüde artırdığı için, gerçek zamanlı uygulamalar, izin verilen ışık ışını sıçramalarının sayısını sınırlayarak gecikmeyi doğrulukla dengelemelidir.

3'larda ilk kez geliştirilen ve 1960-1982 yılları arasında (Tron [93] ile Jurassic Park [1982] arasındaki zaman dilimi) patlak veren teknolojiler ve ilkeler kullanılarak geleneksel bir 1993D tabanlı (yani CGI) senaryoda sanal olarak hesaplanmış bir ışık huzmesinin temsili. Kaynak: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

3'larda ilk kez geliştirilen ve 1960-1982 yılları arasında ('Tron' [93] ile 'Jurassic Park' [1982] arasındaki dönem) ortaya çıkan teknolojiler ve prensipler kullanılarak, geleneksel 1993B tabanlı (yani CGI) bir senaryoda sanal olarak hesaplanmış bir ışık huzmesinin temsili. Kaynak: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Örneğin, bir aynanın önünde krom bir çaydanlığı tasvir etmek, ışık ışınlarının yansıtıcı yüzeyler arasında tekrar tekrar sıçradığı ve nihai görüntüye çok az pratik fayda sağlayan neredeyse sonsuz bir döngü oluşturduğu bir ışın izleme sürecini içerebilir. Çoğu durumda, iki ila üç sıçramalık bir yansıma derinliği, izleyicinin algılayabileceğinden daha fazladır. Tek bir sıçrama, ışığın görünür bir yansıma oluşturmak için en az iki yolculuğu tamamlaması gerektiğinden siyah bir aynayla sonuçlanacaktır.

Her ek sıçrama, hesaplama maliyetini önemli ölçüde artırır, genellikle işleme sürelerini iki katına çıkarır ve yansımaların daha hızlı işlenmesini sağlar en önemli fırsatlardan biri ışın izlemeli işleme kalitesini iyileştirmek için.

Doğal olarak yansımalar meydana gelir ve fotogerçekçilik için olmazsa olmazdır. Çok daha az belirgin senaryolarda – örneğin bir şehir sokağının veya yağmurdan sonra bir savaş alanının yansıtıcı yüzeyi; bir mağaza vitrinindeki veya cam kapıdaki karşı sokağın yansıması; veya nesnelerin ve ortamların görünmesi gereken tasvir edilen karakterlerin gözlüklerinde.

'The Matrix' (1999) filmindeki ikonik bir sahne için geleneksel kompozisyonla elde edilen simüle edilmiş ikiz yansıma.

'The Matrix' (1999) filmindeki ikonik bir sahne için geleneksel kompozisyon yoluyla elde edilen simüle edilmiş ikiz yansıma.

Görüntü Sorunları

Bu nedenle, yayılma modellerinin ortaya çıkmasından önce popüler olan çerçeveler, örneğin Nöral Parlaklık Alanları (NeRF) ve daha yakın zamandaki bazı rakipler, örneğin Gauss Sıçraması yansımaları doğal bir şekilde canlandırmak için kendi mücadelelerini sürdürdüler.

MKS REF²-NeRF proje (aşağıda resmedilmiştir) cam bir kasa içeren sahneler için NeRF tabanlı bir modelleme yöntemi önerdi. Bu yöntemde, kırılma ve yansıma izleyicinin perspektifine bağlı ve bağımsız olan öğeler kullanılarak modellendi. Bu yaklaşım araştırmacıların kırılmanın meydana geldiği yüzeyleri, özellikle cam yüzeyleri tahmin etmelerine olanak tanıdı ve hem doğrudan hem de yansıyan ışık bileşenlerinin ayrılmasını ve modellenmesini sağladı.

Ref2Nerf makalesinden örnekler. Kaynak: https://arxiv.org/pdf/2311.17116

Son 4-5 yıldaki diğer NeRF'e yönelik yansıma çözümleri şunları içeriyordu: NeRFReN, Gerçeği Yansıtmakve Meta'nın 2024'ü Düzlemsel Yansıma Farkında Sinirsel Işıltı Alanları proje.

GSplat için, şu tür makaleler: Ayna-3DGS, Yansıtıcı Gauss Sıçratma, ve RefGaussian yansıma sorununa ilişkin çözümler sunarken, 2023 Nero projesi Yansıtıcı niteliklerin sinirsel temsillere dahil edilmesi için özel bir yöntem önerildi.

AynaAyet

Bir difüzyon modelinin yansıma mantığına uymasını sağlamak, Gaussian Splatting ve NeRF gibi açıkça yapısal, semantik olmayan yaklaşımlara göre tartışmasız daha zordur. Difüzyon modellerinde, bu tür bir kuralın güvenilir bir şekilde gömülmesi ancak eğitim verileri çok çeşitli senaryolar boyunca çok çeşitli örnekler içeriyorsa olasıdır ve bu da onu orijinal veri setinin dağılımına ve kalitesine büyük ölçüde bağımlı hale getirir.

Geleneksel olarak, bu türden belirli davranışların eklenmesi bir kişinin sorumluluğundadır. LoRA ya da ince ayar temel modelin; ancak bunlar ideal çözümler değildir, çünkü bir LoRA, istemde bulunulmadan bile çıktıyı kendi eğitim verilerine doğru eğme eğilimindedir, ince ayarlar ise pahalı olmasının yanı sıra, büyük bir modeli geri dönülmez bir şekilde ana akımdan uzaklaştırabilir ve hiçbir zaman hiçbir modelle çalışmayacak bir dizi ilgili özel araç doğurabilir Diğer modelin orijinali de dahil olmak üzere tüm gerginliği.

Genel olarak, difüzyon modellerini iyileştirmek, eğitim verilerinin yansıma fiziğine daha fazla dikkat etmesini gerektirir. Ancak, birçok başka alan da benzer özel ilgiye ihtiyaç duyar. Özel küratörlüğün maliyetli ve zor olduğu hiper ölçekli veri kümeleri bağlamında, her bir zayıflığı bu şekilde ele almak pratik değildir.

Bununla birlikte, LDM yansıma sorununa çözümler ara sıra ortaya çıkıyor. Hindistan'dan gelen son çabalardan biri de AynaAyet Bu özel difüzyon araştırmasındaki zorlukta en son teknolojiyi geliştirme kapasitesine sahip, geliştirilmiş bir veri seti ve eğitim yöntemi sunan proje.

En sağda, MirrorVerse'den elde edilen sonuçlar iki önceki yaklaşıma karşı (ortadaki iki sütun) sergileniyor. Kaynak: https://arxiv.org/pdf/2504.15397

En sağda, MirrorVerse'den elde edilen sonuçlar iki önceki yaklaşıma karşı yarışıyor (ortadaki iki sütun). Kaynak: https://arxiv.org/pdf/2504.15397

Yukarıdaki örnekte (yeni çalışmanın PDF'indeki öne çıkan görsel) görebileceğimiz gibi MirrorVerse, aynı sorunu ele alan son zamanlardaki çözümlerden daha iyi olsa da mükemmel olmaktan uzak.

Sağ üstteki görüntüde seramik kavanozların olması gereken yerin biraz sağında olduğunu görüyoruz. Teknik olarak fincanın yansımasının olmaması gereken alttaki görüntüde ise doğal yansıma açılarının mantığına aykırı olarak sağ tarafa yanlış bir yansıma sıkıştırılmış.

Bu nedenle, yeni yönteme, difüzyon tabanlı yansımada mevcut en son teknolojiyi temsil edebileceği için değil, aynı zamanda, yansıtmaya ilişkin gerekli veri örneklerinin büyük olasılıkla belirli eylemler ve senaryolarla iç içe geçmiş olması nedeniyle, bunun gizli difüzyon modelleri, statik ve video için ne ölçüde çözümsüz bir sorun olabileceğini göstermek için bakacağız.

Dolayısıyla LDM'lerin bu özel işlevi, NeRF, GSplat ve geleneksel CGI gibi yapıya özgü yaklaşımların gerisinde kalmaya devam edebilir.

MKS yeni kağıt başlıklı MirrorVerse: Yayılma Modellerini Dünyayı Gerçekçi Şekilde Yansıtacak Şekilde Zorlamakve Vision and AI Lab, IISc Bangalore ve Bangalore'daki Samsung Ar-Ge Enstitüsü'ndeki üç araştırmacıdan geliyor. Makalede bir ilişkili proje sayfasıhem de bir Hugging Face'deki veri seti, kaynak koduyla GitHub'da yayınlandı.

Yöntem

Araştırmacılar, başlangıçtan itibaren Kararlı Difüzyon ve Akı Yansıtma temelli istemlere saygı göstermekte ve konuyu ustalıkla örneklendirmektedir:

Makaleden: Günümüzde kullanılan son teknoloji metin-görüntü modelleri SD3.5 ve Flux, sahnede yansımalar üretmeleri istendiğinde tutarlı ve geometrik olarak doğru yansımalar üretmede önemli zorluklar sergiledi.

Makaleden: Mevcut en son metin-görüntü modelleri olan SD3.5 ve Flux, bir sahnede bunları üretmeleri istendiğinde tutarlı ve geometrik olarak doğru yansımalar üretmede önemli zorluklar sergiliyor.

Araştırmacılar, AynaFusion 2.0Sentetik görüntülerde ayna yansımalarının fotogerçekçiliğini ve geometrik doğruluğunu iyileştirmeyi amaçlayan difüzyon tabanlı bir üretken model. Modelin eğitimi, araştırmacıların kendi yeni düzenledikleri veri setine dayanıyordu. AynaGen2, sorunu ele almak için tasarlanmıştır genelleme Önceki yaklaşımlarda gözlemlenen zayıflıklar.

MirrorGen2, daha önceki metodolojileri genişleterek şunları sunar: rastgele nesne konumlandırma, rastgele rotasyonlar, ve açık nesne temellendirmesi, ayna yüzeyine göre daha geniş bir yelpazedeki nesne pozları ve yerleşimleri boyunca yansımaların makul kalmasını sağlamayı amaçlamaktadır.

MirrorVerse'de sentetik veri üretimi için şema: veri seti üretim hattı, 3D-Positioner'ı kullanarak sahne içindeki nesneleri rastgele konumlandırarak, döndürerek ve topraklayarak temel artırmaları uyguladı. Nesneler ayrıca karmaşık mekansal ilişkileri ve tıkanıklıkları simüle etmek için anlamsal olarak tutarlı kombinasyonlarda eşleştirilir ve bu da veri setinin çoklu nesne sahnelerinde daha gerçekçi etkileşimleri yakalamasına olanak tanır.

Modelin karmaşık mekansal düzenlemeleri ele alma yeteneğini daha da güçlendirmek için MirrorGen2 boru hattı şunları içerir: eşleştirilmiş nesne sahneleri, sistemin yansıtıcı ortamlardaki birden fazla unsur arasındaki tıkanıklıkları ve etkileşimleri daha iyi temsil etmesini sağlar.

Kağıt şöyle diyor:

'Semantik tutarlılığı sağlamak için kategoriler manuel olarak eşleştirilir; örneğin, bir sandalyeyi bir masayla eşleştirmek gibi. İşleme sırasında, birincil [nesne] konumlandırılıp döndürüldükten sonra, eşleştirilmiş kategoriden ek bir [nesne] örneklenir ve çakışmayı önlemek için düzenlenir; böylece sahne içinde belirgin mekansal bölgeler sağlanır.'

Açık nesne topraklaması ile ilgili olarak, yazarlar burada üretilen nesnelerin çıktı sentetik verilerinde zemine 'sabitlenmesini' sağladılar; sentetik veriler büyük ölçekte veya yüksek oranda otomatikleştirilmiş yöntemlerle üretildiğinde oluşabilen uygunsuz şekilde 'havada asılı kalma' durumu yerine.

Veri kümesi yeniliği makalenin yeniliğinin merkezinde yer aldığından, kapsamın bu bölümüne her zamankinden daha erken geçeceğiz.

Veriler ve Testler

EşzamanlıAynaV2

Araştırmacıların SynMirrorV2 veri seti, ayna yansıması eğitim verilerinin çeşitliliğini ve gerçekçiliğini artırmak için tasarlandı ve 3B nesneleri içeriyor. Müthiş ve Amazon Berkeley Nesneleri (ABO) veri kümeleri, bu seçimler daha sonra şu şekilde rafine edildi: NESNE 3DIT, V1'den filtreleme işleminin yanı sıra MirrorFusion projesi, düşük kaliteli varlıkları ortadan kaldırmak için. Bu, 66,062 nesneden oluşan rafine bir havuzla sonuçlandı.

Yeni sistem için düzenlenmiş veri setinin oluşturulmasında kullanılan Objaverse veri setinden örnekler. Kaynak: https://arxiv.org/pdf/2212.08051

Sahne inşası, bu nesnelerin dokulu zeminlere yerleştirilmesini içeriyordu CC-Dokular ve HDRI arka planları Çok Cennet CGI deposu, tam duvar veya uzun dikdörtgen aynalar kullanılarak. Aydınlatma, nesnelerin üstüne ve arkasına kırk beş derecelik bir açıyla yerleştirilen bir alan ışığıyla standartlaştırıldı. Nesneler bir birim küpün içine sığacak şekilde ölçeklendirildi ve ayna ve kamera görüntülemesinin önceden hesaplanmış bir kesişimi kullanılarak konumlandırıldı kesik konilergörünürlüğü garanti altına alıyor.

Y ekseni etrafında rastgele döndürmeler uygulandı ve 'yüzen eserleri' önlemek için topraklama tekniği kullanıldı.

Daha karmaşık sahneleri simüle etmek için, veri kümesi ayrıca ABO kategorilerine dayalı anlamsal olarak tutarlı eşleşmelere göre düzenlenmiş birden fazla nesneyi de içeriyordu. İkincil nesneler, çeşitli tıkanıklıkları ve derinlik ilişkilerini yakalamak üzere tasarlanmış 3,140 çok nesneli sahne yaratarak örtüşmeyi önleyecek şekilde yerleştirildi.

Yazarların veri setinden alınan ve birden fazla (ikiden fazla) nesne içeren işlenmiş görünüm örnekleri, nesne segmentasyonu ve derinlik haritası görselleştirmelerinin çizimleriyle birlikte aşağıda görülmektedir.

Yazarların veri setinden alınan, birden fazla (ikiden fazla) nesne içeren işlenmiş görünüm örnekleri, nesne segmentasyonu ve derinlik haritası görselleştirmelerinin çizimleriyle birlikte aşağıda görülmektedir.

Eğitim süreci

Sentetik gerçekçiliğin tek başına gerçek dünya verilerine sağlam bir genelleme yapmak için yeterli olmadığını kabul eden araştırmacılar, MirrorFusion 2.0'ı eğitmek için üç aşamalı bir müfredat öğrenme süreci geliştirdiler.

1. Aşamada yazarlar, ağırlıklar hem koşullandırma hem de üretim dallarının Kararlı Difüzyon ile v1.5 kontrol noktası ve tek nesne eğitiminde modeli ince ayarladı bölmek SynMirrorV2 veri kümesinin. Yukarıda belirtilenlerin aksine Gerçeği Yansıtmak proje, araştırmacıların dondurmak nesil dalı. Daha sonra modeli 40,000 yineleme için eğittiler.

Aşama 2'de, sisteme tıkanıklıkları ve gerçekçi sahnelerde bulunan daha karmaşık mekansal düzenlemeleri ele almayı öğretmek amacıyla, SynMirrorV10,000'nin çoklu nesne eğitim bölümünde model ek 2 yineleme için ince ayar yapıldı.

Son olarak, 3. Aşamada, gerçek dünya verileri kullanılarak 10,000 ek ince ayar yinelemesi gerçekleştirildi. MSD veri seti, tarafından oluşturulan derinlik haritalarını kullanarak Matterport3D monoküler derinlik tahmincisi.

Gerçek dünya sahnelerinin derinlik ve segmentasyon haritalarına analiz edildiği MSD veri setinden örnekler. Kaynak: https://arxiv.org/pdf/1908.09101

MSD veri setinden örnekler, gerçek dünya sahnelerinin derinlik ve segmentasyon haritalarına analiz edilmesiyle oluşturulmuştur. Kaynak: https://arxiv.org/pdf/1908.09101

Eğitim sırasında, modelin mevcut derinlik bilgisini en iyi şekilde kullanmasını teşvik etmek için (yani, 'maskelenmiş' bir yaklaşım) eğitim süresinin yüzde 20'sinde metin istemleri çıkarıldı.

Tüm aşamalar için eğitim dört NVIDIA A100 GPU'da gerçekleştirildi (VRAM spesifikasyonu sağlanmamıştır, ancak kart başına 40 GB veya 80 GB olurdu). 1e'lik bir öğrenme oranı^-5 GPU başına 4'lük bir toplu iş boyutunda kullanıldı AdamW optimize edici.

Bu eğitim şeması, modele sunulan görevlerin zorluğunu giderek artırdı; daha basit sentetik sahnelerle başlayıp daha zorlu kompozisyonlara doğru ilerledi; amacı sağlam gerçek dünya aktarılabilirliğini geliştirmekti.

Test yapmak

Yazarlar, MirrorFusion 2.0'ı, temel alınan önceki son teknoloji ürünü MirrorFusion ile karşılaştırarak değerlendirdiler ve hem tek hem de çok nesneli sahneleri kapsayan MirrorBenchV2 veri kümesi üzerinde deneyler gerçekleştirdiler.

MSD veri setinden alınan örnekler üzerinde ek nitel testler yürütüldü ve Google Taranan Nesneler (GSO) veri seti.

Değerlendirmede, görülen ve görülmeyen kategorilerden 2,991 tek nesneli görüntü ve ABO'dan 300 iki nesneli sahne kullanıldı. Performans, şu şekilde ölçüldü: Tepe Sinyal-Gürültü Oranı (PSNR); Yapısal Benzerlik Endeksi (SSIM); ve Öğrenilmiş Algısal Görüntü Yama Benzerliği Maskelenmiş ayna bölgesindeki yansıma kalitesini değerlendirmek için (LPIPS) puanları. KLİP benzerliği Giriş istemleriyle metinsel uyumu değerlendirmek için kullanıldı.

Nicel testlerde, yazarlar belirli bir istem için dört tohum kullanarak görüntüler oluşturdular ve en iyi SSIM puanına sahip ortaya çıkan görüntüyü seçtiler. Nicel testler için bildirilen iki sonuç tablosu aşağıda gösterilmiştir.

Solda, MirrorBenchV2 tek nesne ayrımında tek nesne yansıma oluşturma kalitesi için nicel sonuçlar. MirrorFusion 2.0, kalın olarak gösterilen en iyi sonuçlarla temel çizgiyi geride bıraktı. Sağda, MirrorBenchV2 çoklu nesne ayrımında çoklu nesne yansıma oluşturma kalitesi için nicel sonuçlar. Çoklu nesnelerle eğitilen MirrorFusion 2.0, bunlar olmadan eğitilen sürümden daha iyi performans gösterdi ve en iyi sonuçlar kalın olarak gösterildi.

Yazarlar yorum:

'[Sonuçlar], yöntemimizin temel yöntemden daha iyi performans gösterdiğini ve birden fazla nesne üzerinde ince ayar yapmanın karmaşık sahnelerdeki sonuçları iyileştirdiğini gösteriyor.'

Sonuçların büyük kısmı ve yazarların vurguladığı sonuçlar nitel testlerle ilgilidir. Bu görsellerin boyutları nedeniyle, makalenin örneklerini yalnızca kısmen yeniden üretebiliyoruz.

MirrorBenchV2'de karşılaştırma: temel çizgi, doğru yansımaları ve mekansal tutarlılığı korumada başarısız oldu, yanlış sandalye yönelimi ve birden fazla nesnenin bozuk yansımalarını gösterdi, oysa (yazarların iddiasına göre) MirrorFusion 2.0, sandalyeyi ve kanepeleri doğru konum, yönelim ve yapı ile doğru şekilde işliyor.

Bu öznel sonuçlardan araştırmacılar, temel modelin yansımalardaki nesne yönelimini ve mekansal ilişkileri doğru bir şekilde işlemede başarısız olduğunu ve sıklıkla yanlış dönüş ve yüzen nesneler gibi eserler ürettiğini düşünüyor. Yazarlar, SynMirrorV2.0 üzerinde eğitilen MirrorFusion 2'ın hem tek nesneli hem de çok nesneli sahnelerde doğru nesne yönelimini ve konumlandırmasını koruduğunu ve bunun daha gerçekçi ve tutarlı yansımalarla sonuçlandığını iddia ediyor.

Aşağıda bahsi geçen GSO veri setine ilişkin nitel sonuçları görüyoruz:

GSO veri kümesinde karşılaştırma. Temel çizgi nesne yapısını yanlış temsil etti ve eksik, çarpık yansımalar üretti, yazarların iddiasına göre MirrorFusion 2.0 ise mekansal bütünlüğü koruyor ve dağıtım dışı nesnelerde bile doğru geometri, renk ve ayrıntı üretiyor.

GSO veri kümesinde karşılaştırma. Temel çizgi nesne yapısını yanlış temsil ediyor ve eksik, çarpık yansımalar üretiyor, yazarlar MirrorFusion 2.0'ın ise mekansal bütünlüğü koruduğunu ve dağıtım dışı nesnelerde bile doğru geometri, renk ve ayrıntı ürettiğini iddia ediyor.

Yazarların yorumları şöyle:

'MirrorFusion 2.0 önemli ölçüde daha doğru ve gerçekçi yansımalar üretir. Örneğin, Şekil 5'te (a – yukarıda), MirrorFusion 2.0 çekmece kulplarını doğru şekilde yansıtır (yeşil renkle vurgulanmıştır), temel model ise mantıksız bir yansıma üretir (kırmızı renkle vurgulanmıştır).

'Benzer şekilde, Şekil 5 (b)'deki "Beyaz-Sarı kupa" için MirrorFusion 2.0, nesnenin geometrisini ve görünümünü doğru bir şekilde yakalayamayan temel çizginin aksine, minimum eserle ikna edici bir geometri sunuyor.'

Son nitel test, yukarıda belirtilen gerçek dünya MSD veri setine karşı yapıldı (aşağıda kısmi sonuçlar gösterilmektedir):

MirrorFusion, MirrorFusion 2.0 ve MirrorFusion 2.0'ı karşılaştıran gerçek dünya sahne sonuçları, MSD veri kümesinde ince ayarlanmıştır. Yazarlar, MirrorFusion 2.0'ın bir masadaki dağınık nesneler ve üç boyutlu bir ortamda birden fazla aynanın varlığı dahil olmak üzere karmaşık sahne ayrıntılarını daha doğru bir şekilde yakaladığını iddia ediyor. Burada yalnızca kısmi sonuçlar gösteriliyor, çünkü sonuçların boyutları orijinal makalede yer alıyor ve okuyucuyu tam sonuçlar ve daha iyi çözünürlük için buraya yönlendiriyoruz.

Burada yazarlar, MirrorFusion 2.0'ın MirrorBenchV2 ve GSO verilerinde iyi performans göstermesine rağmen, başlangıçta MSD veri kümesindeki karmaşık gerçek dünya sahneleriyle mücadele ettiğini gözlemliyor. MSD'nin bir alt kümesinde modeli ince ayarlamak, dağınık ortamları ve birden fazla aynayı ele alma yeteneğini geliştirerek, tutulan test bölünmesinde daha tutarlı ve ayrıntılı yansımalarla sonuçlandı.

Ayrıca, bir kullanıcı araştırması yürütülmüş ve kullanıcıların %84'ünün temel yönteme göre MirrorFusion 2.0'dan gelen nesilleri tercih ettiği bildirilmiştir.

Kullanıcı çalışmasının sonuçları.

Kullanıcı araştırmasının ayrıntıları makalenin ekine aktarıldığı için, okuyucuyu çalışmanın ayrıntıları için bu eke yönlendiriyoruz.

Sonuç

Makalede gösterilen sonuçların birçoğu, son teknolojiye göre etkileyici iyileştirmeler olsa da, bu özel arayış için son teknoloji o kadar berbat ki, ikna edici olmayan bir toplu çözüm bile az bir çabayla kazanabilir. Bir difüzyon modelinin temel mimarisi, tutarlı fiziğin güvenilir bir şekilde öğrenilmesi ve gösterilmesine aykırıdır, bu nedenle sorun kötü bir şekilde ortaya konmuştur ve görünüşe göre zarif bir çözüme doğru eğilimli değildir.

Ayrıca, mevcut modellere veri eklemek, daha önce listelenen tüm dezavantajlarla birlikte, LDM performansındaki eksiklikleri gidermenin standart yöntemidir. Gelecekteki yüksek ölçekli veri kümelerinin yansımayla ilgili veri noktalarının dağıtımına (ve açıklamasına) daha fazla dikkat etmesi durumunda, ortaya çıkan modellerin bu senaryoyu daha iyi ele alacağını varsaymak mantıklıdır.

Ancak aynı durum LDM çıktısındaki diğer birçok sorun için de geçerlidir; bunlardan hangisinin yeni makalenin yazarlarının burada önerdiği türden bir çözüm için harcanan çabayı ve parayı en çok hak ettiğini kim söyleyebilir?

İlk yayın tarihi Pazartesi, 28 Nisan 2025. Salı, 29 Nisan: Son paragraflarda dil bilgisi düzeltmesi yapıldı.

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai