Sudut Anderson
Memperbaiki Pemahaman Terbatas Model Difusi tentang Cermin dan Refleksi

Sejak AI generatif mulai menarik minat publik, bidang penelitian visi komputer telah memperdalam ketertarikannya dalam mengembangkan model AI yang mampu memahami dan mereplikasi hukum fisika; namun, tantangan mengajarkan sistem pembelajaran mesin untuk mensimulasikan fenomena seperti gravitasi dan dinamika cairan telah menjadi fokus signifikan upaya penelitian setidaknya selama lima tahun terakhir. Sejak model difusi laten (LDM) mendominasi adegan AI generatif pada 2022, para peneliti telah semakin fokus pada kapasitas terbatas arsitektur LDM dalam memahami dan mereproduksi fenomena fisika. Kini, isu ini mendapatkan sorotan tambahan dengan perkembangan penting model video generatif OpenAI Sora, dan (bisa dibilang) rilis baru-baru ini yang lebih konsekuensial dari model video sumber terbuka Hunyuan Video dan Wan 2.1.
Refleksi yang Buruk
Sebagian besar penelitian yang bertujuan meningkatkan pemahaman LDM tentang fisika berfokus pada area seperti simulasi gaya berjalan, fisika partikel, dan aspek lain dari gerak Newtonian. Area-area ini menarik perhatian karena ketidakakuratan dalam perilaku fisik dasar akan segera merusak keaslian video yang dihasilkan AI. Namun, sejumlah penelitian yang kecil namun berkembang berkonsentrasi pada salah satu kelemahan terbesar LDM – ketidakmampuan relatifnya untuk menghasilkan refleksi yang akurat.

Dari makalah Januari 2025 ‘Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections’, contoh ‘kegagalan refleksi’ versus pendekatan para peneliti sendiri. Sumber: https://arxiv.org/pdf/2409.14677
Isu ini juga merupakan tantangan selama era CGI dan tetap demikian di bidang permainan video, di mana algoritma ray-tracing mensimulasikan jalur cahaya saat berinteraksi dengan permukaan. Ray-tracing menghitung bagaimana sinar cahaya virtual memantul atau menembus objek untuk menciptakan refleksi, refraksi, dan bayangan yang realistis. Namun, karena setiap pantulan tambahan sangat meningkatkan biaya komputasi, aplikasi real-time harus mengorbankan latensi demi akurasi dengan membatasi jumlah pantulan sinar cahaya yang diizinkan.
![Representasi berkas cahaya yang dihitung secara virtual dalam skenario berbasis 3D tradisional (yaitu, CGI), menggunakan teknologi dan prinsip yang pertama kali dikembangkan pada 1960-an, dan yang mencapai puncaknya antara 1982-93 (rentang antara Tron [1982] dan Jurassic Park [1993]. Sumber: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing](https://www.unite.ai/wp-content/uploads/2025/04/ray-tracing.jpg)
Representasi berkas cahaya yang dihitung secara virtual dalam skenario berbasis 3D tradisional (yaitu, CGI), menggunakan teknologi dan prinsip yang pertama kali dikembangkan pada 1960-an, dan yang mencapai puncaknya antara ‘Tron’ [1982] dan ‘Jurassic Park’ [1993]. Sumber: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing
Misalnya, menggambarkan teko krom di depan cermin dapat melibatkan proses ray-tracing di mana sinar cahaya memantul berulang kali antara permukaan reflektif, menciptakan loop hampir tak terbatas dengan sedikit manfaat praktis bagi gambar akhir. Dalam kebanyakan kasus, kedalaman refleksi dua hingga tiga pantulan sudah melebihi apa yang dapat dilihat oleh pemirsa. Satu pantulan akan menghasilkan cermin hitam, karena cahaya harus menyelesaikan setidaknya dua perjalanan untuk membentuk refleksi yang terlihat. Setiap pantulan tambahan secara tajam meningkatkan biaya komputasi, sering kali menggandakan waktu render, menjadikan penanganan refleksi yang lebih cepat salah satu peluang paling signifikan untuk meningkatkan kualitas rendering ray-traced. Secara alami, refleksi terjadi, dan sangat penting untuk fotorealisme, dalam skenario yang jauh kurang jelas – seperti permukaan reflektif jalan kota atau medan perang setelah hujan; pantulan jalan di seberang pada jendela toko atau pintu kaca; atau pada kacamata karakter yang digambarkan, di mana objek dan lingkungan mungkin perlu muncul.

Refleksi ganda yang disimulasikan melalui komposisi tradisional untuk adegan ikonik di ‘The Matrix’ (1999).
Masalah Gambar
Untuk alasan ini, kerangka kerja yang populer sebelum munculnya model difusi, seperti Neural Radiance Fields (NeRF), dan beberapa penantang yang lebih baru seperti Gaussian Splatting telah mempertahankan perjuangan mereka sendiri untuk menerapkan refleksi dengan cara yang alami. Proyek REF2-NeRF (digambarkan di bawah) mengusulkan metode pemodelan berbasis NeRF untuk adegan yang mengandung etalase kaca. Dalam metode ini, refraksi dan refleksi dimodelkan menggunakan elemen yang bergantung dan independen dari perspektif pemirsa. Pendekatan ini memungkinkan para peneliti memperkirakan permukaan di mana refraksi terjadi, khususnya permukaan kaca, dan memungkinkan pemisahan serta pemodelan komponen cahaya langsung dan yang dipantulkan.

Contoh dari makalah Ref2Nerf. Sumber: https://arxiv.org/pdf/2311.17116
Solusi refleksi lain yang berfokus pada NeRF dalam 4-5 tahun terakhir termasuk NeRFReN, Reflecting Reality, dan proyek Meta 2024 Planar Reflection-Aware Neural Radiance Fields project. Untuk GSplat, makalah seperti Mirror-3DGS, Reflective Gaussian Splatting, dan RefGaussian telah menawarkan solusi mengenai masalah refleksi, sementara proyek Nero 2023 mengusulkan metode khusus untuk memasukkan kualitas reflektif ke dalam representasi neural.
MirrorVerse
Membuat model difusi menghormati logika refleksi bisa dibilang lebih sulit daripada dengan pendekatan non-semantik yang eksplisit struktural seperti Gaussian Splatting dan NeRF. Dalam model difusi, aturan semacam ini hanya mungkin tertanam dengan andal jika data pelatihan mengandung banyak contoh bervariasi di berbagai skenario, membuatnya sangat bergantung pada distribusi dan kualitas dataset asli. Secara tradisional, menambahkan perilaku khusus semacam ini adalah ranah LoRA atau fine-tuning model dasar; tetapi ini bukan solusi ideal, karena LoRA cenderung memiringkan output ke data pelatihannya sendiri, bahkan tanpa perintah, sementara fine-tune – selain mahal – dapat memisahkan model utama secara permanen dari arus utama, dan menimbulkan banyak alat kustom terkait yang tidak akan pernah bekerja dengan varian model lain mana pun, termasuk yang asli. Secara umum, meningkatkan model difusi memerlukan data pelatihan yang lebih memperhatikan fisika refleksi. Namun, banyak area lain juga memerlukan perhatian khusus serupa. Dalam konteks dataset skala hiper, di mana kurasi kustom mahal dan sulit, menangani setiap kelemahan tunggal dengan cara ini tidak praktis. Meski demikian, solusi untuk masalah refleksi LDM memang muncul sesekali. Salah satu upaya baru-baru ini, dari India, adalah proyek MirrorVerse , yang menawarkan dataset dan metode pelatihan yang ditingkatkan yang mampu meningkatkan state-of-the-art dalam tantangan khusus ini dalam penelitian difusi.

Paling kanan, hasil dari MirrorVerse dibandingkan dengan dua pendekatan sebelumnya (dua kolom tengah). Sumber: https://arxiv.org/pdf/2504.15397
Seperti yang dapat kita lihat dalam contoh di atas (gambar utama dalam PDF studi baru), MirrorVerse meningkatkan penawaran baru-baru ini yang menangani masalah yang sama, tetapi jauh dari sempurna. Pada gambar kanan atas, kita melihat bahwa guci keramik agak ke kanan dari seharusnya, dan pada gambar di bawah, yang secara teknis seharusnya tidak menampilkan refleksi cangkir sama sekali, refleksi yang tidak akurat telah dipaksakan ke area kanan, bertentangan dengan logika sudut refleksi alami. Oleh karena itu kita akan melihat metode baru ini bukan karena mungkin mewakili state-of-the-art saat ini dalam refleksi berbasis difusi, tetapi juga untuk menggambarkan sejauh mana ini mungkin terbukti menjadi masalah yang sulit diatasi untuk model difusi laten, statis dan video, karena contoh data yang diperlukan tentang reflektivitas kemungkinan besar terjalin dengan tindakan dan skenario tertentu. Oleh karena itu fungsi khusus LDM ini mungkin terus tertinggal dari pendekatan spesifik struktur seperti NeRF, GSplat, dan juga CGI tradisional. Makalah baru ini berjudul MirrorVerse: Pushing Diffusion Models to Realistically Reflect the World, dan berasal dari tiga peneliti di Vision and AI Lab, IISc Bangalore, dan Samsung R&D Institute di Bangalore. Makalah ini memiliki halaman proyek terkait, serta dataset di Hugging Face, dengan kode sumber dirilis di GitHub.
Metode
Para peneliti mencatat sejak awal kesulitan yang dialami model seperti Stable Diffusion dan Flux dalam menghormati perintah berbasis refleksi, menggambarkan masalah tersebut dengan cerdik:

Dari makalah: Model state-of-the-art teks-ke-gambar saat ini, SD3.5 dan Flux, menunjukkan tantangan signifikan dalam menghasilkan refleksi yang konsisten dan akurat secara geometris ketika diperintahkan untuk menghasilkannya dalam sebuah adegan.
Para peneliti telah mengembangkan MirrorFusion 2.0, model generatif berbasis difusi yang bertujuan meningkatkan fotorealisme dan akurasi geometris refleksi cermin dalam citra sintetis. Pelatihan untuk model didasarkan pada dataset yang baru dikurasi para peneliti sendiri, berjudul MirrorGen2, yang dirancang untuk mengatasi kelemahan generalisasi yang diamati dalam pendekatan sebelumnya. MirrorGen2 memperluas metodologi sebelumnya dengan memperkenalkan penempatan objek acak, rotasi yang diacak, dan penjangkaran objek eksplisit, dengan tujuan memastikan bahwa refleksi tetap masuk akal di berbagai pose dan penempatan objek yang lebih luas relatif terhadap permukaan cermin.

Skema untuk pembuatan data sintetis di MirrorVerse: pipeline pembuatan dataset menerapkan augmentasi kunci dengan secara acak memposisikan, memutar, dan menjangkar objek dalam adegan menggunakan 3D-Positioner. Objek juga dipasangkan dalam kombinasi yang konsisten secara semantik untuk mensimulasikan hubungan spasial dan oklusi yang kompleks, memungkinkan dataset menangkap interaksi yang lebih realistis dalam adegan multi-objek.
Untuk lebih memperkuat kemampuan model dalam menangani pengaturan spasial












