Kecerdasan buatan

Editing Gambar dengan Gaussian Splatting

Published October 3, 2024

Updated April 27, 2026

Martin Anderson

A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Kolaborasi baru antara peneliti di Polandia dan Inggris mengusulkan prospek menggunakan Gaussian Splatting untuk mengedit gambar, dengan menafsirkan sementara bagian yang dipilih dari gambar ke dalam ruang 3D, memungkinkan pengguna untuk memodifikasi dan memanipulasi representasi 3D gambar, dan kemudian menerapkan transformasi.

Untuk mengubah orientasi kepala kucing, bagian yang relevan dipindahkan ke ruang 3D melalui Gaussian Splatting, dan kemudian dimanipulasi oleh pengguna. Modifikasi kemudian diterapkan. Proses ini analog dengan berbagai teknik modal di perangkat lunak Adobe, yang mengunci antarmuka sampai proses kompleks selesai. Sumber: https://github.com/waczjoan/MiraGe/

Karena elemen Gaussian Splat direpresentasikan secara sementara oleh mesh triangel, dan masuk ke dalam ‘keadaan CGI’, mesin fisika yang terintegrasi dalam proses dapat menafsirkan gerakan alami, baik untuk mengubah keadaan statis objek, atau untuk menghasilkan animasi.

Mesin fisika yang terintegrasi dalam sistem MiraGe baru dapat melakukan penafsiran alami gerakan fisik, baik untuk animasi atau perubahan statis pada gambar.

Tidak ada kecerdasan buatan generatif yang terlibat dalam proses ini, yang berarti bahwa tidak ada Latent Diffusion Models (LDMs) yang terlibat, tidak seperti sistem Firefly Adobe, yang dilatih pada Adobe Stock (sebelumnya Fotolia).

Sistem – yang disebut MiraGe – menafsirkan pilihan ke dalam ruang 3D dan menginfer geometri dengan membuat cermin dari pilihan, dan mengapproximasi koordinat 3D yang dapat diwakili dalam Splat, yang kemudian menafsirkan gambar ke dalam mesh.

Klik untuk memutar. Contoh lebih lanjut dari elemen yang telah diubah secara manual oleh pengguna sistem MiraGe, atau tunduk pada deformasi berbasis fisika.

Penulis membandingkan sistem MiraGe dengan pendekatan sebelumnya, dan menemukan bahwa itu mencapai kinerja state-of-the-art dalam tugas target.

Pengguna sistem modeling zBrush akan familiar dengan proses ini, karena zBrush memungkinkan pengguna untuk secara efektif ‘menghaluskan’ model 3D dan menambahkan detail 2D, sambil menjaga mesh yang mendasarinya, dan menafsirkan detail baru ke dalamnya – sebuah ‘freeze’ yang berlawanan dengan metode MiraGe, yang beroperasi lebih seperti Firefly atau manipulasi modal lainnya di Photoshop, seperti perubahan bentuk atau penafsiran 3D kasar.

Gaussian Splats yang diparameterisasi memungkinkan MiraGe untuk membuat rekonstruksi berkualitas tinggi dari area yang dipilih dari gambar 2D, dan menerapkan fisika tubuh lunak pada pilihan 3D sementara.

Makalah tersebut menyatakan:

‘[Kami] memperkenalkan model yang mengkodekan gambar 2D dengan meniru penafsiran manusia. Secara khusus, model kami memandang gambar 2D sebagai manusia yang melihat foto atau lembar kertas, memperlakukannya sebagai objek datar dalam ruang 3D.

‘Pendekatan ini memungkinkan pengeditan gambar yang intuitif dan fleksibel, menangkap nuansa persepsi manusia sambil memungkinkan transformasi kompleks.’

Makalah baru ini berjudul MiraGe: Editable 2D Images using Gaussian Splatting, dan berasal dari empat penulis di Universitas Jagiellonian di Krakow, dan Universitas Cambridge. Kode lengkap untuk sistem telah dirilis di GitHub.

Mari kita lihat bagaimana peneliti menangani tantangan ini.

Metode

Pendekatan MiraGe menggunakan Gaussian Mesh Splatting (GaMeS) parametrization, sebuah teknik yang dikembangkan oleh kelompok yang termasuk dua penulis makalah baru ini. GaMeS memungkinkan Gaussian Splats untuk ditafsirkan sebagai mesh CGI tradisional, dan untuk menjadi subjek dari teknik perubahan dan modifikasi yang telah dikembangkan oleh komunitas CGI selama beberapa dekade terakhir.

MiraGe menafsirkan ‘Gaussians datar’ dalam ruang 2D, dan menggunakan GaMeS untuk ‘menarik’ konten ke dalam ruang 3D yang diaktifkan oleh GSplat, sementara.

Setiap Gaussian datar direpresentasikan sebagai tiga titik dalam awan triangel, disebut ‘sup triangel’, membuka gambar yang ditafsirkan untuk manipulasi. Sumber: https://arxiv.org/pdf/2410.01521

Kita dapat melihat di sudut kiri bawah gambar di atas bahwa MiraGe membuat ‘cermin’ gambar dari bagian gambar yang akan ditafsirkan.

Penulis menyatakan:

‘[Kami] menggunakan pendekatan baru yang menggunakan dua kamera yang berlawanan yang ditempatkan di sepanjang sumbu Y, simetris di sekitar asal dan diarahkan satu sama lain. Kamera pertama bertugas untuk merekonstruksi gambar asli, sementara kamera kedua memodelkan refleksi cermin.

‘Foto tersebut dilihat sebagai lembar kertas transparan yang disematkan dalam konteks spasial 3D. Refleksi dapat diwakili secara efektif dengan membalik gambar secara horizontal.

‘Pengaturan kamera cermin ini meningkatkan kesetiaan refleksi yang dihasilkan, memberikan solusi yang kuat untuk menangkap elemen visual secara akurat.’

Makalah tersebut mencatat bahwa setelah ekstraksi ini telah dicapai, penyesuaian perspektif yang biasanya sulit menjadi dapat diakses melalui pengeditan langsung dalam 3D. Dalam contoh di bawah, kita melihat pilihan gambar seorang wanita yang mencakup hanya lengannya. Dalam kasus ini, pengguna telah memiringkan tangan ke bawah dengan cara yang masuk akal, yang akan menjadi tugas yang sulit dengan hanya mendorong piksel.

Contoh teknik pengeditan MiraGe.

Mencoba melakukan ini menggunakan alat generatif Firefly di Photoshop biasanya berarti bahwa tangan menjadi digantikan oleh tangan yang disintesis, memecahkan autentisitas edit. Bahkan sistem yang lebih mampu, seperti ControlNet sistem tambahan untuk Stable Diffusion dan model difusi laten lainnya, seperti Flux, berjuang untuk mencapai jenis edit ini dalam pipa gambar-ke-gambar.

Pencarian ini telah didominasi oleh metode yang menggunakan Representasi Neural Implisit (INRs), seperti SIREN dan WIRE. Perbedaan antara metode representasi implisit dan eksplisit adalah bahwa koordinat model tidak dapat diakses secara langsung dalam INRs, yang menggunakan fungsi kontinu.

Dengan kontras, Gaussian Splatting menawarkan koordinat Cartesian X/Y/Z yang eksplisit dan dapat diakses, bahkan jika menggunakan elips Gaussian bukan voxel atau metode lain untuk menggambarkan konten dalam ruang 3D.

Gagasan menggunakan GSplat dalam ruang 2D telah paling menonjol dalam kolaborasi akademis Tiongkok 2024 GaussianImage, yang menawarkan versi 2D dari Gaussian Splatting, memungkinkan laju bingkai inferensi 1000fps. Namun, model ini tidak memiliki implementasi yang terkait dengan pengeditan gambar.

Setelah parametrization GaMeS mengekstrak area yang dipilih ke dalam representasi Gaussian/mesh, gambar direkonstruksi menggunakan teknik Material Points Method (MPM) yang pertama kali diuraikan dalam makalah CSAIL 2018.

Dalam MiraGe, selama proses perubahan, Gaussian Splat ada sebagai proksi panduan untuk versi mesh yang setara, sama seperti model CGI 3DMM sering digunakan sebagai metode orkestrasi untuk teknik rendering neural implisit seperti Neural Radiance Fields (NeRF).

Dalam proses ini, objek dua dimensi dimodelkan dalam ruang 3D, dan bagian gambar yang tidak dipengaruhi tidak terlihat oleh pengguna akhir, sehingga efek kontekstual dari manipulasi tidak terlihat sampai proses selesai.

MiraGe dapat diintegrasikan ke dalam program 3D sumber terbuka populer Blender, yang sekarang sering digunakan dalam alur kerja AI-inclusif, terutama untuk tujuan gambar-ke-gambar.

Alur kerja untuk MiraGe di Blender, melibatkan pergerakan lengan figur yang digambarkan dalam gambar 2D.

Penulis menawarkan dua versi pendekatan deformasi berbasis Gaussian Splatting – Amorphous dan Graphite.

Pendekatan Amorphous secara langsung menggunakan metode GaMeS, dan memungkinkan pilihan 2D yang diekstrak untuk bergerak secara bebas dalam ruang 3D, sedangkan pendekatan Graphite membatasi Gaussian pada ruang 2D selama inisialisasi dan pelatihan.

Peneliti menemukan bahwa meskipun pendekatan Amorphous mungkin menangani bentuk kompleks lebih baik daripada Graphite, ‘robek’ atau artefak rift lebih jelas, di mana tepi deformasi sejajar dengan bagian gambar yang tidak terpengaruh*.

Oleh karena itu, mereka mengembangkan sistem ‘cermin’ yang disebutkan sebelumnya:

‘[Kami] menggunakan pendekatan baru yang menggunakan dua kamera yang berlawanan yang ditempatkan di sepanjang sumbu Y, simetris di sekitar asal dan diarahkan satu sama lain.

‘Kamera pertama bertugas untuk merekonstruksi gambar asli, sementara kamera kedua memodelkan refleksi cermin. Gambar tersebut dilihat sebagai lembar kertas transparan yang disematkan dalam konteks spasial 3D. Refleksi dapat diwakili secara efektif dengan membalik gambar secara horizontal.

‘Pengaturan kamera cermin ini meningkatkan kesetiaan refleksi yang dihasilkan, memberikan solusi yang kuat untuk menangkap elemen visual secara akurat.’

Makalah tersebut mencatat bahwa MiraGe dapat menggunakan mesin fisika eksternal seperti yang tersedia di Blender, atau di Taichi_Elements.

Data dan Tes

Untuk penilaian kualitas gambar dalam tes yang dilakukan untuk MiraGe, Signal-to-Noise Ratio (SNR) dan MS-SIM metrik digunakan.

Dataset yang digunakan adalah Kodak Lossless True Color Image Suite, dan DIV2K validation set. Resolusi dataset ini sesuai untuk perbandingan dengan pekerjaan sebelumnya, Gaussian Image. Kerangka kerja rival lain yang diuji adalah SIREN, WIRE, Instant Neural Graphics Primitives (I-NGP) NVIDIA, dan NeuRBF.

Eksperimen dilakukan pada laptop NVIDIA GEFORCE RTX 4070 dan pada NVIDIA RTX 2080.

MiraGe menawarkan hasil state-of-the-art melawan kerangka kerja sebelumnya, menurut hasil yang ditampilkan dalam makalah baru.

Dari hasil ini, penulis menyatakan:

‘Kami melihat bahwa proposisi kami outperforms solusi sebelumnya pada kedua dataset. Kualitas yang diukur oleh kedua metrik menunjukkan perbaikan signifikan dibandingkan dengan semua pendekatan sebelumnya.’

Kesimpulan

Adaptasi MiraGe dari Gaussian Splatting 2D jelas merupakan upaya awal dan tentatif untuk apa yang mungkin terbukti menjadi alternatif yang sangat menarik untuk kebiasaan dan keinginan menggunakan model difusi untuk memodifikasi gambar (yaitu, melalui Firefly dan metode difusi API lainnya, dan melalui arsitektur sumber terbuka seperti Stable Diffusion dan Flux).

Meskipun ada banyak model difusi yang dapat memodifikasi gambar, LDM terbatas oleh pendekatan semantik dan sering ‘berlebihan’ terhadap permintaan pengguna untuk modifikasi.

Oleh karena itu, kemampuan untuk menarik bagian gambar ke dalam ruang 3D sementara, memanipulasi, dan menggantinya kembali ke dalam gambar, sembari hanya menggunakan gambar sumber sebagai referensi, tampaknya tugas yang Gaussian Splatting mungkin sangat sesuai untuknya di masa depan.

* Ada beberapa kebingungan dalam makalah, dalam hal itu mengutip ‘Amorphous-Mirage’ sebagai metode paling efektif dan mampu, meskipun kecenderungannya untuk menghasilkan Gaussian yang tidak diinginkan (artefak), sementara berargumen bahwa ‘Graphite-Mirage’ lebih fleksibel. Tampaknya bahwa Amorphous-Mirage mendapatkan detail terbaik, dan Graphite-Mirage mendapatkan fleksibilitas terbaik. Karena kedua metode disajikan dalam makalah, dengan kekuatan dan kelemahan yang beragam, preferensi penulis, jika ada, tidak tampak jelas pada saat ini.

Dipublikasikan pertama kali pada hari Kamis, 3 Oktober 2024