Sudut Anderson

Meningkatkan Akurasi Pengeditan Gambar AI

Published February 28, 2025

Updated April 26, 2026

Martin Anderson

Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Meskipun model difusi laten (LDM) Firefly dari Adobe secara argumentatif merupakan salah satu yang terbaik yang saat ini tersedia, pengguna Photoshop yang telah mencoba fitur generatifnya akan menyadari bahwa itu tidak dapat dengan mudah mengedit gambar yang ada – sebaliknya itu sepenuhnya menggantikan area yang dipilih pengguna dengan citra berdasarkan prompt teks pengguna (meskipun Firefly sangat terampil dalam mengintegrasikan bagian yang dihasilkan ke dalam konteks gambar).

Dalam versi beta saat ini, Photoshop setidaknya dapat menggunakan gambar referensi sebagai prompt gambar sebagian, yang mengejar produk unggulan Adobe hingga jenis fungsionalitas yang Stable Diffusion pengguna telah nikmati selama lebih dari dua tahun, berkat kerangka kerja pihak ketiga seperti Controlnet:

Versi beta saat ini dari Adobe Photoshop memungkinkan penggunaan gambar referensi saat menghasilkan konten baru di dalam seleksi – meskipun itu masih sebuah urusan hit-and-miss saat ini.

Ini menggambarkan masalah terbuka dalam penelitian sintesis gambar – kesulitan yang dialami model difusi dalam mengedit gambar yang ada tanpa menerapkan ‘re-imagining’ skala penuh dari seleksi yang ditunjukkan oleh pengguna.

Meskipun inpaint berbasis difusi ini mematuhi prompt pengguna, itu sepenuhnya mengarang kembali subjek materi sumber tanpa mempertimbangkan gambar asli (kecuali dengan mencampurkan generasi baru dengan lingkungan). Source: https://arxiv.org/pdf/2502.20376

Masalah ini terjadi karena LDM menghasilkan gambar melalui iterative denoising, di mana setiap tahap proses dikondisikan pada prompt teks yang disediakan oleh pengguna. Dengan konten prompt teks diubah menjadi token embedding, dan dengan model hyperscale seperti Stable Diffusion atau Flux yang mengandung ratusan ribu (atau jutaan) embedding yang hampir cocok dengan prompt, proses memiliki distribusi kondisional yang dihitung untuk dituju; dan setiap langkah yang diambil adalah langkah menuju ‘target distribusi kondisional’ ini.

Jadi itu teks ke gambar – skenario di mana pengguna ‘berharap untuk yang terbaik’, karena tidak ada yang tahu pasti seperti apa generasi akan seperti.

Sebaliknya, banyak yang mencari untuk menggunakan kapasitas generatif LDM untuk mengedit gambar yang ada – tetapi ini memerlukan keseimbangan antara fidelitas dan fleksibilitas.

Ketika gambar diproyeksikan ke ruang laten model dengan metode seperti DDIM inversion, tujuannya adalah untuk memulihkan aslinya seakurat mungkin sambil masih memungkinkan perubahan yang berarti.

Sama seperti banyak kerangka kerja pengeditan gambar berbasis difusi yang diusulkan dalam beberapa tahun terakhir, arsitektur Renoise memiliki kesulitan membuat perubahan nyata pada penampilan gambar, dengan hanya indikasi yang sederhana dari dasi kupu-kupu muncul di dasar tenggorokan kucing.

Di sisi lain, jika proses memprioritaskan editabilitas, model melepaskan genggaman pada aslinya, membuatnya lebih mudah untuk memperkenalkan perubahan – tetapi dengan biaya konsistensi keseluruhan dengan gambar sumber:

Misi sukses – tetapi itu transformasi daripada penyesuaian, untuk sebagian besar kerangka kerja pengeditan gambar berbasis AI.

Karena itu adalah masalah yang bahkan sumber daya Adobe yang cukup besar kesulitan untuk menanganinya, maka kita dapat dengan masuk akal mempertimbangkan bahwa tantangan itu cukup berarti, dan mungkin tidak memungkinkan solusi yang mudah, jika ada.

Inversi Ketat

Oleh karena itu, contoh-contoh dalam makalah baru yang dirilis minggu ini menarik perhatian saya, karena karya ini menawarkan perbaikan yang berharga dan patut diperhatikan pada keadaan saat ini di bidang ini, dengan membuktikan kemampuan untuk menerapkan edit yang halus dan rinci pada gambar yang diproyeksikan ke ruang laten model – tanpa edit yang tidak signifikan atau menghancurkan konten asli dalam gambar sumber:

Dengan Inversi Ketat diterapkan pada metode inversi yang ada, seleksi sumber dipertimbangkan dengan cara yang lebih granular, dan transformasi sesuai dengan materi asli daripada menimpa mereka.

Hobiis dan praktisi LDM mungkin mengenali jenis hasil ini, karena sebagian besar dapat dibuat dalam alur kerja yang kompleks menggunakan sistem eksternal seperti Controlnet dan IP-Adapter.

Pada kenyataannya, metode baru – yang disebut Inversi Ketat – memang menggunakan IP-Adapter, bersama dengan model berbasis wajah yang didedikasikan, untuk penggambaran manusia.

Dari makalah asli IP-Adapter 2023, contoh-contoh mengedit materi sumber dengan tepat. Source: https://arxiv.org/pdf/2308.06721

Prestasi sinyal dari Inversi Ketat, maka, adalah untuk memiliki teknik kompleks yang diprosedural menjadi modulitas drop-in tunggal yang dapat diterapkan pada sistem yang ada, termasuk banyak distribusi LDM yang paling populer.

Naturally, ini berarti bahwa Inversi Ketat (TI), seperti sistem pendukung yang digunakannya, menggunakan gambar sumber sebagai faktor kondisional untuk versi dieditnya, bukan hanya mengandalkan prompt teks yang akurat:

Contoh lebih lanjut dari kemampuan Inversi Ketat untuk menerapkan edit yang benar-benar tercampur pada materi sumber.

Meskipun penulis mengakui bahwa pendekatan mereka tidak bebas dari ketegangan tradisional dan berkelanjutan antara fidelitas dan editabilitas dalam teknik pengeditan gambar berbasis difusi, mereka melaporkan hasil state-of-the-art ketika menyuntikkan TI ke dalam sistem yang ada, vs. kinerja baseline.

Karya baru ini berjudul Inversi Ketat: Inversi yang Dikondisikan pada Gambar untuk Pengeditan Gambar Nyata, dan berasal dari lima peneliti di seluruh Universitas Tel Aviv dan Snap Research.

Metode

Awalnya, Model Bahasa Besar (LLM) digunakan untuk menghasilkan serangkaian prompt teks yang bervariasi dari mana gambar dihasilkan. Kemudian, inversi DDIM yang disebutkan sebelumnya diterapkan pada setiap gambar dengan tiga kondisi teks: prompt teks yang digunakan untuk menghasilkan gambar; versi yang diperpendek dari yang sama; dan prompt kosong.

Dengan kebisingan yang diinversikan kembali dari proses-proses ini, gambar-gambar tersebut dihasilkan kembali dengan kondisi yang sama, dan tanpa bimbingan klasifikasi-bebas (CFG).

Skor inversi DDIM di berbagai metrik dengan pengaturan prompt yang bervariasi.

Seperti yang dapat kita lihat dari grafik di atas, skor di berbagai metrik ditingkatkan dengan peningkatan panjang teks. Metrik yang digunakan adalah Rasio Sinyal-ke-Kebisingan Puncak (PSNR); Jarak L2; Indeks Kesamaan Struktural (SSIM); dan Kesamaan Patch Gambar yang Dipelajari (LPIPS).

Image-Conscious

Secara efektif, Inversi Ketat mengubah cara model difusi mengedit gambar nyata dengan mengkondisikan proses inversi pada gambar itu sendiri daripada hanya mengandalkan teks.

Biasanya, menginverskan gambar ke ruang kebisingan model difusi memerlukan estimasi kebisingan awal yang, ketika didebising, merekonstruksi input. Metode standar menggunakan prompt teks untuk memandu proses ini; tetapi prompt yang tidak sempurna dapat menyebabkan kesalahan, kehilangan detail atau mengubah struktur.

Inversi Ketat sebaliknya menggunakan IP Adapter untuk memasukkan informasi visual ke model, sehingga merekonstruksi gambar dengan akurasi yang lebih besar, mengubah gambar sumber menjadi token kondisional, dan memproyeksikannya ke pipa inversi.

Parameter ini dapat diedit: meningkatkan pengaruh gambar sumber membuat rekonstruksi hampir sempurna, sementara menguranginya memungkinkan perubahan yang lebih kreatif. Ini membuat Inversi Ketat berguna untuk perubahan yang halus, seperti mengubah warna kemeja, atau perubahan yang lebih signifikan, seperti menukar objek – tanpa efek sampingan yang umum dari metode inversi lain, seperti kehilangan detail halus atau aberrasi yang tidak terduga di konten latar belakang.

Penulis menyatakan:

‘Kami mencatat bahwa Inversi Ketat dapat dengan mudah diintegrasikan dengan metode inversi sebelumnya (misalnya, Edit Friendly DDPM, ReNoise) dengan [menggantikan inti difusi asli dengan model IP Adapter yang diubah], [dan] Inversi Ketat secara konsisten meningkatkan metode-metode tersebut dalam hal rekonstruksi dan editabilitas.’

Data dan Tes

Peneliti mengevaluasi TI pada kapasitasnya untuk merekonstruksi dan mengedit gambar sumber dunia nyata. Semua eksperimen menggunakan Stable Diffusion XL dengan scheduler DDIM seperti yang diuraikan dalam makalah asli Stable Diffusion; dan semua tes menggunakan 50 langkah denoising dengan skala bimbingan default 7,5.

Untuk kondisional gambar, IP-Adapter-plus sdxl vit-h digunakan. Untuk tes beberapa langkah, peneliti menggunakan SDXL-Turbo dengan scheduler Euler, dan juga melakukan eksperimen dengan FLUX.1-dev, mengkondisikan model dalam kasus terakhir pada PuLID-Flux, menggunakan RF-Inversion pada 28 langkah.

PulID digunakan hanya dalam kasus yang menampilkan wajah manusia, karena ini adalah domain yang PulID dilatih untuk menangani – dan sementara itu patut diperhatikan bahwa sistem sub-terpisah yang digunakan untuk jenis prompt ini, minat kita yang tidak normal dalam menghasilkan wajah manusia menunjukkan bahwa mengandalkan hanya pada bobot yang lebih luas dari model dasar seperti Stable Diffusion mungkin tidak memadai untuk standar yang kita tuntut untuk tugas ini.

Tes rekonstruksi dilakukan untuk evaluasi kualitatif dan kuantitatif. Di gambar berikut, kita melihat contoh kualitatif untuk inversi DDIM:

Hasil kualitatif untuk inversi DDIM. Setiap baris menampilkan gambar yang sangat detail di samping versi rekonstruksinya, dengan setiap langkah menggunakan kondisi yang semakin akurat selama inversi dan denoising. Ketika kondisional menjadi lebih akurat, kualitas rekonstruksi meningkat. Kolom paling kanan menunjukkan hasil terbaik, di mana gambar asli itu sendiri digunakan sebagai kondisi, mencapai fidelitas tertinggi. CFG tidak digunakan pada tahap apa pun. Silakan merujuk ke dokumen sumber untuk resolusi dan detail yang lebih baik.

Makalah ini menyatakan:

‘Contoh-contoh ini menyoroti bahwa mengkondisikan proses inversi pada gambar secara signifikan meningkatkan rekonstruksi di daerah yang sangat detail.

‘Terutama, dalam contoh ketiga [dari gambar di bawah], metode kami berhasil merekonstruksi tato di punggung kanan petinju. Selain itu, pose kaki petinju lebih akurat dipertahankan, dan tato di kaki menjadi terlihat.’

Hasil kualitatif lebih lanjut untuk inversi DDIM. Kondisi deskriptif meningkatkan inversi DDIM, dengan kondisional gambar mengungguli teks, terutama pada gambar yang kompleks.

Penulis juga menguji sistem kemampuan edit foto, membandingkannya dengan versi baseline dari pendekatan sebelumnya prompt2prompt; Edit Friendly DDPM; LED-ITS++; dan RF-Inversion.

Tampilkan di bawah adalah seleksi dari hasil kualitatif makalah untuk SDXL dan Flux (dan kami merujuk pembaca ke tata letak yang agak terkompresi dari makalah asli untuk contoh lebih lanjut).

Seleksi dari hasil kualitatif yang meluas (agak membingungkan) tersebar di seluruh makalah. Kami merujuk pembaca ke dokumen sumber PDF untuk resolusi dan kejelasan yang lebih baik.

Penulis mengklaim bahwa Inversi Ketat secara konsisten mengungguli teknik inversi yang ada dengan menemukan keseimbangan yang lebih baik antara rekonstruksi dan editabilitas. Metode standar seperti inversi DDIM dan ReNoise dapat merekonstruksi gambar dengan baik, makalah ini menyatakan bahwa mereka sering kesulitan mempertahankan detail halus ketika edit diterapkan.

Sebaliknya, Inversi Ketat menggunakan kondisional gambar untuk mengikat output model lebih dekat ke aslinya, mencegah distorsi yang tidak diinginkan. Penulis mengklaim bahwa bahkan ketika pendekatan yang bersaing menghasilkan rekonstruksi yang terlihat akurat, pengenalan edit sering menyebabkan artefak atau inkonsistensi struktural, dan bahwa Inversi Ketat memitigasi masalah-masalah ini.

Akhirnya, hasil kuantitatif diperoleh dengan mengevaluasi Inversi Ketat terhadap MagicBrush benchmark, menggunakan inversi DDIM dan LEDITS++, diukur dengan CLIP Sim.

Perbandingan kuantitatif dari Inversi Ketat terhadap benchmark MagicBrush.

Penulis menyimpulkan:

‘Dalam kedua grafik, tradeoff antara pelestarian gambar dan ketaatan pada edit target jelas [diamati]. Inversi Ketat menyediakan kontrol yang lebih baik pada tradeoff ini, dan lebih mempertahankan gambar input sambil masih selaras dengan edit [prompt].

‘Perlu dicatat, bahwa kesamaan CLIP di atas 0,3 antara gambar dan prompt teks menunjukkan keselarasan yang masuk akal antara gambar dan prompt.’

Kesimpulan

Meskipun tidak mewakili ‘pemecahan’ dalam salah satu tantangan paling sulit dalam sintesis gambar berbasis LDM, Inversi Ketat mengkonsolidasikan sejumlah pendekatan ancillary yang membebani menjadi metode terpadu dari pengeditan gambar berbasis AI.

Meskipun ketegangan antara editabilitas dan fidelitas tidak hilang dengan metode ini, itu secara nyata berkurang, menurut hasil yang disajikan. Mengingat bahwa tantangan sentral yang ditangani oleh karya ini mungkin terbukti tidak dapat diatasi jika ditangani sendiri (daripada melihat melampaui arsitektur LDM dalam sistem masa depan), Inversi Ketat mewakili perbaikan inkremental yang disambut dalam keadaan saat ini.

Dipublikasikan pertama kali pada hari Jumat, 28 Februari 2025