Connect with us

Gaussian Splatting ile Resim Düzenleme

Yapay Zekâ

Gaussian Splatting ile Resim Düzenleme

mm
A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Polonya ve İngiltere’deki araştırmacılar arasındaki yeni bir işbirliği, Gaussian Splatting kullanarak resim düzenleme olasılığını öneriyor. Bu, bir resmin seçilen bir bölümünü geçici olarak 3D uzayda yorumlayarak, kullanıcının 3D temsilini değiştirmesine ve manipüle etmesine izin veriyor ve ardından dönüşümü uyguluyor.

Kedinin başının yönünü değiştirmek için ilgili bölüm, Gaussian Splatting aracılığıyla 3D uzayda hareket ettiriliyor ve ardından kullanıcının manipüle etmesi sağlanıyor. Değişiklik daha sonra uygulanıyor. Bu süreç, Adobe yazılımındaki çeşitli modal tekniklerine benzer, bunlar arayüzü, mevcut karmaşık bir işlem tamamlanana kadar kilitleyerek çalışır. Kaynak: https://github.com/waczjoan/MiraGe/

Kedinin başının yönünü değiştirmek için ilgili bölüm, Gaussian Splatting aracılığıyla 3D uzayda hareket ettiriliyor ve ardından kullanıcının manipüle etmesi sağlanıyor. Değişiklik daha sonra uygulanıyor. Bu süreç, Adobe yazılımındaki çeşitli modal tekniklerine benzer, bunlar arayüzü, mevcut karmaşık bir işlem tamamlanana kadar kilitleyerek çalışır. Kaynak: https://github.com/waczjoan/MiraGe/

Gaussian Splat elemanı geçici olarak üçgen bir mesh ile temsil edildiğinden ve ‘CGI durumuna’ geçici olarak girdiğinden, işlemin içine entegre edilmiş bir fizik motoru doğal hareketi yorumlayabilir, ya bir nesnenin statik durumunu değiştirmek için ya da bir animasyon üretmek için.

Yeni MiraGe sistemi içine entegre edilmiş bir fizik motoru, animasyonlar veya resimdeki statik değişiklikler için fiziksel hareketin doğal yorumlarını gerçekleştirebilir.

Yeni MiraGe sistemi içine entegre edilmiş bir fizik motoru, animasyonlar veya resimdeki statik değişiklikler için fiziksel hareketin doğal yorumlarını gerçekleştirebilir.

Sürecin içinde hiçbir generatif AI kullanılmıyor, yani Latent Diffusion Models (LDMs) kullanılmıyor, Adobe’nin Firefly sistemi gibi, bu sistem Adobe Stock (eski adıyla Fotolia) üzerinde eğitilmiş.

Sistem – MiraGe olarak adlandırılıyor – seçimleri 3D uzayda yorumluyor ve bir ayna görüntüsü oluşturarak geometriyi çıkarıyor, bu da bir Splat içinde gömülebilecek 3D koordinatları yaklaşık olarak hesaplıyor.

Oynatmak için tıklayın. MiraGe sistemi tarafından değiştirilen veya fizik tabanlı deformasyona tabi tutulan unsurların daha fazla örneği.

Yazarlar, MiraGe sistemini önceki yaklaşımlarla karşılaştırdı ve hedef görevde state-of-the-art performans đạtığını buldu.

zBrush modelleme sisteminin kullanıcıları, bu süreci tanıyacaktır, çünkü zBrush kullanıcının esasen 3D modeli ‘düzleştirmesine’ ve 2D ayrıntı eklemesine, alttaki mesh’i koruyarak ve yeni ayrıntıları buna göre yorumlayarak izin veriyor – bir ‘dondurma’ ki bu, MiraGe yönteminin tersidir, bu daha çok Firefly veya diğer Photoshop tarzı modal manipülasyonlara benzer, bunlar gibi savaşma veya kaba 3D yorumları.

Parametreli Gaussian Splats, MiraGe'ye 2D resmin seçilen alanlarının yüksek kaliteli yeniden yapılarını oluşturma ve geçici olarak 3D seçimi yumuşak gövde fiziksel uygulamaya izin veriyor.

Parametreli Gaussian Splats, MiraGe’ye 2D resmin seçilen alanlarının yüksek kaliteli yeniden yapılarını oluşturma ve geçici olarak 3D seçimi yumuşak gövde fiziksel uygulamaya izin veriyor.

Makalede deniyor:

‘[Biz] bir model tanıtıyoruz, bu model 2D resimleri insan yorumunu simüle ederek kodluyor. Özellikle, modelimiz bir 2D resmini bir insan gibi görür, bir fotoğraf veya bir kağıt sayfası olarak, 3D uzay中的 bir nesne olarak ele alır.

‘Bu yaklaşım, sezgisel ve esnek resim düzenleme sağlar, insan algılarının nüanslarını yakalar ve karmaşık dönüşümleri sağlar.’

Yeni makale MiraGe: Gaussian Splatting kullanarak Düzenlenebilir 2D Resimler olarak adlandırılıyor ve Kraków’daki Jagiellonian Üniversitesi ve Cambridge Üniversitesi’nden dört yazar tarafından geliyor. Sistem için tam kod GitHub’da yayınlandı.

Araştırmacıların bu zorluğu nasıl ele aldığını görelim.

Yöntem

MiraGe yaklaşımı, Gaussian Mesh Splatting (GaMeS) parametrelemesini kullanıyor, bu teknik yeni makalenin yazarları arasında yer alan bir grup tarafından geliştirildi. GaMeS, Gaussian Splats’ın geleneksel CGI mesh’leri olarak yorumlanmasını ve standart CGI topluluğunun son birkaç on yılda geliştirdiği çeşitli savaşma ve değişiklik tekniklerine tabi olmasını sağlar.

MiraGe, ‘düz’ Gaussians’ı 2D uzayda yorumluyor ve GaMeS’i kullanarak içeriği GSplat etkin 3D uzayda geçici olarak çekiyor.

Her düz Gaussian, üçgen bir bulutta üç nokta olarak temsil ediliyor, 'triangle soup' olarak adlandırılıyor, bu da çıkarılan görüntüyü manipüle etmeye açıyor. Kaynak: https://arxiv.org/pdf/2410.01521

Her düz Gaussian, üçgen bir bulutta üç nokta olarak temsil ediliyor, ‘triangle soup’ olarak adlandırılıyor, bu da çıkarılan görüntüyü manipüle etmeye açıyor. Kaynak: https://arxiv.org/pdf/2410.01521

Yukarda görüldüğü gibi, MiraGe seçilen resim bölümünün ‘ayna görüntüsünü’ oluşturuyor.

Yazarlar diyor ki:

‘[Biz] iki karşıt kamerayı kullanarak yeni bir yaklaşım uyguluyoruz, bunlar Y ekseninde simetrik olarak hizalanmış ve birbirlerine doğru yönlendirilmiş. İlk kamera orijinal resmini yeniden oluşturmakla görevlendirilirken, ikinci kamera ayna yansımasını modeliyor. Fotoğraf, böylece 3D uzay中的 bir kağıt sayfası olarak kavramlaştırılıyor. Yansıma, görüntüyü yatay olarak çevirerek etkili bir şekilde temsil edilebilir.

‘Bu ayna-kamera kurulumu, görsel öğelerin doğru bir şekilde yakalanmasını sağlayan güçlü bir çözüm sunarak, oluşturulan yansımanın doğruluğunu artırıyor.’

Makalede ayrıca, bir kez bu çıkarma işlemi gerçekleştirildiğinde, perspektif ayarlamalarının genellikle zor olduğu ancak doğrudan 3D’de düzenleme yoluyla erişilebileceği belirtiliyor.

Yukardaki örnekte, bir kadının sadece kolunu içeren bir resim seçimi görüyoruz. Bu durumda, kullanıcının eli aşağı doğru eğilmiş, bu da sadece pikselleri hareket ettirerek zor bir görev olurdu.

MiraGe düzenleme tekniğinin bir örneği

MiraGe düzenleme tekniğinin bir örneği.

Bu işlemi, Photoshop’teki Firefly generatif araçlarını kullanarak gerçekleştirmeye çalışmak genellikle elin sentezlenmiş, difüzyon hayal edilmiş bir el ile değiştirilmesine neden olur, bu da düzenlemenin otantikliğini bozar. Hatta daha yetenekli sistemler, ControlNet gibi, Stable Diffusion ve diğer Latent Diffusion Models için bir yardımcı sistem, Flux gibi, bu tür bir düzenleme için resimden resime işlem hattında bunu başarmakta zorlanırlar.

Bu belirli takip, İmplicit Sinirsel Temsiller (INRs) kullanan yöntemler tarafından domine edildi, bunlar arasında SIREN ve WIRE bulunur. İmplicit ve açık temsil yöntemi arasındaki fark, INRs’de modelin koordinatlarının doğrudan adreslenemez olmasıdır, bunlar sürekli bir fonksiyon kullanır.

Gaussian Splatting ise, Gaussian ellipsler yerine voxels veya 3D uzayda içeriği temsil etme yöntemleri kullanmasına rağmen, açık ve adreslenebilir X/Y/Z Kartesyonel koordinatlar sunar.

2D uzayda GSplat kullanma fikri, yazarlara göre, 2024 Çin akademik işbirliği GaussianImage tarafından en çok sunuldu, bu da 2D versiyonu Gaussian Splatting sunuyor, 1000fps’ye varan çıkarım hızlarına olanak tanır. Ancak bu model, resim düzenleme ile ilgili herhangi bir uygulama içermez.

GaMeS parametrelemesi seçilen alanı Gaussian/mesh temsiline çıkardıktan sonra, resim 2018 CSAIL makalesinde ilk kez belirtilen Malzeme Noktası Yöntemi (MPM) tekniği kullanılarak yeniden oluşturulur.

MiraGe’de, değiştirme işlemi sırasında, Gaussian Splat eşdeğer bir mesh versiyonu için bir rehber vekili olarak var olur, tıpkı 3DMM CGI modelleri gibi, bunlar genellikle Neural Radiance Fields (NeRF) gibi açık sinirsel rendering teknikleri için orkestrasyon yöntemleri olarak kullanılır.

Sürecin içinde, iki boyutlu nesneler 3D uzayda modellenir ve resmin etkilenmeyen kısımları son kullanıcıya görünmez, böylece manipülasyonların bağlamsal etkisi son kullanıcıya görünmez.

MiraGe, popüler açık kaynak 3D programa Blender entegre edilebilir, bu artık AI-inclusive workflows için主要 olarak kullanılır, esas olarak resimden resime amaçlar için.

2D resimdeki bir figürün kolunun hareketini içeren Blender'de MiraGe için bir workflow.

2D resimdeki bir figürün kolunun hareketini içeren Blender’de MiraGe için bir workflow.

Yazarlar, Gaussian Splatting tabanlı iki deformasyon yaklaşımı sunuyor – Amorf ve Graphite.

Amorf yaklaşım doğrudan GaMeS yöntemini kullanıyor ve çıkarılan 2D seçimi 3D uzayda serbestçe hareket etmesine izin veriyor, oysa Graphite yaklaşımı Gaussians’ı 2D uzayda başlatma ve eğitim sırasında kısıtlar.

Araştırmacılar, Amorf yaklaşımın daha karmaşık şekilleri daha iyi ele alabileceğini, ancak ‘yırtaş’ veya rift artefaktlarının daha belirgin olduğunu buldular, bunlar deformasyonun kenarının etkilenmeyen resim kısmıyla hizalandığı yerlerde görülür.

Bu nedenle, yukarıda bahsedilen ‘ayna görüntüsü’ sistemini geliştirdiler:

‘[Biz] iki karşıt kamerayı kullanarak yeni bir yaklaşım uyguluyoruz, bunlar Y ekseninde simetrik olarak hizalanmış ve birbirlerine doğru yönlendirilmiş. İlk kamera orijinal resmini yeniden oluşturmakla görevlendirilirken, ikinci kamera ayna yansımasını modeliyor. Fotoğraf, böylece 3D uzay中的 bir kağıt sayfası olarak kavramlaştırılıyor. Yansıma, görüntüyü yatay olarak çevirerek etkili bir şekilde temsil edilebilir.

‘Bu ayna-kamera kurulumu, görsel öğelerin doğru bir şekilde yakalanmasını sağlayan güçlü bir çözüm sunarak, oluşturulan yansımanın doğruluğunu artırıyor.’

Makalede ayrıca, MiraGe’nin dış fizik motorlarını kullanabileceği belirtiliyor, bunlar Blender’de veya Taichi_Elements’de bulunanlar gibi.

Veri ve Testler

MiraGe için testlerde resim kalitesi değerlendirmeleri için, Sinyal-Gürültü Oranı (SNR) ve MS-SIM metrikleri kullanıldı.

Kullanılan veri setleri Kodak Lossless True Color Image Suite ve DIV2K validation seti idi. Bu veri setlerinin çözünürlükleri, Gaussian Image ile karşılaştırma için en yakın önceki çalışmalara uygun idi. Diğer yarışan çerçeveler, SIREN, WIRE, NVIDIA’nın Instant Neural Graphics Primitives (I-NGP) ve NeuRBF idi.

Deneyler, bir NVIDIA GEFORCE RTX 4070 dizüstü bilgisayar ve bir NVIDIA RTX 2080 üzerinde gerçekleştirildi.

MiraGe, seçilen önceki çerçevelere karşı state-of-the-art sonuçlar sunuyor, yeni makaledeki sonuçlara göre.

MiraGe, seçilen önceki çerçevelere karşı state-of-the-art sonuçlar sunuyor, yeni makaledeki sonuçlara göre.

Bu sonuçlardan, yazarlar diyor ki:

‘Gördüğümüz gibi, önerimiz her iki veri setinde önceki çözümlerden daha iyi performans gösteriyor. Her iki metrik tarafından ölçülen kalite, tüm önceki yaklaşımlara göre önemli bir iyileşme gösteriyor.’

Sonuç

MiraGe’nin 2D Gaussian Splatting’i uyarlaması, clearly bir yeni ve tentatif girişimdir, bu belki de resimlerde değişiklikler yapmak için difüzyon modellerinin belirsizliklerine ve keyfiyetlerine bir alternatif olabilir (örneğin, Firefly ve diğer API tabanlı difüzyon yöntemleri ve açık kaynak mimarileri gibi Stable Diffusion ve Flux).

Her ne kadar birçok difüzyon modeli resimlerde küçük değişiklikler yapabiliyor olsa da, LDMs, genellikle metin tabanlı bir kullanıcı isteğine karşı semantik ve souvent ‘aşırı hayalci’ bir yaklaşım tarafından sınırlıdır.

Bu nedenle, bir resmin bir bölümünü geçici olarak 3D uzayda çekme, manipüle etme ve orijinal resme geri yerleştirme yeteneği, sadece kaynak resmini referans olarak kullanarak, Gaussian Splatting’in gelecekte uygun olabileceği bir görev gibi görünüyor.

 

* Makalede bazı karışıklıklar var, ‘Amorf-Mirage’ yönteminin en etkili ve yetenekli method olduğunu cita ediyor, ancak ‘Graphite-Mirage’ daha esnek olduğunu savunuyor. Görünüyor ki Amorf-Mirage en iyi ayrıntı elde ediyor, Graphite-Mirage ise en iyi esnekliği sunuyor. Her iki yöntem de makalede sunuluyor, çeşitli güçleri ve zayıflıkları ile, yazarların tercih ettiği yöntem, eğer varsa, şu anda açık değil.

 

İlk olarak Perşembe, 3 Ekim 2024’te yayınlandı

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]