saplama EditGAN ile Yüksek Hassasiyetli Semantik Görüntü Düzenleme - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

EditGAN ile Yüksek Hassasiyetli Semantik Görüntü Düzenleme

mm

Yayınlanan

 on

Tarlalarda dururken küreyi elinde tutan bir kişi.

Üretken Çekişmeli Ağlar veya GAN'lar görüntü düzenleme endüstrisindeki yeni uygulamalardan yararlanıyor. Son birkaç aydır EditGAN, yüksek hassasiyetli ve yüksek kaliteli anlamsal görüntü düzenlemeye yönelik yeni bir yöntem olduğundan AI/ML endüstrisinde popülerlik kazanıyor. 

EditGAN modeli hakkında ayrıntılı olarak konuşacağız ve bunun anlamsal görüntü düzenleme endüstrisinde neden bir dönüm noktası olabileceğini size anlatacağız.

Haydi başlayalım. Ancak EditGAN'ın ne olduğunu öğrenmeden önce EditGAN'ın önemini ve neden ileriye doğru atılmış önemli bir adım olduğunu anlamak bizim için önemlidir. 

Neden EditGAN?

Geleneksel GAN ​​mimarileri, yapay zeka tabanlı görüntü düzenleme sektörünün önemli ölçüde ilerlemesine yardımcı olmasına rağmen, sıfırdan bir GAN mimarisi oluşturmanın bazı büyük zorlukları vardır. 

  1. Eğitim aşaması sırasında bir GAN mimarisi, anlamsal bölümleme açıklamalarına sahip yüksek miktarda etiketli veri gerektirir. 
  2. Yalnızca üst düzey kontrol sağlama yeteneğine sahiptirler. 
  3. Ve sıklıkla görüntüler arasında ileri geri enterpolasyon yapıyorlar. 

Geleneksel GAN ​​mimarilerinin işi halletmesine rağmen geniş ölçekli dağıtımda etkili olmadığı gözlemlenebilir. Geleneksel GAN ​​mimarisinin ortalamanın altındaki verimliliği, EditGAN'ın NVIDIA tarafından 2022'de tanıtılmasının nedenidir. 

EditGAN'ın yüksek hassasiyet ve yüksek kalitede anlambilim için etkili bir yöntem olduğu ileri sürülmektedir. resim düzenleme Kullanıcılarının bir görüntünün son derece ayrıntılı segmentasyon maskelerini değiştirerek görüntüleri düzenlemesine olanak sağlama yeteneği ile. EditGAN'ın görüntü düzenleme görevleri için ölçeklenebilir bir yöntem olmasının nedenlerinden biri de mimarisidir. 

EditGAN modeli, görüntüleri ve bunların anlamsal bölümlendirmelerini birlikte modelleyen bir GAN çerçevesi üzerine kurulmuştur ve yalnızca bir avuç etiketli veya açıklamalı eğitim verisi gerektirir. EditGAN geliştiricileri, segmentasyon düzenlemesine uygun olarak koşullu gizli kod optimizasyonu gerçekleştirerek görüntüyü etkili bir şekilde değiştirmek için GAN'ın gizli alanına bir görüntü yerleştirmeyi denediler. Ayrıca, optimizasyonu amorti etmek için model, gizli alanda düzenlemeleri gerçekleştiren "düzenleme vektörlerini" bulmaya çalışır. 

EditGAN çerçevesinin mimarisi, modelin daha sonra doğrudan diğer görüntülere yüksek hız ve verimlilikle uygulanabilecek veya uygulanabilecek rastgele sayıda düzenleme vektörünü öğrenmesine olanak tanır. Ayrıca deneysel sonuçlar, EditGAN'ın görüntü kalitesini maksimumda korurken, daha önce görülmemiş bir ayrıntı düzeyiyle görüntüleri düzenleyebildiğini göstermektedir. 

EditGAN'a neden ihtiyacımız olduğunu özetlemek gerekirse, bu, şimdiye kadar aşağıdakileri sunan ilk GAN tabanlı görüntü düzenleme çerçevesidir:

  1. Çok yüksek hassasiyette düzenleme. 
  2. Bir avuç etiketli veriyle çalışabilir. 
  3. Gerçek zamanlı senaryolarda etkili bir şekilde dağıtılabilir. 
  4. Aynı anda birden fazla düzenleme için kompozisyona izin verir. 
  5. GAN tarafından oluşturulan, gerçek gömülü ve hatta alan dışı görüntüler üzerinde çalışır. 

EditGAN ile Yüksek Hassasiyetli Anlamsal Görüntü Düzenleme 

Görüntü sentezi için son teknoloji ürünü bir GAN çerçevesi olan StyleGAN2, EditGAN'ın birincil görüntü oluşturma bileşenidir. StyleGAN2 çerçevesi, çok değişkenli normal dağılım havuzundan alınan gizli kodları eşler ve bunları gerçekçi görüntülere eşler. 

StyleGAN2, eğitilmiş derin bir üretken modeldir. görüntüleri sentezlemek Modellenen görüntülerin anlamsal olarak anlaşılmasının yanı sıra mümkün olan en yüksek kalitede. 

Segmentasyon Eğitimi ve Çıkarım

EditGAN modeli, optimizasyonu kullanarak ve yeni bir görüntü üzerinde segmentasyon gerçekleştirmek için bir kodlayıcı kullanarak ve segmentasyon dalını eğiterek bir görüntüyü GAN'ın gizli alanına yerleştirir. EditGAN çerçevesi önceki çalışmaların üzerine inşa edilmeye devam ediyor ve görüntüleri gizli alana gömmek için bir kodlayıcıyı eğitiyor. Buradaki temel amaç, GAN'dan alınan örnekleri ve gerçek hayattaki eğitim verilerini kullanarak standart piksel bazında L2 ve LPIPS yapı kayıplarından oluşan kodlayıcıyı eğitmektir. Ayrıca model, GAN örnekleriyle çalışırken gizli kodları kullanarak kodlayıcıyı açıkça düzenler. 

Sonuç olarak model, semantik segmentasyonla etiketlenmiş veri kümesindeki açıklamalı görüntüleri gizli alana yerleştirir ve jeneratörün segmentasyon dalını eğitmek için çapraz entropi kaybını kullanır. 

Gizli Uzayda Semantiği Bulmak için Segmentasyon Düzenlemeyi Kullanma

EditGAN'ın temel amacı, semantik segmentasyonların ve görüntülerin ortak dağıtımından yararlanmaktır. yüksek hassasiyetli görüntü düzenleme. Diyelim ki bir resmimiz var x bunun düzenlenmesi gerekiyor, böylece model, görüntüyü EditGAN'ın gizli alanına yerleştirir veya modelin kendisinden örnek görüntüleri kullanır. Segmentasyon dalı daha sonra şunu üretir: y veya karşılık gelen segmentasyonun temel nedeni, hem RGB görüntülerinin hem de segmentasyonların aynı gizli kodları paylaşmasıdır w. Geliştiriciler daha sonra segmentasyonu değiştirmek ve bunları gereksinimlerine göre manuel olarak düzenlemek için herhangi bir etiketleme veya dijital boyama aracını kullanabilir. 

Çıkarım Sırasında Farklı Düzenleme Yolları

Optimizasyon kullanılarak elde edilen gizli alan düzenleme vektörleri anlamsal olarak anlamlı olarak tanımlanabilir ve sıklıkla farklı niteliklerle çözülür. Bu nedenle, yeni bir görüntüyü düzenlemek için model, görüntüyü doğrudan gizli alana gömebilir ve optimizasyonu sıfırdan yeniden gerçekleştirmeden, modelin daha önce öğrendiği düzenleme işlemlerinin aynısını doğrudan gerçekleştirebilir. Modelin öğrendiği düzenleme vektörlerinin, başlangıçta görüntüyü düzenlemek için gerekli olan optimizasyonu amorti ettiğini söylemek yanlış olmaz. 

Geliştiricilerin hala çözme işlemini mükemmelleştirmediğini ve düzenleme vektörlerinin diğer görüntülerde kullanıldığında çoğu zaman en iyi sonuçları vermediğini belirtmekte fayda var. Ancak test süresi boyunca birkaç ek optimizasyon adımı gerçekleştirilerek görüntünün diğer kısımlarındaki düzenleme kusurları kaldırılarak bu sorunun üstesinden gelinebilir. 

Mevcut öğrendiklerimize dayanarak, EditGAN çerçevesi görüntüleri üç farklı modda düzenlemek için kullanılabilir. 

  • Vektörleri Düzenleme ile Gerçek Zamanlı Düzenleme

Yerelleştirilmiş ve çözülmüş görüntüler için model, daha önce farklı ölçeklerde öğrenilen düzenleme vektörlerini uygulayarak görüntüleri düzenler ve görüntüleri etkileşimli hızlarda işler. 

  • Vektör Tabanlı Düzenleme için Kendi Kendini Denetleyen İyileştirmeyi Kullanma

Model, görüntünün diğer bölümleriyle mükemmel bir şekilde çözülmeyen yerelleştirilmiş görüntüleri düzenlemek için, önceden öğrenilen düzenleme vektörlerini kullanarak görüntüyü düzenlemeyi başlatır ve test süresi boyunca birkaç ek optimizasyon adımı gerçekleştirerek düzenleme yapaylıklarını ortadan kaldırır. 

  • Optimizasyon Tabanlı Düzenleme

Büyük ölçekli ve görüntüye özel düzenlemeler gerçekleştirmek için model, optimizasyonu baştan gerçekleştirir çünkü düzenleme vektörleri, diğer görüntülere bu tür aktarımları gerçekleştirmek için kullanılamaz. 

Uygulama

EditGAN çerçevesi dört farklı kategoriye yayılan görüntüler üzerinde değerlendirilir: Arabalar, Kuşlar, Kediler ve Yüzler. Modelin segmentasyon dalı, sırasıyla Arabalar, Kuşlar, Kediler ve Yüzler için etiketlenmiş eğitim verileri olarak 16, 30, 30, 16'lık görüntü maskesi çiftleri kullanılarak eğitilir. Görüntü tamamen optimizasyon kullanılarak düzenlenecekse veya model düzenleme vektörlerini öğrenmeye çalışırken, model Adam optimizer'ı kullanarak 100 optimizasyon adımı gerçekleştirir. 

Kedi, Araba ve Yüzler veri kümesi için model, Veri KümesiGAN'ın test kümesinden alınan ve GAN çerçevesini düzenleme işlevselliğini gerçekleştirmek üzere eğitmek için kullanılmayan gerçek görüntüleri kullanır. Bu görüntüler, optimizasyon ve kodlama kullanılarak EditGAN'ın gizli alanına hemen gömülür. Kuşlar kategorisi için düzenleme, GAN tarafından oluşturulan görüntüler üzerinde gösterilir. 

Sonuçlar

Niteliksel Sonuçlar

Alan İçi Sonuçlar

Yukarıdaki görüntü, EditGAN çerçevesinin önceden öğrenilen düzenleme vektörlerini yeni görüntülere uygularken ve görüntüleri 30 optimizasyon adımını kullanarak iyileştirirken gösterdiği performansı göstermektedir. EditGAN çerçevesi tarafından gerçekleştirilen bu düzenleme işlemleri, tüm sınıflar için ayrıştırılır ve görüntülerin genel kalitesi korunur. EditGAN ve diğer çerçevelerin sonuçları karşılaştırıldığında, EditGAN çerçevesinin, aynı zamanda konu kimliğini ve görüntü kalitesini korurken yüksek hassasiyetli ve karmaşık düzenlemeleri gerçekleştirmede diğer yöntemlerden daha iyi performans gösterdiği gözlemlenebilir. 

Şaşırtıcı olan, EditGAN çerçevesinin gözbebeklerini genişletmek veya bir arabanın lastiklerindeki tekerlek jantlarını düzenlemek gibi son derece yüksek hassasiyette düzenlemeler gerçekleştirebilmesidir. Ayrıca EditGAN, nesnelerin yalnızca birkaç piksele sahip anlamsal kısımlarını düzenlemek için de kullanılabilir veya bir görüntüde büyük ölçekli değişiklikler yapmak için de kullanılabilir. EditGAN çerçevesinin çeşitli düzenleme işlemlerinin, GAN eğitim verilerinde görünen görüntülerin aksine, manipüle edilmiş görüntüler oluşturma yeteneğine sahip olduğunu belirtmekte fayda var. 

Etki Alanı Dışı Sonuçlar

EditGAN'ın alan dışı performansını değerlendirmek için çerçeve MetFaces veri seti üzerinde test edilmiştir. EditGAN modeli, düzenleme vektörleri oluşturmak için alan içi gerçek yüzleri kullanır. Model daha sonra 100 adımlık bir optimizasyon süreci kullanarak etki alanı dışında olan MetFaces portrelerini yerleştirir ve düzenleme vektörlerini 30 adımlı, kendi kendini denetleyen bir iyileştirme süreci aracılığıyla uygular. Sonuçlar aşağıdaki resimde görülebilir. 

Nicel Sonuçlar

EditGAN'ın görüntü düzenleme yeteneklerini niceliksel olarak ölçmek için model, ilk olarak MaskGAN tarafından tanıtılan bir gülümseme düzenleme kıyaslamasını kullanıyor. Nötr ifade içeren yüzler, gülümseyen yüzlerle değiştirilir ve performans üç parametre üzerinden ölçülür. 

  • Anlamsal Doğruluk

Model, görüntülerdeki yüzlerin düzenleme sonrasında gülümseyen ifadeler gösterip göstermediğini ölçmek için önceden eğitilmiş bir gülümseme özniteliği sınıflandırıcısını kullanıyor. 

  • Dağıtım Düzeyinde Görüntü Kalitesi

Çekirdek Başlangıç ​​Mesafesi veya KID ve Frechet Başlangıç ​​Mesafesi veya FID, CelebA test veri seti ve 400 düzenlenmiş test görüntüsü arasında hesaplanır. 

  • Kimlik Korumaları

Modelin görüntüyü düzenlerken konuların kimliğini koruma yeteneği, önceden eğitilmiş bir ArcFace özellik çıkarma ağı kullanılarak ölçülür. 

Yukarıdaki tablo, EditGAN çerçevesinin performansını, smile edit kıyaslamasındaki diğer temel modellerle karşılaştırmaktadır. EditGAN çerçevesinin bu kadar yüksek sonuçlar elde etmek için izlediği yöntem, üç farklı temelde karşılaştırılıyor:

  • maskeGAN

MaskGAN, gülümsemeyen görüntüleri segmentasyon maskeleriyle birlikte alır ve giriş olarak hedef gülümseyen segmentasyon maskesini alır. EditGAN ile karşılaştırıldığında MaskGAN çerçevesinin büyük miktarda açıklamalı veri gerektirdiğini belirtmekte fayda var. 

  • Yerel Düzenleme

EditGAN ayrıca performansını, yerel düzenlemeyi uygulamak için GAN özelliklerini kümelemek için kullanılan bir yöntem olan yerel düzenlemeyle karşılaştırır ve referans görüntülere bağlıdır. 

  • ArayüzGAN

Tıpkı EditGAN gibi InterFaceGAN da modelin gizli alanındaki düzenleme vektörlerini bulmaya çalışır. Bununla birlikte, EditGAN'dan farklı olarak InterFaceGAN modeli, büyük miktarda açıklamalı veri, yardımcı nitelik sınıflandırıcıları kullanır ve hassas düzenleme hassasiyetine sahip değildir. 

  • StilGAN2 Damıtma

Bu yöntem, mutlaka gerçek görüntü yerleştirmeleri gerektirmeyen alternatif bir yaklaşım oluşturur ve bunun yerine bir eğitim veri kümesi oluşturmak için düzenleme vektörü modelini kullanır. 

Sınırlamalar

EditGAN, GAN çerçevesini temel aldığından diğer GAN modelleriyle aynı sınırlamaya sahiptir: yalnızca GAN tarafından modellenebilen görüntülerle çalışabilir. EditGAN'ın GAN modelli görüntülerle çalışma sınırlaması, EditGAN'ı farklı senaryolarda uygulamanın zor olmasının ana nedenidir. Ancak şunu belirtmekte fayda var ki EditGAN'ın yüksek hassasiyetli düzenlemeleri, düzenleme vektörleri kullanılarak kolaylıkla diğer farklı görüntülere aktarılabilir. 

Sonuç

GAN'ın görüntü düzenleme alanında bir endüstri standardı olmamasının ana nedenlerinden biri, sınırlı pratikliğidir. GAN çerçeveleri genellikle yüksek miktarda açıklamalı eğitim verisi gerektirir ve çoğu zaman yüksek verimlilik ve doğruluk sağlamazlar. 

EditGAN, geleneksel GAN ​​çerçevelerinin sunduğu sorunları çözmeyi amaçlamaktadır ve yüksek kaliteli ve yüksek hassasiyetli anlamsal görüntü düzenleme için etkili bir yöntem olarak ortaya çıkmaya çalışmaktadır. Şu ana kadar elde edilen sonuçlar, EditGAN'ın gerçekten de iddia ettiği şeyi sunduğunu ve hâlihazırda mevcut endüstri standardı uygulama ve modellerin bazılarından daha iyi performans gösterdiğini gösterdi. 

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.