Yapay Zekâ
Görüntü Sentez Sektörü Hatalı Bir Metriği Benimsemiş, Araştırmalar İddia Ediyor

2021, görüntü sentez sektöründe without öncesiz bir ilerleme ve yayın hızının yaşandığı bir yıl oldu ve yeni yenilikler ve teknolojilerde gelişmeler sunuyor; bu teknolojiler, neural rendering, deepfakes ve bir dizi yeni yaklaşım yoluyla insan kişiliklerini yeniden üretebiliyor.
Ancak, Almanya’dan araştırmacılar, sentetik görüntülerin gerçekçiliğini otomatik olarak değerlendirmek için kullanılan standartın ölümcül bir şekilde hatalı olduğunu ve bu standarttan yararlanan, pahalı insan tabanlı sonuç değerlendirme maliyetini azaltmak için bu standarttan yararlanan binlerce araştırmacının kör bir sokakta ileriyor olabileceğini iddia ediyorlar.
Araştırmacılar, Fréchet Inception Distance (FID) standardının, insan standartlarına göre görüntüleri değerlendirmede yetersiz olduğunu göstermek için, FID’ye (şimdi ortak bir metrik) optimize edilmiş kendi GAN’larını dağıttılar. FID’nin, temel kodun çok farklı bir amaçla yazıldığı ve insanların uygulayacağı standartları düzenli olarak karşılayamadığı sonucuna vardılar:

FID puanları (daha düşük daha iyi) çeşitli modeller tarafından üretilen görüntüler için standard veri kümeleri ve mimariler kullanılarak. Araştırmacılar bu sıralamayla souhlas ediyorlar mı? Kaynak: https://openreview.net/pdf?id=mLG96UpmbYz
Makale, FID’nin amaçlandığı görev için uygun olmadığını iddia etmenin yanı sıra, iç motorunu rakip motorlarla değiştirmek gibi ‘açık’ çözümlerin, yalnızca bir dizi önyargıyı başka bir önyargıyla değiştireceğini öne sürüyor. Yazarlar, sentetik olarak üretilen fotoğrafların ‘otantikliği’ni değerlendirmek için daha iyi metrikler geliştirmek için yeni araştırma girişimlerine ihtiyaç duyulduğunu öneriyorlar.
Makale, Fréchet Inception Distance’de İçselleştirilmiş Önyargılar başlığını taşıyor ve Saarland’daki Max Planck Enformatik Enstitüsü’nden Steffen Jung ve Siegen Üniversitesi’nden Görsel Bilgisayar Professoru Margret Keuper tarafından yazılmıştır.
Görüntü Sentez için Puanlama Sisteminin Arayışı
Yeni araştırmaya göre, GAN’ler ve kodlayıcı/çözücü mimarileri gibi görüntü sentez çerçevelerindeki ilerleme, bu sistemlerin sonuçlarını değerlendirebilecek yöntemleri geride bıraktı. İnsan değerlendirmesi, yalnızca pahalı ve bu nedenle ölçeklenebilir olmamasının yanı sıra, empirik ve tekrar edilebilir bir değerlendirme yöntemi sunmuyor.
Bu nedenle, Inception Score (IS) dahil olmak üzere bir dizi metrik çerçevesi ortaya çıktı; IS, 2016 makalede GAN’leri Eğitmek için İyileştirilmiş Teknikler yer alıyor ve GAN mucidi Ian Goodfellow tarafından ortaklaşa yazılmıştır.
2018’de IS puanının çoklu GAN ağları için genel olarak uygulanabilir bir metrik olarak geçerliliğinin reddedilmesi, GAN görüntü sentez topluluğunda FID’nin yaygın olarak benimsenmesine yol açtı. Ancak, Inception Score gibi FID de Google’ın Inception v3 görüntü sınıflandırma ağı (IV3) temel alınarak oluşturuldu.
Yeni makalenin yazarları, Fréchet Inception Distance’in IV3’teki zararlı önyargıları yaydığını ve bu nedenle görüntü kalitesinin güvenilebilir bir şekilde sınıflandırılmasını engellediğini iddia ediyorlar.
FID, bir makine öğrenimi çerçevesine bir ayrımcı (GAN’in iyi performans gösterip göstermediğini veya ‘tekrar denemesi’ gerektiğini kararlaştıran gömülü bir ‘hakem’) olarak entegre edilebildiğinden, insanların görüntüleri değerlendirmesinde uyguladığı standartları doğru bir şekilde temsil etmesi gerekir.
Fréchet Inception Distance
FID, bir GAN modelinin (veya benzer işlevsellik) oluşturulmasında kullanılan eğitim veri kümesindeki özelliklerin dağılımını ve bu sistemin sonuçlarını karşılaştırır.
Bu nedenle, bir GAN çerçevesi 10.000 (örneğin, ünlülerin) görüntüsüne eğitim verildiğinde, FID, orijinal (gerçek) görüntülerle GAN tarafından üretilen sahte görüntüler arasında bir karşılaştırma yapar. FID puanı ne kadar düşükse, GAN’in FID’nin kriterlerine göre ‘fotogerçekçi’ görüntülere ulaşmasına o kadar yakın olur.

Makaleden, FFHQ64 veri kümesine eğitim verilen bir GAN’in sonuçları. Burada, FID puanı 5.38 olarak çok düşük olmasına rağmen, sonuçlar ortalama bir insana hoş veya inandırıcı gelmiyor.
Sorun, yazarlara göre, Inception v3’ün, Fréchet Inception Distance’i güçlendiren varsayımlarının, görevi dikkate aldığında doğru yerlere bakmamasıdır.
Inception V3, ImageNet nesne tanıma challenge için eğitildi; bu, son yıllarda görüntü sentezinin amaçlarının evrimi ile argüman olarak çelişiyor. IV3, modelin dayanıklılığını, görüntüleri rastgele çevirerek, onları rastgele bir ölçek arasında (8-100%) kıstırarak, aspect oranını (3/4 ile 4/3 arasında bir aralıkta) değiştirerek ve parlaklık, doygunluk ve kontrast ile ilgili renk bozulmalarını rastgele enjekte ederek test ediyor.
Almanya merkezli araştırmacılar, IV3’ün kenarları ve dokuları çıkarmaya rather than renk ve yoğunluk bilgilerini çıkarmaya eğilimli olduğunu ve bu nedenle sentetik görüntülerin otantikliği için anlamlı indeksler olamadığını buldular; ve orijinal amacı olan nesne tespiti görevi, bu nedenle uygun olmayan bir görev için ele geçirildi. Yazarlar şunları belirtiyorlar*:
‘[Inception v3] kenarları ve dokulara dayalı özellikler çıkarmaya rather than renk ve yoğunluk bilgilerini çıkarmaya eğilimlidir. Bu, renk bozulmaları tanıtan ancak yüksek frekanslı bilgileri bozulmamış bir şekilde bırakan (örneğin, Gaussian blur ile bozulma ile karşılaştırıldığında) augmentation pipeline ile uyumludur.
‘Sonuç olarak, FID bu önyargıyı miras alır. Generatif modellerin dokuları iyi bir şekilde yeniden üretmesi, renk dağılımlarını iyi bir şekilde yeniden üretmelerine tercih edilebilir.’
Veri ve Yöntem
Hipotezlerini test etmek için, yazarlar iki GAN mimarisi, DCGAN ve SNGAN, NVIDIA’nın FFHQ insan yüzü veri kümesi üzerinde, 642 görüntü çözünürlüğüne indirgenmiş haliyle, FFHQ64 olarak adlandırılan türetilmiş veri kümesi üzerinde eğitti.
Üç GAN eğitim prosedürü izlendi: GAN G+D, standart ayrımcı tabanlı bir ağ; GAN FID|G+D, FID’nin ek bir ayrımcı olarak görev yaptığı; ve GAN FID|G, GAN’in tamamen FID puanı tarafından güçlendirildiği.
Teknik olarak, yazarlar, FID kaybının eğitimi stabilize etmesi ve potansiyel olarak tamamen değiştirebileceği ayrımcı (3. GAN FID|G’de olduğu gibi) ve insanlara hoş gelen sonuçlar üretebileceğini belirtiyorlar.
Pratikte, sonuçlar yazarların hipotezine göre, FID destekli modellerin yanlış metriklere göre aşırı uyarlama yaptığı şeklinde farklıdır. Araştırmacılar şunları belirtiyorlar:
‘GAN’in, eğitim veri kümesi dağılımını eşleştirmek için uygun olmayan özellikler ürettiğini varsayıyoruz. Bu gözlem, [GAN FID|G] durumunda daha da ciddi hale geliyor. Burada, ayrımcının eksikliğinin, uzaysal olarak tutarsız özellik dağılımlarına yol açtığını fark ediyoruz. Örneğin [SNGAN FID|G], genellikle tek gözler ekliyor ve yüz özelliklerini ürkütücü bir şekilde hizalıyor.’
Yazarlar şunları kếtüller*:
‘İnsan annotatörleri, SNGAN D+G tarafından üretilen görüntülere tercih edeceklerdir (veri sadakati sanata tercih edildiğinde), ancak FID’nin bunu yansıtmadığını görüyoruz. Bu nedenle, FID insan algısına uyumlu değildir.
‘Görüntü sınıflandırma ağları tarafından sağlanan ayrımcı özelliklerin, anlamlı bir metriğin temelini oluşturmak için yeterli olmadığını savunuyoruz.’
Kolay Alternatifler Yok
Yazarlar, ayrıca Inception V3’ü benzer bir motorla değiştirmenin sorunu hafifletmediğini buldular. IV3’ü ‘çeşitli sınıflandırma ağları’ ile değiştirerek, ImageNet-C (görüntü sentez çerçevelerinden çıkan ortak bozulmaları ve pertürbasyonları benchmarklamak için tasarlanmış ImageNet’in bir alt kümesi) ile test ettiler ve sonuçlarını önemli ölçüde iyileştiremediler:
‘Inception v3’teki önyargılar, diğer sınıflandırma ağlarında da yaygın olarak mevcuttur. Ayrıca, farklı ağların, bozulma türleri arasında farklı sıralamalar üreteceğini görüyoruz.’
Yazarlar, makaleyi, insanla uyumlu ve önyargısız bir metriğin geliştirilmesini umarak, görüntü jeneratör mimarilerinin adil bir sıralamasını sağlayabilecek bir metriğin geliştirilmesini umarak bitiriyorlar.
* Yazarların vurgusu.
İlk olarak 20 Aralık 2021, 13:00 GMT+2’de yayınlandı.











