Bizimle iletişime geçin

Yapay Zeka

Görüntü Sentez Sistemlerinin Gerçekten 'Orijinal' Malzeme Ürettiği Nasıl Anlaşılır?

mm
"1990'ların teknolojisiyle su altında yeni AI araştırmaları üzerinde çalışan oyuncak ayılar" – Kaynak: https://www.creativeboom.com/features/meet-dall-e/
"1990'ların teknolojisiyle su altında yeni AI araştırmaları üzerinde çalışan oyuncak ayılar" – Kaynak: https://www.creativeboom.com/features/meet-dall-e/

Güney Kore'den yeni bir çalışma, görüntü sentez sistemlerinin gerçekten yeni görüntüler mi yoksa eğitim verilerinde 'küçük' varyantlar mı üretip üretmediğini ve bu tür mimarilerin hedefini (yeni ve orijinal görüntülerin üretimi gibi) potansiyel olarak geçersiz kıldığını belirlemek için bir yöntem önerdi. .

Makale, çoğu zaman, ikincisinin doğru olduğunu öne sürüyor, çünkü bu tür sistemlerin eğitim boyunca üretken kapasitelerini geliştirmek için kullandıkları mevcut ölçümler, veri kümesindeki (sahte olmayan) kaynak görüntülere nispeten yakın olan görüntüleri tercih etmeye zorlanıyor. .

Ne de olsa, oluşturulan bir görüntü kaynak verilere 'görsel olarak yakın' ise, ilham almamışsa 'sadık' olduğu için 'özgünlük' açısından 'özgünlük' açısından kaçınılmaz olarak daha iyi puan alması muhtemeldir.

Hukuki sonuçları henüz bilinemeyecek kadar yeni ve denenmemiş bir sektörde bu, önemli bir hukuki sorun haline geldi, ticarileştirilmiş sentetik görüntü içeriğinin şu anda telif hakkıyla korunan (genellikle) kaynak malzemeden yeterince farklı olmadığı ortaya çıkarsa perfüze edilmesine izin verildi Web'den kazınmış popüler veri kümeleri biçimindeki araştırma sektörü (bu türden gelecekteki hak ihlali iddiaları için potansiyel oldukça yakın zamanda öne çıkmak Microsoft'un GitHub Yardımcı Pilot AI ile ilgili olarak).

OpenAI'ler gibi sistemlerden giderek daha tutarlı ve anlamsal olarak sağlam çıktılar açısından DALL-E2, Google'ın Görüntüve Çin'in CogView yayınlar (ayrıca daha düşük özellikli dall-e mini), çok az var facto sonrası Oluşturulan bir görüntünün orijinalliğini güvenilir bir şekilde test etmenin yolları.

Gerçekten de, yeni DALL-E 2 görsellerinin en popülerlerinden bazılarının aranması, arama motoruna bağlı olarak genellikle aynı görsellerin başka örneklerine yol açacaktır.

Tam bir 9 resimlik DALL-E 2 çıkış grubunun yüklenmesi yalnızca daha fazla DALL-E 2 çıkış grubuna yol açar. İlk resmi ayırıp yüklemek (8 Haziran 2022 tarihli bu Twitter gönderisinden, 'Weird Dall-E Generations' hesabından), Google'ın resimdeki basketbola odaklanmasına ve görsel tabanlı aramayı anlamsal bir çıkmaza sokmasına neden oluyor. Aynı resim tabanlı arama için, Yandex en azından bazı gerçek piksel tabanlı yapısöküm ve özellik eşleştirme yapıyor gibi görünüyor.

Tam bir 9 resimlik DALL-E 2 çıkış grubunun yüklenmesi yalnızca daha fazla DALL-E 2 çıkış grubuna yol açar, çünkü ızgara yapısı en güçlü özelliktir. İlk görüntüyü ayırma ve yükleme ( bu Twitter gönderisi 8 Haziran 2022 tarihli, "Weird Dall-E Generations" hesabından) Google'ın resimdeki basketbola odaklanmasına ve görsel tabanlı aramayı anlamsal bir çıkmaza sokmasına neden oluyor. Aynı görüntü tabanlı arama için, Yandex en azından bazı gerçek piksel tabanlı yapısöküm ve özellik eşleştirme yapıyor gibi görünüyor.

Yandex'in Google Arama'dan daha olası olmasına rağmen, gerçek Özellikler (yani bir görüntünün türetilmiş/hesaplanmış Özellikler, mutlaka insanların yüz özellikleri değil) ve görsel Benzer görselleri bulmak için gönderilen bir görselin (anlamsal değil) özellikleri, tüm görsel tabanlı arama motorlarında ya bir tür gündem veya uygulama durumların tespit edilmesini zorlaştırabilir. kaynak>oluşturuldu web aramaları yoluyla intihal.

Ek olarak, üretken bir model için eğitim verilerinin tamamı kamuya açık olmayabilir, bu da oluşturulan görüntülerin orijinalliğinin adli incelemesini daha da zorlaştırır.

İlginç bir şekilde, Google'ın kendi sitesinde sunduğu sentetik görüntülerden biri üzerinde görüntü tabanlı bir web araması yapmak. özel Imagen sitesi görüntüye gerçekten bakma ve tarafsız olarak benzer görüntüleri arama açısından görüntünün konusuyla kesinlikle karşılaştırılabilecek hiçbir şey bulamıyor. Bunun yerine, her zamanki gibi anlamsal olarak sabitlenmiş olan bu Imagen resmi için Google Görsel arama sonuçları, ek (ve sınırlayıcı) bir parametre olarak 'image google' arama terimlerini eklemeden, görselin saf görsel tabanlı web aramasına izin vermeyecektir:

Öte yandan Yandex, amatör sanat topluluğundan çok sayıda benzer (veya en azından görsel olarak ilişkili) gerçek dünya görüntüleri bulur:

Genel olarak, görüntü sentez sistemlerinin çıktısının yeniliği veya orijinalliği, modelin eğitildiği sırada internetteki web'e bakan her olası görüntüden özniteliklerin çıkarılmasına gerek kalmadan bir şekilde ölçülebilirse daha iyi olur veya telif hakkıyla korunan materyal kullanıyor olabilecek halka açık olmayan veri kümelerinde.

Bu sorunla ilgili olarak, Kore İleri Bilim ve Teknoloji Enstitüsü'ndeki (KAIST AI) Kim Jaechul Yapay Zeka Enstitüsü'nden araştırmacılar, küresel bir ICT ve arama şirketi NAVER Corp. Nadirlik Puanı bu, görüntü sentez sistemlerinin daha orijinal kreasyonlarını tanımlamaya yardımcı olabilir.

Buradaki görüntüler StyleGAN-FFHQ aracılığıyla oluşturulur. Soldan sağa, sütunlar en kötüden en iyiye sonuçları gösterir. "Kesme hilesi" metriğinin (aşağıya bakın) ve Gerçekçilik metriğinin kendi ajandalarına sahip olduğunu görebiliriz, oysa yeni "Nadirlik" skoru (en üst sıra) tutarlı ama orijinal görüntüler arıyor (yalnızca tutarlı görüntülerden ziyade). Kaynak: https://arxiv.org/pdf/2206.08549.pdf

Buradaki görüntüler StyleGAN-FFHQ aracılığıyla oluşturulur. Soldan sağa, sütunlar en kötüden en iyiye sonuçları gösterir. "Kesme hilesi" metriğinin (aşağıya bakın) ve Gerçekçilik metriğinin kendi ajandalarına sahip olduğunu görebiliriz, oysa yeni "Nadirlik" skoru (en üst sıra) tutarlı ama orijinal görüntüler arıyor (yalnızca tutarlı görüntülerden ziyade). Bu makalede görüntü boyutu sınırları olduğundan, daha iyi ayrıntı ve çözünürlük için lütfen kaynak kağıda bakın. Kaynak: https://arxiv.org/pdf/2206.08549.pdf

Yeni kâğıt başlıklı Nadirlik Puanı: Sentezlenen Görüntülerin Sıradışılığını Değerlendirmek İçin Yeni Bir Metrik, ve KAIST'teki üç araştırmacıdan ve üçü NAVER Corp.'tan geliyor.

'Ucuz Numara'nın Ötesinde

Yeni makalenin iyileştirmeye çalıştığı önceki ölçütler arasında 'Kesme hilesi' yer alıyor. 2019'te önerildi Birleşik Krallık'taki Heriot-Watt Üniversitesi ve Google'ın DeepMind işbirliğiyle.

Kırpma Trick, esas olarak, üretken modeli eğitmek için kullanılandan örnekleme için farklı bir gizli dağılım kullanır.

Bu yöntemi geliştiren araştırmacılar, işe yaramasına şaşırdılar, ancak orijinal makalede üretilen çıktının çeşitliliğini azalttığını kabul ettiler. Bununla birlikte, Verilerin doğasında var olan tüm olasılıkları gerçekten özümsemeyen otantik görünümlü sonuçlar elde etmek için 'ucuz bir numara' olarak yeniden tanımlanabilecek bir şey bağlamında, Kesme Hilesi etkili ve popüler hale geldi. kaynak verilere istendiğinden daha fazla benzemektedir.

Kısaltma Hilesi ile ilgili olarak, yeni makalenin yazarları şunları gözlemliyor:

"[Bu], eğitim veri kümelerinde nadir örnekler oluşturmak için değil, tipik görüntüleri daha istikrarlı bir şekilde sentezlemek için tasarlanmıştır. Üreticinin nadir örnekleri etkili bir şekilde üretmesi sağlanabiliyorsa, mevcut üretken modellerin gerçek veri dağılımında daha zengin örnekler üretebileceğini varsayıyoruz.'

Frechet Başlangıç ​​Mesafesi (FID) gibi geleneksel metriklere güvenme genel eğiliminin yoğun eleştirilere maruz kaldı Aralık 2021'de), üretken bir modelin eğitimi sırasında "ilerleme göstergeleri" olarak başlangıç ​​puanı (IS) ve Çekirdek Başlangıç ​​Mesafesi (KID), yazarların ayrıca yorumu*:

"Bu öğrenme şeması, oluşturucunun, gerçek görüntü dağılımının büyük bir bölümünü hesaba katmayan benzersiz ve güçlü özelliklere sahip çok nadir örnekleri sentezlememesine yol açar. Herkese açık veri kümelerinden alınan nadir örnek örnekleri arasında çeşitli aksesuarlara sahip kişiler yer alır. FFHQ, AFHQ'daki beyaz hayvanlar, ve Metfaces'te alışılmadık heykeller.

Nadir numuneler üretme yeteneği, yalnızca üretici modellerin uç kapasitesiyle ilgili olduğu için değil, aynı zamanda sanal insanlar gibi yaratıcı uygulamalarda benzersizliğin önemli bir rol oynadığı için de önemlidir.

Bununla birlikte, son zamanlarda yapılan birkaç çalışmanın niteliksel sonuçları nadiren bu nadir örnekleri içerir. Rakip öğrenme şemasının doğasının, bir eğitim veri setininkine benzer şekilde oluşturulan görüntü dağıtımını zorladığını tahmin ediyoruz. Bu nedenle, net bireysellik veya nadirliğe sahip görüntüler, modeller tarafından sentezlenen görüntülerde yalnızca küçük bir yer tutar.'

Teknik

Araştırmacıların yeni Nadirlik Puanı, sunulan bir fikri uyarlar. daha erken işliyor - kullanımı K-En Yakın Komşular (KNN'ler), bir görüntü sentez sistemindeki gerçek (eğitim) ve sentetik (çıktı) veri dizilerini temsil eder.

Yazarlar, bu yeni analiz yöntemiyle ilgili olarak şunları ileri sürüyor:

"Sıradan örneklerin birbirine daha yakın olacağını, oysa benzersiz ve nadir örneklerin özellik uzayında seyrek olarak yer alacağını varsayıyoruz."

Yukarıdaki sonuç görüntüsü, üzerinde eğitilmiş bir StyleGAN mimarisinde en küçük en yakın komşu mesafelerini (NND'ler) en büyüğüne kadar gösterir. FFHQ.

Tüm veri kümeleri için, en küçük NND'lere sahip örnekler, temsili ve tipik görüntüler gösterir. Aksine, en büyük NND'lere sahip örnekler güçlü bir bireyselliğe sahiptir ve en küçük NND'lere sahip tipik görüntülerden önemli ölçüde farklıdır.'

Teorik olarak, bu yeni metriği bir ayrımcı olarak kullanarak veya en azından onu daha karmaşık bir ayırt edici mimariye dahil ederek, üretken bir sistem saf taklitten daha yaratıcı bir algoritmaya doğru yönlendirilebilirken kritik olabilecek kavramların temel uyumunu koruyabilir. otantik görüntü üretimi için (örn. 'Adam', 'kadın', 'araba', 'kilise', Vb.)

Karşılaştırmalar ve Deneyler

Testlerde araştırmacılar, Rarity Score'un performansını hem Truncation Trick hem de NVIDIA'nın 2019'u ile karşılaştırdı. Gerçekçilik Puanı, ve çeşitli çerçeveler ve veri kümelerinde, yaklaşımın 'benzersiz' sonuçları bireyselleştirebildiğini buldu.

Makalede yer alan sonuçlar buraya eklenemeyecek kadar kapsamlı olsa da, araştırmacılar yeni yöntemin hem kaynak (gerçek) hem de oluşturulan (sahte) görüntülerdeki nadirliği üretken bir prosedürde belirleme yeteneğini göstermiş görünüyor:

Belgede çoğaltılan kapsamlı görsel sonuçlardan örnekler seçin (daha fazla ayrıntı için yukarıdaki kaynak URL'ye bakın). Solda, orijinal veri setinde çok az yakın komşusu olan (yani yeni ve sıra dışı olan) FFHQ'dan orijinal örnekler; sağda, StyleGAN tarafından oluşturulan ve yeni ölçümün gerçekten yeni olarak tanımladığı sahte görüntüler.

Belgede çoğaltılan kapsamlı görsel sonuçlardan örnekler seçin (daha fazla ayrıntı için yukarıdaki kaynak URL'ye bakın). Solda, orijinal veri setinde çok az yakın komşusu olan (yani yeni ve sıra dışı olan) FFHQ'dan orijinal örnekler; sağda, StyleGAN tarafından oluşturulan ve yeni ölçümün gerçekten yeni olarak tanımladığı sahte görüntüler. Bu makalede görüntü boyutu sınırları olduğundan, daha iyi ayrıntı ve çözünürlük için lütfen kaynak kağıda bakın.

Yeni Nadirlik Puanı metriği, yalnızca tek bir mimaride 'yeni' üretken çıktıyı belirleme olasılığına izin vermekle kalmaz, aynı zamanda, araştırmacıların iddiasına göre, çeşitli ve değişken mimarilerin (örn. otomatik kodlayıcı, VAE, GAN, vb.) üretken modelleri arasında karşılaştırmalara izin verir. ).

Makale, Nadirlik Puanının, modelin eğitimi sırasında nesiller arasındaki çeşitliliği inceleyen (daha ziyade miyop bir şekilde) 'geleneksel' metriklerin aksine, üretken bir çerçevenin benzersiz ve nadir görüntüler oluşturma yeteneğine odaklanarak önceki ölçümlerden farklı olduğunu belirtmektedir.

Sınırlı Görevlerin Ötesinde

Yeni makalenin araştırmacıları, sınırlı alan çerçeveleri (örneğin, özellikle insan veya kedi resimlerini üretmek için tasarlanmış üreteç/veri kümesi kombinasyonları gibi) üzerinde testler yapmış olsalar da, Nadirlik Puanı potansiyel olarak herhangi bir keyfi görüntü sentezi prosedürüne uygulanabilir. gizli yabancı dağıtımları devreye sokarak özgünlüğü artırmak (ve çeşitliliği azaltmak) yerine veya özgünlük adına yeniliği tehlikeye atan diğer 'kısayollara' güvenmek yerine, eğitilmiş verilerden türetilen dağıtımları kullanan oluşturulmuş örnekleri belirlemek istenmektedir.

Gerçekte, böyle bir metrik, belirgin bir "aykırı" sonuç, eğitim verileri ve benzer bilgi istemlerinden veya girdilerden elde edilen sonuçlar (örn. tabanlı bilgi istemleri).

Pratikte ve sistemin görsel ve semantik kavramları ne ölçüde özümsediğinin açık bir şekilde anlaşılmaması durumunda (çoğunlukla eğitim verileri hakkında sınırlı bilgiyle engellenir), bu, gerçek bir "an"ı belirlemek için uygun bir yöntem olabilir. Üretken bir sistemde 'ilham' - yeterli sayıda girdi kavramının ve verinin, aşırı derecede türev veya kaynak verilere yakın bir şey yerine gerçekten yaratıcı bir şeyle sonuçlandığı nokta.

 

* Yazarların satır içi alıntılarını köprülere dönüştürmelerim.

İlk olarak 20 Haziran 2022'de yayınlandı.