saplama CLIP Tabanlı Görüntü Sentez Sistemleri için "Irksal Sınıflandırma" Zorluğu - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

CLIP Tabanlı Görüntü Sentez Sistemleri için 'Irksal Sınıflandırma' Zorluğu

mm
Güncellenmiş on

ABD'de yapılan yeni bir araştırma, çok beğenilen DALL-E serisinin arkasındaki popüler bilgisayarlı görme modellerinden birinin ve diğer birçok görüntü oluşturma ve sınıflandırma modelinin, bilgisayarlı görme konusunda kanıtlanabilir bir eğilim sergilediğini ortaya koyuyor. aşağı inen – yarış sınıflandırma kuralı (aynı zamanda 'bir damla' kuralı) küçük bir ölçüde 'karışık' (yani Beyaz olmayan) genetik soya sahip bir kişiyi tamamen bir 'azınlık' ırk sınıflandırmasına göre kategorize eder.

Hipodescent olduğundan beri özelliği İnsanlık tarihinin en çirkin bölümlerinden biri olan yeni makalenin yazarları, bilgisayar vizyonu araştırma ve uygulamasındaki bu tür eğilimlerin daha fazla dikkat çekmesi gerektiğini öne sürüyorlar, çünkü en azından ayda yaklaşık bir milyon kez indirilen söz konusu destekleyici çerçeve daha fazla yayılabilir. ve alt çerçevelerde ırksal önyargıyı ilan edin.

Yeni çalışmada incelenen mimari, Karşıt Dil Görüntüsü Ön Eğitimi (CLIP), internetten alınan görüntü/başlık çiftleri üzerinde eğitim alarak anlamsal ilişkileri öğrenen çok modlu bir makine öğrenme modelidir; etiketlemenin önemli maliyetini azaltan ancak muhtemelen etiket kullanan kişilerin önyargılarını yansıtan yarı denetimli bir yaklaşımdır. başlıklarını oluşturduk.

Kağıttan:

"Sonuçlarımız, CLIP gömme alanındaki hipodesans için kanıt sağlıyor; bu, kadın görüntülerine daha güçlü bir şekilde uygulanan bir önyargı." Sonuçlar ayrıca, CLIP'in görüntüleri Beyaz'dan sapmaya dayalı olarak ırksal veya etnik etiketlerle ilişkilendirdiğini ve varsayılan olarak Beyaz olduğunu gösterir.

Makale ayrıca, bir görüntünün değerlik ilişkisinin ("iyi" veya "kötü" şeylerle ilişkilendirilme eğiliminin, "azınlık" ırksal etiketler için Kafkas etiketlerinden önemli ölçüde daha yüksek olduğunu) buluyor ve CLIP'in önyargılarının ABD merkezli külliyatı yansıttığını öne sürüyor. çerçevenin eğitildiği literatür (İngilizce Vikipedi).

Yazarlar, CLIP'in belirgin hipodescent desteğinin sonuçları hakkında yorum yaparken şunu belirtiyor*:

"[Aralarında] CLIP'in ilk kullanımları, sıfır çekimli görüntü oluşturma modelini eğitmekti. DALL-E. CLIP mimarisinin halka açık olmayan daha büyük bir versiyonu eğitimde kullanıldı. DALL-E2. Mevcut araştırmanın bulgularıyla orantılı olarak, DALL-E 2 model kartında açıklanan Riskler ve Sınırlamalar notlar "Beyaz geçen insanları aşırı temsil etme eğiliminde olan görüntüler ürettiği".

Bu tür kullanımlar, CLIP tarafından öğrenilen önyargıların modelin yerleştirme alanının ötesine yayılma potansiyelini gösteriyor, çünkü özellikleri diğer son teknoloji yapay zeka modellerinde semantik oluşumuna rehberlik etmek için kullanılıyor.

"Ayrıca, kısmen CLIP ve benzer modellerin sıfır çekim ayarında görüntüleri ve metni ilişkilendirmek için gerçekleştirdiği ilerlemeler nedeniyle, çok modlu mimariler geliştirilmiştir. tarif edilen arama motorları da dahil olmak üzere yaygın olarak kullanılan internet uygulamalarının geleceği için temel olarak.

"Sonuçlarımız, bu tür modellerin doğal dil denetiminden öğrendiklerine daha fazla dikkat gösterilmesi gerektiğini gösteriyor."

The kâğıt başlıklı Görsel Semantik Yapay Zekada Hipodescent Kanıtı, ve Washington Üniversitesi ve Harvard Üniversitesi'ndeki üç araştırmacıdan geliyor.

CLIP ve Kötü Etkiler

Araştırmacılar, çalışmalarının CLIP'teki ilk hipodescent analizi olduğunu doğrulasa da, önceki çalışmalar CLIP iş akışının, büyük ölçüde denetimsiz eğitime bağlı olduğunu göstermiştir. az küratörlü web kaynaklı veriler, kadınları az temsil ediyor, üretebilir saldırgan içerikve gösterebilir anlamsal önyargı (Müslüman karşıtı duygular gibi) görüntü kodlayıcısında.

CLIP'i sunan orijinal makale, sıfır atış ayarında, CLIP'in insanların yalnızca %58.3'ünü Beyaz ırk etiketiyle ilişkilendirdiğini kabul etti. adil yüz veri kümesi. FairFace'in Amazon Mechanical Turk çalışanları tarafından olası önyargılarla etiketlendiğini gözlemleyen yeni makalenin yazarları, 'diğer insanlar tarafından Beyaz olarak algılanan önemli bir azınlığın CLIP tarafından Beyaz'dan başka bir ırkla ilişkilendirildiğini' belirtiyorlar.

Onlar devam ediyor:

FairFace veri setinde diğer ırksal veya etnik etiketlere ait olduğu algılanan bireyler CLIP tarafından bu etiketlerle ilişkilendirildiğinden, bunun tersi doğru görünmüyor. Bu sonuç, CLIP'in sosyal bilimciler tarafından tanımlandığı gibi "hipodesans" kuralını öğrenmiş olma olasılığını akla getiriyor: çok ırklı atalara sahip bireylerin, eşit derecede meşru çoğunluğa kıyasla, azınlığa veya daha az avantajlı ebeveyn grubuna ait olarak algılanma ve kategorize edilme olasılıkları daha yüksektir. veya avantajlı ebeveyn grubu.

Başka bir deyişle, Siyah ve Beyaz bir ebeveynin çocuğu Beyaz'dan çok Siyah olarak algılanır; ve bir Asyalı ve bir Beyaz ebeveynin çocuğu, Beyaz'dan daha Asyalı olarak algılanıyor.'

Makalenin üç temel bulgusu var: CLIP, çok ırklı kimliklere sahip insanları kendileri için geçerli olan azınlık katkıda bulunan ırk kategorisine 'sürüleyerek' hipodros kanıtlıyor; "CLIP'te varsayılan yarış Beyaz'dır" ve yarışan yarışlar Beyaz kategorisinden "sapmaları" ile tanımlanır; ve şu değerlik yanlılığı ('kötü' kavramlarla bir ilişki), bireyin ırksal bir azınlığa kategorize edildiği ölçüde ilişkilidir.

Yöntem ve Veriler

CLIP'in çok ırklı deneklere nasıl davrandığını belirlemek için araştırmacılar bir önceden kabul edilmiş Bireylerin görüntülerinin ırkını değiştirmek için biçim değiştirme tekniği. Fotoğraflar şu adresten çekildi: Chicago Yüz Veritabanı, ırkla ilgili psikolojik çalışmalar için geliştirilmiş bir set.

Yeni makalenin ek materyalinde yer alan ırksal olarak biçimlendirilmiş CFD görüntülerinden örnekler. Kaynak: https://arxiv.org/pdf/2205.10764.pdf

Yeni makalenin ek materyalinde yer alan ırksal olarak biçimlendirilmiş CFD görüntülerinden örnekler. Skaynak: https://arxiv.org/pdf/2205.10764.pdf

Araştırmacılar, önceki çalışmayla tutarlı kalmak için veri kümesinden yalnızca 'nötr ifade' görüntülerini seçtiler. Generative Adversarial Network'ü kullandılar TarzGAN2-ADA (eğitimli FFHQ) yüz görüntülerinin ırk değiştirmesini gerçekleştirmek ve bir yarıştan diğerine ilerlemeyi gösteren ara resimler oluşturdu (yukarıdaki örnek resimlere bakın).

Önceki çalışmayla tutarlı olarak, araştırmacılar veri setinde kendilerini Siyah, Asyalı ve Latin olarak tanımlayan insanların yüzlerini kendilerini Beyaz olarak etiketleyenlerin yüzlerine dönüştürdüler. Süreçte on dokuz ara aşama üretilir. Proje için toplamda 21,000 adet 1024x1024px görsel bu yöntemle oluşturulmuştur.

Araştırmacılar daha sonra, her bir ırksal morf setindeki toplam 21 görüntünün her biri için CLIP için gömülü bir yansıtılmış görüntü elde ettiler. Bundan sonra, CLIP'ten her görüntü için bir etiket talep ettiler: "çok ırklı", "bir ırklı", "karışık ırk" ve "kişi" (ırk atlanan son etiket).

Kullanılan CLIP sürümü şuydu: CLIP-ViT-Base-Patch32 uygulama. Yazarlar, bu modelin araştırmalarını yazmadan önceki ay içinde bir milyondan fazla indirildiğini ve herhangi bir CLIP modelinin indirilmelerinin %98'ini oluşturduğunu belirtiyor. Transformatörler kitaplığı.

Testler

Araştırmacılar, CLIP'in hipodescent'e yönelik potansiyel eğilimini test etmek için, CLIP tarafından her bir birey için morflanmış görüntülerin gradyanındaki her görüntüye atanan ırk etiketini not ettiler.

Bulgulara göre CLIP, insanları 'azınlık' kategorilerinde %50 geçiş noktasında gruplama eğiliminde.

Öznenin eşit derecede köken/hedef ırk olduğu %50'lik bir karışım oranında CLIP, eşdeğer bir etikete göre daha fazla sayıda 1000 biçim verilmiş kadın görüntüsünü Asyalı (%89.1), Latina (%75.8) ve Siyah (%69.7) etiketleriyle ilişkilendirir. Beyaz etiket.

Öznenin eşit derecede köken/hedef ırk olduğu %50'lik bir karışım oranında CLIP, eşdeğer bir etikete göre daha fazla sayıda 1000 biçim verilmiş kadın görüntüsünü Asyalı (%89.1), Latina (%75.8) ve Siyah (%69.7) etiketleriyle ilişkilendirir. Beyaz etiket.

Sonuçlar, kadın deneklerin CLIP altında erkeklere göre hipodescent olmaya daha yatkın olduğunu gösteriyor, ancak yazarlar bunun kadın görüntülerini karakterize eden web'den türetilmiş ve düzeltilmemiş etiketlerin, erkeklerden daha çok öznenin görünümünü vurgulama eğiliminden kaynaklanabileceğini öne sürüyor. ve bunun çarpık bir etkisi olabilir.

Asyalı-Beyaz erkek veya Latino-Beyaz erkek morf serileri için %50 ırksal geçişte hipodesans gözlenmezken, CLIP %67.5'lik bir karışım oranında vakaların %55'inde Siyah etikete daha yüksek bir kosinüs benzerliği atadı.

Çok ırklı, Bir ırklı ve Karışık Irk etiketlerinin ortalama kosinüs benzerliği. Sonuçlar, CLIP'in ırksal karışımın değişen yüzdelerinde bir tür "döngü" kategorizasyonu uyguladığını, bu tür bir ırksal karışımı Beyaz'a (deneylerin mantığına göre "kişi"), algılanan etnik kökenden daha az atadığını göstermektedir. görüntü.

Çok ırklı, Bir ırklı ve Karışık Irk etiketlerinin ortalama kosinüs benzerliği. Sonuçlar, CLIP'in ırksal karışımın değişen yüzdelerinde bir tür "döngü" kategorizasyonu uyguladığını, bu tür bir ırksal karışımı Beyaz'a (deneylerin mantığına göre "kişi"), algılanan etnik kökenden daha az atadığını göstermektedir. görüntü.

Makaleye göre ideal amaç, CLIP'in, öznenin tamamen Beyaz olmayan etikete sevk edildiği bir "devrilme noktası" tanımlamak yerine, orta ırksal karışımları doğru bir şekilde "karma ırk" olarak kategorize etmesidir.

Belli bir dereceye kadar CLIP, Karışık Irk ile ara morf adımlarını atar (yukarıdaki grafiğe bakın), ancak sonunda konuları azınlık katkıda bulunan ırk olarak kategorize etmek için orta sınıf bir tercih gösterir.

Değer açısından, yazarlar CLIP'in çarpık yargısına dikkat çekiyor:

[Ortalama] değerlik ilişkilendirmesi (kötü veya nahoş ile ilişkilendirme ile iyi veya hoş ile ilişkilendirme), Siyah-Beyaz erkek morf serisi üzerindeki karışım oranına göre değişir; -Siyah olarak tanımlayın.'

Değerlik sonuçları – testler, azınlık gruplarının, Beyaz etiketli deneklere göre görüntü/çift mimarisinde negatif kavramlarla daha fazla ilişkili olduğunu gösteriyor. Yazarlar, bir görüntünün tatsızlık ilişkisinin, modelin görüntüyü Siyah etiketle ilişkilendirme olasılığıyla arttığını iddia ediyor.

Değerlik sonuçları – testler, azınlık gruplarının, Beyaz etiketli deneklere göre görüntü/çift mimarisinde negatif kavramlarla daha fazla ilişkili olduğunu gösteriyor. Yazarlar, bir görüntünün tatsızlık ilişkisinin, modelin görüntüyü Siyah etiketle ilişkilendirme olasılığıyla arttığını iddia ediyor.

Kağıt şöyle diyor:

"Kanıtlar, bir görüntünün değerinin ırk [çağrışım] ile ilişkili olduğunu gösteriyor. Daha somut olarak, sonuçlarımız, modelin bir görüntünün bir Siyahi bireyi yansıtması ne kadar kesinse, görüntünün hoş olmayan gömme alanıyla o kadar ilişkili olduğunu gösteriyor.'

Bununla birlikte, sonuçlar ayrıca Asyalı yüzler söz konusu olduğunda negatif bir korelasyona işaret ediyor. Yazarlar bunun, Asyalı insanlar ve topluluklara ilişkin ABD'nin olumlu kültürel algılarının (web kaynaklı veriler yoluyla) geçişinden kaynaklanabileceğini öne sürüyorlar. Yazarlar*:

Asyalı metin etiketinin hoşluğu ve olasılığı arasında bir korelasyon gözlemlemek, Asya kökenli insanların yukarı doğru hareketlilikleri ve Amerikan kültürüne asimilasyonları nedeniyle övüldüğü ve hatta "model azınlık" klişesine karşılık gelebilir. “iyi davranış” ile ilişkili.'

CLIP'in bakış açısından Beyaz'ın 'varsayılan kimlik' olup olmadığını incelemek olan nihai hedefle ilgili olarak, sonuçlar bu mimaride 'biraz beyaz' olmanın oldukça zor olduğunu düşündüren gömülü bir kutuplaşmaya işaret ediyor.

Testler için oluşturulan 21,000 görüntüde kosinüs benzerliği.

Testler için oluşturulan 21,000 görüntüde kosinüs benzerliği.

Yazarlar yorum:

Kanıtlar, CLIP'in Beyaz'ı varsayılan bir ırk olarak kodladığını gösteriyor. Bu, Beyaz kosinüs benzerlikleri ile kişi kosinüs benzerlikleri arasındaki diğer ırksal veya etnik gruplardan daha güçlü korelasyonlarla desteklenmektedir.'

 

*Yazarların satır içi alıntılarını köprülere dönüştürmem.

İlk olarak 24 Mayıs 2022'de yayınlandı.