Yapay Zeka

Eksik Düzenlenmiş Hiper Ölçekli Yapay Zeka Veri Kümeleri İnternetin Kendisinden Daha mı Kötü?

Güncellenmiş on 9 Aralık 2022

İrlanda, Birleşik Krallık ve ABD'den araştırmacılar, hiper ölçekli AI eğitim veri kümelerindeki büyümenin, yakın zamanda yayınlanan bir akademik veri kümesinin özellikleri olduğunu iddia ederek, internet kaynaklarının en kötü yönlerini yaymakla tehdit ettiği konusunda uyardılar. "Tecavüz, pornografi, kötü niyetli klişeler, ırkçı ve etnik karalamalar ve diğer son derece sorunlu içeriklerin rahatsız edici ve müstehcen resim ve metin çiftleri".

Araştırmacılar, yetersiz küratörlü veya yanlış filtrelenmiş çok modlu (örneğin, resimler ve resimler) yeni bir dalga veri setlerinin, bu tür olumsuz içeriğin etkilerini güçlendirme kapasiteleri açısından tartışmasız daha fazla zarar verdiğine inanıyor, çünkü veri kümeleri görüntüleri ve diğer içeriği koruyor. o zamandan beri kullanıcı şikayeti, yerel denetim veya algoritmalar yoluyla çevrimiçi platformlardan kaldırılmış olabilir.

Ayrıca, veri kümesi içeriğiyle ilgili uzun süredir devam eden şikayetlerin ele alınmasının yıllar - güçlü ImageNet veri kümesi söz konusu olduğunda, tam bir on yıl - sürebileceğini ve bu sonraki revizyonların onlardan türetilen yeni veri kümelerine bile her zaman yansıtılmadığını gözlemliyorlar. .

The kâğıtbaşlıklı Çok modlu veri kümeleri: kadın düşmanlığı, pornografi ve habis klişeler, University College Dublin & Lero, Edinburgh Üniversitesi'ndeki araştırmacılardan ve UnifyID kimlik doğrulama platformundaki Baş Bilim Adamından geliyor.

Çalışma, son sürüme odaklansa da CLIP-filtrelenmiş LAION-400M veri kümesi, yazarlar, sinir dili modeli GPT-3 gibi makine öğrenimi çerçevelerine artan miktarda veri atma yönündeki genel eğilime karşı çıkıyorlar ve sonuç odaklı dürtünün daha iyi çıkarımlara (ve hatta Yapay Genel Zekaya [AGI) yönelik olduğunu iddia ediyorlar. ), telif hakkı denetiminin ihmal edilerek zarar verici veri kaynaklarının geçici kullanımına yol açıyorsa; zarara yol açma ve teşvik etme potansiyeli; ve normalde kamu alanından kaybolabilecek yasa dışı verileri sürdürmekle kalmayıp, aynı zamanda bu tür verilerin ahlaki modellerini aşağı yönlü yapay zeka uygulamalarına fiilen dahil etme yeteneği.

LAYON-400M

Geçen ay, LAION-400M veri seti yayınlandı ve artan sayıda çok modlu, dilbilimsel veri setine eklendi. Ortak Tarama İnterneti gelişigüzel kazıyan ve filtreleme ve iyileştirme sorumluluğunu ondan yararlanan projelere devreden depo. Türetilmiş veri seti 400 milyon metin/resim çifti içerir.

LAION-400M, Google AI'nin kapalı WIT'sinin (WebImageText) açık kaynaklı bir çeşididir. veri kümesi Mart 2021'de yayınlandı ve veritabanındaki bir görüntünün eşlik eden müstehcen veya meta veri metniyle (örneğin, bir web galerisindeki bir görüntünün alternatif metni) ilişkilendirildiği metin-resim çiftleri içeriyor. Bu, kullanıcıların metin tabanlı görüntü alma gerçekleştirmesini sağlayarak, temeldeki yapay zekanın bu alanlar hakkında oluşturduğu ilişkileri ortaya çıkarır (örn. 'hayvan', 'bisiklet', 'kişi', 'Adam', 'kadın').

LAION-400M veri tabanına yapılan çok basit sorgular önyargıyı ortaya çıkarabileceğinden, görüntü ve metin arasındaki bu ilişki ve sorgu sonuçlarına önyargı ekleyebilen kosinüs benzerliği, makalenin geliştirilmiş metodolojiler için yaptığı çağrının merkezinde yer alır.

Örneğin, scitkit-image kitaplığındaki öncü kadın astronot Eileen Collins'in görüntüsü, LAION-400M'de ilişkili iki altyazıyı alır: 'Bu, Amerikan bayrağı taşıyan bir astronotun portresi' ve 'Bu, Amerikan bayrağı taşıyan turuncu bir tulum giymiş gülümseyen bir ev hanımının fotoğrafı'.

Amerikalı astronot Eileen Collins, LAION-400M altında uzaya çıkan ilk kadın olarak elde ettiği başarıları çok farklı iki şekilde ele alıyor. Kaynak: https://arxiv.org/pdf/2110.01963.pdf

Her iki başlığı da uygulanabilir kılan bildirilen kosinüs benzerlikleri birbirine çok yakındır ve yazarlar, bu yakınlığın LAION-400M kullanan AI sistemlerini her ikisini de uygun bir başlık olarak sunma olasılığının nispeten yüksek olacağını iddia etmektedir.

Pornografi Yeniden Zirveye Yükseliyor

LAION-400M aranabilir bir arayüz oluşturdu mevcut, burada "güvenli arama" düğmesinin işareti kaldırıldığında, pornografik görüntülerin ve metinsel çağrışımların etiketlere ve sınıflara ne ölçüde hakim olduğu ortaya çıkar. Örneğin, arıyor 'rahibe' (Daha sonra güvenli modu devre dışı bırakırsanız NSFW), veritabanında çok az sayıda gerçek rahibenin bulunduğu, çoğunlukla korku, cosplay ve kostümlerle ilgili sonuçlar verir.

Aynı aramada Güvenli Modu kapatmak, terimle ilgili çok sayıda pornografik resim ortaya çıkarır ve bunlar, porno olmayan resimleri arama sonuçları sayfasında aşağı iterek LAION-400M'nin porno resimlere ne kadar fazla ağırlık verdiğini ortaya çıkarır, çünkü çevrimiçi kaynaklarda 'rahibe' terimi için yaygındır.

Güvenli Modun varsayılan olarak etkinleştirilmesi, çevrimiçi arama arayüzünde yanıltıcıdır, çünkü bu, yalnızca türetilmiş AI sistemlerinde etkinleştirilmesi gerekmeyen, ancak bir şekilde 'rahibe' etki alanına genelleştirilmiş bir filtre olan bir kullanıcı arabirimi tuhaflığını temsil eder. algoritmik kullanım açısından (nispeten) SFW sonuçlarından o kadar kolay filtrelenemez veya ayırt edilemez.

Belge, sonunda ek materyallerde çeşitli arama terimleri arasında bulanık örnekler sunuyor. Bulanık fotoğraflara eşlik eden metindeki dil nedeniyle burada öne çıkarılamazlar, ancak araştırmacılar, görüntüleri incelemenin ve bulanıklaştırmanın üzerlerine aldığı bedele dikkat çekiyor ve bu tür materyalleri insan gözetimi için düzenlemenin zorluğunu kabul ediyor. -ölçek veritabanları:

"Veri setini inceleme sürecinde biz (ve bize yardımcı olan meslektaşlarımız) çeşitli seviyelerde rahatsızlık, mide bulantısı ve baş ağrısı yaşadık. Ek olarak, bu tür bir çalışma, piyasaya sürüldükten sonra akademik yapay zeka alanında orantısız bir şekilde önemli olumsuz eleştirilerle karşılaşır; bu, bu tür veri kümelerini incelemek ve analiz etmek gibi zaten ağır olan göreve ek bir duygusal yük eklemekle kalmaz, aynı zamanda gelecekteki benzer çalışmaların cesaretini kırar. AI alanı ve genel olarak toplum.'

Araştırmacılar, döngüdeki insan küratörlüğünün pahalı olmasına ve bununla ilişkili kişisel maliyetlere sahip olmasına rağmen, bu tür materyalleri kaldırmak veya başka bir şekilde ele almak için tasarlanmış otomatik filtreleme sistemlerinin, NLP sistemleri saldırganları izole etmede veya indirimde bulunmada zorluk yaşadığından, bu görev için açıkça yeterli olmadığını iddia ediyor. kazınmış bir veri kümesine hakim olabilecek ve daha sonra hacmi nedeniyle önemli olarak algılanabilecek malzeme.

Yasaklı İçeriği Koruma ve Telif Hakkı Korumalarını Kaldırma

Makale, bu nitelikteki yeterince derlenmemiş veri kümelerinin azınlık bireylerinin sömürüsünü sürdürmesinin "yüksek olasılıkla" olduğunu savunuyor ve benzer açık kaynaklı veri projelerinin, yasal veya ahlaki olarak, materyalin hesabını verme hakkına sahip olup olmadığını ele alıyor. son kullanıcı:

Bireyler, verilerini bir web sitesinden silebilir ve verilerin sonsuza dek yok olduğunu varsayabilirken, veriler birkaç araştırmacının ve kuruluşun sunucularında hâlâ var olabilir. Bu verilerin veri kümesinde kullanımdan kaldırılmasından kimin sorumlu olduğuna dair bir soru var mı? LAION-400M için içerik oluşturucular bu görevi veri kümesi kullanıcısına devretmiştir. Bu tür süreçlerin kasıtlı olarak karmaşık hale getirildiği ve ortalama bir kullanıcının verilerini kaldıracak teknik bilgiye sahip olmadığı göz önüne alındığında, bu makul bir yaklaşım mı?'

Ayrıca, LAION-400M'nin, daha önce Google gibi iyi finanse edilen şirketlerin münhasır alanı olan büyük ölçekli veri kümelerinin demokratikleşmesine yönelik potansiyel faydalarına rağmen, benimsediği Creative Common CC-BY 4.0 lisans modeli kapsamında yayınlanmaya uygun olmayabileceğini iddia ediyorlar. AI'yı açın.

LAION-400M alanı, veri kümesi görüntülerinin "kendi telif hakları altında" olduğunu iddia ediyor - bu, büyük ölçüde mahkeme kararları ve son yıllarda araştırma amacıyla web kazımayı geniş ölçüde onaylayan hükümet yönergeleri tarafından sağlanan bir "geçiş" mekanizması. Kaynak: https://rom1504.github.io/clip-retrieval/

Yazarlar, tabandan gelenlerin (yani kitle kaynaklı gönüllüler) bazı veri kümesi sorunlarını ele alabileceğini ve araştırmacıların gelişmiş filtreleme teknikleri geliştirebileceğini öne sürüyor.

Bununla birlikte, veri öznesinin hakları burada ele alınmamıştır. Bu kadar büyük ölçekli veri kümelerinin doğasında var olan zararları hafife almak ve endüstriyel ve ticari ortamlarda kullanımlarını teşvik etmek pervasız ve tehlikelidir. Veri setinin sağlandığı lisans planının sorumluluğu yalnızca veri setini oluşturan kişiye aittir'.

Hiper Ölçekli Veriyi Demokratikleştirmenin Sorunları

Makale, LAION-400M kadar büyük görsel-dilbilimsel veri kümelerinin daha önce büyük teknoloji şirketleri ve bunları harmanlamak, düzenlemek ve işlemek için kaynakları kullanan sınırlı sayıda araştırma kurumu dışında bulunmadığını savunuyor. Yürütülmesini eleştirirken, yeni sürümün ruhunu da selamlıyorlar.

Yazarlar, açık kaynaklı hiper ölçekli veri kümeleri için geçerli olduğu şekliyle, kabul edilen "demokratikleşme" tanımının çok sınırlı olduğunu ve "Birçoğu bu veri kümesinin aşağı yönlü etkilerinden ve bunun üzerinde eğitilen modellerden en çok zarar görmesi muhtemel olan savunmasız bireylerin ve toplulukların haklarını, refahını ve çıkarlarını hesaba katmakta başarısız oluyor".

GPT-3 ölçekli açık kaynak modellerinin geliştirilmesi nihai olarak dünya çapında milyonlarca (ve vekaleten, muhtemelen milyarlarca) kullanıcıya dağıtılmak üzere tasarlandığından ve araştırma projeleri veri kümelerini sonradan düzenlenmeden ve hatta kaldırılmadan önce benimseyebileceğinden, her ne olursa olsun devam ettirilebilir. problemler modifikasyonlarda ele alınacak şekilde tasarlandı, yazarlar, yetersiz seçilmiş veri setlerinin dikkatsizce yayınlanmasının açık kaynaklı makine öğreniminde alışılmış bir özellik haline gelmemesi gerektiğini savunuyorlar.

Cini Şişeye Geri Koymak

İçerikleri, belki de ayrılmaz bir şekilde uzun vadeli yapay zeka projelerine aktarıldıktan çok sonra gizlenen bazı veri kümeleri, dahil nedeniyle geri çekilen Duke MTMC (Multi-Target, Multi-Camera) veri seti tekrarlanan endişeler Çin'deki baskıcı otoriteler tarafından kullanımıyla ilgili insan hakları kuruluşlarından; Microsoft Celeb (MS-Celeb-1M), 10 milyon 'ünlü' yüz görüntüsünden oluşan bir veri kümesidir. ortaya çıktı yayında biyometrik verileri ifşa etmeleri ağır bir şekilde eleştirilen gazetecileri, aktivistleri, politika yapıcıları ve yazarları dahil etmiş olmak; ve Tiny Images veri kümesi, 2020 yılında geri çekildi kendini itiraf eden 'önyargılar, saldırgan ve önyargılı görüntüler ve aşağılayıcı terminoloji' için.

Eleştirilerin ardından geri çekilmek yerine değiştirilen veri kümeleriyle ilgili olarak, araştırmacıların belirttiği gibi, son derece popüler olan ImageNet veri kümesi örnek olarak verilebilir. on yıl sürdü (2009-2019) mahremiyet ve hayal edilemeyen sınıflar hakkında tekrarlanan eleştirilere göre hareket etmek.

Makale, LAION-400M'nin ImageNet'in yeni sürümdeki temsilindeki yukarıda belirtilen revizyonları 'büyük ölçüde görmezden gelerek' bu geciktirici iyileştirmeleri bile etkili bir şekilde geri çektiğini gözlemliyor ve bu konuda daha geniş bir eğilim gözetliyor*:

'Bu, daha büyük veri kümelerinin ortaya çıkmasında vurgulanır. Tencent ML görüntüleri veri kümesi (Şubat 2020'de) bunların çoğunu kapsayan görüntülenemeyen sınıflar, havuzlarda tam ImageNet-21k veri kümesi üzerinde eğitilmiş modellerin sürekli kullanılabilirliği TF-hub gibi, unfiltered-ImageNet-21k'nin en son SotA modellerinde (Google'ın en yeni EfficientNetV2 gibi) sürekli kullanımı ve CoAtNet modelleri) ve filtrelenmemiş ImageNet-21k ön eğitiminin saygın yarışmalarda kullanılmasına izin veren açık duyurular LVIS yarışması 2021 gibi.

"Bu önemli gözlemin altını çiziyoruz: 15 milyondan az görüntüyü yöneten ImageNet itibarına sahip bir ekip, şimdiye kadar bu detoksifikasyon girişimlerinde mücadele etti ve başarısız oldu.

"Bu devasa multimodal veri setini ve potansiyel olarak milyarlarca görüntü-altyazı çiftini kapsayan bu veri setinde eğitilen aşağı akış modellerini tamamen detoksifiye etmek için gereken dikkatli çabaların ölçeği inkar edilemez bir şekilde astronomik olacaktır."

* Yazarın satır içi alıntılarını köprülere dönüştürmem.