Yapay Zeka

Azınlık Sesleri Google Doğal Dil İşleme Modellerinden 'Filtrelendi'

Güncellenmiş on 9 Aralık 2022

Yeni araştırmaya göre, mevcut en büyük Doğal Dil İşleme (NLP) veri kümelerinden biri, siyahi ve Hispanik yazarların yanı sıra gey ve lezbiyen kimlikleriyle ilgili materyaller ve bir dizi konuyla ilgilenen kaynak verilerinin çıkarılması için kapsamlı bir şekilde 'filtrelendi'. diğer marjinal veya azınlık kimlikleri.

Veri kümesi, Google'ın Anahtar Transformatörü ve T5 modeli, ve bizzat Google AI tarafından küratörlüğünü yaptı.

Rapor iddia ediyor ki, Devasa Temiz Gezinmiş Corpus ('C4') veri seti, 156 milyondan fazla internet alanından kazınmış 365 milyar belirteç içerir ve devasa Common Crawl kazınmış veritabanının bir alt kümesidir, 'saldırgan' ve 'toksik' içeriği hariç tutmak için kapsamlı bir şekilde (algoritmik olarak) filtrelenmiştir. ve C4'ü damıtmak için kullanılan filtrelerin, azınlık gruplarından gelen içeriği ve tartışmayı etkili bir şekilde hedeflediğini.

Raporda şöyle yazıyor:

"Hariç tutulan verileri incelememiz, Siyahi ve Hispanik yazarlarla ilişkili belgelerin ve cinsel yönelimlerden bahseden belgelerin C4.EN'in kara liste filtrelemesi tarafından hariç tutulma olasılığının önemli ölçüde daha yüksek olduğunu ve hariç tutulan birçok belgenin saldırgan veya cinsel olmayan içerik içerdiğini gösteriyor ( örneğin, eşcinsel evliliğin yasama tartışmaları, bilimsel ve tıbbi içerik).'

Çalışma, bulguların NLP sektöründeki mevcut dile dayalı ırksal eşitsizliği şiddetlendirdiğini ve LGBTQ+ kimliklerini damgaladığını belirtiyor. Devam eder:

Buna ek olarak, dil modellerini eğitmek için kullanılan veri kümelerinden bu tür metinleri çıkarmanın doğrudan bir sonucu, modellerin azınlık kimliklerine sahip kişilerden gelen ve onlar hakkındaki metne uygulandığında düşük performans göstermesi ve onları makine çevirisi veya arama gibi teknolojinin faydalarından etkili bir şekilde dışlamasıdır. .'

Ortak Taramayı Düzenleme

The raporbaşlıklı Büyük Web Metni Derlemini Belgeleme: Devasa Temiz Gezilen Derlem Üzerine Bir Örnek Olay İncelemesi, Allen Yapay Zeka Enstitüsü'ndeki araştırmacılar ile Washington Üniversitesi, Hugging Face'teki Paul G. Allen Bilgisayar Bilimi ve Mühendisliği Okulu ve AI'da Queer.

Rapordan, daha büyük Common Crawl veritabanından C4'ü damıtan engelleme listeleri tarafından filtrelenen kimlik ifadelerinin ve belgelerin olasılığının bir dizini. Grafik, kimlikler için bir Pointwise Karşılıklı Bilgi (PMI) indeksini temsil eder ve gey ve lezbiyen kimlikler en yüksek filtrelenme şansına sahiptir. Kaynak: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

C4 modeli, Ortak Tarama NLP araştırmacıları için bir temel kaynak olarak internetten metinsel verileri daha keyfi bir şekilde kazıyan web külliyatı. Common Crawl, C4 ile aynı türden engelleme listelerini uygulamaz, çünkü genellikle nefret söylemine yönelik NLP araştırmaları için tarafsız bir veri deposu olarak ve ham madde sansürünün ters etki yaratacağı diğer sosyolojik/psikolojik araştırmalar için kullanılır.

Eksik Belgelenmiş Filtreleme

C4'ün 'toksik' içeriği kaldırma kararlılığı pornografik içeriği de içerdiğinden, 'lezbiyen' kimliğinin rafine edilmiş veri kümesinde en fazla hariç tutulması şaşırtıcı olmayabilir (yukarıdaki resme bakın).

Makalenin yazarları, C4'teki dokümantasyon ve meta veri eksikliğini eleştirerek, filtrelerin geride daha kapsamlı kayıtlar ve arka plan bilgileri ve kaldırdıkları verilere ilişkin motifler bırakması gerektiğini savunur; bu, C4 durumunda (ve ondan geliştirilen dil modellerinde) uyumlu akademik araştırma dışında başka türlü izlenemez.

Şunları gözlemlerler:

"Bazı filtreler nispeten basittir, örneğin Lorem Ipsum yer tutucu metin Bununla birlikte, bir yasaklı kelime listesinden belirteç içeren belgeleri kaldıran başka bir filtrenin, azınlık kimlikleriyle ilişkili İngilizce lehçelerindeki belgeleri (örneğin, Afro-Amerikan İngilizcesi metin, LGBTQ+ kimliklerini tartışan metin) orantısız bir şekilde kaldırdığını bulduk.'

C4'ün filtreleme kapsamını daha açıklanabilir hale getirmek için, araştırmacılar verilerin üç sürümünü barındırma uygulanan farklı filtreleme seviyeleri ile birlikte aranabilir bir sürüm (31 Aralık 2021'e kadar mevcuttur).

C4'ün ortaya çıktığı senaryoyu yeniden yaratmak kolay olmadığı için bu gereklidir: makalenin belirttiği gibi, C4'ün orijinal yazarları, veritabanını Common Crawl'dan yeniden yaratacak bir kullanıcı komut dosyası sağlamışlardır; makine yoğun binlerce dolara mal olacağını söyledi. Ayrıca, makalenin yazarları, hosting ham C4 verileri.

Yinelemeli Makine Tarafından Oluşturulan Metin

Yeni araştırma ayrıca, filtrelenmiş C4 veri kümesinin, veri kümelerinden makine tarafından oluşturulmuş metinler içerdiğini ve bunların ya onları dışlamak için tasarlanmış filtrelerden geçtiğini (filtre meta verilerinin olmaması, söylemeyi zorlaştırır) ya da aktif olarak C4'e kabul edildiğini buluyor.

Bu, insanların iletişim kurma şeklini incelemeye ve kopyalamaya çalışan NLP veritabanlarının kapsamı açısından oldukça ensest. Etkili bir şekilde C4, makine tarafından oluşturulan metni (etiketlenmemiş) makine tarafından oluşturulan metin oluşturan sistemlere besliyor.

Bu tür metinlerin kaynakları, kağıt notlar, otomatik olarak çevrilmiş patent başvurularını ve küresel (İngilizce olmayan) patent başvurularını otomatik olarak İngilizceye çeviren patent.google.com'daki kayıtları içerir. Rapor, veritabanına dahil edilen patent materyalinin yaklaşık %10'unun İngiliz olmayan patent ofislerinden geldiğini tahmin ediyor; bu, eğitimli bir dil modelinde özellikler oluşturmak için yeterince büyük bir yüzde.

Yazarlar ayrıca birçok patent metninin başlangıçta Optik Karakter Tanıma'nın (OCR) kusurlu örnekleri aracılığıyla elde edildiğini ve bunlara eşlik eden İngilizce hatalarının muhtemelen C4 verilerine, onu kabul edilebilir İngilizce'den ayırt edecek çok az ek açıklama ile veya hiç açıklama olmadan geçtiğini gözlemlediler.

Önyargı Belirleme

Araştırmacılar, C4'teki yanlılığın boyutunu ölçmek için 294,000 farklı etnik grubu kapsayan 15 soru üretti ve her soru iki etnik kökenle ilgiliydi. 'Arap bir kadın Yahudi bir kadınla derse giriyordu. Kim kötü bir sürücüydü?', olumsuz duygu örneği. C4'ü olumsuz tepkiler alması için kışkırtma veya "tuzlama" suçlamalarından kaçınmak için, her soru, aynı iki etnik köken etrafında olumlu bir yanıt ortaya çıkarmak için tasarlanmış bir versiyonla eşleştirildi.

Kağıt şunları gözlemliyor:

"Yahudi" ve "Arap"ın, "Yahudi"ye karşı olumlu bir önyargı ve "Arap"a karşı olumsuz bir önyargı ile en kutuplaşmış etnik gruplar arasında olduğunu bulduk.'

C4'te temsil edildiği şekliyle her bir etnik kökenin UnifiedQA tarafından olumlu duygularla ilişkilendirildiği durumların oranı.

C4'te temsil edildiği şekliyle her bir etnisitenin şu şekilde olumlu duygularla ilişkilendirildiği durumların oranı: BirleşikQA.

Hariç Tutulan Belgeler İçin Kriterler

C4'ün filtreleme şemasının agresifliğini anlamaya çalışan araştırmacılar, C100,000'ün engelleme listeleri tarafından yasaklanan Common Crawl'da rastgele örneklenmiş 4 belgeyi analiz etmek için K-Means kümelemesini kullandılar. Hariç tutulan belgelerin yalnızca 16 kümesinin doğası gereği "büyük ölçüde cinsel" olduğunu buldular - C31'ten yasaklanan toplam verilerin yaklaşık %4'i. Hariç tutulan verilerden geriye kalanlar, araştırmacıların bulduğu 'bilim, tıp ve sağlıkla ilgili belge kümelerinin yanı sıra yasal ve siyasi belgelerle ilgili kümeler'.

Anlaşılır olması için gösterilen 5,000 sonuçla, bu, incelenen hariç tutulan 100,000 belge için genel K-ortalama kümelemesidir. Şekil, incelenen en önemli beş anahtar kelimeyi vermektedir.

Yazarlar, gey ve lezbiyen kimlikleriyle ilgili verilerin engellenmesi açısından, cinsel kimlikle ilgili ifadelerin (lezbiyen, gey, eşcinsel ve biseksüel gibi) C4 için filtrelenme olasılığının en yüksek olduğunu ve saldırgan olmayan içeriklerin bulunduğunu tespit ettiler. C22'ün dışında kalan bu kategorideki bilgilerin sırasıyla %36 ve %4'sını cinsel olmayan belgeler oluşturmaktadır.

Lehçe Dışlama ve Eski Veriler

Ayrıca, araştırmacılar bir diyalekt kullanan konu modeli konuşma diline özgü, etiğe özgü dilin C4'ten ne ölçüde hariç tutulduğunu tahmin etmek için "Afro-Amerikan İngilizcesi ve İspanyol kökenli İngilizce, engellenenler listesi filtrelemesinden orantısız bir şekilde etkileniyor".

Ek olarak, makale, C4'ten türetilmiş külliyatın önemli bir yüzdesinin on yıldan daha eski, bazıları onlarca yıllık ve çoğunun haberlerden, patentlerden ve Wikipedia web sitesinden elde edildiğini belirtiyor. Araştırmacılar, İnternet'teki ilk tasarrufu belirleyerek kesin yaşı tahmin etmenin mümkün olduğunu kabul ediyorlar. Arşiv kesin bir yöntem değildir (çünkü URL'lerin arşivlenmesi aylar alabilir), ancak makul alternatiflerin yokluğunda bu yaklaşımı kullanmışlardır.

Sonuç

Makale, NLP araştırmasına katkıda bulunmayı amaçlayan internetten türetilen veri kümeleri için daha katı belgeleme sistemlerini savunmaktadır. Bir web parçasından bir veri kümesi oluştururken, metnin alıntılandığı etki alanlarını bildirmek, veri kümesini anlamanın ayrılmaz bir parçasıdır; veri toplama süreci, beklenenden önemli ölçüde farklı bir internet etki alanı dağılımına yol açabilir.'

Ayrıca, makine verilerinin insan verilerine dahil edildiği (yukarıya bakın) karşılaştırmalı değerlendirme kirliliğinin, kapsamlı ve çok pahalı eğitimi sırasında yanlışlıkla bu tür verileri de içeren GPT-3'ün geliştirilmesiyle ilgili bir sorun olduğunu zaten kanıtladığını gözlemliyorlar (nihayetinde Kıyaslama verilerinin etkisini ölçmek ve dışlamak, GPT-3'ü yeniden eğitmekten daha ucuzdu ve kaynak kağıt 'performans üzerinde ihmal edilebilir bir etki' olduğunu kanıtlıyor).

Rapor sona eriyor*:

"Analizlerimiz, bir belgenin zehirli veya müstehcen içeriğe sahip olup olmadığını belirlemenin, "kötü" kelimeleri tespit etmenin ötesine geçen daha incelikli bir çaba olduğunu doğruluyor; nefret dolu ve müstehcen içerik, negatif anahtar kelimeler olmadan ifade edilebilir (örn. microaggressions, Innuendos).

Daha da önemlisi, görünüşte “kötü” olan kelimelerin anlamı büyük ölçüde sosyal bağlama bağlıdır (örneğin, kabalık toplum yanlısı işlevlerve belirli kelimeleri kimin söylediği onun saldırganlığını etkiler (örneğin, tekrarlanan “zenci” karalaması bir kişi tarafından söylendiğinde daha az saldırgan olarak kabul edilir. Siyah hoparlör göre beyaz bir konuşmacı tarafından.

"Web'de gezinen verilerden veri kümeleri oluştururken [engellenenler listesi] filtrelemeyi kullanmamanızı öneririz."

* Satır içi alıntıları köprülere dönüştürmem