Yapay Zekâ
‘Görünmez’, Çoğu Zaman Mutsuz İşgücü, AI’nın Geleceğini Belirliyor

İki yeni rapor, Google Research tarafından yürütülen bir makale dahil, makine öğrenimi sistemleri için temel gerçekliği oluşturmak amacıyla ucuz ve genellikle güçsüz bir küresel gig işçi havuzuna güvenme eğilimini ifade ediyor ve bu durumun AI için önemli sonuçları olabileceğini belirtiyor.
Çeşitli sonuçlar arasında, Google çalışması, crowdworkers’ın kendi önyargılarının AI sistemlerine gömülebileceğini, yaygın olarak adil olmayan iş uygulamalarının (ABD’de de dahil) cevapların kalitesini düşürebileceğini ve anlaşmazlıkları çözen ‘konsensüs’ sisteminin aslında en iyi ve/veya en bilgili cevapları atabileceğini buldu.
Bu, kötü haber; daha kötü haber ise几乎 tüm çözümlerin pahalı, zaman alıcı veya her ikisi olması.
Güvensizlik, Rastgele Reddetme ve Kin
İlk makale, beş Google araştırmacısı tarafından yazıldı ve Kimin Temel Gerçeği? Veri İşaretleme Altındaki Bireysel ve Toplumsal Kimliklerin Hesaplanması olarak adlandırıldı; ikincisi, New York’taki Syracuse Üniversitesi’nden iki araştırmacı tarafından yazıldı ve Veri İşaretleyiciler Arasında Anlaşmazlığın Kökeni ve Değeri: Nefret Söylemi İşaretleme için Bireysel Farklılıkların Bir Vaka Çalışması olarak adlandırıldı.
Google makalesi, crowdworkers’ın -ki onların değerlendirmeleri genellikle hayatımızı etkileyebilecek makine öğrenimi sistemlerinin temelini oluşturur- genellikle cevaplarını etkileyebilecek çeşitli kısıtlamalar altında çalıştıklarını belirtiyor.
Örneğin, Amazon Mechanical Turk’un mevcut politikaları, taleplere (görevleri verenler) işaretleme işini hesabını vermeden reddetme izni veriyor:
‘[C]rowdworkers’ın büyük çoğunluğu (%94) reddedilen veya ödenmeyen iş yapmışlardır. Ancak, talepler, aldıkları verinin hesabını vermeden kabul veya reddetme hakkını saklı tutarlar; Roberts (2016) bu sistemi “ücret hırsızlığı” olarak tanımlar.
‘Ayrıca, işin reddedilmesi ve ücretin ödenmemesi acı verici çünkü reddedilmeler genellikle belirsiz talimatlar ve anlamlı geri bildirim kanallarının eksikliği nedeniyle oluşur; birçok crowdworker, kötü iletişim’nin işlerini olumsuz etkilediğini bildirir.’
Araştırmacılar, outsourced hizmetleri kullanarak veri setleri geliştiren araştırmacıların, bir crowdworking platformunun işçilerle nasıl ilişki kurduğunu dikkate almaları gerektiğini öneriyorlar. Ayrıca, ABD’de crowdworkers’ın ‘bağımsız yükleniciler’ olarak sınıflandırıldığını ve bu nedenle işin düzenlenmediğini ve Fair Labor Standards Act tarafından belirlenen asgari ücretin kapsamında olmadığını belirtiyorlar.
Bağlam Matters
Makale ayrıca, işaretleme görevleri için ad hoc küresel işgücü kullanımını, işaretleme yapanın arka planı dikkate alınmadan eleştiriyor.
Bütçe izin verdiğinde, AMT ve benzeri crowdwork platformları kullanan araştırmacılar genellikle aynı görevi dört işaretleme yapan kişiye verir ve sonuçlarda ‘çoğunluk kuralı’ na uyarlar.
Makale, bağlamsal deneyimin önemli ölçüde göz ardı edildiğini savunuyor. Örneğin, bir cinsiyetçilik ile ilgili bir soru, üç erkek ve bir kadın arasında dağıtılırsa, erkeklerin kararı kazanır, ancak araştırmacılar işaretleme yapanların niteliklerine dikkat ettiğinde bu durum değişebilir.
Araştırmacılar şöyle diyor:
‘[C]rowdsourcing cevaplarında “tek gerçek” kavramı bir efsanedir; işaretleme yapanlar arasındaki anlaşmazlık, aslında değerli bir sinyal sağlayabilir. İkincisi, birçok crowdsourced işaretleme havuzunun sosyo-demografik olarak eğri olduğu için, hangi nüfusun veri setlerinde temsil edildiği ve hangi nüfusun crowdwork zorluklarıyla karşı karşıya kaldığı konusunda sonuçlar vardır.’
‘İşaretleme yapanların demografik özelliklerini hesaba katmak, veri setlerini bağlamsal olarak değerlendirmek ve sorumlu bir şekilde aşağı akış kullanımını sağlamak için kritiktir. Kısa sürede, işçiler’in sosyo-kültürel arka planını hesaba katmak – hem veri kalitesi hem de toplumsal etki açısından – değerlidir.’
Sıcak Konularda ‘Tarafsız’ Görüşler Yok
Dört işaretleme yapan kişinin görüşlerinin demografik veya diğer bir ölçüt açısından eğri olmadığı durumlarda bile, Google makalesi, araştırmacıların işaretleme yapanların yaşam deneyimlerini veya felsefi eğilimlerini hesaba katmadıklarını belirtiyor:
‘Bazı görevler nesnel sorular sorar ve doğru bir cevabı vardır (bir resimde insan yüzü var mı?), ancak çoğu zaman veri setleri, evrensel olarak doğru bir cevabı olmayan göreli olarak öznel görevlerin yargısını yakalamayı amaçlar (bu metin saldırıya uğradı mı? Bu, işaretleme yapanların öznel yargılarına dayanmak için kasıtlı olmak önemlidir.’
Nefret söylemi etiketleme sorunlarını ele almak için özel bir alanda, Syracuse makalesi, daha kategorik soruların, örneğin Is there a cat in this photograph? gibi, bir crowdworker’a bir cümlenin ‘zehirli’ olup olmadığını sormaktan farklı olduğunu belirtiyor:
‘Sosyal gerçekliğin karmaşıklığını dikkate alarak, insanların zehirliliğe ilişkin algıları önemli ölçüde değişiyor. Their labels of toxic content are based on their own perceptions.’
Kişilik ve yaşın nefret söylemi etiketlenmesinin boyutlu etiketlenmesinde ‘önemli bir etkiye’ sahip olduğunu bulan Syracuse araştırmacıları şöyle diyor:
‘Bu bulgular, nefret söylemi için farklı arka planlara ve kişiliklere sahip etiketleyiciler arasında etiketleme tutarlılığını elde etme çabalarının asla tamamen başarılı olmayabileceğini gösteriyor.’
Hakem de Önyargılı Olabilir
Bu nesnelliğin eksikliği, Syracuse makalesine göre, konsensüs oylarının ‘kazananını’ belirleyen insan müdahalesi (veya otomatik politika, aynı zamanda bir insan tarafından belirlenir) için de geçerlidir.
Süreci forum moderasyonuna benzeten yazarlar şöyle diyor:
‘[B]ir topluluğun moderatörleri, postaları ve kullanıcıları topluluğun kaderini belirleyerek, postaları tanıtarak veya gizleyerek, kullanıcıları onurlandırarak, utandıracak veya yasaklayacak şekilde karar verebilir. Moderatörlerin kararları, topluluğa sunulan içeriği ve dolayısıyla topluluğun tartışma deneyimini etkiler.’
‘Bir insan moderatörünün, demografik olarak diğer topluluk üyeleriyle benzerlik gösteren bir topluluk üyesi olduğunu varsayarsak, kullandıkları zihinsel şema, diğer topluluk üyelerinkine benzer olacaktır.’
Bu, Syracuse araştırmacılarının nefret söylemi etiketleme geleceği konusunda neden böyle bir karamsar sonuca vardıklarına dair bir ipucu veriyor; bunun anlamı, crowdwork görüşlerine ilişkin anlaşmazlıklara ilişkin politika ve yargıların ‘kabul edilebilir’ ilkelerine göre rasgele uygulanamayacağıdır.
Karar veren kişiler (crowdworkers) önyargılıdır ve böyle bir görev için önyargılı olmadıkları takdirde işe yaramazlar, çünkü görev, bir değer yargısı sağlamaktır; crowdwork sonuçlarındaki anlaşmazlıkları hükmedecek kişiler de, anlaşmazlıklar için politika belirlerken değer yargıları yaparlar.
Bir nefret söylemi algılama çerçevesinde yüzlerce politika olabilir ve her birini en yüksek mahkemeye götürmezseniz, ‘otorite’ konsensüs nereden gelebilir?
Google araştırmacıları, ‘işaretleme yapanlar arasındaki anlaşmazlıklar, görev hakkında değerli nüanslar içerebilir‘ diyor. Makale, veri setlerinde anlaşmazlıkları yansıtan ve bağlamsal olarak değerlendiren meta verilerin kullanımını öneriyor.
Ancak, böyle bir bağlamsal veri katmanının, benzeri görüntüleri ölçüme, standart testlerin taleplerine uyum sağlamaya veya herhangi bir kesin sonuca ulaşmaya nasıl yol açabileceğini görmek zor – ancak aynı grup araştırmacıların sonraki çalışmalarda kullanılması gerçekçi bir senaryo değil.
İşaretleme Havuzunu Düzenleme
Bütün bunlar, bir araştırma projesinde, konsensüs oylamasına yol açabilecek çoklu işaretleme için bütçenin olduğunu varsayar. Çoğu durumda, araştırmacılar, coğrafi konum, cinsiyet veya diğer kültürel faktörler gibi özellikleri belirterek, daha ucuz bir şekilde outsourced işaretleme havuzunu ‘düzenlemeye’ çalışırlar, çok yönlülüğü özgüllüğe tercih ederler.
Google makalesi, bu zorluklardan çıkış yolunun, işaretleme yapanlarla daha geniş iletişim çerçeveleri kurmak olabileceğini savunuyor, benzer şekilde Uber uygulaması, bir sürücü ve bir yolcu arasında minimal iletişimi sağlar.
İşaretleme yapanlara böyle bir özenli dikkat, doğal olarak, hyperscale annotation outsourcing’e bir engel oluşturacaktır, bu da daha sınırlı ve düşük hacimli veri setlerine yol açacaktır, bunların sonuçları için daha iyi bir gerekçe olacaktır veya işaretleme yapanlar hakkında sınırlı bilgi alınacaktır ve onlara ‘görev için uygun’ olarak karakterize edilecektir, ancak bu, fazla bilgiye dayanmayacaktır.
Eğer işaretleme yapanlar dürüstse tabii ki.
Outsourced Veri İşaretleme’de ‘İnsanları Hoş Tutma’
Mevcut işgücü, düşük ücretli, şiddetli rekabet altında ve kariyer beklentileri açısından düşükse, işaretleme yapanlar, ‘doğru’ cevabı nhanh bir şekilde vermeye ve bir sonraki mini-göreve geçmeye motive olurlar.
Eğer ‘doğru cevap’, Has cat/No cat gibi daha karmaşık bir şeyse, Syracuse makalesi, işaretleme yapanın, sorunun içeriği ve bağlamına dayanarak ‘kabul edilebilir’ bir cevap çıkarmaya çalışacağını savunuyor:
‘Hem alternatif kavramların yaygınlaşması hem de basitleştirilmiş işaretleme yöntemlerinin yaygın kullanımı, online nefret söylemi araştırmalarının ilerlemesini engelliyor. Örneğin, Ross ve diğerleri buldu ki, işaretleme yapanlara Twitter’ın nefret içerikli davranış tanımını göstermek, onların kendi görüşlerini tanımla uyumlu hale getirmelerine neden oldu. Bu, işaretleme yapanların çok düşük bir tutarlılığa sahip olmasına yol açtı.’
* Makaledeki iç başvuruları hyperlink’e dönüştürmemin bir sonucu.
13 Aralık 2021’de Yayınlandı – 18 Aralık 2021’de Güncellendi: Etiketler eklendi












