Yapay Zekâ

Etkili Veri Kümelerinin Bir Karteli Makine Öğrenimi Araştırmalarını Dominant Hale Geliyor, Yeni Çalışma Öneriyor

Published December 6, 2021

Updated April 28, 2026

Martin Anderson

California Üniversitesi ve Google Araştırma’dan yeni bir makale, büyük ölçüde etkili batı kurumlarından ve sık sık hükümet kurumlarından gelen küçük bir aantal ‘benchmark’ makine öğrenimi veri kümelerinin, AI araştırma sektörünü giderek daha fazla domine ettiğini buldu.

Araştırmacılar, açık kaynaklı veri kümelerine, chẳng hạn như ImageNet, sık sık başvurmanın pratik, etik ve hatta siyasi nedenlerle endişe verici olduğunu belirtiyorlar.

Buluntuları arasında – Facebook liderliğindeki topluluk projesi Papers With Code (PWC).core verilerine dayalı olarak – yazarlar, ‘genellikle kullanılan veri kümeleri sadece birkaç seçkin kurum tarafından tanıtıldı’ ve bu ‘konsolidasyon’un son yıllarda %80’e çıktığını iddia ediyorlar.

‘Genellikle kullanılan veri kümelerinin sadece birkaç seçkin kurum tarafından tanıtıldığını ve bu ‘konsolidasyon’un son yıllarda %80’e çıktığını bulduk’

Son on yıl boyunca görev özel olmayan veri kümesi kullanımlarının haritası. Kriter, kurum veya şirketin bilinen kullanımların %50’sinden fazlasını temsil etmesidır. Sağda, kurumlar ve veri kümeleri için zaman içinde veri kümesi konsantrasyonu için Gini katsayısı gösterilmektedir. Kaynak: https://arxiv.org/pdf/2112.01716.pdf

Baskın kurumlar arasında Stanford Üniversitesi, Microsoft, Princeton, Facebook, Google, Max Planck Enstitüsü ve AT&T yer alıyor. İlk on veri kümesi kaynağının dört tanesi kurumsal kurumlar.

Makale, bu seçkin veri kümelerinin artan kullanımını ‘bilimde eşitsizlik aracı’ olarak karakterize ediyor. Bu, araştırma ekiplerinin, devlet-onayını aramak için, sürekli bir veri kümesine karşı devlet-sanat (SOTA) sonuçları elde etmeye daha fazla motive olmalarından kaynaklanmaktadır.

Her durumda, makale, kendi veri kümesini oluşturmanın daha az kaynaklara sahip kurumlar ve ekipler için prohibitive bir maliyetli bir iş olduğunu kabul etmektedir.

‘Bilimsel geçerlilik, SOTA benchmarking tarafından verilir ve sosyal güvenilirlik, geniş olarak tanınan bir veri kümesinde rekabet edebilme yeteneği ile elde edilir, hatta daha teknik olarak uygun bir benchmark olsa da.’

‘Bu dinamiklerin, başarılı benchmark’lerin ve bunları tanıtan seçkin kurumların, alan içinde orantısız bir şekilde büyümesine neden olduğunu ve “zenginler daha zengin, yoksullar daha yoksul” (yani “Matthew Etkisi”) yaratığını düşünüyoruz.’

Makale, Makine Öğrenimi Araştırmasında Bir Veri Kümesinin Yaşamı: Azaltılmış, Yeniden Kullanılmış ve Geri Dönüştürülmüş olarak adlandırılmaktadır ve UCLA’dan Bernard Koch ve Jacob G. Foster ile Google Araştırma’dan Emily Denton ve Alex Hanna tarafından yazılmıştır.

Çalışma, belgelediği konsolidasyon eğilimi ile ilgili bir dizi sorunu gündeme getirmektedir ve Open Review’de genel onay almıştır. NeurIPS 2021’den bir inceleyici, çalışmanın ‘makine öğrenimi araştırmasıyla ilgilenen herkes için son derece ilgili’ olduğunu ve üniversite kurslarında zorunlu okuma olarak dahil edileceğini öngördü.

Gereklilikten Yozlaşmaya

Yazarlar, ‘benchmark’i yenme’ kültürünün, objektif değerlendirme araçlarının eksikliği nedeniyle AI’ye ilgi ve yatırımların çökmesine neden olan bir çözüm olarak ortaya çıktığını belirtiyorlar:

‘Benchmark’ler genellikle bir görevi bir veri kümesi ve bir nicel değerlendirme ölçütü aracılığıyla formalize eder. Bu uygulama, hükümet fon sağlayıcıları tarafından, hibelerdeki alınan değeri daha doğru bir şekilde değerlendirmek amacıyla, 1980’lerin ‘AI Kış’ı’ndan sonra makine öğrenimi araştırmalarına tanıtıldı.’

Makale, bu informal standardizasyon kültürünün ilk avantajlarının (katılımda engelleri azaltma, tutarlı ölçümler ve daha çevik gelişim fırsatları) artık doğal olarak ortaya çıkan dezavantajlar tarafından ağırlıkta olduğunu öne sürmektedir.

Yazarlar, araştırmacıların, mevcut benchmark veri kümeleri aracılığıyla çözülebilen yeni sorunlar ortaya koymadıklarını ve mevcut veri kümelerine dayalı sonuçları elde etmeye daha fazla motive olduklarını belirtiyorlar.

‘Gözlemlenen yüksek konsantrasyonlu araştırma, mevcut veri kümelerine aşırı uyum sağlamak ve alanın ilerlemesini yanlış temsil etmekten kaçınmak için değerlendirme formlarını çeşitlendirmenin özellikle önemli olduğunu düşünüyoruz.’

Bilgisayar Görme Araştırmasında Hükümet Etkisi

Makaleye göre, Bilgisayar Görme araştırması, diğer sektörlerden daha fazla etkilenmektedir ve yazarlar, Doğal Dil İşleme (NLP) araştırmasının daha az etkilendiğini belirtiyorlar. Yazarlar, bunun NLP topluluklarının daha ‘koherent’ ve daha büyük olması ve NLP veri kümelerinin daha erişilebilir ve daha kolay küratörlük yapılması, daha küçük ve daha az kaynak yoğun olması nedeniyle olabileceğini öne sürmektedir.

Yüz Tanıma (FR) veri kümeleri için, yazarlar, kurumsal, devlet ve özel çıkarların často çatıştığını iddia ediyorlar:

‘Kurumsal ve hükümet kurumlarının, gizlilik (örneğin, gözetim) ile ilgili olarak farklı önceliklere sahip olabileceği ve bu önceliklerin ağırlıklarının akademisyenler veya AI’nin daha geniş toplumsal paydaşları tarafından tutulan önceliklerden farklı olabileceği açıktır.’

Yüz tanıma görevleri için, araştırmacılar, akademik olmayan veri kümelerinin oranının dramatic bir şekilde düştüğünü buldular:

‘Veri kümelerinin sekiz tanesinden dördü (%33,69’u toplam kullanımlar) yalnızca şirketler, ABD askeri veya Çin hükümeti tarafından finanse edildi (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). MS-Celeb-1M, farklı paydaşlar için gizlilik değerinin tartışmalı olması nedeniyle geri çekildi.’

Görüntü Oluşturma ve Yüz Tanıma araştırma toplulukları tarafından kullanılan en üst düzey veri kümeleri.

Yazarlar, daha yeni bir alan olan Görüntü Oluşturma (veya Görüntü Sentezi)nin, bu amaç için tasarlanmayan mevcut, daha eski veri kümelerine dayanarak oluşturulduğunu belirtiyorlar.

Aslında, makale, veri kümelerinin amaçlarından uzaklaşan bir eğilim gözlemlemektedir ve bu, yeni veya dışlayıcı araştırma alanları için uygunluğunu ve bütçe kısıtlamalarının araştırmacıların hedeflerini mevcut malzemeler ve SOTA sonuçlarına dayalı bir kültürle sınırlayabileceğini sorgulamaktadır.

‘Buluntularımız ayrıca, veri kümelerinin genellikle farklı görev toplulukları arasında aktarıldığını gösteriyor. En aşırı durumda, bazı görev toplulukları için dolaşımdaki benchmark veri kümelerinin çoğunluğu, diğer görevler için oluşturuldu.’

Son yıllarda daha çeşitli ve küratörlük veri kümeleri için çağrıda bulunan makine öğrenimi önderleri (Andrew Ng dahil) hakkında, yazarlar, bu duyguyu desteklemektedir, ancak bu tür bir çabanın, mevcut kültürün SOTA sonuçlarına ve kurulmuş veri kümelerine bağımlılığı tarafından potansiyel olarak engellenebileceğini düşünmektedir:

‘Araştırmamız, sadece makine öğrenimi araştırmacılarının daha fazla veri kümesi geliştirmesi için çağrıda bulunmanın ve teşvik yapılarını değiştirmenin, veri kümesi kullanımını ve nihayetinde makine öğrenimi araştırması gündemlerini şekillendiren perspektifleri çeşitlendirmek için yeterli olmayabileceğini öne sürmektedir. ‘

‘Veri kümesi geliştirmesini teşvik etmenin yanı sıra, sosyal ve kültürel açıdan benchmark veri kümelerini çeşitlendirmek için, daha az kaynaklara sahip kurumlar的人lerinin yüksek kaliteli veri kümeleri oluşturması için önemli fonlama önceliklendiren, eşitlik odaklı politika müdahalelerini savunuyoruz. ‘

6 Aralık 2021, 16:49 GMT+2 – Başlıkta iyileştirme yapıldı. – MA

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]