Connect with us

Yapay Zekâ

MIT: Büyük Haber Kaynaklarında Medya Yanlılığını Makine Öğrenimi ile Ölçme

mm

MIT’den yapılan bir çalışmada, makine öğrenimi teknikleri kullanılarak, ABD ve ötesindeki en büyük ve en etkili 100 haber kaynağından yaklaşık 83’ü dahil olmak üzere, büyük ve etkili 100 haber kaynağında yanlı ifadelerin tespit edilmesi amaçlandı. Bu, otomatik sistemlerin bir yayının siyasi karakterini otomatik olarak sınıflandırabileceği ve okuyuculara ilgi duydukları konularda bir yayının etik duruşuna dair daha derin bir bakış açısı sağlayabileceği bir araştırma çabasıdır.

Çalışma, belirli bir dille konuların ele alınmasına odaklanıyor, Örneğin, belgesiz göçmen | yasal olmayan göçmen, döllenmiş yumurta | doğmamış bebek, göstericiler | anarşistler.

Proje, yaklaşık 100 haber kaynağından üç milyondan fazla makaleden ‘yüklenen’ dil örneklerini çıkarmak ve sınıflandırmak için Doğal Dil İşleme (NLP) tekniklerini kullandı. Bu, yayınların sol ve sağ yanlılığına dair bir harita oluşturdu.

Çalışma, MIT Fizik Bölümü’nden Samantha D’Alonzo ve Max Tegmark tarafından yürütüldü ve son yıllarda ‘gerçeklik kontrolü’ etrafındaki birçok girişimin, ‘sahte haber’ skandallarının ardından, belirli çıkarlara hizmet etmek amacıyla samimiyetsiz olarak yorumlanabileceğini gözlemledi. Proje, sözde tarafsız bir haber bağlamında yanlı ve ‘etkileyen’ dil kullanımını incelemek için daha veri odaklı bir yaklaşım sunmayı amaçlıyor.

Çalışmadan elde edilen, literally ve figuratif olarak soldan sağa, göstericiler, anarşistler ve sağ ucunda 'isyancılar' olarak karakterize edilen bir dizi ifade.

Çalışmadan elde edilen, literally ve figuratif olarak soldan sağa, göstericiler, anarşistler ve sağ ucunda ‘isyancılar’ olarak karakterize edilen bir dizi ifade. Source: https://arxiv.org/pdf/2109.00024.pdf

NLP İşleme

Çalışmanın kaynak verileri, açık kaynaklı Newspaper3K veritabanından elde edildi ve 100 medya haber kaynağından, 83 gazete dahil olmak üzere 3.078.624 makaleyi içeriyordu. Gazeteler, ulaşım açısından seçildi, ayrıca Savunma Bir ve Bilimi gibi askeri haber analizi sitelerinden makaleler de dahil edildi.

Çalışmada kullanılan kaynaklar.

Çalışmada kullanılan kaynaklar.

Makale, indirilen metnin ‘minimum’ düzeyde ön işleme tabi tutulduğunu bildirdi. Doğrudan alıntılar ortadan kaldırıldı, çünkü çalışma gazetecilerin seçtiği dile odaklanıyor (her ne kadar alıntı seçimlerinin kendileri de ilginç bir araştırma alanı olsa da).

İngilizce yazım, Amerikan İngilizcesine dönüştürüldü, tüm noktalama işaretleri kaldırıldı ve tüm sıfır dışındaki sayılar da kaldırıldı. İlk cümle büyük harfleri küçük harfe dönüştürüldü, ancak diğer tüm büyük harfler korundu.

İlk 100.000 en yaygın ifade belirlendi ve sonunda sıralandı, arındırıldı ve bir ifade listesine birleştirildi. Tüm冗antı dili (örneğin ‘Bu makaleyi paylaş’ ve ‘makale yeniden yayımlandı’) da silindi. Esasen aynı anlama gelen ifadelerin varyasyonları (örneğin ‘büyük teknoloji’ ve ‘Büyük Teknoloji’, ‘siber güvenlik’ ve ‘siber güvenlik’) standartlaştırıldı.

‘Nutpicking’

İlk test, ‘Siyah hayatlar önemlidir’ konusunu ele aldı ve veri üzerinden yanlı ifadeleri ve valent sinonimlerini ayırt edebildi.

Siyah hayatlar önemlidir (BLM) hakkında makaleler için genel ilke bileşenleri. Sivil eyleme katılan insanları, literally ve figuratif olarak soldan sağa, göstericiler, anarşistler ve sağ ucunda 'isyancılar' olarak karakterize ediyoruz. Sağ panelde, ifadelere kaynak olan gazeteler yer alıyor.

Siyah hayatlar önemlidir (BLM) hakkında makaleler için genel ilke bileşenleri. Sivil eyleme katılan insanları, literally ve figuratif olarak soldan sağa, göstericiler, anarşistler ve sağ ucunda ‘isyancılar’ olarak karakterize ediyoruz. Sağ panelde, ifadelere kaynak olan gazeteler yer alıyor.

‘Protestocular’ ifadesi, ‘anarşistler’den ‘isyancılar’a doğru kayarken, makale, NLP çıkarma ve analizinin ‘nutpicking’ uygulaması tarafından engellendiğini belirtiyor – bir medya kuruluşunun, farklı bir siyasi segment tarafından geçerli kabul edilen bir ifadesini alıntılaması ve okuyucularının bu ifadesi olumsuz olarak görmesine güvenmesi. Makale, ‘polisi fonlamayı durdur’ ifadesini bu duruma bir örnek olarak gösteriyor.

Doğal olarak, bu, bir ‘solcu’ ifadesinin otherwise sağcı bir bağlamda görünmesi ve siyasi duruşları kodlanmış ifadelerle belirleyen bir NLP sistemi için alışılmadık bir zorluk teşkil etmesi anlamına geliyor.

Bu tür ifadeler ‘çift değerlilik’ [SIC] , bazı diğer ifadelerin evrensel olarak olumsuz bir çağrışımı vardır (örneğin ‘çocuk öldürme’) ve her zaman çeşitli yayın organlarında olumsuz olarak temsil edilir.

Araştırma, kürtaj, teknoloji sansürü, ABD göçmenlik politikaları ve silah kontrolü gibi ‘sıcak’ konular için benzer haritalamaları da ortaya koyuyor.

Hobi Atı

Bazı tartışmalı siyasi eğilimler, medyada öngörülebilir bir şekilde bölünmüyor, Örneğin, askeri harcama konusu. Makale, ‘solcu’ CNN’nin bu konuda sağcı National Review ve Fox News’in yanında yer aldığını buldu.

Genel olarak, siyasi duruş, ‘askeri-sanayi kompleksi’ ifadesini ‘savunma endüstrisi’ ifadesine tercih etme gibi diğer ifadelerle belirlenebilir. Sonuçlar, ilk ifadenin Canary ve Amerikan Muhafazakar gibi kuruluşlar tarafından kullanıldığını, ikincisinin ise Fox ve CNN tarafından daha sık kullanıldığını gösteriyor.

Araştırma, ‘kurşunla öldürülmüş’ ifadesinden ‘öldürülme’ ifadesine, ‘mahkum suçlular’ ifadesinden ‘hapislerdeki insanlara’, ‘petrol üreticileri’ ifadesinden ‘büyük petrol’ ifadesine kadar bir dizi ilerlemeyi, kuruluşlar arası dilden pro-kuruluş diline doğru bir ilerlemeyi kuruyor.

Kuruluş yanlılığı ile valent sinonimler, üstten alta.

Kuruluş yanlılığı ile valent sinonimler, üstten alta.

Araştırma, yayınların bazen dil düzeyinde (örneğin, çift değerli ifadelerin kullanımı) veya çeşitli diğer nedenlerle temel siyasi duruşlarından uzaklaşabileceğini kabul ediyor. Örneğin, saygın sağcı İngiliz yayını The Spectator, 1828’de kuruldu ve sık sık ve belirgin bir şekilde solcu düşünceleri barındırıyor. Bu, tarafsız raporlama duygusundan mı, yoksa temel okuyucu kitlesini trafik üreten yorum fırtınalarına karşı mı, bir spekülasyon meselesidir ve bir makine öğrenimi sistemi için kolay bir durum değildir.

Bu belirli ‘hobi atları’ ve bireysel haber organizasyonları arasındaki ‘çarpıcı’ görüşlerin belirsiz kullanımı, araştırmanın sonunda sunduğu sol-sağ haritalamasını biraz karıştırıyor, ancak genel bir siyasi aidiyet göstergesi sağlıyor.

Yanlış Anlam

2 Eylül 2021’de yayınlanan ve Ağustos 2021’in sonunda yayınlanan makale, nispeten az bir yankı uyandırdı. Bu, kısmen, ana akım medyaya yönelik eleştirel araştırmaların, medyaya tarafından coşkuyla karşılanmaması olabilir; ancak bu, yazarların çeşitli konularda etkili ve güçlü medya yayınlarının duruşunu gösteren net ve açık grafikler üretmekten kaçınmaları da olabilir. Aslında, yazarlar, sonuçların potansiyel yangın etkisi azaltmaya çalışıyor gibi görünüyor.

Ayrıca, projeden yayınlanan kapsamlı veri, kelimelerin frekanslarını gösteriyor, ancak anonimleştirilmiş gibi görünüyor, bu da çalışılan yayınların medya yanlılığını net bir şekilde görmek için zorlaştırıyor. Proje, seçilen örneklerle sınırlı kalıyor.

Gelecekteki benzer araştırmalar, sadece konuların dile getirilmesini değil, konunun vůbec ele alınmasını da dikkate alırsa daha faydalı olabilir, çünkü suskunluk da bir anlam taşıyor ve genellikle sadece bütçe kısıtlamaları veya haber seçimini etkileyen diğer pratik faktörlerden daha fazlasını ifade eden belirli bir siyasi karaktere sahip.

Bununla birlikte, MIT çalışması, bugüne kadar yapılan en büyük çalışma gibi görünüyor ve gelecekteki sınıflandırma sistemleri için bir çerçeve oluşturabilir ve hatta tarafsız okuyuculara yayının siyasi rengini uyaran tarayıcı eklentileri gibi ikincil teknolojilere yol açabilir.

Kabarcıklar, Yanlışlık ve Geri Tepme

Ek olarak, böyle bir sistemin, algoritmik öneri sistemlerinin en tartışmalı yönlerinden biri olan, bir okuyucuyu, karşıt veya zorlayıcı bir görüş görmediği bir ortama yönlendirme eğilimini daha da artırıp artırmayacağı düşünülmelidir.

Bir içerik kabarcığının, ‘güvenli bir ortam’ olup olmadığı, entelektüel büyümeye bir engel olup olmadığı veya kısmi propaganda karşıtı bir koruma olup olmadığı, bir değer yargısı – makine öğrenimi sistemlerinin mekanik, istatistiksel bakış açısına göre yaklaşılması zor bir felsefi konudur.

Ayrıca, MIT çalışması, verilerin sonuçları tanımlamasına izin vermeye çalışırken, ifadelerin siyasi değerini sınıflandırma da bir tür değer yargısıdır ve bu, dilin toksik veya tartışmalı içeriği yeni ifadelerle yeniden kodlama yeteneğine kolayca dayanamaz.

Eğer bu tür bir kodifikasyon popüler online sistemlere gömülürse, büyük haber yayınlarının etik ve siyasi sıcaklığını haritalamak için sürekli bir çaba, makine öğreniminin anlamsal anlamını düzenli olarak aşmaya yönelik yayıncıların yeteneği ile AI’nin yanlılığı belirleme yeteneği arasında bir soğuk savaşa dönüşebilir.

14/09/21 – 1.41 GMT+2 – ‘100 gazete’ ifadesi ‘100 haber kaynağı’ olarak değiştirildi.
4:58 pm – Makale alıntısı Samantha D’Alonzo’yu da içerecek şekilde düzeltilerek ilgili düzeltmeler yapıldı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]