Yapay Zekâ
Yapay Zeka Tabanlı Bir Haber Makaleleri Önyargı Denetleyicisi, Python’da Kullanılabilir

Kanada, Hindistan, Çin ve Avustralya’daki araştırmacılar, haber kopyalarında “haksız dil”i etkili bir şekilde tespit etmek ve değiştirmek için kullanılabilen ücretsiz bir Python paketi üretmek için işbirliği yaptı.
Sistem, Dbias adlı bir üç aşamalı döngüsel iş akışı geliştirmek için çeşitli makine öğrenimi teknolojileri ve veritabanlarını kullanan Dbias olarak adlandırılmıştır. Bu, önyargılı metinleri daha tarafsız bir versiyona dönüştürebilir.

Dbias tarafından daha az tahrik edici bir versiyona dönüştürülen önyargılı bir haber parçasındaki yüklü dil. Kaynak: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf
Sistem, mevcut projelere ek bir aşama, eklenti veya plugin olarak entegre edilebilen yeniden kullanılabilir ve self-contained bir işlem hattını temsil etmektedir. Hugging Face’den Pip aracılığıyla kurulabilir.
Nisan ayında, Google Docs’te benzer bir işlevselliğin uygulanması eleştirilere maruz kaldı, en azından düzenlenebilirlik eksikliği nedeniyle. Öte yandan, Dbias daha seçici bir şekilde herhangi bir haber koleksiyonuna eğitim verebilir ve özel adillik rehberlerini geliştirme yeteneğini korur.
Kritik fark, Dbias işlem hattının, sürekli olarak kullanıcıyı eğitmek yerine, “yüklü dil”i (faktör iletişimine kritik bir katman ekleyen kelimeler) nötr veya sıradan dile dönüştürmek amacıyla tasarlanmış olmasıdır. Esasen, son kullanıcı, etik filtreleri tanımlayacak ve sistemi buna göre eğitecektir; Google Docs yaklaşımında, sistem – tartışmalı bir şekilde – kullanıcıyı tek taraflı bir şekilde eğitmektedir.

Dbias iş akışının kavramsal mimarisi.
Araştırmacılara göre, Dbias ilk真正 olarak yapılandırılabilir önyargı algılama paketidir, Natural Language Processing (NLP) alt sektörünün bugüne kadar karakterize ettiği hazır paket projelerine kıyasla.
Yeni makale, Haber Makalelerinde Adillik Sağlamak için Bir Yaklaşım olarak adlandırılmıştır ve Toronto Üniversitesi, Toronto Metropolitan Üniversitesi, Bangalore’deki Çevresel Kaynak Yönetimi, Çin’deki DeepBlue Academy of Sciences ve Sydney Üniversitesi’nden katkıda bulunanlar tarafından yapılmıştır.
Yöntem
Dbias’teki ilk modül, Önyargı Algılamadır ve DistilBERT paketini kullanır – Google’ın oldukça makine yoğun BERT‘in optimize edilmiş bir sürümü. Projede DistilBERT, Media Bias Annotation (MBIC) veri kümesinde ince ayarlanmıştır.

MBIC, Huffington Post, USA Today ve MSNBC gibi çeşitli medya kaynaklarından haber makalelerini içerir. Araştırmacılar, veri kümesinin genişletilmiş sürümünü kullandılar.
Orijinal veri, crowdsourced işçiler (2021’in sonlarında eleştirilere maruz kalan bir yöntem) tarafından etiketlendi, ancak yeni makalenin yazarları, veri kümesindeki ek etiketsiz önyargı örneklerini tanımlayabildiler ve bunları manuel olarak eklediler. Tanımlanan önyargı örnekleri ırk, eğitim, etnik köken, dil, din ve cinsiyetle ilgiliydi.
Sonraki modül, Önyargı Tanıma, girdili metinden önyargılı kelimeleri ayırt etmek için Named Entity Recognition (NER) kullanır. Makalede şunlar yazılıdır:
‘Örneğin, “Tornado ve iklim değişikliği hakkında sahte-bilimsel hype almayın” haberi, önceki önyargı algılama modülü tarafından önyargılı olarak sınıflandırılmış ve önyargı tanıma modülü şimdi “sahte-bilimsel hype” terimini önyargılı bir kelime olarak tanımlayabilir.’
NER, bu görev için özel olarak tasarlanmamış olsa da, önceki bir çalışmada önyargı tanımlama için kullanılmıştır, özellikle de 2021’de İngiltere’deki Durham Üniversitesi’nden bir proje için.
Bu aşamada araştırmacılar, RoBERTa ile birlikte SpaCy İngilizce Dönüştürme NER işlem hattını kullandılar.

Sonraki aşama, Önyargı Maskesi, tanımlanan önyargılı kelimelerin yeni ve orijinal bir çoklu maskesini içerir ve birden fazla tanımlanan önyargılı kelime durumunda sırayla çalışır.

Dbias’ın üçüncü aşamasında yüklü dil, pragmatik dil ile değiştirilir.
Gerekirse, bu aşamanın geri bildirimi, daha fazla değerlendirme için işlem hattının başlangıcına geri gönderilecektir. Bu aşama, Masked Language Modeling (MLM) kullanır, Facebook Research tarafından yürütülen bir 2021 işbirliği tarafından belirlenen çizgiler boyunca.
Normalde MLM görevi, rastgele %15’lik kelimeleri maskeler, ancak Dbias işlem hattı, tanımlanan önyargılı kelimeleri girdi olarak alır.
Mimari, Google Colab Pro’da 24GB VRAM ve 16’lık bir toplu boyut ile NVIDIA P100’de uygulandı ve eğitildi, yalnızca iki etiket (önyargılı ve önyargsız) kullanıldı.
Testler
Araştırmacılar, Dbias’ı beş benzer yaklaşımla karşılaştırdı: LG-TFIDF ile Lojistik Regresyon ve TfidfVectorizer (TFIDF) kelime gömme; LG-ELMO; MLP-ELMO (ELMO gömme içeren bir ileri beslemeli yapay sinir ağı); BERT; ve RoBERTa.
Testlerde kullanılan metrikler, doğruluk (ACC), kesinlik (PREC), geri çağırma (Rec) ve F1 puanı idi. Araştırmacılar, tek bir işlem hattında tüm üç görevi gerçekleştirebilecek herhangi bir sistemin var olmadığını bildiklerinden, Dbias’ın birincil görevlerini – önyargı algılama ve tanıma – değerlendirmek için rakip çerçevelerine müsaade edildi.

Dbias denemelerinin sonuçları.
Dbias, daha ağır bir işlem izine sahip diğer çerçeveler de dahil olmak üzere tüm rakip çerçevelerden daha iyi sonuçlar elde etmeyi başardı.
Makalede şunlar yazılıdır:
‘Sonuç ayrıca, derin sinir gömme yöntemlerinin, geleneksel gömme yöntemlerine (örneğin, TFIDF) kıyasla önyargı sınıflandırma görevinde daha iyi performans gösterebileceğini gösteriyor. Bu, LG ile birlikte kullanılan ELMO gibi derin sinir gömme yöntemlerinin, TFIDF vektörleştirme ile birlikte kullanılan LG’ye kıyasla daha iyi performans göstermesinden anlaşılabilir. ‘
‘Bu, derin sinir gömme yöntemlerinin, metinlerin çeşitli bağlamlardaki kelimelerin bağlamını daha iyi yakalayabilmesinden kaynaklanmaktadır. Derin sinir gömme yöntemleri ve derin sinir yöntemleri (MLP, BERT, RoBERTa) ayrıca geleneksel ML yöntemine (LG) kıyasla daha iyi performans gösterir.’
Araştırmacılar ayrıca, Transformer tabanlı yöntemlerin önyargı algılama görevinde rakip yöntemleri aştığını belirtirler.
Ek bir test, Dbias ile çeşitli SpaCy Core Web sürümleri arasında bir karşılaştırma içeriyordu, bunlar arasında core-sm (küçük), core-md (orta) ve core-lg (büyük) bulunuyordu. Dbias, bu denemelerde de liderlik etti:

Araştırmacılar, önyargı tanıma görevlerinin genellikle daha büyük ve daha pahalı modellerde daha iyi doğruluk gösterdiğini, bu durumun – spekülasyonlarına göre – artan parametre ve veri noktalarına bağlı olabileceğini gözlemleyerek sonuçlandırırlar. Ayrıca, bu alanda gelecekteki çalışmaların başarısının, daha yüksek kaliteli veri kümelerini etiketleme çabalarına bağlı olacağını gözlemlediler.
Orman ve Ağaçlar
Umarız ki, bu tür bir ince önyargı tanıma projesi sonunda, daha geniş bir görünüm alanına sahip ve yalnızca rapor edilen izleme istatistiklerinden daha fazlasının önyargılı olduğunu dikkate alan önyargı arama çerçevelerine entegre edilecektir.
İlk olarak 14 Temmuz 2022’de yayımlandı.












