Anderson’un Açısı

Eski ‘Gerçekleri’ Makine Öğrenimi ile Düşürme

mm

Bazen gerçek bir son kullanma tarihi vardır. Bir zaman sınırlı iddiaya (örneğin, “maskeler kamu taşımacılığında zorunludur”) arama motoru sıralamalarında ortaya çıktığında, görünürdeki ‘yetkili’ çözümü, daha sonraki ve daha doğru içeriğin aynı konudaki sıralamasını geçersiz kılmak için birçok yıl boyunca kalabilir.

Bu, arama motoru algoritmalarının ‘uzun süreli’ kesin çözümleri tanımlamak ve tanıtmak için gösterdikleri kararlılığın ve zaman içinde trafiği koruyan iyi bağlantılı içeriği önceliklendirmeye yönelik eğilimlerinin bir sonucu olarak ortaya çıkar – ve yeni içeriye karşı giderek daha ihtiyatlı bir tutumla birlikte, sahte haberler çağı.

Diğer yandan, yalnızca zaman damgası geçersiz kılınan değerli web içeriğini değersizleştirmek, gerçekten yararlı içeriğin otomatik olarak daha sonraki ve daha düşük standartta olabilecek materyaller lehine düşürülmesi riskini taşır.

Bu sendromu gidermek için, İtalya, Belçika ve Danimarka’dan araştırmacıların yeni bir makalesi, çeşitli makine öğrenimi tekniklerini kullanarak zaman bilinci kanıt sıralaması için bir metodoloji geliştirdi.

Eski Yanıtların Ötesinde

Makale, Ispra’daki Avrupa Komisyonu’nun Ortak Araştırma Merkezi’nden (JRC), Leuven’deki Katholieke Universiteit’ten ve Kopenhag Üniversitesi’nden araştırmacılar tarafından yazılmıştır.

Çalışma, her biri kanıtları sıralamak için farklı bir yaklaşım sunan üç farklı fact-checking metodolojisi üzerinde dört zaman sıralama yöntemini uygular ve kanıtların zaman damgalarını ‘altın standart’ olarak kullanarak bir sıralama metodolojisi sunar. Çalışma, zaman bilinci kanıt sıralamasının sonuçların açıklığını ve zaman duyarlı gerçeklerin ve iddiaların otorite ve doğruluk tahminlerini iyileştirdiğini gösteriyor.

Araştırma, daha sonraki veya mevcut sistemlere olası bir eklenti olarak sunulmakta ve araştırma yapmaya yardımcı olmak ve yeni ve gelişmiş arama motoru algoritmalarının geliştirilmesinde olası bir faktör olarak tasarlanmıştır.

Çalışma, içerik tabanlı fact-checking için kanıtların zaman dinamiklerini modellemektedir ve tipik arama motoru sıralama algoritmaları tarafından kullanılan ‘anlamsal benzerlik’ yaklaşımlarını geride bırakmaktadır. Araştırmacılar tarafından eğitilen model, mevcut bir fact-checking mimarisine kolayca süperpoze edilebilen optimize edilmiş bir öğrenme-sıralama fonksiyonu kullanır. Araştırmacılar, sistemin otomatik fact-checking için yeni bir katkı olduğunu iddia etmektedirler.

Çoklu Fact-Checking Mimarilerini Düzeltme

Araştırmacılar, zaman kısıtlı faktörlerini üç mevcut fact-checking mimarisine uyguladılar. İlk olarak, 2019’da yayınlanan MultiFC veri kümesi önerilen Bidirectional Long Short Term Memory (BiLSTM) modeli kullanıldı.

İkinci olarak, ilk modele bir modifikasyon olarak, LSTM bileşeninin yerini alan tek yönlü bir Recurrent Neural Network (RNN) kullanıldı.

Araştırmacıların kullandığı üçüncü model, Hugging Faces kütüphanesinden DistilBERT transformer oldu, bu Google’ın BERT NLP modelinin bir özeti.

Üç mimari üzerinde de araştırmacılar, Microsoft tarafından yürütülen bir araştırmadan gelen ListMLE kaybını uyguladılar, bu da son iki thập kỷda yeni fact-checking araştırmalarına tutarlı bir şekilde katkıda bulundu.

Araştırmacı ekibinin otorite ve sonraki sıralama değerleri için bir filtre olarak zaman bileşeni eklediği iki temel fact-checking modeli. Kaynak: https://arxiv.org/pdf/2009.06402.pdf

Araştırmacı ekibinin otorite ve sonraki sıralama değerleri için bir filtre olarak zaman bileşeni eklediği iki temel fact-checking modeli. Kaynak: https://arxiv.org/pdf/2009.06402.pdf

Zaman damgası değerleri eğitim meta verisinden çıkarıldı ve her modelde sıralama faktörleri olarak dahil edildi.

Test Edilmesi

Sistemin deneysel değerlendirmesi, MultiFC veri kümesinin kullanılmasını içeriyordu, çünkü bu目前 bu özel araştırma ilgisine sahip tek yüksek hacimli açık kaynak veri kümesidir. MultiFC, Snopes ve Washington Post dahil 26 farklı fact-checking alanından elde edilen 34.924 gerçek iddia içerir.

Her iddianın doğruluğunun tahmini, Google Search API tarafından sağlanan on kanıt parçasıyla desteklenmektedir ve konuşmacı, etiketler ve kategoriler gibi çeşitli unsurların birleşimiyle elde edilen tahminleri içermektedir.

Çoğu zaman ilgili zaman damgası, meta verilerde bulunan zaman damgası değildir; bir makale daha önceki olaylara atıfta bulunabilir ve bu durumda araştırmacıların sistemlerinin metinden doğrudan bu verileri çıkarmak ve dönüştürmek için önlem almak zorunda kalması gerekir. Bu işlem olmadan, eski haberlerin yeniden çalıştırılması, özellikle yüksek otorite siteleri için, eski verileri yeni bir görünümle yaymak eğilimindedir.

Tarihler, bir Python rutini ile çıkarıldı ve resmi meta veri tarihleri, biçimlendirmenin tutarlılığını test etmek için (örneğin, ABD ve UK tarih damgası biçimleri farklıdır) kontrol edildi. Manuel olarak doğrulandığında, zaman damgası meta verilerinde hiçbir hata bulunmadı.

Sonuçlar

Otomatik sonuçların manuel kontrolüne karşı, araştırmacılar, zaman bilinci kanıt sıralamasının, saf anlamsal benzerlik veya SERP sıralamalarına dayalı varsayımlara kıyasla dikkat çekici bir şekilde iyileştiğini buldular. Ayrıca, zaman duyarlı iddialar için (yani, haber durumunun hızla değişebileceği ve güncel bilginin önceliklendirilmesinin çok önemli olduğu durumlar) doğruluk tahminlerinin iyileştirildiğini belirlediler.

Araştırmacılar, bu yaklaşımın, özellikle bilgi hızla değişen konularda, such as siyaset ve eğlence, ve yüksek sıralamadaki gelişmelerin otomatik olarak sıralamadaki üst sıralardan düşürülmesi gereken bir çerçeve gerektiren alanlarda, sıralama modellerini iyileştirmede yüksek değerlere sahip olacağına dikkat çekiyorlar.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]