Connect with us

Yapay Zekâ

Tarihi Dildeki Dillerin Yapay Zeka İçin Neden Bir Sorun Olduğu

mm

Doğal Dil İşleme (NLP) sistemlerinin merkezi zorluklarından biri, geniş bir yelpazede yazılmış materyallerden temel bilgiler elde etmektir. Bir yeni NLP algoritması için eğitim veri kümesi kaynakları, Twitter, broadsheet gazeteleri ve bilimsel dergiler gibi dilbilimsel olarak çeşitli olabilir ve her bir kaynakta benzersiz olan tüm o üç kaynağın garip özelliklerine sahip olabilir.

Genellikle, bu sadece İngilizce için geçerlidir ve bu sadece güncel veya yakın tarihli metin kaynakları içindir. Bir NLP algoritması, birden fazla döneme ait materyali dikkate alması gerektiğinde, genellikle ulusal ve alt-ulusal topluluklar arasında ve özellikle tarih boyunca insanların konuşma veya yazma şekillerindeki büyük farklılıkları uzlaştırmakta zorluk çeker.

Ancak, tarih treatiseleri ve saygın bilimsel eserleri gibi metin verilerini kullanarak, bir konunun tarihi bir bakış açısını oluşturmak ve bir alan için ölçümlerin benimsenmesi ve bakımından önce gelen istatistiksel zaman çizelgesi yeniden yapılandırmaları oluşturmak için potansiyel olarak yararlı bir yöntem olabilir.

Örneğin, iklim değişikliği öngörme AI modellerine katkıda bulunan hava durumu bilgileri, dünya çapında 1880 yılına kadar yeterli şekilde kaydedilmedi, mentre klasik metinlerin madenciliği, büyük meteorolojik olayların daha eski kayıtlarını sunar ve Victoria öncesi hava durumu verisi sağlamak için yararlı olabilir.

Zamansal Uyuşmazlık

Washington Üniversitesi ve Allen Institute for AI’den yeni bir makale, beş yıllık bir süre bile zamansal uyuşmazlık oluşturabileceğini ve önceden eğitilmiş bir NLP modelinin yararlılığını bozabileceğini buldu.

Tüm durumlarda, daha yüksek puanlar daha iyidir. Burada, beş yıllık bir süre boyunca dört metin materyali kümesi boyunca zamansal bozulmanın bir ısı haritasını görüyoruz. Eğitim ve değerlendirme verileri arasındaki bu uyumsuzluk, yeni makalenin yazarlarına göre 'büyük bir performans düşüşü'ne neden olabilir.

Tüm durumlarda, daha yüksek puanlar daha iyidir. Burada, beş yıllık bir süre boyunca dört metin materyali kümesi boyunca zamansal bozulmanın bir ısı haritasını görüyoruz. Eğitim ve değerlendirme verileri arasındaki bu uyumsuzluk, yeni makalenin yazarlarına göre ‘büyük bir performans düşüşü’ne neden olabilir. Kaynak: https://arxiv.org/pdf/2111.07408.pdf

Makalede şöyle denir:

‘Zamansal uyuşmazlığın, dil modeli genelleme ve görev performansı üzerinde etkili olduğunu bulduk. Metin alanları ve görevler arasında önemli varyasyonlar bulduk. Beş yıl boyunca, sınıflandırıcıların F1 puanı, 40 puan (Twitter’da siyasi aidiyet) veya 1 puan (Yelp inceleme puanları) kadar bozulabilir. Aynı alan üzerinde tanımlanan iki ayrı görev, zaman içinde farklı bozulma seviyeleri gösterebilir.’

Dengesiz Bölümler

Temel sorun, eğitim veri kümelerinin genellikle iki gruba bölünmesidir, bazen 80/20 oranıyla dengesizdir, veri kullanılabilirliği sınırlıdır. Daha büyük veri kümesi, bir sinir ağına eğitilirken, kalan veri, oluşan algoritmanın doğruluğunu test etmek için kontrol grubu olarak kullanılır.

Birden fazla yıl boyunca materyal içeren karma veri kümelerinde, farklı dönemlerden veri dağılımı dengesiz olabilir, bu da değerlendirme verisinin bir dönemden materyalden oluşmasına neden olabilir.

Bu, modelin daha çeşitli bir karışım của dönemler (yani tüm mevcut veri) üzerinde eğitildiği bir test alanı olarak yetersiz olacaktır. Aslında, minority değerlendirme verisinin daha yeni veya daha eski materyali temsil edip etmediğine bağlı olarak, bu, büyükbabınıza en son K-Pop idolünü değerlendirmesini istemeye benzer.

Uzun çalışma, çok daha zamanla sınırlı veri kümeleri üzerinde birden fazla modeli eğitmek ve her modelin sonuçlarından uyumlu özellikleri birleştirmeye çalışmaktır. Ancak, rastgele model başlatma uygulamaları alone, bu yaklaşımın, deneyin anlamlı olmasını düşünmeden önce, model arası parite ve eşitliği elde etmede kendi sorunlarına sahip olduğunu gösterir.

Veri ve Eğitim

Zamansal uyuşmazlığı değerlendirmek için yazarlar, dört metin kümesini dört alanda eğitti:

Twitter
…burada yazarlar, 2015-2020 arasında eşit olarak dağıtılmış 12 milyon tweeti rastgele seçerek etiketsiz veri topladı, burada yazarlar, adlandırılmış varlıkları (yani insanlar ve organizasyonlar) ve siyasi aidiyetleri inceledi.

Bilimsel Makaleler
…burada yazarlar, Semantic Scholar korpusundan etiketsiz veri edindi, 30 yıllık bir süre boyunca 650.000 belgeyi oluşturdu ve burada yazarlar, mention tipi sınıflandırması (SciERC) ve AI venue sınıflandırması (AIC, AAAI veya ICML‘de yayımlandığını ayırt eder) üzerinde çalıştı.

Haber Makaleleri
…burada yazarlar, 2009-2016 arasında dokuz milyon makaleden oluşan Newsroom Dataset‘ini kullandı, burada yazarlar, üç görev gerçekleştirdi: haber odası özetleme, yayıncı sınıflandırma ve Medya çerçeveleri sınıflandırma (MFC), son görev ise haber çıkışındaki çeşitli konuların algılanan önceliklerini inceler.

Yemek İncelemeleri
…burada araştırmacılar, Yelp Open Dataset‘ini tek bir görev için kullandı: inceleme puanı sınıflandırması (YELPCLS), bu sektördeki çok NLP araştırmasının tipik bir görevi olan geleneksel bir duygu analizi zorluğu.

Sonuçlar

Modeller, GPT-2 ile değerlendirildi, sonuç olarak çeşitli F1 puanları elde edildi. Yazarlar, zamansal uyuşmazlığın performans kaybının双 yönlü olduğunu buldu, yani recent veri üzerinde eğitilen modeller, eski verilerin etkisiyle olumsuz etkilenabilir ve tersi de geçerlidir (makalenin başlangıcındaki grafikler için görüntüye bakınız). Yazarlar, bu durumun özellikle sosyal bilim uygulamaları için önemli sonuçları olduğunu belirtir.

Genel olarak, sonuçlar, zamansal uyuşmazlığın performans kaybını “önemli ölçüde” bozduğunu ve çoğu görev üzerinde geniş bir etkiye sahip olduğunu gösterir. On yıllar gibi çok uzun süreleri kapsayan veri kümeleri, doğal olarak sorunu artırır.

Yazarlar ayrıca, zamansal uyuşmazlığın etiketli ve etiketsiz ön eğitim verilerini de etkilediğini gözlemledi. Ayrıca, durumun hafifletilmesi için alan uyarlama (DAPT, veri uyumsuzluğu için bir izin oluşturulur) ve zamansal uyarlama (veri zaman dilimine göre seçilir) gibi önerilen çözümlerin fazla bir etkisi olmadığını, ancak veri bilgilerini veri kümesinde ince ayar yaparak biraz yardımcı olabileceğini belirtir.

Sonuç

Araştırmacılar, daha önce önerilen alan uyarlama (DAPT, veri uyumsuzluğu için bir izin oluşturulur) ve zamansal uyarlama (veri zaman dilimine göre seçilir) gibi çözümlerin sorunu hafifletmediğini onaylar.

Makale şöyle sona erer:

‘Deneylerimiz, görevler arasında zamansal bozulmada önemli varyasyonlar gösterdi, önceki çalışmalarda bulunanlardan daha fazla. Bu bulgular, NLP uygulamaları boyunca zamansal uyuşmazlığın devam eden çalışmasını, benchmark değerlendirmelerinde dikkate alınmasını ve uygulayıcıların canlı sistem performansı üzerinde zaman içinde izleme yapabilmesini teşvik ediyor.

‘Önemli olarak, zamansal olarak hizalanmış veriler üzerinde LM’lerin sürekli eğitiminin fazla bir etkisi olmadığını gözlemledik, bu da etkili zamansal uyarlama yöntemlerini bulmak için daha fazla araştırmayı motive ediyor, bu yöntemler zaman içinde etiketli/etiketsiz veri kümelerinin sürekli toplanmasından daha az maliyetlidir.’

Yazarlar, sürekli öğrenmenin, veri sürekli güncellenirken, bu konuda faydalı olabileceğini ve kavram kayması ve görevlerdeki değişiklikleri tespit etme yöntemlerinin veri kümelerini güncellemenin yararlı bir yardımcısı olabileceğini önerir.

 

* İçine yerleştirilmiş alıntıları hiperlinklere dönüştürme.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]