Yapay Zeka

Tarihsel Dil Neden Yapay Zeka İçin Bir Zorluktur?

Güncellenmiş on 9 Aralık 2022

Doğal Dil İşleme (NLP) sistemlerinin temel zorluklarından biri, çok çeşitli yazılı materyallerden önemli bilgiler elde etmektir. Yeni bir NLP algoritması için bir eğitim veri seti için kaynaklara katkıda bulunmak, dil açısından Twitter, geniş sayfalı gazeteler ve bilimsel dergiler kadar çeşitli olabilir; tüm çekici tuhaflıklar yalnızca bu üç kaynağın her birine özgüdür.

In çoğu vaka, bu sadece İngilizce içindir; ve bu sadece mevcut veya yeni metin kaynakları içindir. Bir NLP algoritması, birden fazla çağdan gelen materyali dikkate almak zorunda kaldığında, tipik olarak çok farklı yollar insanların ulusal ve alt-ulusal topluluklarda ve özellikle tarihin farklı dönemlerinde konuştuğu veya yazdığı.

Yine de, çağları aşan metin verilerini (tarihsel incelemeler ve saygıdeğer bilimsel çalışmalar gibi) kullanmak, bir konunun tarihsel bir gözetimini oluşturmak ve bir alan için ölçümlerin benimsenmesinden ve sürdürülmesinden önceye dayanan istatistiksel zaman çizelgesi yeniden yapılandırmalarını formüle etmek için potansiyel olarak yararlı bir yöntemdir.

Örneğin, iklim değişikliğini öngören yapay zeka modellerine katkıda bulunan hava durumu bilgileri, dünya çapında yeterince kaydedilmedi. 1880 kadar, klasik metinlerin veri madenciliği yapılırken eski kayıtları sunar Viktorya dönemi öncesi hava durumu verilerinin sağlanmasında yararlı olabilecek önemli meteorolojik olayların listesi.

Zamansal Yanlış Hizalama

A yeni kağıt Washington Üniversitesi ve Allen Yapay Zeka Enstitüsü, beş yıl kadar kısa bir aralığın bile neden olabileceğini buldu. zamansal yanlış hizalama bu da önceden eğitilmiş bir NLP modelinin kullanışlılığını bozabilir.

Her durumda, daha yüksek puanlar daha iyidir. Burada, beş yıllık bir dönemi kapsayan dört metin materyali külliyatında zamansal bozulmanın ısı haritasını görüyoruz. Yeni makalenin yazarlarına göre, eğitim ve değerlendirme verileri arasındaki bu tür uyumsuzluklar 'büyük bir performans düşüşüne' neden olabilir. Kaynak: https://arxiv.org/pdf/2111.07408.pdf

Kağıt şöyle diyor:

Zamansal yanlış hizalamanın hem dil modeli genellemesini hem de görev performansını etkilediğini bulduk. Metin etki alanları ve görevler arasında bozulmada önemli farklılıklar buluyoruz. 5 yıl boyunca, sınıflandırıcıların F1 puanı 40 puana kadar (Twitter'daki siyasi bağlantı) veya 1 puana (Yelp inceleme puanları) kadar düşebilir. Aynı etki alanında tanımlanan iki farklı görev, zaman içinde farklı seviyelerde bozulma gösterebilir.'

Düzensiz Bölmeler

Temel sorun, eğitim veri kümelerinin, sınırlı veri mevcudiyeti nedeniyle bazen oldukça dengesiz bir 80/20 oranında genellikle iki gruba ayrılmasıdır. Daha büyük veri grubu bir sinir ağı üzerinde eğitilirken, kalan veriler elde edilen algoritmanın doğruluğunu test etmek için bir kontrol grubu olarak kullanılır.

Birkaç yılı kapsayan materyal içeren karma veri kümelerinde, çeşitli dönemlere ait verilerin eşit olmayan bir şekilde dağıtılması, değerlendirme verilerinin aşırı bir şekilde belirli bir döneme ait materyallerden oluştuğu anlamına gelebilir.

Bu, daha çeşitli dönemler karışımı üzerinde (yani mevcut tüm verilerin daha fazlası üzerinde) eğitilmiş bir model için zayıf bir test alanı olmasına neden olacaktır. Aslında, azınlık değerlendirme verilerinin daha yeni veya daha eski materyalleri fazla temsil etmesine bağlı olarak, büyükbabanızdan en son K-Pop idollerini derecelendirmesini istemek gibi bir şey.

Uzun geçici çözüm, birden çok modeli çok daha fazla zaman kısıtlamalı veri kümelerinde eğitmek ve her modelin sonuçlarından uyumlu özellikleri harmanlamaya çalışmak olacaktır. Fakat, rastgele model başlatma tek başına uygulamalar, bu yaklaşımın, deneyi anlamlı kılmak için birden fazla katkıda bulunan veri setinin birbirine yeterince benzer olup olmadığını düşünmeden önce bile, modeller arası eşitlik ve eşitlik elde etmede kendi problemleriyle karşı karşıya olduğu anlamına gelir.

Veri ve Eğitim

Zamansal yanlış hizalamayı değerlendirmek için yazarlar dört alanda dört metin derlemi eğitti:

Twitter
... 12-2015 yılları arasında tekdüze bir şekilde dağılmış 2020 milyon tweet'ten rastgele bir seçim yaparak etiketlenmemiş verileri topladılar, burada yazarlar adlandırılmış varlıkları (yani kişiler ve kuruluşlar) ve siyasi bağlantıları incelediler.

Bilimsel makaleler
…yazarların etiketlenmemiş verileri Semantic Scholar külliyatı650,000 yıllık bir süreyi kapsayan 30 belgeyi oluşturan ve söz tipi tasnifi üzerinde çalıştıkları (SciERC) ve AI mekan sınıflandırması (bir makalenin yayınlanıp yayınlanmadığını ayırt eden AIC) AAAİ or ICML).

Haberler Makaleler
...yazarların dokuz milyon makaleyi kullandığı yer Haber Odası Veri Kümesi 2009-2016 dönemini kapsayan, üç görevi yerine getirdikleri: haber odası özetleme, yayıncı sınıflandırması ve Medya çerçeveleri sınıflandırması (MFC).

Gıda Yorumları
…araştırmacıların kullandığı yer Yelp Açık Veri Kümesi tek bir görevde: bu sektördeki NLP araştırmalarının çoğuna özgü geleneksel bir duygu analizi zorluğu olan derecelendirme sınıflandırmasını (YELPCLS) gözden geçirin.

Sonuçlar

Modeller değerlendirildi GPT 2, sonuç aralığı ile F1 puanları. Yazarlar, zamansal yanlış hizalamadan kaynaklanan performans kaybının iki yönlü olduğunu, yani yeni verilerle eğitilen modellerin daha eski verilerin etkisinden olumsuz etkilenebileceğini ve bunun tersi olduğunu buldu (grafikler için makalenin başındaki resme bakın). Yazarlar, bunun sosyal bilim uygulamaları için özel çıkarımları olduğuna dikkat çekmektedir.

Genel olarak sonuçlar, zamansal yanlış hizalamanın performans kaybını 'önemli ölçüde' azalttığını ve çoğu görev üzerinde geniş bir etkiye sahip olduğunu göstermektedir. Onlarca yıl gibi çok uzun dönemleri kapsayan veri kümeleri doğal olarak sorunu daha da kötüleştiriyor.

Yazarlar ayrıca zamansal yanlış hizalamanın etiketlenmiş ve etiketlenmemiş ön eğitim verilerini de etkilediğini gözlemlemektedir. Ek olarak, etki alanı uyarlaması (aşağıya bakın) yoluyla etkileri hafifletme girişimleri, veri kümesindeki veri bilgilerinin ince ayarının bir dereceye kadar yardımcı olabileceğini iddia etmelerine rağmen, durumu önemli ölçüde iyileştirmedi.

Sonuç

Araştırmacılar, daha önce önerilen çarelerin dahil olduğu önceki bulguları doğruladılar. alan uyarlaması (veri eşitsizliği için ödeneğin hazırlandığı DAPT) ve zamansal uyum (verilerin zaman periyoduna göre seçildiği yerlerde) sorunu hafifletmek için çok az şey yapın.

Makale şu sonuca varıyor*:

"Deneylerimiz, görevler arasında zamansal bozulmada önemli farklılıklar ortaya çıkardı; önceki çalışmalar. Bu bulgular, NLP uygulamalarında zamansal yanlış hizalamanın devam eden çalışmalarını, kıyaslama değerlendirmelerinde dikkate alınmasını ve zaman içinde canlı sistem performansını izleyebilen uygulayıcıların dikkatli olmasını motive eder.

"Belirgin bir şekilde, LM'lerin geçici olarak hizalanmış veriler üzerinde sürekli eğitiminin fazla bir etkisinin olmadığını gözlemledik ve bu da, açıklamalı/etiketli veri kümelerinin zaman içinde sürekli olarak toplanmasından daha az maliyetli olan etkili geçici uyarlama yöntemleri bulmaya yönelik daha fazla araştırmayı motive etti."

Yazarlar, verilerin sürekli olarak güncellendiği sürekli öğrenmeye yönelik daha fazla araştırmanın bu açıdan yararlı olabileceğini ve kavram kaymasının ve görevlerdeki kaymaları tespit etmeye yönelik diğer yöntemlerin veri kümelerini güncellemek için yararlı bir yardımcı olabileceğini öne sürüyorlar.

* Satır içi alıntıları köprülere dönüştürmem.