Yapay Zekâ

Yapay Mekanik Türklerin Ön Eğitilmiş Dilleri Modelleri ile Oluşturulması

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

Makine öğrenimi sistemlerinin geliştirilmesinin büyük bir kısmı, verilerin etiketlenmesine dayanır, burada yüzlerce, hatta binlerce soru (örneğin, Bu bir kedi resmi mi? ve Bu metin saldırıya açık mı?) yetkili veri kümelerinin geliştirilmesi için çözülmesi gerekir. AI sistemlerinin eğitileceği.

Her ne kadar hepimiz bu sürece某 bir noktada katkıda bulunuyorsak da, bu etiketleme görevlerinin büyük çoğunluğu para karşılığında Amazon Mechanical Turk gibi çerçevelerde insan işçiler tarafından gerçekleştirilir, burada annotators küçük sınıflandırma görevlerini parça-iş ekonomisinde tamamlar.

Model geliştirme, ön eğitilmiş dil modellerinin (PLM’ler) kendilerinin, AMT ve benzer platformlarda halka açık kaynaklanan bazı daha temel İnsan Zekası Görevlerini (HIT’leri) üstlenmeleri durumunda daha ucuz olurdu.

Almanya ve Huawei’den recent araştırma, bunu öneriyor, makalede LMTurk: Few-Shot Learners as Crowdsourcing Workers.

Dil Modellerinin Az-Shot Öğrenimi

Yazarlar, insan Türk işçilerine genellikle yönlendirilen görevlerin daha basit katmanlarının, bir otomasyonlu çerçevede küçük bir görevi kendisine verilen birkaç örneğe dayanarak karar vermesi gereken az-shot öğrenim ile benzer olduğunu öne sürüyorlar.

Bu nedenle, AI sistemlerinin, insan işçiler tarafından önceden eğitilen mevcut PLM’lerden etkili bir şekilde öğrenabileceğini önerirler – insanların makinelerine aktardığı temel bilginin esasen zaten verildiğini ve böyle bir bilginin nispeten değişmez veya某 şekilde empirik olması durumunda, otomatik dil modeli çerçevelerinin bu görevleri kendileri gerçekleştirebileceğini öne sürerler.

‘Temel fikrimiz, bir NLP görevi T için, az-shot öğrenenleri uzman olmayan işçiler olarak tedavi etmektir, insan dil teknolojisinde kaynakları etiketleyen crowdsourcing işçilerini andırır. Crowdsourcing işçisini bir tür az-shot öğrenen olarak görme olasılığı ile ilham aldık.’

Bu durumun anlamı, gelecekteki AI sistemlerine bağlı olan birçok gerçeklerin, insanların çok önce türetilmiş olabileceği, daha sonra insan müdahalesi gerektirmeden önceden doğrulanmış ve kullanılabilir bilgi olarak kabul edilebileceğidir.

Orta Düzey, Semi-Performanslı Dil Modelleri için İşler

İnsanların dahil olduğu maliyeti azaltma motivasyonunun yanı sıra, araştırmacılar, ‘orta düzey’ PLM’lerin gerçekten Mekanik Türk olarak kullanmanın, GPT-3 gibi büyük, pahalı ve bu tür görevler için fazla büyük dil modelleri tarafından giderek gölgede bırakılan bu ‘orta düzey’ sistemler için yararlı bir iş sağladığını öne sürerler.

‘Bu makaledeki amacımız, mevcut az-shot öğrenenleri daha etkili bir şekilde kullanmak için yöntemler geliştirmektir. Bu çok önemlidir, çünkü giderek daha fazla devasa az-shot öğrenen eğitiliyor; bunları etkili bir şekilde nasıl kullanacağımızı bilmek önemli bir sorudur. Özellikle, zorlu bir şekilde dağıtılan büyük modellere alternatif arıyoruz. ‘

‘Aynı zamanda, PLM’lerin güçlerini tam olarak kullanmak istiyoruz: Esneklikleri, görevler boyunca geniş bir uygulanabilirlik sağlar; diller ve dünya hakkında (ön eğitimde öğrenilen) bilgi, az-shot öğrenenlerin veri verimliliğinde kendini gösterir ve veri etiketleme sırasında emek ve zaman tüketimini azaltır.’

Şu ana kadar, yazarlar, NLP’de az-shot öğrenenlerin, daha yüksek düzeyde doğal dil sistemlerine giden yolda atılmış ara aşamalar olarak behand edildiğini, bu tür çalışmaların soyut bir şekilde ve bu sistemlerin olası faydası dikkate alınmaksızın gerçekleştirildiğini savunur.

Yöntem

Yazarlar, LMTurk (Dil Modeli olarak Mekanik Türk) önerirler, burada bu otomatik HIT’den gelen girdi, bir orta düzey NLP modeli için etiketler sağlar.

LMTurk için temel bir kavram modeli. Kaynak: https://arxiv.org/pdf/2112.07522.pdf

Bu ilk iterasyon, az-shot insan etiketli ‘altın’ verilere dayanır, burada etiketler, sınırlı sayıda görev için insan işçiler tarafından etiketlenmiştir ve etiketler, doğrudan insan denetimi veya konsensüs oylaması yoluyla iyi bir şekilde puanlanmıştır. Bu şemanın anlamı, bu insan temelli başlangıç noktasından dallanmalar veya geliştirmeler, yolda insan girdisi gerektirmeyebilir.

Veri ve Mimarisi

LMTurk, beş veri kümesinde değerlendirildi: iki Stanford Sentiment Treebank; AG’nin Haber Korpusu; Metin Anlamını Tanıma (RTE); ve Dilsel Kabul Edilebilirlik Korpusu (CoLA).

LMTurk’in daha büyük modeli, kamu tarafından erişilebilen PLM ALBERT-XXLarge-v2 (AXLV2)’yi, otomatik Türk’e dönüştürmek için kaynak model olarak kullanır. Model, 223 milyon parametre (GPT-3’teki 175 milyar parametre karşı) içerir. AXLV2, yazarlar观察, daha yüksek ölçekli modeller gibi 334M BERT-Large‘i geride bırakma yeteneğini kanıtlamıştır.

Daha çevik, hafif ve kenar-dağıtıma uygun bir model için, proje TinyBERT-General-4L-312D (TBG) kullanır, bu 14.5 milyon parametre ve BERT-base (110 milyon parametre) ile karşılaştırılabilir bir performans içerir.

İsteğe bağlı eğitim, PyTorch ve HuggingFace’de AXLV2 için 100 batch adımda, 13’lük bir batch boyutunda, 5e-4’lük bir öğrenme hızında ve lineer bozulma ile gerçekleşti. Her deney, üç farklı rastgele tohumla başlatıldı.

Sonuçlar

LMTurk projesi, NLP’nin birçok spesifik alt sektörüne karşı çeşitli modelleri çalıştırır, bu nedenle araştırmacıların deneylerinin karmaşık sonuçları, LMTurk’in tarihsel, insan kaynaklı HIT benzeri az-shot öğrenme senaryolarının yeniden kullanımına yönelik uygulanabilir bir yaklaşım sunduğuna dair empirik kanıtları azaltmak kolay değildir.

Ancak, değerlendirme amacıyla, yazarlar yöntemlerini iki önceki çalışmaya karşılaştırır: Metin Sınıflandırması ve Doğal Dil Anlama için Cloze Sorularının Kullanılması Alman araştırmacılar Timo Schick ve Hinrich Schutze tarafından; ve Prompt-Based Auto sonuçları, Ön Eğitilmiş Dil Modellerini Daha İyi Az-Shot Öğrenenler Yapmak Gao, Chen ve Fisch (sırasıyla Princeton ve MIT’den) tarafından.

LMTurk deneylerinden sonuçlar, araştırmacıların ‘karşılaştırılabilir’ performans rapor ettiği sonuçlar.

Kısacası, LMTurk, araştırmacılar için, altın etiketli insan kaynaklı verilerini gelişen, orta düzey dil modellerine gömmek ve otomatik sistemlerin insan girdisi yerine geçebileceği bir araştırma hattı sunar.

Bu alandaki önceki çalışmalar gibi, merkezi kavram, orijinal insan verilerinin değişmezliğine ve zaman faktörlerinin, makine-sadece soy ağacının gelişmesi sırasında insan müdahalesi gerektirmeyeceğine dayanır.

Aslen 30 Aralık 2022’de yayımlanmıştır

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]