saplama GPT-3 : Dil Modeli İçin Birkaç Adımda Öğrenme? - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

GPT-3 : Dil Modeli İçin Birkaç Adımda Öğrenme?

mm

Yayınlanan

 on

Geçtiğimiz birkaç yılda, araştırmacılar NLP uygulamalarını aşağı yönlü aktarım görevleri için son derece esnek ve görevden bağımsız yollarla uygulayabildiklerinden, yapay zeka ve makine öğrenimi endüstrisi, NLP sistemlerinin geliştirilmesinde ve uygulanmasında çok hızlı bir artışa tanık oldu. 

Başlangıçta kelime vektörleri kullanılan tek katmanlı temsillerdi ve daha sonra göreve özgü mimariye beslendi. Daha sonra, daha iyi temsiller oluşturmak için çok katmanlı temsilleri ve bağlamsal durumu kullanan RNN mimarisiydi. Ve son zamanlarda, bu ağlara ince ayar yaparak göreve özgü mimarilere olan ihtiyacı tamamen ortadan kaldıran transfer dili modellerine veya önceden eğitilmiş yinelenen modellere sahibiz. 

Transfer dili modelleri, NLP endüstrisinde önemli bir dönüm noktası olduğunu kanıtladı; çünkü soruları yanıtlama, okuduğunu anlama veya metin blokları, metinsel anlamlandırma ve çok daha fazlası gibi zorlu görevlerde muazzam ilerleme sağladılar. 

Ancak, avantajlarına rağmen transfer dili modellerinin önemli bir sınırlaması vardır; çünkü bir görevde istenen performansı elde etmek için göreve özgü ince ayar veya göreve özgü veri kümesi gerektirirler. Ayrıca, aktarım dili modelleri, geliştiricilerin veri kümelerinde belirli bir göreve özgü yüz binlerce örneğe ince ayar yapmasını da gerektirir. 

Göreve özgü veri kümesi gereksiniminin ve göreve özgü ince ayarın kaldırılmasının, birçok nedenden dolayı NLP endüstrisi için son derece arzu edilir ve faydalı olacağını söylemeye gerek yok. 

Mevcut Önceden Eğitilmiş Transfer Dili Modelleri veya Tekrarlanan Modellerle İlgili Sorunlar

  • Pratikliği ve Uygulanabilirliği Sınırlamak

Her şeyden önce, her görev için etiketlenmiş verileri içeren büyük bir veri kümesinin gerekliliği, dil modellerinin uygulanabilirliğini ve uygulanabilirliğini sınırlamaktadır. Dil modelleri, kısa öykü oluşturmaktan dilbilgisi hatalarını düzeltmeye, bir kavramla ilgili örnekler oluşturmaya kadar çok çeşitli görevlerde uygulamalarını bulur. Bazen, özellikle sürecin her bir görev için tekrarlanması gerektiğinde, etiketlenmiş verilerle denetlenen büyük bir veri kümesi toplamak zorlu bir görev olabilir. 

  • Eğitim Verilerinde Sahte Korelasyonlardan Yararlanmak

Eğitim dağılımının sınırlamaları ve darlığı, modelin anlamlılığıyla birleştiğinde, eğitim verilerindeki sahte korelasyonlardan yararlanma potansiyelinde temel bir artışla sonuçlanabilir. Transfer dili modelleri, eğitim öncesi sırasında büyük miktarda bilgiyi absorbe edecek şekilde tasarlandığından, eğitim verilerinden yararlanma potansiyeli, ince ayar ve eğitim öncesi paradigma sırasında sorunlara neden olabilir. 

Ayrıca, önceki modeller üzerinde yapılan çalışmalar, büyük modellerin her zaman daha iyi dağıtımla sonuçlanmadığını göstermiştir. Ayrıca, böyle bir paradigma altında elde edilen genellemenin, öncelikle modelin eğitim verilerine oldukça spesifik olması ve eğitim verilerinin kapsamı dışındaki durumlarda iyi performans gösterememesi nedeniyle düşük performansla sonuçlanabileceği de belirtildi. 

  • İnsan Öğrenmesiyle Karşılaştırma

Son olarak, transfer dili modelleriyle karşılaştırıldığında, konu dil görevlerinin çoğunu öğrenmek olduğunda insanlar büyük bir eğitim veri setine ihtiyaç duymazlar. Çoğu zaman, bir kişinin doğal dilindeki kısa bir talimat veya dil görevinin küçük bir gösterimi, bir insanın bir dil görevini belirli bir düzeyde rekabet gücüyle anlaması ve yerine getirmesi için yeterlidir. 

İnsanın uyum sağlama yeteneği, ya farklı beceriler arasında geçiş yapmasına ya da bir lehçe sırasında daha iyi performans göstermek için bunları bir araya getirmesine olanak tanıdığı için çok sayıda pratik avantaja sahiptir; bu, mevcut NLP sistemlerinin yeteneklerinin ötesinde bir şeydir. 

Meta Öğrenme ve GPT-3 ile Sorunların Üstesinden Gelmek

Yukarıdaki zorluklara olası bir çözüm, modern makine öğreniminde bir modelin daha büyük ve daha geniş bir dizi beceri ve eğitim sırasında kalıpları tanıma becerisi geliştirmesine olanak tanıyan ve daha sonra müdahale sırasında bu öğrenilen yetenekleri uyum sağlamak için kullanan bir kavram olan meta öğrenmenin kullanılmasıdır. hızla veya gerekli görevi tanıyın. 

Meta Öğrenme, dil modeli mimarisinde “” adı verilen bir teknikle uygulanmaktadır.bağlam içi öğrenme”, görev spesifikasyonu olarak önceden eğitilmiş bir dil modelinin metin girişini kullanır. Süreçte, model doğal dil öğretimini şart koşar ve hatta birkaç gösterim kullanabilir ve daha sonra modelin sonraki adımları tahmin ederek görevin geri kalanını tamamlaması beklenir. 

Meta Öğrenme ile ilgili tek önemli sorun, olumlu potansiyel göstermesine rağmen, doğal dil mimarisindeki ince ayar yaklaşımına göre hala yetersiz olması ve dil görevlerinin üstesinden gelmek için pratik bir yöntem haline gelmesi için daha fazla geliştirilmesine ihtiyaç duymasıdır. 

Meta öğrenmeye ek olarak popülerlik kazanan bir diğer yöntem ise dönüştürücü dil modellerinin kapasitesinin arttırılmasıdır. Geçtiğimiz birkaç yılda transfer modellerinin kapasitesinde önemli bir artış yaşandı. RNSS18 100 milyon parametreli model DCLT18 300 milyon parametreli model RWC19 1.5 milyar parametreli model SSP19 8 milyar parametreli model RSR19 11 milyar parametreli model ve TUR20 17 milyar parametreli model. 

Modelin kapasitesinin arttırılması veya parametrelerin arttırılması, tarihsel olarak metin sentezinde iyileştirmelerle sonuçlanmıştır ve aşağı akış görevleriyle ilişkili olan günlük kaybının, ölçekle birlikte düzgün bir iyileşme eğilimi izlediğine dair bir gösterge vardır. 

Bu da bizi 3 milyarın üzerinde parametreye sahip GPT-175 modeline getiriyor ve piyasaya sürüldüğünde en yüksek kapasiteye sahip transfer dili modeliydi. Şimdi GPT-3 modelinden bahsedelim. 

GPT-3 Modeline Giriş

GPT-3, OpenAI tarafından 175'de piyasaya sürülen 2020 milyardan fazla parametreye sahip otomatik agresif bir dil modelidir. GPT-3 aynı zamanda bir dil modeli olarak da sınıflandırılır. büyük dil modeli Tıpkı selefi gibi GPT-2 modelinin de metinsel veriler oluşturmak için evrişim tabanlı mimariyi kullanan, yalnızca kod çözücüye dayalı bir derin öğrenme transformatör modeli olduğu. 

GPT-3 modeli kendi bağlam öğrenme yeteneklerini ölçer ve GPT-3 modeli iki düzineden fazla NLP veri kümesi ve birden fazla yeni görev üzerinde değerlendirilir. Her bir görev için GPT-3 modeli üç koşul altında değerlendirilir:

  • Birkaç Noktada Öğrenme veya Bağlam İçi Öğrenme: Birkaç adımlı öğrenmede, GPT-3 modeli, modelin bağlam penceresine iyi bir şekilde sığabilecek kadar çok dağıtıma izin verir. 
  • Tek Atışta Öğrenme: Tek atışlı öğrenmede model yalnızca bir gösterime izin verir. 
  • Sıfır Atış Öğrenme: Sıfır atış öğrenmede gösterim yoktur ve yalnızca modele beslenen doğal dilde bir talimat vardır. 

Genel olarak konuşursak, GPT-3 modeli sıfır atım ve tek atım ayarlarında istenilen performansı yakalarken, az atım ayarında da çoğu zaman son teknoloji transfer modellerinin üzerinde performans göstermektedir. Ayrıca, GPT-3 modeli, anında akıl yürütmeyi test etmek için tasarlanmış doğal dil görevlerinde tek seferlik ve sıfır atış ayarlarında iyi performans gösterir veya bir cümleden sonra yeni kelimeler kullanmak, kelimeleri çözmek veya aritmetik işlem yapmak gibi hızlı dikkat gerektirir. operasyonlar. Öte yandan, birkaç çekimlik bir ortamda çalıştırıldığında GPT-3 modeli, insan değerlendiricilerden geçtiğinde insan yazısına benzeyen sentetik haber makaleleri üretiyor. 

GPT-3 Modeli: Yaklaşım

GPT-3 modeli, model, veri ve eğitimi içeren geleneksel bir eğitim öncesi yaklaşımı kullanır ve RWC-19 aktarım dili modelinin takip ettiği eğitim öncesi sürece benzer. GPT-3 modeli, model boyutunu, veri kümesi boyutunu, veri kümesi çeşitliliğini büyütür ve eğitim süresinin uzunluğunu artırır. 

Model aynı zamanda bir kez daha RWC-19 modelinin yaklaşımına benzeyen bir bağlam içi öğrenme yaklaşımı kullanıyor ancak veri kümesi bağlamında öğrenme kalıpları için farklı ayarları sistematik olarak keşfederek işleri biraz daha iyi hale getiriyor. 

Öyleyse bu ayarları inceleyerek başlayalım ve GTP-3 modelinin farklı ayarlarda nasıl performans gösterdiğini değerlendirelim. 

İnce ayar

Modelin ince ayarının yapılması transferde geleneksel yaklaşım olmuştur. dil modellerive bu yaklaşım, modeli istenen göreve özel, denetlenen bir veri kümesi üzerinde eğiterek önceden eğitilmiş bir modelin ağırlıklarının güncellenmesini içerir ve süreç sırasında yüzbinlerce etiketli örnek kullanılır. 

İnce ayar yaklaşımı faydalıdır çünkü çok sayıda kıyaslamada güçlü performans sağlar. Öte yandan, ince ayar yaklaşımını kullanmanın ana sınırlaması, her bir görev için yeni ve büyük bir veri seti gerektirmesi, eğitim veri setinin sahte özelliklerinden yararlanma potansiyeline sahip olması ve potansiyel olarak insan performansıyla adil olmayan bir karşılaştırmaya yol açabilmesidir. ve dağıtım dışı için zayıf genelleme. 

GPT-3 modelinin mevcut kapsamı, görevden bağımsız performansı nedeniyle ince ayar yaklaşımını uygulamamaktadır; ancak ince ayar gelecekte GPT-3 modeline uygulanabilir. 

Birkaç Atış

Az Atış, koşullandırma olarak müdahale sırasında GPT-3 modeline görevin birkaç gösteriminin verildiği ancak modelin ağırlıklarının güncellenmediği ayarı ifade eden bir terimdir. Birkaç çekim ayarında, veri kümesinde genellikle bağlamı ve istenen tamamlaması olan bir örnek bulunur (örneğin, Fransızca bir cümle ve bunun İngilizce çevirisi). Birkaç çekim ayarı modeli verir K bağlam ve tamamlama örnekleri verir ve daha sonra modele son bir bağlam sağlar ve modelin tamamlamayı sağlamasını bekler. 

Birkaç atış ayarını kullanmanın en büyük avantajı, göreve özgü verilere olan ihtiyacı önemli ölçüde azaltması ve aynı zamanda dar bir şekilde ince ayarı yapılan büyük bir veri kümesinden dar bir dağılım öğrenme potansiyelini de azaltmasıdır. Öte yandan, az çekimli öğrenmeyi kullanmanın en büyük dezavantajı, birkaç çekimli ayarda sunulan sonuçların hedeflenen düzeyde olmaması ve ince ayarı yapılmış diğer son teknoloji modellerle karşılaştırıldığında önemli ölçüde zayıf olmasıdır. 

One Shot

Tek çekim ayarında model yalnızca tek bir gösterimle sunulur, geri kalanı birkaç çekim ayarına benzer. Tek çekim ayarının aktarım dili modelleriyle alakalı olmasının nedeni, üç ayar arasından tek çekimin, görevlerin insanlara iletilme biçimini en iyi şekilde andıran ayar olmasıdır. Bunun nedeni, çoğu görevde, görevin bir gösteriminin yapılmasının yaygın olmasıdır, aksi takdirde görevin bağlamını anlamak zor olabilir. 

Sıfır Atış

Sıfır atış ayarında hiçbir gösterim yoktur ve modele, görevi açıklayan doğal bir dil talimatı verilir. Sıfır atış yöntemi, maksimum rahatlık sunan, sağlam ve aynı zamanda sahte korelasyonları önleyen yöntemdir, ancak aynı zamanda bu üç ayar arasında en zorlayıcı olanıdır. Bunun nedeni bazı durumlarda biz insanlar için bile önce bir gösteriyi görmeden bir görevin içeriğini anlamanın zor olmasıdır. 

Ne olursa olsun, bazı görevler için sıfır atış ayarı, insanların doğal dil görevlerini gerçekleştirme biçimine en yakın olanıdır. 

Yukarıdaki şekil, İngilizce bir cümleyi alıp Fransızcaya çevirmek gibi doğal bir dil görevi gerçekleştirirken, birkaç çekim, tek çekim ve sıfır çekim ayarını karşılaştırmaktadır. 

GPT-3: Model Mimarisi

GPT-3 modeli, GPT-2 modelinde kullanılanla aynı mimariyi kullanır ve alternatif bir model kullanılması haricinde, GPT modelinde kullanıldığı şekliyle ön normalleştirme, değiştirilmiş başlatma ve geri döndürülebilir tokenizasyon tekniklerini içerir. Seyrek Transformer'a benzer şekilde, yerel bantlı seyrek dikkat kalıpları ve transformatör katmanlarındaki alternatif yoğun katmanlar için strateji. 

Modelin performansının model boyutuna bağımlılığını incelemek için geliştiriciler, 8 milyondan 125 milyarın üzerinde parametreye kadar üç farklı büyüklükteki 175 farklı model boyutunu eğittiler; bunlardan sonuncusu GPT-3 modeli olarak adlandırıldı. . LLM modelleriyle ilgili önceki çalışmalar, doğrulama kaybının yeterli miktarda eğitim verisi ile ölçeklendirilmesinin, boyutun bir fonksiyonu olarak yaklaşık bir düzgün güç yasası olması gerektiğini göstermiştir. Farklı boyutlardaki eğitim modelleri, geliştiricilerin hem aşağı akış dil görevleri hem de doğrulama kaybı için hipotezi test etmesine olanak tanır. 

Yukarıdaki şekil GPT-8'ün geliştirilmesinde kullanılan 3 farklı modelin boyutunu ve mimarisini karşılaştırmaktadır. Burada, n(params) eğitilebilir modellerin toplam sayısını, n(katmanlar) modeldeki toplam katman sayısını, d(model) darboğazın her katmanındaki birim sayısını ve d(head) ise şunu tanımlar: her bir dikkat kafasının boyutları. Her modelin bağlam penceresi 2048 token ile aynıdır. 

Ayrıca, düğümler arasındaki veri aktarımını en aza indirmek için model, boyutların derinliği ve genişliği boyunca GPU'lar arasında bölünür. Her modelin mimari parametreleri, hesaplama verimliliği ve GPU'lardaki modellerin yerleşimindeki hassasiyeti en üst düzeye çıkarmak için yük dengeleme temel alınarak seçilmiştir. 

Eğitim Veri Kümeleri

Tipik olarak büyük dil modelleri, son gelişmelerle önemli ölçüde genişleyen veri kümelerini kullanır ve bir trilyondan fazla farklı kelimeden oluşan Ortak Tarama veri kümesiyle sonuçlanır. Veri kümesinin boyutu, GPT-3 modelini aynı dizide birden çok kez güncelleme yapmadan eğitmeye yetecek kadar yeterlidir. Ancak çalışmalar ve performans analizi, Common Crawl veri kümesinin hafif filtrelenmiş veya filtrelenmemiş sürümlerinin, daha iyi düzenlenmiş veri kümesiyle karşılaştırıldığında düşük kaliteye sahip olduğunu göstermektedir. 

Veri kümesinin ortalama kalitesi sorununu çözmek için geliştiriciler, veri kümesinin kalitesini artırmak üzere 3 adım attı. 

  1. Geliştiriciler, yüksek kaliteli referans derlemlerine benzer bir aralığa dayalı olarak Common Crawl veri kümesinin bir sürümünü indirdi ve filtreledi. 
  2. Geliştiriciler, aşırı uygunluğun etkili bir ölçümü olarak uzatılmış doğrulama setlerinin bütünlüğünü korumak ve aynı zamanda fazlalığı önlemek amacıyla veri seti genelinde belge düzeyinde bulanık çoğaltma gerçekleştirdi. 
  3. Geliştiriciler ayrıca Ortak Tarama veri kümesini güçlendirmek ve veri kümesinin çeşitliliğini daha da artırmak için eğitim verilerine yüksek kaliteli referans derlemleri ekledi. 

Aşağıdaki şekil GPT-3 modelini eğitmek için kullanılan veri kümelerinin nihai oranını veya karışımını göstermektedir. Ortak Tarama verileri, filtrelemeden önce 45 TB'nin üzerinde düz metinden oluşuyordu ve filtreleme sonrasında 570 GB veriye düşürüldü; bu, kabaca 400 milyar bayt çifti üzerinde kodlanmış jetona eşdeğerdir. Eğitimde daha yüksek kalitede görülen veri kümelerinin, boyutlarına göre veri kümesini örneklemek yerine daha sık örneklendiğini belirtmekte fayda var. Sonuç olarak, Books2 ve Common Crawl gibi veri kümeleri eğitim sırasında bir defadan daha az örneklenirken diğer veri kümeleri birden çok kez örneklenir. Daha yüksek kalitede eğitim verileri üzerinde eğitim karşılığında modelin az miktarda aşırı uyumu kabul etmesine olanak tanır. 

Büyük miktarda içeriği ezberleme ve öğrenme kapasitesine sahip, büyük miktarda internet verisi üzerinde önceden eğitilmiş büyük dil modelleriyle ilgili önemli bir endişe, ön hazırlık sırasında geliştirme veya test setlerinin görülmesi nedeniyle aşağı yöndeki görevlerin potansiyel olarak kirlenmesidir. Eğitim süreci. Bu tür potansiyel kirlenmeyi azaltmak için geliştiriciler, GPT-3 için incelenen kriterlerin test ve geliştirme setleriyle herhangi bir örtüşmeyi araştırdı ve bu örtüşmeleri ortadan kaldırmaya çalıştı. 

Yukarıdaki resim GPT-3 modelinin eğitimi sırasında kullanılan toplam hesaplamayı göstermektedir. Model, normalden daha az sayıda jetonla çok daha büyük modelleri eğitmek için Sinir Dili Modelleri için Ölçekleme Yasalarını kullanır. Sonuç olarak, hem GPT-3 hem de GPT-10 modelinden 3 kat daha küçük olan RoBERTa-Large modeli, ön eğitim sürecinde yaklaşık 50 petaflops/gün hesaplama harcadı. 

Değerlendirme

Birkaç atışlı öğrenme için model, değerlendirme veri setinde mevcut olan her örneği, o görevin eğitim veri setinden koşullandırma olarak rastgele K örnek çizerek değerlendirir ve göreve bağlı olarak bunu 1 veya 2 yeni satırla sınırlandırır. Storycloze ve LAMBADA için model, denetimli bir eğitim setinin mevcut olmaması nedeniyle geliştirme setinden koşullandırma örnekleri alır ve bunu test setinde değerlendirir. Winograd için yalnızca bir veri kümesi vardır ve bu nedenle koşullandırma örnekleri doğrudan ondan alınır. 

K, 0'dan modelin bağlam penceresinin izin verdiği maksimum miktara kadar (n) kadar herhangi bir değer olabilir.ext = 2048 tüm modeller için ve genellikle yaklaşık 10 ila 100 örneğe uyar. Daha büyük K değerleri genellikle daha iyi sonuçlarla sonuçlanır, ancak her zaman bu geçerli değildir, bu nedenle modelde bir test seti ve ayrı bir geliştirme seti mevcut olduğunda, model, geliştirme seti üzerindeki birkaç K değeri üzerinde deneyler yapar ve sonuçlara dayanır. , test kümesindeki en iyi değeri çalıştırır. 

Ayrıca, birden fazla seçenek arasından doğru bir tamamlamanın seçilmesini gerektiren görevlerde, geliştiriciler K düzeltme artı bağlam tamamlama örneği sağlar ve bunu yalnızca bir bağlam örneği sağlayarak takip eder ve görevler daha sonra LM olasılığı temelinde karşılaştırılır. her tamamlamanın. İkili sınıflandırma gerektiren görevler için modeller genellikle seçenekleri daha anlamsal olarak ve daha anlamlı adlarla verir ve daha sonra görevi çoktan seçmeli olarak ele alır ve bazen görevi RSR modeli ve mimarisi tarafından yapılana benzer şekilde çerçeveler. 

Serbest biçimli tamamlama gerektiren görevler için model, RSR çerçevesinde kullanılanla aynı parametrelerle, 4 ışın uzunluğunda ve 0.6 cezayla ışın aramayı kullanır. Daha sonra model, veri kümesi standardına bağlı olarak F1 benzerlik puanı, tam eşleşme veya BLEU kullanılarak puanlanır. 

Sonuçlar

Yukarıdaki şekil, önceki bölümlerde açıklandığı gibi GPT-8 model mimarisinde kullanılan 3 modele yönelik eğitim eğrilerini göstermektedir. KMH dil modelinden elde edilen sonuçlara benzer şekilde, GPT-3 modelinin performansı, eğitim hesaplamasını etkili bir şekilde kullanırken uygun bir yasayı takip eder. Yalnızca trendin iki kat daha uzatılması durumunda yasadan küçük bir fark vardır. İnsanların aklına, çapraz entropi kaybındaki iyileşmelerin, eğitim külliyatındaki sahte ayrıntıların modellenmesinin bir sonucu olabileceği gelebilir. Bununla birlikte, çapraz entropi kaybındaki gelişmeler, çeşitli NLP görevlerinin geniş bir yelpazesinde genel performansta tutarlı kazanımlara yol açmaktadır. 

Geniş bir eğitim verisi yelpazesindeki 8 farklı modeli değerlendirmeden önce, veri setleri benzer görevleri temsil eden 8 farklı kategoride gruplandırılmıştır. Bu kategoriler

  1. Geleneksel dil modelleme görevleri ve Kapatma görevleri veya cümle/paragraf tamamlama görevleri gibi dil modellemeye benzeyen görevler üzerinde değerlendirme. 
  2. “Kapalı kitap” soru cevaplama görevlerinin değerlendirilmesi. 
  3. Modelin diller arasında çeviri yapma yeteneğinin değerlendirilmesi (özellikle tek seferlik ve birkaç çekim)
  4. Modelin Winograd Şeması benzeri görevlerdeki performansının değerlendirilmesi. 
  5. Sağduyulu akıl yürütmeyi veya soru yanıtlamayı içeren veri kümeleri üzerinde değerlendirme. 
  6. Okuduğunu anlama görevlerinin değerlendirilmesi. 
  7. SuperGLUE kıyaslama paketi üzerinde değerlendirme. 
  8. NLI'yi keşfetmek. 

Dil Modelleme, Tamamlama ve Kapatma Görevleri

Bu bölümde, GPT-3 modelinin performansı, geleneksel dil modelleme görevlerinin yanı sıra ilgi çekici tek bir kelimenin tahmin edilmesini, bir paragrafın veya cümlenin tamamlanmasını veya bir metin parçasının tamamlanmasını gerektiren görevlerde de değerlendirilmektedir. Bunları kısaca detaylı olarak tartışalım. 

Dil Modelleme

GPT-3 modeli, PTB veya Penn Tree Bank veri kümesindeki sıfır atış karışıklığını hesaplar. Model, Wikipedia ile ilgili görevleri atlar çünkü zaten modelin eğitim verilerine dahil edilmiştir ve bir milyar kelimelik kıyaslama da eğitim verilerinin içindeki veri kümesinde önemli miktarda sürtünmeye neden olduğu için atlanmıştır. Ancak PTB veri seti, modern internetten önceye dayanabildiği için bu sorunların üstesinden geliyor. GPT-3 model mimarisindeki en büyük model, yeni SOTA'yı PTB veri setine 15 puanlık kayda değer bir farkla dahil ederek 20.50 şaşkınlık elde ediyor. 

Lambada

LAMBADA veri seti, modelin modellemesini paragraflar veya metinlerdeki uzun vadeli bağımlılıklara göre test etmek için kullanılır. Bu, modelden bağlam için paragrafı okuduktan sonra cümlenin son kelimesini tahmin etmesinin istendiği anlamına gelir. Ayrıca, dil modellerinin sürekli ölçeklendirilmesi, kıyaslamada azalan getiriler sağlar. 

GPT-3 modeli LAMBADA'da %76 doğruluk elde ediyor ve önceki en iyi modellere göre %8'in üzerinde kazanç elde ediyor. Ayrıca LAMBADA modeli, problemi veri setinde klasik olarak ortaya çıkan bir şekilde ele aldığı için birkaç adımlı öğrenmenin esnekliğini göstermektedir. LAMBADA'da bir cümlenin tamamlanması genellikle cümlenin son kelimesidir ancak dil modeli bunu bilemeyeceği için sadece doğru sona değil paragraftaki diğer devamlara da bir olasılık atar. 

Ayrıca, GPT-3 modeline beslenen örnekler belirli bir şekilde değiştirildiğinde, model önceki modellere göre %86'in üzerinde bir artışla %18'nın üzerinde bir doğruluk elde etmektedir. Ek olarak sonuçlar, modelin birkaç çekim ayarındaki performansının model boyutunun artmasıyla orantılı olarak arttığını da gösterdi. Bu strateji, GPT-3 mimarisindeki en küçük modeli %20 oranında küçültse de, 3 milyar parametreli birincil GPT-175 modelinin doğruluğunu %10 oranında artırıyor. 

Kapalı Kitap Soru Cevapları

Kapalı Kitap Sorularını Yanıtlama, GPT-3 modelinin soruları geniş kapsamlı bilgiye dayalı olarak yanıtlama yeteneğini ölçmeye yönelik bir girişimdir. Bu tür sorular genellikle yüksek miktarda olası sorgu içerdiğinden, görev normalde modelin ilgili metni bulmasına olanak tanıyan bir bilgi erişim sistemi kullanılarak, alınan metin verilen bir cevaba yanıt oluşturmayı öğrenen modelle birlikte gerçekleştirilir ve soru. 

Yukarıdaki resim, farklı veri kümelerinde çalışan GPT-3 modelinin sonucunu farklı modellerle karşılaştırmaktadır. Model, TriviaQA veri setinde sıfır atış ayarında %64.3 doğruluk puanı elde ederken, tek atış ve birkaç atış ayarlarında sırasıyla %68 ve %71.2 doğruluk puanı elde ediyor. 

Sıfır atış ayarındaki GPT-3 modelinin, ince ayarlı T5-11B modelinden %14'ün üzerinde performans gösterdiği açıkça görülebilir. 

Yukarıdaki şekil GPT-3 modelinin performansının, model boyutunun artmasıyla birlikte sorunsuz bir şekilde arttığını göstermektedir. Performans, dil modellerinin kapasiteleri arttıkça veri kümesinden öğrenmeye devam ettiğini göstermektedir. 

Son Düşüncelerimiz

GPT-3'ün LLM endüstrisinde devrim yaratan bir aşama olduğunu söylemek yanlış olmaz çünkü GPT-3 bir dil modelinin yapabileceklerinin sınırlarını zorlamaya yardımcı oldu. Bugüne kadarki en gelişmiş ve doğru geniş dil modeli olan GPT-3'ün yolunu açan şey, GPT-4'ün sağladığı gelişmeler ve aştığı engellerdi. 

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.