potongan GPT-3 : Pembelajaran Sedikit untuk Model Bahasa? - Bersatu.AI
Terhubung dengan kami

Kecerdasan Buatan

GPT-3 : Pembelajaran Sedikit untuk Model Bahasa?

mm

Diterbitkan

 on

Dalam beberapa tahun terakhir, industri AI dan ML telah menyaksikan peningkatan pesat dalam pengembangan & penerapan sistem NLP karena para peneliti telah mampu menerapkan praktik NLP dengan cara yang sangat fleksibel dan bebas tugas untuk mentransfer tugas ke hilir. 

Awalnya, representasi lapisan tunggallah yang menggunakan vektor kata, dan kemudian dimasukkan ke arsitektur khusus tugas. Berikutnya adalah arsitektur RNN yang menggunakan representasi multi-layer & keadaan kontekstual untuk membentuk representasi yang lebih baik. Dan yang terbaru, kami memiliki model bahasa transfer atau model berulang terlatih yang sepenuhnya menghilangkan kebutuhan akan arsitektur khusus tugas dengan menyempurnakan jaringan ini. 

Model transfer bahasa telah terbukti menjadi titik balik besar dalam industri NLP karena telah menghasilkan kemajuan luar biasa dalam tugas-tugas menantang seperti menjawab pertanyaan, pemahaman bacaan atau blok teks, keterlibatan tekstual, dan banyak lagi. 

Namun, terlepas dari kelebihannya, model bahasa transfer memiliki keterbatasan besar karena memerlukan penyesuaian khusus tugas atau kumpulan data khusus tugas untuk mencapai performa yang diinginkan pada suatu tugas. Selain itu, model bahasa transfer juga mengharuskan pengembang untuk menyempurnakan kumpulan data menjadi ratusan ribu contoh spesifik untuk tugas tertentu. 

Tentu saja menghilangkan persyaratan untuk kumpulan data khusus tugas, dan penyesuaian tugas khusus akan sangat diinginkan, dan bermanfaat bagi industri NLP karena berbagai alasan. 

Masalah dengan Model Bahasa Transfer Terlatih atau Model Berulang yang Sudah Ada

  • Membatasi Kepraktisan & Penerapan

Pertama dan terpenting, persyaratan kumpulan data besar dengan data berlabel untuk setiap tugas membatasi penerapan & kepraktisan model bahasa. Model bahasa dapat diterapkan dalam berbagai macam tugas mulai dari menghasilkan cerita pendek, mengoreksi kesalahan tata bahasa, hingga menghasilkan contoh pada suatu konsep. Terkadang, mengumpulkan kumpulan data besar yang diawasi dengan data berlabel merupakan tugas yang menantang, terutama ketika prosesnya perlu diulang untuk setiap tugas individual. 

  • Memanfaatkan Korelasi Palsu dalam Data Pelatihan

Keterbatasan & sempitnya distribusi pelatihan ditambah dengan ekspresi model dapat mengakibatkan pertumbuhan mendasar dalam potensi mengeksploitasi korelasi palsu dalam data pelatihan. Potensi untuk mengeksploitasi data pelatihan dapat mengakibatkan masalah selama paradigma penyempurnaan dan pra-pelatihan karena model bahasa transfer dirancang sedemikian rupa untuk menyerap sejumlah besar informasi selama pra-pelatihan. 

Selain itu, pengerjaan model sebelumnya telah menunjukkan bahwa model yang besar tidak menghasilkan distribusi yang lebih baik setiap saat. Selain itu, terdapat juga indikasi bahwa generalisasi yang dicapai dalam paradigma seperti itu dapat menghasilkan performa yang buruk terutama karena model tersebut sangat spesifik untuk data pelatihan, dan tidak dapat bekerja dengan baik pada situasi di luar cakupan data pelatihan. 

  • Perbandingan dengan Pembelajaran Manusia

Terakhir, jika dibandingkan dengan model bahasa transfer, manusia tidak memerlukan kumpulan data pelatihan yang besar untuk mempelajari sebagian besar tugas bahasa. Seringkali, arahan singkat dalam bahasa alami seseorang atau demonstrasi kecil tugas bahasa sudah cukup bagi manusia untuk memahami dan melakukan tugas bahasa dengan tingkat daya saing tertentu. 

Kemampuan manusia untuk beradaptasi memiliki banyak keuntungan praktis karena memungkinkan mereka untuk beralih di antara keahlian yang berbeda atau menggabungkannya untuk bekerja lebih baik dalam suatu dialek, sesuatu yang berada di luar kemampuan sistem NLP saat ini. 

Mengatasi Masalah dengan Meta Learning & GPT-3

Solusi yang mungkin untuk tantangan di atas adalah penggunaan pembelajaran meta, sebuah konsep dalam ML modern yang memungkinkan model mengembangkan serangkaian keterampilan & kemampuan yang lebih besar & lebih luas untuk mengenali pola saat berlatih, dan kemudian menggunakan kemampuan yang dipelajari ini selama gangguan untuk beradaptasi. dengan cepat, atau mengenali tugas yang diperlukan. 

Meta Learning diimplementasikan dalam arsitektur model bahasa melalui teknik yang disebut “pembelajaran dalam konteks” yang menggunakan masukan teks dari model bahasa terlatih sebagai spesifikasi tugas. Dalam prosesnya, model mengkondisikan pengajaran bahasa alami, dan bahkan mungkin menggunakan beberapa demonstrasi, dan model kemudian diharapkan menyelesaikan tugas selanjutnya dengan memprediksi langkah selanjutnya. 

Satu-satunya masalah utama dengan Meta Learning adalah meskipun telah menunjukkan potensi positif, namun masih kalah dengan pendekatan fine-tuning dalam arsitektur bahasa alami, dan memerlukan perbaikan lebih lanjut agar menjadi metode praktis untuk mengatasi tugas-tugas bahasa. 

Selain pembelajaran meta, metode lain yang mulai populer adalah meningkatkan kapasitas model bahasa transformator. Dalam beberapa tahun terakhir, model transfer telah mengalami peningkatan substansial dalam kapasitasnya dengan adanya RNSS18 model dengan 100 juta parameter, itu DCLT18 model dengan 300 juta parameter, itu RWC19 model dengan 1.5 miliar parameter, itu SSP19 model dengan 8 miliar parameter, itu RSR19 model dengan 11 miliar parameter, dan TUR20 model dengan 17 miliar parameter. 

Peningkatan kapasitas model atau peningkatan parameter secara historis telah menghasilkan peningkatan dalam sintesis teks, dan terdapat indikasi bahwa kehilangan log, yang berkorelasi dengan tugas-tugas hilir juga mengikuti tren peningkatan yang mulus seiring dengan skala. 

Hal ini membawa kita pada model GPT-3 yang memiliki lebih dari 175 miliar parameter, dan ketika diluncurkan, model tersebut merupakan model bahasa transfer dengan kapasitas tertinggi. Sekarang mari kita bicara tentang model GPT-3. 

Pengantar Model GPT-3

GPT-3 adalah model bahasa autoaggressive dengan lebih dari 175 miliar parameter yang dirilis oleh OpenAI pada tahun 2020. GPT-3 juga diklasifikasikan sebagai model bahasa besar bahwa seperti pendahulunya, model GPT-2 adalah model transformator pembelajaran mendalam khusus dekoder yang menggunakan arsitektur berbasis konvolusi untuk menghasilkan data tekstual. 

Model GPT-3 mengukur kemampuan pembelajaran konteksnya sendiri, dan model GPT-3 dievaluasi pada lebih dari dua lusin kumpulan data NLP dan beberapa tugas baru. Untuk setiap tugas individu, model GPT-3 dievaluasi dalam tiga kondisi,

  • Pembelajaran Sedikit Sekali atau Pembelajaran Dalam Konteks: Dalam pembelajaran beberapa kesempatan, model GPT-3 memungkinkan sebanyak mungkin distribusi yang dapat disesuaikan dengan jendela konteks model. 
  • Pembelajaran Sekali Tembakan: Dalam pembelajaran satu kesempatan, model hanya mengizinkan satu demonstrasi. 
  • Pembelajaran Zero Shot: Dalam pembelajaran zero shot, tidak ada demonstrasi, dan hanya ada instruksi dalam bahasa alami yang dimasukkan ke model. 

Secara umum, itu Model GPT-3 mencapai performa yang diinginkan dalam pengaturan zero-shot dan one-shot, dan dalam pengaturan beberapa-shot, performanya selalu mengungguli model transfer canggih. Selain itu, model GPT-3 bekerja dengan baik dalam pengaturan one-shot dan zero-shot pada tugas-tugas bahasa alami yang dirancang untuk menguji penalaran dengan cepat, atau memerlukan perhatian cepat seperti menggunakan kata-kata baru setelah kalimat, atau menguraikan kata-kata, atau melakukan aritmatika operasi. Di sisi lain, ketika dioperasikan dalam beberapa adegan, model GPT-3 menghasilkan artikel berita sintetik yang menyerupai tulisan manusia ketika melewati evaluator manusia. 

Model GPT-3: Pendekatan

Model GPT-3 menggunakan pendekatan pra-pelatihan konvensional yang terdiri dari model, data, dan pelatihan, dan menyerupai proses pra-pelatihan yang diikuti dengan model bahasa transfer RWC-19. Model GPT-3 meningkatkan ukuran model, ukuran kumpulan data, keragaman kumpulan data, dan meningkatkan durasi periode pelatihan. 

Model ini juga menggunakan pendekatan pembelajaran dalam konteks yang sekali lagi menyerupai pendekatan model RWC-19, tetapi mengubah sedikit dengan secara sistematis mengeksplorasi pengaturan yang berbeda untuk pola pembelajaran dalam konteks kumpulan data. 

Jadi, mari kita mulai dengan menjelajahi pengaturan ini, dan mengevaluasi kinerja model GTP-3 pada pengaturan yang berbeda. 

Mencari setelan

Penyempurnaan model telah menjadi pendekatan konvensional dalam transfer model bahasa, dan pendekatan ini melibatkan pembaruan bobot model yang telah dilatih sebelumnya dengan melatih model tersebut pada kumpulan data yang diawasi yang khusus untuk tugas yang diinginkan, dan ratusan ribu contoh berlabel digunakan selama proses tersebut. 

Pendekatan penyesuaian bermanfaat karena menghasilkan kinerja yang kuat di berbagai tolok ukur. Di sisi lain, keterbatasan utama penggunaan pendekatan fine-tuning adalah bahwa pendekatan ini memerlukan kumpulan data baru dan besar untuk setiap tugas, berpotensi mengeksploitasi fitur-fitur palsu dari kumpulan data pelatihan, dan berpotensi menghasilkan perbandingan yang tidak adil dengan kinerja manusia. , dan generalisasi yang buruk untuk di luar distribusi. 

Cakupan model GPT-3 saat ini tidak menerapkan pendekatan penyesuaian karena performanya tidak bersifat tugas, meskipun penyesuaian dapat diterapkan pada model GPT-3 di masa mendatang. 

Sedikit Tembakan

Few Shot adalah istilah yang mengacu pada pengaturan di mana model GPT-3 diberikan beberapa demonstrasi tugas selama interferensi sebagai pengondisian, namun bobot model tidak diperbarui. Dalam beberapa pengaturan pengambilan gambar, kumpulan data biasanya memiliki contoh dengan konteks, dan penyelesaian yang diinginkan (misalnya, kalimat Perancis, dan terjemahan bahasa Inggrisnya). Pengaturan beberapa bidikan memberikan modelnya K contoh konteks, dan penyelesaian, lalu memberikan model satu konteks akhir, dan mengharapkan model menyediakan penyelesaian. 

Keuntungan utama menggunakan pengaturan beberapa pengambilan gambar adalah bahwa hal ini secara signifikan mengurangi kebutuhan akan data khusus tugas, dan juga mengurangi potensi mempelajari distribusi sempit dari kumpulan data besar yang disesuaikan secara sempit. Di sisi lain, kelemahan utama penggunaan pembelajaran beberapa bidikan adalah bahwa hasil yang dihasilkan dalam pengaturan beberapa bidikan tidak sesuai standar, dan sangat buruk jika dibandingkan dengan model canggih lainnya yang telah disempurnakan. 

Satu Ditembak

Pada pengaturan satu pengambilan gambar, model hanya diberikan satu demonstrasi, dan selebihnya serupa dengan pengaturan beberapa pengambilan gambar. Alasan mengapa pengaturan satu pengambilan gambar relevan dalam model bahasa transfer adalah karena dari ketiga pengaturan tersebut, satu pengambilan gambar adalah yang paling menyerupai cara tugas dikomunikasikan kepada manusia. Hal ini karena di sebagian besar tugas, memberikan satu demonstrasi tugas merupakan hal yang umum, jika tidak maka akan sulit untuk memahami konteks tugas tersebut. 

Tembakan Nol

Dalam pengaturan zero shot, tidak ada demonstrasi, dan model diberikan instruksi bahasa alami yang menjelaskan tugas. Metode zero shot adalah metode yang menawarkan kenyamanan maksimal, kuat, dan juga menghindari korelasi palsu, namun juga merupakan metode yang paling menantang dari ketiga pengaturan tersebut. Hal ini karena dalam beberapa kasus, bahkan sulit bagi kita sebagai manusia untuk mengetahui konteks suatu tugas tanpa melihat demonstrasinya terlebih dahulu. 

Terlepas dari itu, untuk beberapa tugas, pengaturan zero-shot adalah pengaturan yang paling mirip dengan cara manusia melakukan tugas bahasa alami. 

Gambar di atas membandingkan pengaturan beberapa bidikan, satu bidikan, dan zero shot saat melakukan tugas bahasa alami yaitu mengambil kalimat bahasa Inggris, dan menerjemahkannya ke dalam bahasa Prancis. 

GPT-3: Arsitektur Model

Model GPT-3 menggunakan arsitektur yang sama dengan yang digunakan dalam model GPT-2, dan mencakup pra-normalisasi, inisialisasi yang dimodifikasi, dan teknik tokenisasi yang dapat dibalik seperti yang digunakan pada model GPT dengan pengecualian penggunaan alternatif. strategi untuk pola perhatian renggang yang diikat secara lokal, dan lapisan padat bergantian di lapisan transformator, mirip dengan Sparse Transformer. 

Untuk mempelajari ketergantungan performa model pada ukuran model, pengembang telah melatih 8 ukuran model berbeda yang berkisar pada tiga kali lipat berbeda dari 125 juta hingga lebih dari 175 miliar parameter, yang terakhir disebut model GPT-3 . Pekerjaan sebelumnya terkait dengan model LLM telah menunjukkan bahwa Penskalaan kerugian validasi dengan jumlah data pelatihan yang memadai harus merupakan perkiraan hukum kekuatan halus sebagai fungsi ukuran. Model pelatihan dengan berbagai ukuran memungkinkan pengembang menguji hipotesis untuk tugas bahasa hilir serta kerugian validasi. 

Gambar di atas membandingkan ukuran & arsitektur dari 8 model berbeda yang digunakan untuk pengembangan GPT-3. Di sini, n(params) mendefinisikan jumlah total pola yang dapat dilatih, n(layers) mendefinisikan jumlah total layer dalam model, d(model) mendefinisikan jumlah unit di setiap lapisan kemacetan, dan d(head) mendefinisikan dimensi setiap kepala perhatian. Jendela konteks untuk setiap model sama dengan 2048 token. 

Selain itu, untuk meminimalkan transfer data antar node, model dipartisi di seluruh GPU berdasarkan kedalaman & lebar dimensinya. Parameter arsitektur untuk setiap model dipilih berdasarkan efisiensi komputasi dan penyeimbangan beban untuk memaksimalkan presisi tata letak model di seluruh GPU. 

Dataset Pelatihan

Biasanya, model bahasa besar menggunakan kumpulan data yang telah berkembang secara signifikan dengan perkembangan terkini, dan berujung pada kumpulan data Perayapan Umum yang terdiri dari lebih dari satu triliun kata berbeda. Ukuran kumpulan data cukup memadai untuk melatih model GPT-3 tanpa memperbarui urutan yang sama beberapa kali. Namun, studi & analisis kinerja menunjukkan bahwa versi yang difilter dengan ringan atau versi yang tidak difilter dari set data Perayapan Umum memiliki kualitas rendah jika dibandingkan dengan set data yang lebih banyak dikurasi. 

Untuk mengatasi masalah kualitas rata-rata kumpulan data, pengembang mengambil 3 langkah untuk meningkatkan kualitas kumpulan data. 

  1. Pengembang mengunduh & memfilter versi kumpulan data Common Crawl berdasarkan rentang yang mirip dengan corpora referensi berkualitas tinggi. 
  2. Pengembang melakukan duplikasi fuzzy pada tingkat dokumen di seluruh kumpulan data dalam upaya untuk menjaga integritas set validasi mereka sebagai pengukuran overfitting yang efektif, dan juga untuk mencegah redundansi. 
  3. Pengembang juga menambahkan korpora referensi berkualitas tinggi ke data pelatihan untuk menambah kumpulan data Common Crawl, dan untuk lebih meningkatkan keragaman kumpulan data. 

Gambar berikut menunjukkan proporsi akhir atau campuran kumpulan data yang digunakan untuk melatih model GPT-3. Data Common Crawl terdiri dari lebih dari 45 TB teks biasa sebelum pemfilteran yang dikurangi menjadi 570 GB data setelah pemfilteran, setara dengan lebih dari 400 miliar token yang dikodekan dengan pasangan byte. Perlu diperhatikan bahwa kumpulan data dalam pelatihan yang dipandang memiliki kualitas lebih tinggi akan diambil sampelnya dengan frekuensi yang lebih banyak daripada mengambil sampel kumpulan data secara proporsional dengan ukurannya. Akibatnya, kumpulan data seperti Books2 & Common Crawl diambil sampelnya kurang dari satu kali selama pelatihan, sedangkan kumpulan data lainnya diambil sampelnya beberapa kali. Hal ini memungkinkan model menerima sejumlah kecil overfitting sebagai imbalan atas pelatihan pada data pelatihan dengan kualitas yang lebih tinggi. 

Kekhawatiran yang signifikan dengan model bahasa besar yang telah dilatih sebelumnya pada data internet dalam jumlah besar dengan kapasitas untuk menghafal & mempelajari konten dalam jumlah besar adalah potensi kontaminasi tugas-tugas hilir dengan melihat pengembangan atau rangkaian pengujiannya selama pra-pelatihan. proses pelatihan. Untuk mengurangi potensi kontaminasi tersebut, pengembang mencari adanya tumpang tindih dengan rangkaian pengujian & pengembangan tolok ukur yang dipelajari untuk GPT-3, dan berupaya menghilangkan tumpang tindih tersebut. 

Gambar di atas menunjukkan total komputasi yang digunakan selama pelatihan model GPT-3. Model ini menggunakan Hukum Penskalaan untuk Model Bahasa Neural untuk melatih model yang jauh lebih besar dengan token yang lebih sedikit dari biasanya. Hasilnya, baik model GPT-3 maupun RoBERTa-Large, yang berukuran 10x lebih kecil dari model GPT-3, membutuhkan komputasi hampir 50 petaflops/hari selama proses pra-pelatihan. 

Evaluasi

Untuk pembelajaran beberapa kali, model mengevaluasi setiap contoh yang ada dalam kumpulan data evaluasi dengan menggambar K contoh secara acak dari kumpulan data pelatihan tugas tersebut sebagai pengondisian, dan membatasinya dengan 1 atau 2 baris baru bergantung pada tugasnya. Untuk Storycloze, dan LAMBADA, model mengambil contoh pengondisian dari set pengembangan & mengevaluasinya pada set pengujian karena tidak tersedianya set pelatihan yang diawasi. Untuk Winograd, hanya ada satu kumpulan data, sehingga sampel pengkondisian diambil langsung dari kumpulan data tersebut. 

K dapat berupa nilai apa pun mulai dari 0 hingga jumlah maksimum yang diperbolehkan oleh jendela konteks model yaitu next = 2048 untuk semua model, dan biasanya memuat sekitar 10 hingga 100 contoh. Nilai K yang lebih besar sering kali memberikan hasil yang lebih baik, namun tidak selalu, itulah sebabnya ketika model memiliki set pengujian, dan tersedia set pengembangan terpisah, model bereksperimen pada beberapa nilai K pada set pengembangan, dan berdasarkan pada hasilnya. , ini menjalankan nilai terbaik pada set pengujian. 

Selanjutnya, pada tugas yang membutuhkan pemilihan penyelesaian yang benar dari beberapa opsi, pengembang memberikan K contoh koreksi ditambah penyelesaian konteks, dan menindaklanjutinya dengan memberikan satu contoh konteks saja, dan tugas tersebut kemudian dibandingkan berdasarkan kemungkinan LM dari setiap penyelesaian. Untuk tugas yang memerlukan klasifikasi biner, model sering memberikan opsi yang lebih semantik, dan dengan nama yang lebih bermakna, dan kemudian memperlakukan tugas sebagai pilihan ganda, dan terkadang juga membingkai tugas yang serupa dengan apa yang dilakukan oleh model & arsitektur RSR. 

Untuk tugas yang memerlukan penyelesaian bentuk bebas, model menggunakan pencarian berkas dengan parameter yang sama seperti yang digunakan dalam kerangka RSR, dengan panjang berkas 4, dan penalti 0.6. Model tersebut kemudian diberi skor menggunakan skor kesamaan F1, pencocokan tepat, atau BLEU, bergantung pada standar kumpulan data. 

Hasil

Gambar di atas menampilkan kurva pelatihan untuk 8 model yang digunakan dalam arsitektur model GPT-3, seperti yang dijelaskan di bagian sebelumnya. Mirip dengan hasil model bahasa KMH, performa model GPT-3 mengikuti hukum yang tepat saat menggunakan komputasi pelatihan secara efektif. Ada sedikit perbedaan dari hukum hanya ketika tren diperpanjang dua lipat lebih besar. Mungkin terpikir oleh orang-orang bahwa peningkatan kerugian lintas entropi mungkin disebabkan oleh pemodelan detail korpus pelatihan yang palsu. Namun, perbaikan dalam kerugian lintas entropi menghasilkan peningkatan yang konsisten dalam kinerja keseluruhan di spektrum yang luas dari berbagai tugas NLP. 

Sebelum mengevaluasi 8 model berbeda pada berbagai data pelatihan, kumpulan data dikelompokkan ke dalam 8 kategori berbeda yang mewakili tugas serupa. Kategori-kategori ini adalah

  1. Evaluasi tugas pemodelan bahasa tradisional, dan tugas yang menyerupai pemodelan bahasa seperti tugas Cloze, atau tugas penyelesaian kalimat/paragraf. 
  2. Evaluasi tugas menjawab pertanyaan “buku tertutup”. 
  3. Mengevaluasi kemampuan model dalam menerjemahkan antarbahasa (terutama one-shot dan beberapa-shot)
  4. Mengevaluasi performa model pada tugas mirip Skema Winograd. 
  5. Mengevaluasi kumpulan data yang melibatkan penalaran yang masuk akal atau menjawab pertanyaan. 
  6. Mengevaluasi tugas pemahaman bacaan. 
  7. Mengevaluasi rangkaian benchmark SuperGLUE. 
  8. Menjelajah NLI. 

Pemodelan Bahasa, Penyelesaian, dan Tugas Cloze

Di bagian ini, performa model GPT-3 dievaluasi pada tugas pemodelan bahasa tradisional serta tugas yang memerlukan prediksi satu kata yang diminati, atau menyelesaikan paragraf atau kalimat, atau menyelesaikan sepotong teks. Mari kita bahas secara singkat. 

Pemodelan Bahasa

Model GPT-3 menghitung kebingungan zero-shot pada kumpulan data PTB atau Penn Tree Bank. Model ini menghilangkan tugas-tugas terkait Wikipedia karena sudah disertakan dalam data pelatihan model, dan tolok ukur satu miliar kata juga dihilangkan karena menyebabkan sejumlah besar gesekan pada kumpulan data yang berada dalam data pelatihan. Namun, kumpulan data PTB mengatasi masalah ini karena sudah ada sebelum internet modern. Model terbesar dalam arsitektur model GPT-3 menetapkan SOTA baru pada kumpulan data PTB dengan selisih 15 poin, dan mencapai kebingungan 20.50. 

LAMBADA

Dataset LAMBADA digunakan untuk menguji pemodelan model pada ketergantungan jangka panjang dalam paragraf atau teks. Artinya model diminta memprediksi kata terakhir suatu kalimat setelah membaca paragraf sesuai konteksnya. Selain itu, penskalaan model bahasa yang berkelanjutan akan menghasilkan hasil yang semakin berkurang pada benchmark. 

Model GPT-3 mencapai akurasi 76% di LAMBADA, dan memperoleh peningkatan lebih dari 8% dibandingkan model terbaik sebelumnya. Selain itu, model LAMBADA menunjukkan fleksibilitas pembelajaran beberapa tahap karena model ini mengatasi masalah dengan cara yang terjadi secara klasik pada kumpulan data. Penyelesaian sebuah kalimat dalam LAMBADA biasanya merupakan kata terakhir dari kalimat tersebut, namun karena model bahasa tidak dapat mengetahuinya, model ini memberikan kemungkinan tidak hanya pada akhir yang benar, namun juga pada kelanjutan paragraf lainnya. 

Selain itu, jika contoh yang dimasukkan ke model GPT-3 dimodifikasi dengan cara tertentu, model tersebut akan mengembalikan akurasi lebih dari 86%, meningkat lebih dari 18% dibandingkan model sebelumnya. Selain itu, hasilnya juga menunjukkan bahwa performa model dalam pengaturan beberapa pengambilan gambar meningkat secara proporsional seiring bertambahnya ukuran model. Meskipun strategi ini mengurangi model terkecil dalam arsitektur GPT-3 sebesar 20%, strategi ini meningkatkan akurasi model GPT-3 utama dengan 175 miliar parameter sebesar 10%. 

Menjawab Pertanyaan Buku Tertutup

Closed Book Question Answering merupakan upaya mengukur kemampuan model GPT-3 dalam menjawab pertanyaan berdasarkan pengetahuan faktual yang luas. Karena pertanyaan seperti itu sering kali memiliki jumlah kemungkinan kueri yang tinggi, tugas tersebut biasanya dicapai dengan menggunakan sistem pengambilan informasi yang memungkinkan model menemukan teks yang relevan dikombinasikan dengan model yang belajar menghasilkan respons terhadap jawaban berdasarkan teks yang diambil, dan pertanyaan. 

Gambar di atas membandingkan hasil model GPT-3 dibandingkan dengan model lain, dan dijalankan pada kumpulan data berbeda. Pada kumpulan data TriviaQA, model mencapai skor akurasi sebesar 64.3% dalam pengaturan zero-shot, sementara itu mencapai skor akurasi sebesar 68%, dan 71.2% dalam pengaturan satu-shot, dan beberapa-shot. 

Terlihat jelas bahwa model GPT-3 dalam pengaturan zero-shot mengungguli model T5-11B yang telah disempurnakan sebanyak lebih dari 14%. 

Gambar di atas menunjukkan performa model GPT-3 tumbuh dengan lancar seiring bertambahnya ukuran model. Performanya menunjukkan bahwa model bahasa terus belajar dari kumpulan data seiring dengan peningkatan kapasitasnya. 

Final Thoughts

Dapat dikatakan bahwa GPT-3 adalah fase revolusi dalam industri LLM karena GPT-3 membantu mendorong batas kemampuan model bahasa. Perkembangan yang dilakukan dan kendala yang diatasi oleh GPT-3lah yang membuka jalan bagi model bahasa besar yang paling canggih dan akurat hingga saat ini, GPT-4. 

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.