Connect with us

Kecerdasan buatan

GPT-3 : Few Shot Learning untuk Model Bahasa?

mm

Dalam beberapa tahun terakhir, industri AI dan ML telah menyaksikan peningkatan meteorik dalam pengembangan dan penerapan sistem NLP karena peneliti telah dapat menerapkan praktik NLP dengan cara yang sangat fleksibel dan tugas-agnostik untuk tugas transfer downstream.

Awalnya, itu adalah representasi lapisan tunggal yang menggunakan vektor kata, dan kemudian diberikan ke arsitektur tugas-spesifik. Selanjutnya, itu adalah arsitektur RNN yang menggunakan representasi multi-lapis dan status kontekstual untuk membentuk representasi yang lebih baik. Dan yang paling baru, kita memiliki model bahasa transfer atau model berulang pra-dilatih yang telah sepenuhnya menghilangkan kebutuhan akan arsitektur tugas-spesifik dengan fine-tuning jaringan ini.

Model bahasa transfer telah terbukti menjadi titik balik besar dalam industri NLP karena mereka telah menghasilkan kemajuan luar biasa dalam tugas-tugas yang menantang seperti menjawab pertanyaan, membaca pemahaman atau blok teks, implikasi teks, dan banyak lagi.

Namun, meskipun kelebihannya, model bahasa transfer memiliki keterbatasan besar karena mereka memerlukan fine-tuning tugas-spesifik atau dataset tugas-spesifik untuk mencapai kinerja yang diinginkan pada suatu tugas. Selain itu, model bahasa transfer juga memerlukan pengembang untuk fine-tuning dataset ke ratusan ribu contoh spesifik untuk suatu tugas.

Tidak perlu dikatakan bahwa menghilangkan kebutuhan akan dataset tugas-spesifik dan fine-tuning tugas-spesifik akan sangat diinginkan dan bermanfaat bagi industri NLP karena banyak alasan.

Masalah dengan Model Bahasa Transfer Pra-Dilatih yang Ada

  • Membatasi Praktik dan Keteraplikasian

Pertama dan terutama, kebutuhan akan dataset besar dengan data berlabel untuk setiap tugas membatasi keteraplikasian dan praktik model bahasa. Model bahasa menemukan aplikasinya dalam berbagai tugas mulai dari menghasilkan cerita pendek, mengoreksi kesalahan tata bahasa, hingga menghasilkan contoh pada suatu konsep. Terkadang, itu adalah tugas yang menantang untuk mengumpulkan dataset terawasi besar dengan data berlabel, terutama ketika proses perlu diulangi untuk setiap tugas individu.

  • Memanfaatkan Korelasi Semu dalam Data Pelatihan

Keterbatasan dan kekurangan distribusi pelatihan yang dipasangkan dengan ekspresivitas model dapat menghasilkan pertumbuhan potensial untuk memanfaatkan korelasi semu dalam data pelatihan. Potensi untuk memanfaatkan data pelatihan dapat menghasilkan masalah selama fine-tuning dan pra-pelatihan karena model bahasa transfer dirancang untuk menyerap sejumlah besar informasi selama pra-pelatihan.

Selain itu, pekerjaan pada model sebelumnya telah menunjukkan bahwa model besar tidak selalu menghasilkan kinerja yang lebih baik setiap saat. Selain itu, juga telah ditunjukkan bahwa generalisasi yang dicapai dalam paradigma seperti itu dapat menghasilkan kinerja yang buruk terutama karena model sangat spesifik untuk data pelatihan dan tidak dapat berperforma dengan baik pada situasi di luar cakupan data pelatihan.

  • Perbandingan dengan Pembelajaran Manusia

Terakhir, ketika dibandingkan dengan model bahasa transfer, manusia tidak memerlukan dataset pelatihan besar ketika datang ke pembelajaran sebagian besar tugas bahasa. Sebagian besar, direktif singkat dalam bahasa alami seseorang atau demonstrasi kecil dari tugas bahasa cukup untuk manusia untuk memahami dan melakukan tugas bahasa dengan tingkat kompetensi tertentu.

Kemampuan manusia untuk beradaptasi memiliki banyak kelebihan praktis karena memungkinkan mereka untuk beralih antara berbagai set keterampilan atau mencampuradukkan mereka untuk berperforma lebih baik selama dialek, sesuatu yang diluar kemampuan sistem NLP saat ini.

Mengatasi Masalah dengan Pembelajaran Meta dan GPT-3

Solusi yang mungkin untuk tantangan di atas adalah penggunaan pembelajaran meta, konsep dalam ML modern yang memungkinkan model untuk mengembangkan kumpulan keterampilan dan kemampuan untuk mengenali pola yang lebih besar dan lebih luas selama pelatihan, dan kemudian menggunakan kemampuan yang dipelajari selama inferensi untuk beradaptasi dengan cepat atau mengenali tugas yang diperlukan.

Pembelajaran Meta sedang diimplementasikan dalam arsitektur model bahasa melalui teknik yang disebut “pembelajaran dalam konteks” yang menggunakan input teks dari model bahasa pra-dilatih sebagai spesifikasi tugas. Dalam prosesnya, model mengkondisikan pada instruksi bahasa alami, dan mungkin bahkan menggunakan beberapa demonstrasi, dan model kemudian diharapkan untuk menyelesaikan sisa tugas dengan memprediksi langkah-langkah berikutnya.

Satu-satunya masalah besar dengan Pembelajaran Meta adalah bahwa meskipun telah menunjukkan potensi positif, masih inferior dibandingkan dengan pendekatan fine-tuning dalam arsitektur bahasa alami, dan memerlukan perbaikan lebih lanjut untuk menjadi metode praktis untuk mengatasi tugas bahasa.

Selain pembelajaran meta, metode lain yang sedang populer adalah meningkatkan kapasitas model bahasa transformer. Dalam beberapa tahun terakhir, model transfer telah menyaksikan peningkatan substansial dalam kapasitasnya dengan model RNSS18 dengan 100 juta parameter, model DCLT18 dengan 300 juta parameter, model RWC19 dengan 1,5 miliar parameter, model SSP19 dengan 8 miliar parameter, model RSR19 dengan 11 miliar parameter, dan model TUR20 dengan 17 miliar parameter.

Meningkatkan kapasitas model atau meningkatkan jumlah parameter secara historis telah menghasilkan perbaikan dalam sintesis teks, dan telah terindikasi bahwa kerugian log yang berkorelasi dengan tugas downstream juga mengikuti tren yang mulus dengan skala.

Itu membawa kita ke model GPT-3 yang memiliki lebih dari 175 miliar parameter, dan ketika diluncurkan, itu adalah model bahasa transfer dengan kapasitas tertinggi. Mari kita bahas model GPT-3.

Pengenalan Model GPT-3

GPT-3 adalah model bahasa autoagresif dengan lebih dari 175 miliar parameter yang dirilis oleh OpenAI pada 2020. GPT-3 juga diklasifikasikan sebagai model bahasa besar yang seperti pendahulunya model GPT-2 adalah model transformer decoder-only yang menggunakan arsitektur berbasis konvolusi untuk menghasilkan data teks.

Model GPT-3 mengukur kemampuan pembelajaran konteksnya sendiri, dan model GPT-3 dievaluasi pada lebih dari dua lusin dataset NLP dan beberapa tugas baru. Untuk setiap tugas individu, model GPT-3 dievaluasi dalam tiga kondisi,

  • Pembelajaran Beberapa Shot atau Pembelajaran dalam Konteks: Dalam pembelajaran beberapa shot, model GPT-3 memungkinkan sejumlah distribusi yang dapat masuk dengan baik ke dalam konteks model.
  • Pembelajaran Satu Shot: Dalam pembelajaran satu shot, model hanya memungkinkan satu demonstrasi.
  • Pembelajaran Nol Shot: Dalam pembelajaran nol shot, tidak ada demonstrasi, dan hanya ada instruksi bahasa alami yang diberikan kepada model.

Secara umum, model GPT-3 mencapai kinerja yang diinginkan dalam pengaturan nol-shot dan satu-shot, dan dalam pengaturan beberapa-shot, itu mengalahkan model transfer state-of-the-art sebagian besar waktu. Selain itu, model GPT-3 berperforma dengan baik dalam pengaturan satu-shot dan nol-shot pada tugas bahasa alami yang dirancang untuk menguji penalaran cepat, atau memerlukan perhatian cepat seperti menggunakan kata baru setelah kalimat, atau mengacak-acak kata, atau melakukan operasi aritmatika. Di sisi lain, ketika dioperasikan dalam pengaturan beberapa-shot, model GPT-3 menghasilkan artikel berita sintetis yang menyerupai penulisan manusia ketika diberikan kepada evaluator manusia.

Model GPT-3: Pendekatan

Model GPT-3 menggunakan pendekatan pra-pelatihan konvensional yang terdiri dari model, data, dan pelatihan, dan itu menyerupai proses pra-pelatihan yang diikuti oleh model transfer RWC-19. Model GPT-3 menskalakan ukuran model, ukuran dataset, keragaman dataset, dan meningkatkan panjang periode pelatihan.

Model juga menggunakan pendekatan pembelajaran dalam konteks yang sekali lagi menyerupai pendekatan model RWC-19, tetapi menyempurnakan hal-hal dengan menjelajahi pengaturan yang berbeda untuk pembelajaran pola dalam konteks dataset.

Jadi, mari kita mulai dengan menjelajahi pengaturan ini, dan mengevaluasi bagaimana model GPT-3 berperforma pada pengaturan yang berbeda.

Penyempurnaan

Penyempurnaan model telah menjadi pendekatan konvensional dalam model bahasa transfer, dan ini melibatkan pembaruan bobot model pra-dilatih dengan melatih model pada dataset terawasi yang spesifik untuk tugas yang diinginkan, dan ratusan ribu contoh berlabel digunakan selama proses.

Pendekatan penyempurnaan bermanfaat karena mengembalikan kinerja yang kuat di berbagai benchmark. Di sisi lain, keterbatasan utama dari menggunakan pendekatan penyempurnaan adalah bahwa itu memerlukan dataset baru dan besar untuk setiap tugas individu, memiliki potensi untuk memanfaatkan fitur semu dari dataset pelatihan, dapat menghasilkan perbandingan yang tidak adil dengan kinerja manusia, dan generalisasi yang buruk untuk out-of-distribution.

Cakupan model GPT-3 saat ini tidak mengimplementasikan pendekatan penyempurnaan karena kinerjanya yang tugas-agnostik, meskipun penyempurnaan dapat diterapkan pada model GPT-3 di masa depan.

Beberapa Shot

Beberapa Shot adalah istilah yang merujuk pada pengaturan di mana model GPT-3 diberikan beberapa demonstrasi dari tugas selama inferensi sebagai kondisi, tetapi bobot model tidak diperbarui. Dalam pengaturan beberapa-shot, dataset biasanya memiliki contoh dengan konteks, dan penyelesaian yang diinginkan (misalnya, kalimat bahasa Prancis, dan terjemahannya dalam bahasa Inggris). Pengaturan beberapa-shot memberikan model K contoh konteks, dan penyelesaian, dan kemudian memberikan model dengan konteks terakhir, dan mengharapkan model untuk memberikan penyelesaian.

Kelebihan utama dari menggunakan pengaturan beberapa-shot adalah bahwa itu secara signifikan mengurangi kebutuhan akan data tugas-spesifik, dan juga mengurangi potensi untuk mempelajari distribusi yang sempit dari dataset besar yang disempurnakan dengan sempit. Di sisi lain, kelemahan utama dari pembelajaran beberapa-shot adalah bahwa hasil yang diberikan dalam pengaturan beberapa-shot tidak sebaik yang diharapkan, dan secara signifikan lebih buruk dibandingkan dengan model state-of-the-art lain yang disempurnakan.

Satu Shot

Dalam pengaturan satu-shot, model hanya diberikan satu demonstrasi, dan sisanya sama dengan pengaturan beberapa-shot. Alasan mengapa pengaturan satu-shot relevan dalam model bahasa transfer adalah karena di antara ketiga pengaturan, satu-shot adalah yang paling menyerupai cara tugas dikomunikasikan kepada manusia. Karena dalam sebagian besar tugas, umum untuk memberikan satu demonstrasi dari tugas, jika tidak maka mungkin sulit untuk memahami konteks tugas.

Nol Shot

Dalam pengaturan nol-shot, tidak ada demonstrasi, dan model diberikan instruksi bahasa alami yang menjelaskan tugas. Metode nol-shot adalah yang paling nyaman, kuat, dan juga menghindari korelasi semu, tetapi juga yang paling menantang dari ketiga pengaturan. Karena dalam beberapa kasus, itu sulit bahkan bagi manusia untuk memahami konteks tugas tanpa melihat demonstrasi terlebih dahulu.

Namun, untuk beberapa tugas, pengaturan nol-shot adalah yang paling menyerupai cara manusia melakukan tugas bahasa alami.

Gambar di atas membandingkan pengaturan beberapa-shot, satu-shot, dan nol-shot ketika melakukan tugas bahasa alami menerjemahkan kalimat bahasa Inggris ke bahasa Prancis.

Model GPT-3: Arsitektur

Model GPT-3 menggunakan arsitektur yang sama dengan yang digunakan dalam model GPT-2, dan itu termasuk pre-normalisasi, inisialisasi modifikasi, dan teknik tokenisasi reversibel seperti yang digunakan pada model GPT dengan pengecualian menggunakan strategi alternatif untuk pola perhatian yang terikat secara lokal, dan lapisan densitas bergantian dalam lapisan transformer, serupa dengan Sparse Transformer.

Untuk mempelajari ketergantungan kinerja model pada ukuran model, pengembang telah melatih 8 ukuran model yang berbeda yang mencakup tiga orde besarnya dari 125 juta hingga lebih dari 175 miliar parameter, yang terakhir disebut model GPT-3. Pekerjaan sebelumnya yang terkait dengan model bahasa besar telah menunjukkan bahwa penskalaan kerugian validasi dengan jumlah data pelatihan yang cukup seharusnya menjadi hukum kekuatan yang mulus sebagai fungsi ukuran. Melatih model dengan ukuran yang berbeda memungkinkan pengembang untuk menguji hipotesis untuk tugas bahasa downstream serta kerugian validasi.

Gambar di atas membandingkan ukuran dan arsitektur dari 8 model yang berbeda yang digunakan untuk pengembangan GPT-3. Di sini, n(params) mendefinisikan jumlah pola yang dapat dilatih, n(lapisan) mendefinisikan jumlah lapisan dalam model, d(model) mendefinisikan jumlah unit dalam setiap lapisan bottleneck, dan d(head) mendefinisikan dimensi dari setiap kepala perhatian. Jendela konteks untuk setiap model sama dengan 2048 token.

Selain itu, untuk meminimalkan transfer data antara node, model dipartisi di seluruh GPU sepanjang kedalaman dan lebar dimensi. Parameter arsitektur untuk setiap model dipilih berdasarkan efisiensi komputasi, dan keseimbangan beban untuk memaksimalkan presisi dalam tata letak model di seluruh GPU.

Dataset Pelatihan

Biasanya, model bahasa besar menggunakan dataset yang telah berkembang secara signifikan dengan perkembangan terbaru, dan mereka berpuncak pada dataset Common Crawl yang terdiri dari lebih dari satu triliun kata yang berbeda. Ukuran dataset cukup untuk melatih model GPT-3 tanpa memperbarui pada urutan yang sama beberapa kali. Namun, studi dan analisis kinerja menunjukkan bahwa versi yang disaring ringan atau tidak disaring dari dataset Common Crawl memiliki kualitas yang lebih rendah dibandingkan dengan dataset yang lebih tercurat.

Untuk mengatasi masalah kualitas rata-rata dataset, pengembang mengambil 3 langkah untuk meningkatkan kualitas dataset.

  1. Pengembang mengunduh dan menyaring versi dataset Common Crawl berdasarkan rentang yang serupa dengan korpus referensi berkualitas tinggi.
  2. Pengembang melakukan duplikasi fuzzy pada tingkat dokumen di seluruh dataset dalam upaya untuk mempertahankan integritas dari set validasi yang dipegang, sebagai pengukuran yang efektif dari overfitting, dan untuk mencegah redundansi.
  3. Pengembang juga menambahkan korpus referensi berkualitas tinggi ke data pelatihan untuk melengkapi dataset Common Crawl, dan untuk lebih meningkatkan keragaman dataset.

Gambar berikut menunjukkan proporsi akhir atau campuran dataset yang digunakan untuk melatih model GPT-3. Data Common Crawl terdiri dari lebih dari 45 TB teks plain sebelum penyaringan yang dikurangi menjadi 570 GB data setelah penyaringan, setara dengan lebih dari 400 miliar token byte-pasangan. Perlu diingat bahwa dataset dalam pelatihan yang dianggap memiliki kualitas yang lebih tinggi disampling dengan frekuensi yang lebih tinggi daripada menyampling dataset sesuai dengan ukurannya. Sebagai hasilnya, dataset seperti Books2 dan Common Crawl disampling kurang dari satu kali selama pelatihan, sedangkan dataset lain disampling beberapa kali. Ini memungkinkan model untuk menerima sejumlah kecil overfitting sebagai ganti untuk melatih data pelatihan dengan kualitas yang lebih tinggi.

Kekhawatiran signifikan dengan model bahasa besar yang pra-dilatih pada sejumlah besar data internet dengan kapasitas untuk mengingat dan mempelajari sejumlah besar konten adalah potensi pencemaran tugas downstream dengan memiliki set pengembangan atau pengujian yang dilihat selama pra-pelatihan. Untuk mengurangi pencemaran potensial ini, pengembang mencari tumpang tindih dengan set pengujian dan pengembangan dari benchmark yang dipelajari untuk GPT-3, dan berusaha untuk menghapus tumpang tindih ini.

Gambar di atas menunjukkan komputasi total yang digunakan selama pelatihan model GPT-3. Model menggunakan Hukum Penskalaan untuk Model Bahasa Neural untuk melatih model yang jauh lebih besar pada token yang lebih sedikit daripada yang biasa. Sebagai hasilnya, baik GPT-3 dan model RoBERTa-Large, yang 10x lebih kecil dari GPT-3, mengambil hampir 50 petaflops/hari komputasi selama pra-pelatihan.

Evaluasi

Untuk pembelajaran beberapa shot, model mengevaluasi setiap contoh dalam dataset evaluasi dengan menggambar K contoh secara acak dari dataset pelatihan tugas sebagai kondisi, dan membatasinya dengan 1 atau 2 baris baru tergantung pada tugas. Untuk Storycloze, dan LAMBADA, model menggambar contoh kondisi dari set pengembangan dan mengevaluasinya pada set pengujian karena tidak adanya dataset pelatihan terawasi. Untuk Winograd, hanya ada satu dataset, dan contoh kondisi diambil langsung dari itu.

K dapat menjadi nilai apa pun mulai dari 0 hingga jumlah maksimum yang diizinkan oleh jendela konteks model yang adalah next = 2048 untuk semua model, dan biasanya sesuai dengan sekitar 10 hingga 100 contoh. Nilai K yang lebih besar sering menghasilkan hasil yang lebih baik, tetapi tidak selalu, yang mengapa ketika model memiliki set pengujian dan set pengembangan terpisah yang tersedia, model melakukan eksperimen pada beberapa nilai K pada set pengembangan, dan berdasarkan hasilnya, menjalankan nilai terbaik pada set pengujian.

Selain itu, pada tugas yang memerlukan pemilihan penyelesaian yang benar dari beberapa pilihan, pengembang memberikan K contoh koreksi plus konteks penyelesaian, dan diikuti dengan memberikan satu contoh konteks saja, dan tugas tersebut dibandingkan berdasarkan kemungkinan LM dari setiap penyelesaian. Untuk tugas yang memerlukan klasifikasi biner, model sering memberikan pilihan dengan nama yang lebih semantik dan bermakna, dan kemudian memperlakukannya sebagai pilihan ganda, dan terkadang juga membingkai tugas serupa dengan yang dilakukan oleh model RSR dan arsitektur.

Untuk tugas yang memerlukan penyelesaian bentuk bebas, model menggunakan pencarian berkas dengan parameter yang sama seperti yang digunakan dalam kerangka RSR, dengan berkas sepanjang 4, dan hukuman sebesar 0,6. Model kemudian dinilai menggunakan skor kesamaan F1, pertandingan yang tepat, atau BLEU, tergantung pada standar untuk dataset.

Hasil

Gambar di atas menampilkan kurva pelatihan untuk 8 model yang digunakan dalam arsitektur model GPT-3, seperti yang dijelaskan dalam bagian sebelumnya. Serupa dengan hasil dari model bahasa KMH, kinerja model GPT-3 mengikuti hukum yang tepat ketika menggunakan komputasi pelatihan secara efektif. Ada sedikit perbedaan dari hukum hanya ketika tren diperpanjang oleh dua orde besarnya lebih lanjut. Orang mungkin berpikir bahwa perbaikan dalam kerugian entropi mungkin merupakan hasil dari memodelkan detail semu dari corpus pelatihan. Namun, perbaikan dalam kerugian entropi menghasilkan perbaikan konsisten dalam kinerja secara keseluruhan di berbagai tugas NLP.

Sebelum mengevaluasi 8 model yang berbeda pada berbagai dataset pelatihan, dataset dikelompokkan menjadi 8 kategori yang mewakili tugas yang serupa. Kategori ini adalah

  1. Evaluasi pada tugas pemodelan bahasa tradisional, dan tugas yang menyerupai pemodelan bahasa seperti tugas Cloze, atau tugas penyelesaian kalimat/paragraf.
  2. Evaluasi pada tugas jawaban pertanyaan “buku tertutup”.
  3. Evaluasi kemampuan model untuk menerjemahkan antara bahasa (terutama satu-shot dan beberapa-shot)
  4. Evaluasi kinerja model pada tugas Skema Winograd-like.
  5. Evaluasi pada dataset yang melibatkan penalaran atau pertanyaan yang umum.
  6. Evaluasi pada tugas pemahaman membaca.
  7. Evaluasi pada suite benchmark SuperGLUE.
  8. Menggali NLI.

Pemodelan Bahasa, Penyelesaian, dan Tugas Cloze

Dalam bagian ini, kinerja model GPT-3 dievaluasi pada tugas pemodelan bahasa tradisional serta tugas yang memerlukan prediksi satu kata yang menarik, atau menyelesaikan paragraf atau kalimat, atau menyelesaikan potongan teks. Mari kita bahas secara singkat.

Pemodelan Bahasa

Model GPT-3 menghitung kerugian kebingungan nol-shot pada dataset PTB atau Penn Tree Bank. Model menghilangkan tugas yang terkait dengan Wikipedia karena sudah termasuk dalam data pelatihan model, dan benchmark satu miliar kata juga dihilangkan karena menyebabkan sejumlah gesekan dataset dalam data pelatihan. Namun, dataset PTB menangani masalah ini karena dapat mendahului internet modern. Model terbesar dalam arsitektur model GPT-3 mencapai SOTA baru pada dataset PTB dengan margin yang cukup besar sebesar 15 poin, dan mencapai kerugian kebingungan sebesar 20,50.

LAMBADA

Dataset LAMBADA digunakan untuk menguji pemodelan model pada ketergantungan jangka panjang dalam paragraf atau teks. Ini berarti model diminta untuk memprediksi kata terakhir dari kalimat setelah membaca paragraf untuk konteks. Selain itu, penskalaan model bahasa terus menghasilkan pengembalian yang menurun pada benchmark.

Model GPT-3 mencapai akurasi 76% pada LAMBADA, dan memiliki keuntungan lebih dari 8% atas model terbaik sebelumnya. Selain itu, model LAMBADA menunjukkan fleksibilitas pembelajaran beberapa shot karena menangani masalah dengan cara yang terjadi secara klasik dengan dataset. Penyelesaian kalimat pada LAMBADA biasanya adalah kata terakhir dari kalimat, tetapi karena model bahasa tidak dapat mengetahui itu, itu mengassign probabilitas tidak hanya untuk penyelesaian yang benar, tetapi juga untuk kelanjutan lain dalam paragraf.

Selain itu, ketika contoh yang diberikan kepada model GPT-3 dimodifikasi dengan cara tertentu, model mengembalikan akurasi lebih dari 86%, peningkatan lebih dari 18% atas model sebelumnya. Selain itu, hasil juga menunjukkan bahwa kinerja model dalam pengaturan beberapa-shot meningkat sebanding dengan peningkatan ukuran model. Meskipun strategi ini mengurangi model terkecil dalam arsitektur GPT-3 sebesar 20%, itu meningkatkan akurasi model GPT-3 utama dengan 175 miliar parameter sebesar 10%.

Jawaban Pertanyaan “Buku Tertutup”

Jawaban pertanyaan “buku tertutup” adalah upaya untuk mengukur kemampuan model GPT-3 untuk menjawab pertanyaan berdasarkan pengetahuan faktual yang luas. Karena pertanyaan seperti itu sering memiliki sejumlah besar kueri yang mungkin, tugas ini biasanya dicapai dengan menggunakan sistem pemulihan informasi yang memungkinkan model untuk menemukan teks yang relevan dalam kombinasi dengan model yang mempelajari untuk menghasilkan respons terhadap jawaban yang diberikan, teks yang diperoleh, dan pertanyaan.

Gambar di atas membandingkan hasil untuk model GPT-3 dibandingkan dengan model yang berbeda, dan berjalan pada dataset yang berbeda. Pada dataset TriviaQA, model mencapai skor akurasi 64,3% dalam pengaturan nol-shot, sementara mencapai skor akurasi 68%, dan 71,2% dalam pengaturan satu-shot dan beberapa-shot, masing-masing.

Dapat dilihat dengan jelas bahwa model GPT-3 dalam pengaturan nol-shot mengungguli model T5-11B yang disempurnakan dengan lebih dari 14%.

Gambar di atas menunjukkan kinerja model GPT-3 tumbuh secara mulus dengan peningkatan ukuran model. Kinerja menunjukkan bahwa model bahasa terus belajar dari dataset saat kapasitasnya meningkat.

Pikiran Terakhir

Dapat dikatakan dengan aman bahwa GPT-3 adalah fase revolusioner dalam industri LLM karena GPT-3 membantu mendorong batas apa yang dapat dilakukan model bahasa. Ini adalah perkembangan yang dibuat, dan hambatan yang diatasi oleh GPT-3 yang membuka jalan bagi model bahasa besar paling canggih dan akurat hingga saat ini, yaitu GPT-4.

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.