Kecerdasan buatan

GPT-3: Pembelajaran Shot Sedikit untuk Model Bahasa

mm

Dalam beberapa tahun terakhir, industri AI dan ML telah menyaksikan peningkatan meteorik dalam pengembangan dan penerapan sistem NLP karena peneliti telah dapat menerapkan praktik NLP dengan cara yang sangat fleksibel dan tidak bergantung pada tugas untuk tugas downstream.

Awalnya, itu adalah representasi lapisan tunggal yang menggunakan vektor kata, dan kemudian diumpankan ke arsitektur tugas khusus. Berikutnya, itu adalah arsitektur RNN yang menggunakan representasi multi-lapis dan status kontekstual untuk membentuk representasi yang lebih baik. Dan yang paling baru, kita memiliki model bahasa transfer atau model rekuren pra-dilatih yang telah sepenuhnya menghilangkan kebutuhan akan arsitektur tugas khusus dengan melakukan fine-tuning jaringan ini.

Model bahasa transfer telah terbukti menjadi titik balik besar dalam industri NLP karena mereka telah menghasilkan kemajuan luar biasa pada tugas yang menantang seperti menjawab pertanyaan, membaca pemahaman atau blok teks, implikasi tekstual, dan banyak lagi.

Namun, meskipun kelebihannya, model bahasa transfer memiliki keterbatasan besar karena mereka memerlukan fine-tuning tugas khusus atau dataset tugas khusus untuk mencapai kinerja yang diinginkan pada suatu tugas. Selain itu, model bahasa transfer juga memerlukan pengembang untuk melakukan fine-tuning dataset ke ratusan ribu contoh khusus untuk suatu tugas.

Tidak perlu dikatakan bahwa menghilangkan kebutuhan akan dataset tugas khusus dan fine-tuning tugas khusus akan sangat diinginkan dan bermanfaat bagi industri NLP karena banyak alasan.

Masalah dengan Model Bahasa Transfer Pra-Dilatih yang Ada atau Model Rekuren

  • Membatasi Praktik dan Keterapan

Pertama dan terutama, kebutuhan akan dataset besar dengan data yang dilabeli untuk setiap tugas membatasi keterapan dan praktik model bahasa. Model bahasa menemukan aplikasi dalam berbagai tugas yang luas, mulai dari menghasilkan cerita pendek, mengoreksi kesalahan tata bahasa, hingga menghasilkan contoh pada suatu konsep. Kadang-kadang, itu adalah tugas yang menantang untuk mengumpulkan dataset besar yang dilabeli, terutama ketika proses perlu diulangi untuk setiap tugas individu.

  • Memanfaatkan Korelasi Semu dalam Data Pelatihan

Keterbatasan dan kekakuan distribusi pelatihan yang dipasangkan dengan ekspresivitas model dapat mengakibatkan pertumbuhan potensial untuk memanfaatkan korelasi semu dalam data pelatihan. Potensi untuk memanfaatkan data pelatihan dapat mengakibatkan masalah selama fine-tuning dan pra-pelatihan karena model bahasa transfer dirancang untuk menyerap sejumlah besar informasi selama pra-pelatihan.

Selain itu, pekerjaan pada model sebelumnya telah menunjukkan bahwa model besar tidak selalu menghasilkan kinerja yang lebih baik setiap saat. Selain itu, juga telah ditunjukkan bahwa generalisasi yang dicapai di bawah paradigma ini dapat mengakibatkan kinerja yang buruk terutama karena model sangat spesifik untuk data pelatihan dan tidak dapat berkinerja baik pada situasi di luar cakupan data pelatihan.

  • Perbandingan dengan Pembelajaran Manusia

Akhirnya, ketika dibandingkan dengan model bahasa transfer, manusia tidak memerlukan dataset besar ketika belajar sebagian besar tugas bahasa. Sebagian besar, direktif singkat dalam bahasa alami seseorang atau demonstrasi kecil dari tugas bahasa sudah cukup untuk manusia memahami dan melakukan tugas bahasa dengan tingkat kompetensi tertentu.

Kemampuan manusia untuk beradaptasi memiliki banyak kelebihan praktis karena memungkinkan mereka untuk beralih antara berbagai keterampilan atau menggabungkannya untuk berkinerja lebih baik selama dialek, sesuatu yang diluar kemampuan sistem NLP saat ini.

Mengatasi Masalah dengan Pembelajaran Meta dan GPT-3

Solusi yang mungkin untuk tantangan di atas adalah menggunakan pembelajaran meta, konsep dalam ML modern yang memungkinkan model mengembangkan keterampilan yang lebih luas dan kemampuan untuk mengenali pola saat pelatihan, dan kemudian menggunakan kemampuan yang dipelajari selama interferensi untuk beradaptasi dengan cepat atau mengenali tugas yang diperlukan.

Pembelajaran Meta diterapkan dalam arsitektur model bahasa melalui teknik yang disebut “pembelajaran kontekstual” yang menggunakan input teks dari model bahasa pra-dilatih sebagai spesifikasi tugas. Dalam prosesnya, model mengkondisikan instruksi bahasa alami, dan mungkin bahkan menggunakan beberapa demonstrasi, dan model kemudian diharapkan untuk menyelesaikan sisa tugas dengan memprediksi langkah-langkah berikutnya.

Satu-satunya masalah besar dengan Pembelajaran Meta adalah bahwa meskipun telah menunjukkan potensi positif, masih inferior dibandingkan dengan pendekatan fine-tuning dalam arsitektur bahasa alami, dan memerlukan perbaikan lebih lanjut untuk menjadi metode yang praktis untuk mengatasi tugas bahasa.

Selain pembelajaran meta, metode lain yang sedang populer adalah meningkatkan kapasitas model bahasa transformer. Dalam beberapa tahun terakhir, model transfer telah menyaksikan peningkatan substansial dalam kapasitasnya dengan model RNSS18 dengan 100 juta parameter, model DCLT18 dengan 300 juta parameter, model RWC19 dengan 1,5 miliar parameter, model SSP19 dengan 8 miliar parameter, model RSR19 dengan 11 miliar parameter, dan model TUR20 dengan 17 miliar parameter.

Meningkatkan kapasitas model atau meningkatkan parameter secara historis telah menghasilkan perbaikan dalam sintesis teks, dan telah terindikasi bahwa kerugian log yang berkorelasi dengan tugas downstream juga mengikuti tren yang mulus saat skala.

Itu membawa kita ke model GPT-3 yang memiliki lebih dari 175 miliar parameter, dan ketika diluncurkan, itu adalah model bahasa transfer dengan kapasitas tertinggi. Mari kita bahas model GPT-3.

Pengenalan Model GPT-3

GPT-3 adalah model bahasa autoagresif dengan lebih dari 175 miliar parameter yang dirilis oleh OpenAI pada 2020. GPT-3 juga diklasifikasikan sebagai model bahasa besar yang seperti pendahulunya, model GPT-2, adalah model transformer deep learning decoder-only yang menggunakan arsitektur berbasis konvolusi untuk menghasilkan data teks.

Model GPT-3 mengukur kemampuan pembelajaran konteksnya sendiri, dan model GPT-3 dievaluasi pada lebih dari dua lusin dataset NLP dan beberapa tugas baru. Untuk setiap tugas individu, model GPT-3 dievaluasi di bawah tiga kondisi,

  • Pembelajaran Shot Sedikit atau Pembelajaran Kontekstual: Dalam pembelajaran shot sedikit, model GPT-3 memungkinkan se banyak distribusi yang dapat sesuai dengan jendela konteks model.
  • Pembelajaran Satu Shot: Dalam pembelajaran satu shot, model hanya memungkinkan satu demonstrasi.
  • Pembelajaran Nol Shot: Dalam pembelajaran nol shot, tidak ada demonstrasi, dan hanya ada instruksi bahasa alami yang diberikan kepada model.

Secara umum, model GPT-3 mencapai kinerja yang diinginkan dalam pengaturan nol-shot dan satu-shot, dan dalam pengaturan shot sedikit, model GPT-3 mengungguli model transfer state-of-the-art sebagian besar waktu. Selain itu, model GPT-3 berkinerja baik dalam pengaturan satu-shot dan nol-shot pada tugas bahasa alami yang dirancang untuk menguji alasan pada saat itu, atau memerlukan perhatian cepat seperti menggunakan kata baru setelah kalimat, atau mengacak-acak kata, atau melakukan operasi aritmatika. Di sisi lain, ketika dioperasikan dalam pengaturan shot sedikit, model GPT-3 menghasilkan artikel berita sintetis yang menyerupai tulisan manusia ketika dilewatkan melalui evaluator manusia.

Model GPT-3: Pendekatan

Model GPT-3 menggunakan pendekatan pra-pelatihan konvensional yang terdiri dari model, data, dan pelatihan, dan itu menyerupai proses pra-pelatihan yang diikuti oleh model bahasa transfer RWC-19. Model GPT-3 meningkatkan ukuran model, ukuran dataset, keberagaman dataset, dan meningkatkan panjang periode pelatihan.

Model juga menggunakan pendekatan pembelajaran kontekstual yang sekali lagi menyerupai pendekatan model RWC-19, tetapi memperbarui beberapa pengaturan untuk mempelajari pola dalam konteks dataset.

Jadi, mari kita mulai dengan mengeksplorasi pengaturan ini, dan mengevaluasi bagaimana model GPT-3 berkinerja pada pengaturan yang berbeda.

Fine-Tuning

Fine-tuning model telah menjadi pendekatan konvensional dalam model bahasa transfer, dan pendekatan ini melibatkan memperbarui bobot model pra-dilatih dengan melatih model pada dataset yang diawasi yang spesifik untuk tugas yang diinginkan, dan ratusan ribu contoh yang dilabeli digunakan selama proses.

Pendekatan fine-tuning bermanfaat karena mengembalikan kinerja yang kuat di seluruh benchmark. Di sisi lain, keterbatasan utama menggunakan pendekatan fine-tuning adalah bahwa itu memerlukan dataset baru dan besar untuk setiap tugas individu, memiliki potensi untuk memanfaatkan fitur semu dari dataset pelatihan, dapat mengakibatkan perbandingan yang tidak adil dengan kinerja manusia, dan generalisasi yang buruk untuk out-of-distribution.

Cakupan saat ini model GPT-3 tidak mengimplementasikan pendekatan fine-tuning karena kinerjanya yang tidak bergantung pada tugas, meskipun fine-tuning dapat diterapkan pada model GPT-3 di masa depan.

Pembelajaran Shot Sedikit

Pembelajaran shot sedikit adalah istilah yang merujuk pada pengaturan di mana model GPT-3 diberikan beberapa demonstrasi tugas selama interferensi sebagai kondisi, tetapi bobot model tidak diperbarui. Dalam pengaturan shot sedikit, dataset biasanya memiliki contoh dengan konteks dan penyelesaian yang diinginkan.

Kelebihan utama menggunakan pengaturan shot sedikit adalah bahwa itu secara signifikan mengurangi kebutuhan akan data tugas khusus, dan juga mengurangi potensi untuk mempelajari distribusi yang sempit dari dataset besar yang diperbarui dengan sempit. Di sisi lain, kelemahan utama menggunakan pembelajaran shot sedikit adalah bahwa hasil yang diberikan dalam pengaturan shot sedikit tidak sebaik yang diharapkan, dan secara signifikan buruk ketika dibandingkan dengan model state-of-the-art lain yang diperbarui.

Pembelajaran Satu Shot

Dalam pengaturan satu shot, model hanya diberikan satu demonstrasi, dan sisanya sama dengan pengaturan shot sedikit. Alasan mengapa pengaturan satu shot relevan dalam model bahasa transfer adalah karena di antara ketiga pengaturan, satu shot adalah yang paling menyerupai cara tugas dikomunikasikan kepada manusia.

Pembelajaran Nol Shot

Dalam pengaturan nol shot, tidak ada demonstrasi, dan model diberikan instruksi bahasa alami yang menjelaskan tugas. Metode nol shot adalah yang paling nyaman, kuat, dan menghindari korelasi semu, tetapi juga yang paling menantang dari ketiga pengaturan.

Namun, untuk beberapa tugas, pengaturan nol shot adalah yang paling menyerupai cara manusia melakukan tugas bahasa alami.

Gambar di atas membandingkan pengaturan shot sedikit, satu shot, dan nol shot saat melakukan tugas bahasa alami menerjemahkan kalimat Inggris ke dalam bahasa Prancis.

Model GPT-3: Arsitektur

Model GPT-3 menggunakan arsitektur yang sama dengan yang digunakan dalam model GPT-2, dan itu termasuk pre-normalisasi, inisialisasi yang dimodifikasi, dan teknik tokenisasi yang dapat dibalik seperti yang digunakan pada model GPT dengan pengecualian menggunakan strategi alternatif untuk pola perhatian yang jarang dan lapisan yang padat dalam lapisan transformer, mirip dengan Transformer yang jarang.

Untuk mempelajari ketergantungan kinerja model pada ukuran model, pengembang telah melatih 8 ukuran model yang berbeda yang mencakup tiga pesanan besarnya dari 125 juta hingga lebih dari 175 miliar parameter, yang terakhir disebut model GPT-3. Pekerjaan sebelumnya yang terkait dengan model LLM telah menunjukkan bahwa skala kerugian validasi dengan jumlah data pelatihan yang cukup seharusnya menjadi hukum kekuatan yang mulus sebagai fungsi ukuran. Melatih model dengan ukuran yang berbeda memungkinkan pengembang untuk menguji hipotesis untuk tugas bahasa downstream dan kerugian validasi.

Gambar di atas membandingkan ukuran dan arsitektur dari 8 model yang berbeda yang digunakan untuk pengembangan GPT-3. Di sini, n(params) mendefinisikan jumlah total parameter yang dapat dilatih, n(lapisan) mendefinisikan jumlah total lapisan dalam model, d(model) mendefinisikan jumlah unit dalam setiap lapisan bottleneck, dan d(kepala) mendefinisikan dimensi setiap kepala perhatian. Jendela konteks untuk setiap model sama dengan 2048 token.

Selain itu, untuk meminimalkan transfer data antara node, model dipartisi di seluruh GPU sepanjang kedalaman dan lebar dimensi. Parameter arsitektur untuk setiap model dipilih berdasarkan efisiensi komputasi dan keseimbangan beban untuk memaksimalkan presisi dalam tata letak model di seluruh GPU.

Dataset Pelatihan

Biasanya, model bahasa besar menggunakan dataset yang telah berkembang secara signifikan dengan perkembangan terbaru, dan mereka berpuncak pada dataset Common Crawl yang terdiri dari lebih dari satu triliun kata yang berbeda. Ukuran dataset cukup untuk melatih model GPT-3 tanpa memperbarui pada urutan yang sama beberapa kali. Namun, studi dan analisis kinerja menunjukkan bahwa versi yang disaring ringan atau tidak disaring dari dataset Common Crawl memiliki kualitas yang lebih rendah dibandingkan dengan dataset yang lebih tercuri.

Untuk mengatasi masalah kualitas rata-rata dataset, pengembang mengambil 3 langkah untuk meningkatkan kualitas dataset.

  1. Pengembang mengunduh dan menyaring versi dataset Common Crawl berdasarkan kisaran yang mirip dengan corpus referensi berkualitas tinggi.
  2. Pengembang melakukan duplikasi kabur pada tingkat dokumen di seluruh dataset dalam upaya untuk mempertahankan integritas set validasi yang dipegang sebagai pengukuran yang efektif dari overfitting, dan juga untuk mencegah redundansi.
  3. Pengembang juga menambahkan corpus referensi berkualitas tinggi ke data pelatihan untuk meningkatkan keberagaman dataset.

Gambar berikut menunjukkan proporsi akhir atau campuran dataset yang digunakan untuk melatih model GPT-3. Data Common Crawl terdiri dari lebih dari 45 TB teks biasa sebelum penyaringan yang dikurangi menjadi 570 GB data setelah penyaringan, setara dengan lebih dari 400 miliar token yang dienkripsi byte-pasangan. Perlu diingat bahwa dataset dalam pelatihan yang dianggap berkualitas lebih tinggi disampel dengan frekuensi lebih tinggi daripada menyampel dataset sesuai dengan ukurannya.

Kekhawatiran signifikan dengan model bahasa besar yang pra-dilatih pada sejumlah besar data internet dengan kemampuan untuk mengingat dan mempelajari sejumlah besar konten adalah potensi kontaminasi tugas downstream dengan memiliki set pengembangan atau pengujian yang dilihat selama proses pra-pelatihan. Untuk mengurangi kontaminasi potensial ini, pengembang mencari tumpang tindih dengan set pengujian dan pengembangan dari benchmark yang dipelajari untuk GPT-3, dan berusaha untuk menghapus tumpang tindih ini.

Gambar di atas menunjukkan komputasi total yang digunakan selama pelatihan model GPT-3. Model menggunakan Hukum Skala untuk Model Bahasa Neural untuk melatih model yang lebih besar pada token yang lebih sedikit daripada yang biasa. Sebagai hasilnya, baik GPT-3 dan model RoBERTa-Large, yang 10 kali lebih kecil dari model GPT-3, mengambil sekitar 50 petaflops/hari komputasi selama proses pra-pelatihan.

Evaluasi

Untuk pembelajaran shot sedikit, model mengevaluasi setiap contoh dalam dataset evaluasi dengan menggambar K contoh secara acak dari dataset pelatihan tugas sebagai kondisi, dan membatasinya dengan 1 atau 2 baris baru tergantung pada tugas. Untuk Storycloze dan LAMBADA, model menggambar contoh kondisi dari set pengembangan dan mengevaluasinya pada set pengujian karena tidak adanya dataset pelatihan yang diawasi. Untuk Winograd, hanya ada satu dataset, dan contoh kondisi diambil langsung dari itu.

K dapat menjadi nilai apa pun dari 0 hingga jumlah maksimum yang diizinkan oleh jendela konteks model yang next = 2048 untuk semua model, dan biasanya sesuai dengan sekitar 10 hingga 100 contoh. Nilai K yang lebih besar sering menghasilkan hasil yang lebih baik, tetapi tidak selalu, yang mengapa ketika model memiliki set pengujian dan set pengembangan terpisah yang tersedia, model bereksperimen dengan beberapa nilai K pada set pengembangan, dan berdasarkan hasilnya, menjalankan nilai terbaik pada set pengujian.

Selain itu, pada tugas yang memerlukan memilih penyelesaian yang benar dari beberapa pilihan, pengembang memberikan K contoh koreksi plus konteks penyelesaian, dan diikuti dengan memberikan satu contoh konteks saja, dan tugas dibandingkan berdasarkan kemungkinan LM dari setiap penyelesaian. Untuk tugas yang memerlukan klasifikasi biner, model sering memberikan pilihan yang lebih semantik, dan dengan nama yang lebih bermakna, dan kemudian memperlakukannya sebagai pilihan ganda, dan kadang-kadang juga membingkai tugas serupa dengan yang dilakukan oleh model RSR dan arsitektur.

Untuk tugas yang memerlukan penyelesaian bentuk bebas, model menggunakan pencarian berkas dengan parameter yang sama seperti yang digunakan dalam kerangka RSR, dengan berkas panjang 4, dan hukuman 0,6. Model kemudian dinilai menggunakan skor kesamaan F1, pertandingan yang tepat, atau BLEU, tergantung pada standar untuk dataset.

Hasil

Gambar di atas menampilkan kurva pelatihan untuk 8 model yang digunakan dalam arsitektur model GPT-3, seperti yang dijelaskan dalam bagian sebelumnya. Serupa dengan hasil dari model bahasa KMH, kinerja model GPT-3 mengikuti hukum yang tepat saat menggunakan komputasi pelatihan secara efektif. Ada sedikit perbedaan dari hukum hanya ketika tren diperpanjang oleh dua pesanan besarnya. Mungkin terjadi pada orang-orang bahwa perbaikan dalam kerugian entropi silang dapat merupakan hasil dari memodelkan detail semu dari corpus pelatihan. Namun, perbaikan dalam kerugian entropi silang menghasilkan keuntungan konsisten dalam kinerja secara keseluruhan di seluruh spektrum yang luas dari berbagai tugas NLP.

Sebelum mengevaluasi 8 model yang berbeda pada berbagai dataset pelatihan, dataset dikelompokkan menjadi 8 kategori yang berbeda yang mewakili tugas yang serupa. Kategori ini adalah

  1. Evaluasi pada tugas pemodelan bahasa tradisional, dan tugas yang menyerupai pemodelan bahasa seperti tugas Cloze, atau tugas penyelesaian kalimat/paragraf.
  2. Evaluasi pada tugas jawaban pertanyaan “buku tertutup”.
  3. Mengevaluasi kemampuan model untuk menerjemahkan antara bahasa (terutama satu-shot dan beberapa-shot).
  4. Mengevaluasi kinerja model pada tugas Skema Winograd.
  5. Mengevaluasi pada dataset yang melibatkan penalaran atau pertanyaan yang membutuhkan pengetahuan umum.
  6. Mengevaluasi pada tugas pemahaman membaca.
  7. Mengevaluasi pada suite benchmark SuperGLUE.
  8. Mengeksplorasi NLI.

Pemodelan Bahasa, Penyelesaian, dan Tugas Cloze

Dalam bagian ini, kinerja model GPT-3 dievaluasi pada tugas pemodelan bahasa tradisional serta tugas yang memerlukan prediksi satu kata yang menarik, atau menyelesaikan paragraf atau kalimat, atau menyelesaikan bagian teks. Mari kita bahas secara singkat.

Pemodelan Bahasa

Model GPT-3 menghitung kerugian kebingungan nol-shot pada dataset Bank Pohon Penn. Model menghilangkan tugas yang terkait dengan Wikipedia karena sudah termasuk dalam data pelatihan model, dan benchmark satu miliar kata juga dihilangkan karena menyebabkan sejumlah besar gesekan dataset yang ada dalam data pelatihan. Namun, dataset PTB menangani masalah ini karena dapat mendahului internet modern. Model terbesar dalam arsitektur model GPT-3 mencapai SOTA baru pada dataset PTB dengan margin yang cukup, dan mencapai kerugian kebingungan sebesar 20,50.

LAMBADA

Dataset LAMBADA digunakan untuk menguji pemodelan ketergantungan jangka panjang dalam paragraf atau teks. Ini berarti bahwa model diminta untuk memprediksi kata terakhir dari kalimat setelah membaca paragraf untuk konteks. Selain itu, penskalaan kontinu model bahasa menghasilkan pengembalian yang menurun pada benchmark.

Model GPT-3 mencapai akurasi 76% pada LAMBADA, dan memiliki keuntungan lebih dari 8% atas model terbaik sebelumnya. Selain itu, model LAMBADA menunjukkan fleksibilitas pembelajaran shot sedikit karena menangani masalah dengan cara yang terjadi secara klasik dengan dataset. Penyelesaian kalimat dalam LAMBADA biasanya adalah kata terakhir dari kalimat, tetapi karena model bahasa tidak dapat mengetahui itu, model memberikan probabilitas tidak hanya pada penyelesaian yang benar, tetapi juga pada kelanjutan lain dalam paragraf.

Selain itu, ketika contoh yang diberikan kepada model GPT-3 dimodifikasi dengan cara tertentu, model mengembalikan akurasi lebih dari 86%, peningkatan lebih dari 18% atas model sebelumnya. Selain itu, hasil juga menunjukkan bahwa kinerja model dalam pengaturan shot sedikit meningkat sebanding dengan peningkatan ukuran model. Meskipun strategi ini mengurangi model terkecil dalam arsitektur GPT-3 sebesar 20%, itu meningkatkan akurasi model GPT-3 utama dengan 175 miliar parameter sebesar 10%.

Pertanyaan Jawaban Buku Tertutup

Pertanyaan jawaban buku tertutup adalah upaya untuk mengukur kemampuan model GPT-3 untuk menjawab pertanyaan berdasarkan pengetahuan faktual yang luas. Karena pertanyaan seperti itu sering memiliki sejumlah besar kemungkinan pertanyaan, tugas biasanya dicapai dengan menggunakan sistem pemulihan informasi yang memungkinkan model untuk menemukan teks yang relevan dalam kombinasi dengan model yang belajar untuk menghasilkan respons terhadap pertanyaan yang diberikan dan teks yang diperoleh.

Gambar di atas membandingkan hasil untuk model GPT-3 dibandingkan dengan model yang berbeda, dan berjalan pada dataset yang berbeda. Pada dataset TriviaQA, model mencapai skor akurasi 64,3% dalam pengaturan nol-shot, sedangkan mencapai skor akurasi 68% dan 71,2% dalam pengaturan satu-shot dan beberapa-shot.

Dapat dilihat dengan jelas bahwa model GPT-3 dalam pengaturan nol-shot mengungguli model T5-11B yang diperbarui sebesar lebih dari 14%.

Gambar di atas menunjukkan bahwa kinerja model GPT-3 tumbuh secara mulus dengan peningkatan ukuran model. Kinerja menunjukkan bahwa model bahasa terus belajar dari dataset saat kapasitasnya meningkat.

Pikiran Akhir

Dapat dikatakan dengan aman bahwa GPT-3 adalah fase revolusioner dalam industri LLM karena GPT-3 membantu mendorong batas apa yang dapat dilakukan oleh model bahasa. Ini adalah pengembangan yang dibuat dan hambatan yang diatasi oleh GPT-3 yang membuka jalan bagi model bahasa besar yang paling maju dan akurat hingga saat ini, yaitu GPT-4.

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.