Kecerdasan Buatan

Bisakah Anda Membuat Model Bahasa Besar Seperti ChatGPT dengan Setengah Biaya?

Diterbitkan

bulan 12 lalu

11 Mei 2023

Model Bahasa Besar (LLM) seperti GPT-3 dan ChatGPT telah merevolusi AI dengan menawarkan Pemahaman Bahasa Alami dan kemampuan pembuatan konten. Tetapi perkembangan mereka datang dengan harga yang mahal yang membatasi aksesibilitas dan penelitian lebih lanjut. Para peneliti memperkirakan bahwa pelatihan GPT-3 menelan biaya sekitar OpenAI $ 5 juta. Namun demikian, Microsoft mengenali potensi tersebut dan berinvestasi $ 1 miliar di 2019 dan $ 10 miliar pada tahun 2023 dalam usaha GPT-3 dan ChatGPT OpenAI.

LLM adalah model pembelajaran mesin yang dilatih pada data tekstual ekstensif untuk aplikasi NLP. Mereka didasarkan pada arsitektur transformator dan memanfaatkan mekanisme perhatian untuk tugas-tugas NLP seperti menjawab pertanyaan, terjemahan mesin, analisis sentimen, dll.

Timbul pertanyaan: dapatkah efisiensi model besar ini ditingkatkan sekaligus mengurangi biaya komputasi dan waktu pelatihan?

Beberapa pendekatan, seperti Jaringan Syaraf Progresif, Morfisme Jaringan, paralelisme model intra-lapisan, warisan pengetahuan, dll., telah dikembangkan untuk mengurangi biaya komputasi pelatihan jaringan saraf. Novel LiGO Pendekatan (Linear Growth Operator) yang akan kita bahas adalah menetapkan benchmark baru. Ini membagi dua biaya komputasi pelatihan LLM.

Sebelum membahas teknik ini, memeriksa faktor-faktor yang berkontribusi terhadap tingginya harga pembuatan LLM sangat penting.

Biaya Pembuatan Model Bahasa Besar

Tiga biaya utama untuk mengembangkan LLM adalah sebagai berikut:

1. Sumber Daya Komputasi

Membangun LLM membutuhkan sumber daya komputasi yang sangat besar untuk melatih kumpulan data yang besar. Mereka harus memproses miliaran parameter dan mempelajari pola kompleks dari data tekstual yang sangat besar.

Investasi dalam perangkat keras khusus seperti Graphics Processing Units (GPU) dan Unit Pemrosesan Tensor (TPU) diperlukan untuk membangun dan melatih LLM untuk mencapai kinerja canggih.

Misalnya, GPT-3 dilatih pada a superkomputer dengan 10000 GPU tingkat perusahaan (H100 dan A100) dan 285,000 inti CPU.

2. Konsumsi Energi

Sumber daya komputasi intensif yang diperlukan untuk membangun LLM menghasilkan konsumsi energi yang signifikan. Misalnya, melatih 175 miliar parameter yang diambil GPT-3 selama 14.8 hari menggunakan 10,000 V100 GPU, setara dengan 3.55 juta jam GPU. Tingkat konsumsi energi yang tinggi juga memiliki dampak lingkungan yang signifikan.

3. Penyimpanan & Pengelolaan Data

LLM dilatih pada kumpulan data besar. Misalnya, GPT-3 dilatih pada korpus tekstual yang luas data, termasuk Common Crawl, WebText2, Books1, Books2, dan Wikipedia, di antara sumber lainnya. Investasi infrastruktur yang signifikan diperlukan untuk mengumpulkan, menyusun, dan menyimpan kumpulan data ini.

Selain itu, penyimpanan cloud diperlukan untuk penyimpanan data, dan keahlian manusia untuk pemrosesan awal data dan kontrol versi. Selain itu, memastikan bahwa strategi data Anda mematuhi peraturan seperti GDPR juga menambah biaya.

Teknik LiGO: Kurangi Biaya Pembuatan Model Bahasa Besar menjadi Setengahnya

LiGO (Linear Growth Operator) adalah teknik baru yang dikembangkan oleh para peneliti di MIT untuk mengurangi biaya komputasi pelatihan LLM sebesar 50%. Metode ini melibatkan inisialisasi bobot model yang lebih besar dari model pra-terlatih yang lebih kecil, memungkinkan penskalaan jaringan saraf yang efisien.

Gambar dari Kertas: Belajar Menumbuhkan Model Pra-Pelatihan Untuk Pelatihan Transformator yang Efisien

Yoon Kim, penulis senior makalah tersebut, mengatakan:

“Diperkirakan bahwa model pelatihan pada skala yang dihipotesiskan untuk dijalankan oleh ChatGPT dapat menghabiskan jutaan dolar hanya untuk satu kali pelatihan. Bisakah kita meningkatkan efisiensi metode pelatihan ini, sehingga kita masih bisa mendapatkan model yang bagus dalam waktu yang lebih singkat dan biaya yang lebih sedikit? Kami mengusulkan untuk melakukan ini dengan memanfaatkan model bahasa yang lebih kecil yang telah dilatih sebelumnya.”

Metode ini mempertahankan keunggulan kinerja model yang lebih besar dengan pengurangan biaya komputasi dan waktu pelatihan dibandingkan dengan melatih model besar dari awal. LiGO menggunakan operator pertumbuhan linier berbasis data yang menggabungkan operator kedalaman dan lebar untuk kinerja optimal.

Makalah ini menggunakan berbagai kumpulan data untuk melakukan eksperimen berbasis teks, termasuk korpus Wikipedia bahasa Inggris untuk melatih model BERT dan RoBERTa dan kumpulan data C4 untuk melatih GPT2.

Eksperimen teknik LiGO meliputi menumbuhkan BERT-Small menjadi BERT-Base, BERT-Base menjadi BERT-Large, RoBERTaSmall menjadi RoBERTa-Base, GPT2-Base menjadi GPT2-Medium, dan CaiT-XS menjadi CaiT-S.

Para peneliti membandingkan pendekatan mereka dengan beberapa baseline lainnya, termasuk pelatihan dari awal, pelatihan progresif, bert2BERT, dan KI.

Teknik LiGO menawarkan penghematan 44.7% dalam FLOPs (floating-point operations per second) dan penghematan 40.7% dalam waktu dinding dibandingkan dengan melatih BERT-Base dari awal dengan menggunakan kembali model BERT-Small. Operator pertumbuhan LiGO mengungguli StackBERT, MSLT, bert2BERT, dan KI dalam pelatihan yang efisien.

Manfaat Menggunakan Teknik Pengoptimalan Pelatihan Seperti LiGO

LiGO adalah metode pelatihan jaringan saraf yang efisien yang memiliki berbagai manfaat sebagai berikut:

1. Pelatihan Lebih Cepat

Seperti yang dinyatakan sebelumnya, pelatihan yang lebih cepat adalah keuntungan utama dari teknik LiGO. Ini melatih LLM di separuh waktu, meningkatkan produktivitas dan mengurangi biaya.

2. Sumber Daya Efisien

LiGO hemat sumber daya karena meminimalkan waktu dinding dan FLOP, mengarah ke pendekatan yang lebih hemat biaya dan ramah lingkungan untuk melatih model trafo besar.

3. Generalisasi

Teknik LiGO telah meningkatkan kinerja transformator bahasa dan penglihatan yang menunjukkan bahwa ini adalah teknik yang dapat digeneralisasikan yang dapat diterapkan pada berbagai tugas.

Membangun produk AI komersial hanyalah salah satu aspek dari keseluruhan biaya yang terkait dengan sistem AI. Komponen biaya penting lainnya berasal dari operasi sehari-hari. Misalnya, harganya sekitar OpenAI $700,000 setiap hari untuk menjawab pertanyaan menggunakan ChatGPT. Peneliti diharapkan untuk terus mengeksplorasi pendekatan yang membuat LLM hemat biaya selama pelatihan dan lebih mudah diakses saat runtime.

Untuk konten terkait AI lainnya, kunjungi bersatu.ai.