Kecerdasan Buatan
Google Mempercepat Pelatihan AI 28% dengan Menggunakan SLM sebagai Guru

Pelatihan model bahasa besar (LLM) telah menjadi sesuatu yang tidak terjangkau bagi sebagian besar organisasi. Dengan biaya yang mencapai jutaan dan persyaratan komputasi yang akan membuat komputer super kewalahan, pengembangan AI tetap terkungkung di balik pintu-pintu raksasa teknologi. Namun, Google baru saja membalik cerita ini dengan pendekatan yang sangat sederhana sehingga membuat Anda bertanya-tanya mengapa tidak ada yang memikirkannya lebih awal: menggunakan model AI yang lebih kecil sebagai guru.
Cara kerja SALT: Pendekatan baru untuk melatih model AI
Dalam sebuah makalah penelitian baru-baru ini berjudul “Bantuan Kecil Bermanfaat Besar: Pelatihan LLM yang Efisien dengan Memanfaatkan LM Kecil,Google Research dan DeepMind memperkenalkan SALT (Small Model Aided Large Model Training). Ini adalah metode baru yang menantang pendekatan tradisional kami dalam melatih LLM.
Mengapa penelitian ini penting? Saat ini, melatih model AI berskala besar seperti mencoba mengajarkan seseorang semua hal yang perlu mereka ketahui tentang suatu subjek sekaligus – hal ini tidak efisien, mahal, dan sering kali terbatas pada organisasi dengan sumber daya komputasi yang besar. SALT mengambil jalur yang berbeda, memperkenalkan proses pelatihan dua tahap yang inovatif dan praktis.
Menjelaskan cara kerja SALT:
Tahap 1: Distilasi Pengetahuan
- A model bahasa yang lebih kecil (SLM) bertindak sebagai guru, berbagi pemahamannya dengan model yang lebih besar
- Model yang lebih kecil berfokus pada pemindahan “pengetahuan yang dipelajari” melalui apa yang peneliti sebut sebagai “label lunak”
- Anggap saja seperti asisten pengajar yang menangani konsep dasar sebelum siswa beralih ke topik lanjutan.
- Tahap ini sangat efektif di wilayah pembelajaran yang “mudah” – area di mana model yang lebih kecil memiliki keyakinan prediktif yang kuat
Tahap 2: Pembelajaran dengan Pengawasan Sendiri
- Model besar beralih ke pembelajaran mandiri
- Berfokus pada penguasaan pola kompleks dan tugas yang menantang
- Di sinilah model mengembangkan kemampuan yang melampaui apa yang dapat diberikan oleh “guru” yang lebih kecil
- Transisi antar tahap menggunakan strategi yang dirancang dengan cermat, termasuk peluruhan linier dan peluruhan rasio linier dari berat kehilangan distilasi
Secara non-teknis, sayaBayangkan model AI yang lebih kecil seperti tutor yang membantu yang membimbing model yang lebih besar di tahap awal pelatihan. Tutor ini memberikan informasi tambahan beserta jawaban mereka, yang menunjukkan seberapa yakin mereka terhadap setiap jawaban. Informasi tambahan ini, yang dikenal sebagai "label lunak", membantu model yang lebih besar belajar lebih cepat dan efektif.
- Peluruhan Linier: Ini seperti mengecilkan volume suara tutor secara perlahan. Bimbingan tutor akan semakin berkurang di setiap langkah, memungkinkan model yang lebih besar untuk lebih fokus belajar dari data mentah itu sendiri.
- Peluruhan Rasio Linier: Ini seperti menyeimbangkan saran tutor dan tugas yang sedang dikerjakan. Seiring berjalannya pelatihan, penekanannya akan lebih bergeser ke tugas awal, sementara masukan tutor menjadi kurang dominan.
Hasilnya meyakinkan. Ketika peneliti Google menguji SALT menggunakan SLM dengan 1.5 miliar parameter untuk melatih LLM dengan 2.8 miliar parameter pada Kumpulan data tumpukan, mereka melihat:
- Pengurangan waktu pelatihan sebesar 28% dibandingkan dengan metode tradisional
- Peningkatan kinerja yang signifikan setelah penyempurnaan:
- Akurasi soal matematika meningkat hingga 34.87% (dibandingkan dengan 31.84% pada tingkat dasar)
- Pemahaman membaca mencapai akurasi 67% (naik dari 63.7%)
Namun, yang membuat SALT benar-benar inovatif adalah kerangka teoretisnya. Para peneliti menemukan bahwa bahkan model guru yang "lebih lemah" pun dapat meningkatkan kinerja siswa dengan mencapai apa yang mereka sebut "kompromi bias-varians yang menguntungkan". Sederhananya, model yang lebih kecil membantu model yang lebih besar mempelajari pola-pola fundamental dengan lebih efisien, menciptakan fondasi yang lebih kuat untuk pembelajaran lanjutan.
Mengapa SALT dapat mengubah bidang pengembangan AI
Ingatkah Anda ketika komputasi awan mengubah siapa yang dapat memulai perusahaan teknologi? SALT mungkin melakukan hal yang sama untuk pengembangan AI.
Saya telah mengikuti inovasi pelatihan AI selama bertahun-tahun, dan sebagian besar terobosan terutama menguntungkan perusahaan teknologi besar. Namun, SALT berbeda.
Berikut ini adalah apa yang mungkin terjadi di masa depan:
Untuk Organisasi dengan Sumber Daya Terbatas:
- Anda mungkin tidak lagi memerlukan infrastruktur komputasi besar untuk mengembangkan model AI yang mumpuni
- Laboratorium penelitian dan perusahaan yang lebih kecil dapat bereksperimen dengan pengembangan model khusus
- Pengurangan waktu pelatihan sebesar 28% secara langsung menghasilkan biaya komputasi yang lebih rendah
- Yang lebih penting, Anda bisa memulai dengan sumber daya komputasi sederhana dan tetap mencapai hasil profesional
Untuk Lanskap Pengembangan AI:
- Lebih banyak pemain dapat memasuki bidang ini, yang mengarah pada solusi AI yang lebih beragam dan terspesialisasi
- Universitas dan lembaga penelitian dapat melakukan lebih banyak eksperimen dengan sumber daya yang ada
- Hambatan untuk masuk ke penelitian AI menurun secara signifikan
- Kita mungkin melihat aplikasi baru di bidang yang sebelumnya tidak mampu mengembangkan AI
Apa artinya ini untuk masa depan
Dengan menggunakan model-model kecil sebagai pengajar, kami tidak hanya membuat pelatihan AI lebih efisien – kami juga secara mendasar mengubah siapa yang dapat berpartisipasi dalam pengembangan AI. Implikasinya jauh melampaui sekadar peningkatan teknis.
Hal-hal penting yang perlu diingat:
- Pengurangan waktu pelatihan sebesar 28% adalah perbedaan antara memulai proyek AI atau menganggapnya di luar jangkauan
- Peningkatan kinerja (34.87% pada tugas matematika, 67% pada tugas membaca) menunjukkan bahwa aksesibilitas tidak selalu berarti mengorbankan kualitas
- Pendekatan SALT membuktikan bahwa terkadang solusi terbaik datang dari pemikiran ulang fundamental daripada hanya menambahkan daya komputasi
Yang perlu diperhatikan:
- Perhatikan organisasi-organisasi kecil yang mulai mengembangkan model AI khusus
- Perhatikan aplikasi baru di bidang yang sebelumnya tidak mampu mengembangkan AI
- Cari inovasi dalam cara model yang lebih kecil digunakan untuk tugas-tugas khusus
Ingat: Nilai SALT yang sesungguhnya terletak pada bagaimana ia dapat mengubah siapa yang dapat berinovasi dalam AI. Apakah Anda menjalankan laboratorium penelitian, mengelola tim teknologi, atau hanya tertarik pada pengembangan AI, ini adalah jenis terobosan yang dapat mewujudkan ide besar Anda berikutnya.
Mungkin Anda bisa mulai memikirkan proyek AI yang Anda pikir mustahil. Mungkin lebih mungkin dari yang Anda bayangkan.