Kecerdasan buatan

Gemma: Google Menghadirkan Kemampuan AI Canggih melalui Open Source

Diterbitkan 29 Februari 2024

Diperbarui 22 Mei 2026

Oleh

Aayush Mittal Mittal

Bidang kecerdasan buatan (AI) telah mengalami kemajuan pesat dalam beberapa tahun terakhir, sebagian besar didorong oleh kemajuan dalam pembelajaran dalam dan pemrosesan bahasa alami (NLP). Di garis depan kemajuan ini adalah model bahasa besar (LLM) – sistem AI yang dilatih pada jumlah besar data teks yang dapat menghasilkan teks seperti manusia dan terlibat dalam tugas percakapan.

LLM seperti PaLM Google, Claude Anthropic, dan Gopher DeepMind telah menunjukkan kemampuan luar biasa, dari pengkodean hingga penalaran umum. Namun, sebagian besar model ini belum dirilis secara terbuka, sehingga membatasi akses mereka untuk penelitian, pengembangan, dan aplikasi bermanfaat.

Hal ini berubah dengan peluncuran terbuka Gemma – sebuah keluarga LLM dari DeepMind Google berdasarkan model Gemini propietary yang kuat. Dalam posting blog ini, kita akan mempelajari Gemma, menganalisis arsitektur, proses pelatihan, kinerja, dan rilis yang bertanggung jawab.

Overview of Gemma

Pada Februari 2023, DeepMind mengeluarkan sumber terbuka dua ukuran model Gemma – versi 2 miliar parameter yang dioptimalkan untuk penerapan perangkat, dan versi 7 miliar parameter yang dirancang untuk penggunaan GPU/TPU.

Gemma menggunakan arsitektur transformer berbasis dan metodologi pelatihan yang sama dengan model Gemini DeepMind. Ini dilatih pada hingga 6 triliun token data teks dari dokumen web, matematika, dan kode.

DeepMind merilis checkpoint pra-pelatihan Gemma yang mentah, serta versi yang diperhalus dengan pembelajaran terawasi dan umpan balik manusia untuk meningkatkan kemampuan dalam bidang seperti dialog, mengikuti instruksi, dan pengkodean.

Getting Started with Gemma

Rilis terbuka Gemma membuat kemampuan AI canggihnya dapat diakses oleh pengembang, peneliti, dan penggemar. Berikut adalah panduan singkat untuk memulai:

Platform Agnostic Deployment

Kelebihan Gemma adalah fleksibilitasnya – Anda dapat menjalankannya pada CPU, GPU, atau TPU. Untuk CPU, gunakan TensorFlow Lite atau HuggingFace Transformers. Untuk kinerja yang dipercepat pada GPU/TPU, gunakan TensorFlow. Layanan cloud seperti Vertex AI Google juga menyediakan penskalaan yang mudah.

Access Pre-trained Models

Gemma hadir dalam variasi pra-pelatihan yang berbeda tergantung pada kebutuhan Anda. Model 2B dan 7B menawarkan kemampuan generatif yang kuat secara default. Untuk penyesuaian khusus, model 2B-FT dan 7B-FT adalah titik awal yang ideal.

Build Exciting Applications

Anda dapat membangun berbagai aplikasi dengan Gemma, seperti generasi cerita, terjemahan bahasa, jawaban pertanyaan, dan produksi konten kreatif. Kunci untuk memanfaatkan kekuatan Gemma melalui penyesuaian pada dataset Anda sendiri.

Architecture

Gemma menggunakan arsitektur transformer decoder-only, membangun pada kemajuan seperti perhatian multi-query dan penyulaman posisi rotary:

Transformers: Diperkenalkan pada 2017, arsitektur transformer yang berbasis pada mekanisme perhatian telah menjadi sangat umum dalam NLP. Gemma mewarisi kemampuan transformer untuk memodelkan ketergantungan jangka panjang dalam teks.
Decoder-only: Gemma hanya menggunakan tumpukan decoder transformer, tidak seperti model encoder-decoder seperti BART atau T5. Ini menyediakan kemampuan generatif yang kuat untuk tugas seperti generasi teks.
Perhatian multi-query: Gemma menggunakan perhatian multi-query pada model yang lebih besar, memungkinkan setiap kepala perhatian untuk memproses beberapa query secara paralel untuk inferensi yang lebih cepat.
Penyulaman posisi rotary: Gemma merepresentasikan informasi posisi menggunakan penyulaman rotary bukan penyandian posisi absolut. Teknik ini mengurangi ukuran model sambil mempertahankan informasi posisi.

Penggunaan teknik seperti perhatian multi-query dan penyulaman posisi rotary memungkinkan model Gemma untuk mencapai keseimbangan optimal antara kinerja, kecepatan inferensi, dan ukuran model.

Data and Training Process

Gemma dilatih pada hingga 6 triliun token data teks, sebagian besar dalam bahasa Inggris. Ini termasuk dokumen web, teks matematika, dan kode sumber. DeepMind melakukan upaya signifikan dalam penyaringan data, menghapus konten yang berpotensi beracun atau berbahaya menggunakan klasifikasi dan heuristik.

Pelatihan dilakukan menggunakan infrastruktur TPUv5 Google, dengan hingga 4096 TPU digunakan untuk melatih Gemma-7B. Teknik paralelisasi model dan data yang efisien memungkinkan pelatihan model besar dengan perangkat keras komoditas.

Pelatihan bertahap digunakan, terus-menerus menyesuaikan distribusi data untuk fokus pada teks berkualitas tinggi dan relevan. Tahap penyesuaian akhir menggunakan campuran contoh instruksi yang dihasilkan manusia dan sintetis untuk meningkatkan kemampuan.

Model Performance

DeepMind secara ketat mengevaluasi model Gemma pada lebih dari 25 benchmark yang mencakup jawaban pertanyaan, penalaran, matematika, pengkodean, penalaran umum, dan kemampuan dialog.

Gemma mencapai hasil state-of-the-art dibandingkan dengan model sumber terbuka yang sebanding pada sebagian besar benchmark. Beberapa sorotan:

Matematika: Gemma unggul pada tes penalaran matematika seperti GSM8K dan MATH, mengungguli model seperti Codex dan Claude Anthropic lebih dari 10 poin.
Pengkodean: Gemma mencapai atau melampaui kinerja Codex pada benchmark pengkodean seperti MBPP, meskipun tidak secara khusus dilatih pada kode.
Dialog: Gemma menunjukkan kemampuan percakapan yang kuat dengan tingkat kemenangan 51,7% melawan Mistral-7B Anthropic pada tes preferensi manusia.
Penalaran: Pada tugas yang memerlukan inferensi seperti ARC dan Winogrande, Gemma mengungguli model lainnya sebesar 5-10 poin.

Kemampuan Gemma yang luas di berbagai disiplin menunjukkan kemampuan kecerdasan umum yang kuat. Meskipun masih ada kesenjangan dengan kinerja manusia, Gemma mewakili lompatan besar dalam NLP sumber terbuka.

Safety and Responsibility

Mengeluarkan bobot model besar secara terbuka memperkenalkan tantangan sekitar penyalahgunaan yang disengaja dan bias bawaan model. DeepMind mengambil langkah-langkah untuk mitigasi risiko:

Penyaringan data: Teks yang berpotensi beracun, ilegal, atau berbias telah dihapus dari data pelatihan menggunakan klasifikasi dan heuristik.
Evaluasi: Gemma diuji pada lebih dari 30 benchmark yang dirancang untuk menilai keamanan, keadilan, dan ketahanan. Ini mencapai atau melampaui model lainnya.
Penyesuaian: Penyesuaian model difokuskan pada meningkatkan kemampuan keamanan seperti penyaringan informasi dan perilaku penyangkalan yang tepat.
Syarat penggunaan: Syarat penggunaan melarang aplikasi ofensif, ilegal, atau tidak etis dari model Gemma. Namun, penegakan tetap menjadi tantangan.
Kartu model: Kartu yang merincikan kemampuan model, keterbatasan, dan bias telah dirilis untuk mempromosikan transparansi.

Meskipun risiko dari pengeluaran sumber terbuka ada, DeepMind menentukan bahwa rilis Gemma memberikan manfaat sosial bersih berdasarkan profil keamanannya dan kemampuan penelitian. Namun, pemantauan yang ketat terhadap potensi bahaya akan tetap penting.

Enabling the Next Wave of AI Innovation

Mengeluarkan Gemma sebagai model keluarga sumber terbuka berpotensi membuka kemajuan di seluruh komunitas AI:

Aksesibilitas: Gemma mengurangi hambatan bagi organisasi untuk membangun dengan NLP canggih, yang sebelumnya menghadapi biaya komputasi/data yang tinggi untuk melatih model LLM mereka sendiri.
Aplikasi baru: Dengan mengeluarkan checkpoint pra-pelatihan dan penyesuaian, DeepMind memungkinkan pengembangan aplikasi bermanfaat yang lebih mudah di bidang seperti pendidikan, sains, dan aksesibilitas.
Kustomisasi: Pengembang dapat lebih memustomisasi Gemma untuk aplikasi khusus industri atau domain melalui pelatihan lanjutan pada data propietary.
Penelitian: Model terbuka seperti Gemma memfasilitasi transparansi dan audit yang lebih besar dari sistem NLP saat ini, menerangi arah penelitian di masa depan.
Inovasi: Ketersediaan model baseline yang kuat seperti Gemma akan mempercepat kemajuan di bidang seperti mitigasi bias, faktualitas, dan keamanan AI.

Dengan menyediakan kemampuan Gemma untuk semua melalui sumber terbuka, DeepMind berharap dapat memacu pengembangan AI yang bertanggung jawab untuk kebaikan sosial.

The Road Ahead

Dengan setiap lompatan dalam AI, kita semakin dekat dengan model yang dapat menyaingi atau melampaui kecerdasan manusia di semua domain. Sistem seperti Gemma menekankan bagaimana kemajuan pesat dalam model self-supervised membuka kemampuan kognitif yang semakin canggih.

Namun, masih ada pekerjaan yang harus dilakukan untuk meningkatkan keandalan, interpretasi, dan kontrol AI – bidang di mana kecerdasan manusia masih mendominasi. Domain seperti matematika menyoroti kesenjangan yang persisten, dengan Gemma mencetak 64% pada MMLU dibandingkan dengan kinerja manusia yang diperkirakan sebesar 89%.

Menutup kesenjangan ini sambil memastikan keamanan dan etika sistem AI yang semakin canggih akan menjadi tantangan utama di masa depan. Mencapai keseimbangan yang tepat antara keterbukaan dan kehati-hatian akan sangat penting, karena DeepMind bertujuan untuk mendemokratisasi akses ke manfaat AI sambil mengelola risiko yang muncul.

Inisiatif untuk mempromosikan keamanan AI – seperti ANC Dario Amodei, tim Etika & Masyarakat DeepMind, dan AI Konstitusional Anthropic – menandakan pengakuan yang semakin besar akan kebutuhan akan nuansa ini. Kemajuan yang berarti akan memerlukan dialog terbuka dan berbasis bukti antara peneliti, pengembang, pembuat kebijakan, dan masyarakat.

Jika dinavigasi dengan bertanggung jawab, Gemma mewakili bukan puncak AI, tetapi sebuah basecamp untuk generasi peneliti AI berikutnya yang mengikuti jejak DeepMind menuju kecerdasan umum buatan yang adil dan bermanfaat.

Conclusion

Pengeluaran model Gemma oleh DeepMind menandai era baru untuk AI sumber terbuka – satu yang melampaui benchmark sempit ke kemampuan kecerdasan umum. Diuji secara luas untuk keamanan dan dapat diakses secara luas, Gemma menetapkan standar baru untuk pengeluaran sumber terbuka yang bertanggung jawab dalam AI.

Didorong oleh semangat kompetitif yang ditemper dengan nilai kooperatif, berbagi kemajuan seperti Gemma meningkatkan semua pihak dalam ekosistem AI. Seluruh komunitas sekarang memiliki akses ke keluarga model LLM yang serbaguna untuk mendukung atau memandu inisiatif mereka.

Meskipun risiko tetap ada, ketekunan teknis dan etis DeepMind memberikan kepercayaan bahwa manfaat Gemma melebihi potensi bahayanya. Ketika kemampuan AI semakin canggih, mempertahankan nuansa antara keterbukaan dan kehati-hatian akan sangat penting.

Gemma membawa kita satu langkah lebih dekat ke AI yang bermanfaat bagi semua umat manusia. Namun, masih banyak tantangan besar yang menunggu di sepanjang jalan menuju kecerdasan umum buatan yang berkebajikan. Jika peneliti AI, pengembang, dan masyarakat secara luas dapat mempertahankan kemajuan kolaboratif, Gemma mungkin suatu hari nanti dilihat sebagai basecamp historis, bukan puncak terakhir.

Aayush Mittal, Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah memimpin saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.