Connect with us

Google’s Multimodal AI Gemini – A Technical Deep Dive

Kecerdasan buatan

Google’s Multimodal AI Gemini – A Technical Deep Dive

mm
Google's First Multimodal Model: Gemini

Sundar Pichai, CEO Google, bersama dengan Demis Hassabis dari Google DeepMind, telah memperkenalkan Gemini pada Desember 2023. Model bahasa besar ini terintegrasi di seluruh produk Google, menawarkan perbaikan yang merambah ke layanan dan alat yang digunakan oleh jutaan orang.

Gemini, AI multimodal canggih Google, lahir dari upaya kolaboratif laboratorium DeepMind dan Brain AI yang terintegrasi. Gemini berdiri di atas bahu pendahulunya, menjanjikan untuk menyampaikan suite aplikasi yang lebih terhubung dan cerdas.

Pengumuman Google Gemini, yang terletak tidak jauh setelah debut Bard, Duet AI, dan PaLM 2 LLM, menandai niat yang jelas dari Google untuk tidak hanya bersaing tetapi memimpin dalam revolusi AI.

Berlawanan dengan gagasan tentang musim dingin AI, peluncuran Gemini menunjukkan musim semi AI yang berkembang, penuh dengan potensi dan pertumbuhan. Ketika kita merefleksikan setahun sejak munculnya ChatGPT, yang merupakan momen penting bagi AI, langkah Google menunjukkan bahwa ekspansi industri ini jauh dari selesai; sebenarnya, mungkin baru saja mempercepat langkah.

Apa itu Gemini?

Model Gemini Google mampu memproses berbagai jenis data seperti teks, gambar, audio, dan video. Ini tersedia dalam tiga versi—Ultra, Pro, dan Nano—masing-masing dirancang untuk aplikasi spesifik, dari penalaran kompleks hingga penggunaan perangkat. Ultra unggul dalam tugas multifaset dan akan tersedia di Bard Advanced, sedangkan Pro menawarkan keseimbangan antara kinerja dan efisiensi sumber daya, sudah terintegrasi ke dalam Bard untuk prompt teks. Nano, dioptimalkan untuk penerapan perangkat, tersedia dalam dua ukuran dan menampilkan optimasi perangkat keras seperti kuantisasi 4-bit untuk penggunaan offline di perangkat seperti Pixel 8 Pro.

Arsitektur Gemini unik dalam kemampuan output multimodal aslinya, menggunakan token gambar diskrit untuk generasi gambar dan mengintegrasikan fitur audio dari Universal Speech Model untuk pemahaman audio yang halus. Kemampuannya untuk menangani data video sebagai gambar berurutan, diintegrasikan dengan input teks atau audio, menunjukkan kehebatan multimodalnya.

Gemini mendukung urutan teks, gambar, audio, dan video sebagai input

Gemini mendukung urutan teks, gambar, audio, dan video sebagai input

Mengakses Gemini

Gemini 1.0 sedang diluncurkan di seluruh ekosistem Google, termasuk Bard, yang sekarang mendapat manfaat dari kemampuan Gemini Pro yang diperbarui. Google juga telah mengintegrasikan Gemini ke dalam Layanan Pencarian, Iklan, dan Duet, meningkatkan pengalaman pengguna dengan respon yang lebih cepat dan akurat.

Bagi mereka yang ingin memanfaatkan kemampuan Gemini, Google AI Studio dan Google Cloud Vertex menawarkan akses ke Gemini Pro, dengan yang terakhir menyediakan fitur penyesuaian dan keamanan yang lebih besar.

Untuk mengalami kemampuan yang ditingkatkan dari Bard yang ditenagai oleh Gemini Pro, pengguna dapat mengikuti langkah-langkah sederhana berikut:

  1. Navigasi ke Bard: Buka browser web yang dipilih dan kunjungi situs web Bard.
  2. Masuk Aman: Akses layanan dengan masuk menggunakan akun Google, memastikan pengalaman yang lancar dan aman.
  3. Obrolan Interaktif: Sekarang Anda dapat menggunakan Bard, di mana fitur canggih Gemini Pro dapat dipilih.

Kekuatan Multimodalitas:

Pada intinya, Gemini menggunakan arsitektur berbasis transformer, serupa dengan yang digunakan dalam model NLP sukses seperti GPT-3. Namun, keunikan Gemini terletak pada kemampuannya untuk memproses dan mengintegrasikan informasi dari berbagai modalitas, termasuk teks, gambar, dan kode. Ini dicapai melalui teknik novel yang disebut perhatian antar modal, yang memungkinkan model untuk mempelajari hubungan dan ketergantungan antara berbagai jenis data.

Berikut adalah breakdown dari komponen kunci Gemini:

  • Encoder Multimodal: Modul ini memproses data input dari setiap modalitas (misalnya, teks, gambar) secara independen, mengekstrak fitur yang relevan dan menghasilkan representasi individual.
  • Jaringan Perhatian Antar Modal: Jaringan ini adalah jantung dari Gemini. Ini memungkinkan model untuk mempelajari hubungan dan ketergantungan antara representasi yang berbeda, memungkinkan mereka untuk “berbicara” satu sama lain dan memperkaya pemahaman mereka.
  • Decoder Multimodal: Modul ini menggunakan representasi yang diperkaya yang dihasilkan oleh jaringan perhatian antar modal untuk melakukan berbagai tugas, seperti pembuatan keterangan gambar, generasi teks-ke-gambar, dan generasi kode.

Model Gemini tidak hanya tentang memahami teks atau gambar—ini tentang mengintegrasikan berbagai jenis informasi dengan cara yang lebih dekat dengan bagaimana kita, sebagai manusia, memahami dunia. Misalnya, Gemini dapat melihat urutan gambar dan menentukan urutan logis atau spasial objek di dalamnya. Ini juga dapat menganalisis fitur desain objek untuk membuat penilaian, seperti mana dari dua mobil yang memiliki bentuk yang lebih aerodinamis.

Tapi kemampuan Gemini melampaui pemahaman visual saja. Ini dapat mengubah serangkaian instruksi menjadi kode, menciptakan alat praktis seperti penghitung waktu yang tidak hanya berfungsi seperti yang diarahkan tetapi juga menyertakan elemen kreatif, seperti emotikon motivasi, untuk meningkatkan interaksi pengguna. Ini menunjukkan kemampuan untuk menangani tugas yang memerlukan campuran kreativitas dan fungsionalitas—keterampilan yang sering dianggap khas manusia.

Kemampuan Gemini : Penalaran Spasial

Kemampuan Gemini : Penalaran Spasial (Sumber)

 

Kemampuan Gemini meluas ke eksekusi tugas pemrograman

Kemampuan Gemini meluas ke eksekusi tugas pemrograman(Sumber)

Desain canggih Gemini didasarkan pada sejarah kaya penelitian jaringan neural dan memanfaatkan teknologi TPU canggih Google untuk pelatihan. Gemini Ultra, khususnya, telah menetapkan benchmark baru di berbagai domain AI, menunjukkan kenaikan kinerja yang luar biasa dalam tugas penalaran multimodal.

Dengan kemampuannya untuk memahami dan menganalisis data kompleks, Gemini menawarkan solusi untuk aplikasi dunia nyata, terutama dalam pendidikan. Ini dapat menganalisis dan memperbaiki solusi untuk masalah, seperti dalam fisika, dengan memahami catatan tangan dan menyediakan pengetikan matematika yang akurat. Kemampuan seperti itu menunjukkan masa depan di mana AI membantu dalam pengaturan pendidikan, menawarkan siswa dan pendidik alat canggih untuk belajar dan memecahkan masalah.

Gemini telah dimanfaatkan untuk menciptakan agen seperti AlphaCode 2, yang unggul dalam masalah pemrograman kompetitif. Ini menunjukkan potensi Gemini untuk bertindak sebagai AI generalis, mampu menangani masalah kompleks dan multi-langkah.

Gemini Nano membawa kekuatan AI ke perangkat sehari-hari, mempertahankan kemampuan yang mengesankan dalam tugas seperti ringkasan dan pemahaman membaca, serta tantangan pemrograman dan STEM. Model yang lebih kecil ini dioptimalkan untuk menawarkan fungsionalitas AI berkualitas tinggi pada perangkat dengan memori yang lebih rendah, membuat AI canggih lebih mudah diakses dari sebelumnya.

Pengembangan Gemini melibatkan inovasi dalam algoritma pelatihan dan infrastruktur, menggunakan TPU terbaru Google. Ini memungkinkan penskalaan yang efisien dan proses pelatihan yang kuat, memastikan bahwa bahkan model terkecil menyampaikan kinerja yang luar biasa.

Dataset pelatihan untuk Gemini sama beragamnya dengan kemampuannya, termasuk dokumen web, buku, kode, gambar, audio, dan video. Dataset multimodal dan multibahasa ini memastikan bahwa model Gemini dapat memahami dan memproses berbagai jenis konten secara efektif.

Gemini dan GPT-4

Meskipun munculnya model lain, pertanyaan yang ada di benak semua orang adalah bagaimana Gemini Google membandingkan dengan GPT-4 OpenAI, benchmark industri untuk LLM baru. Data Google menunjukkan bahwa sementara GPT-4 mungkin unggul dalam tugas penalaran umum, Gemini Ultra memiliki keunggulan di hampir semua area lainnya.

Gemini VS GPT-4

Gemini VS GPT-4

Tabel benchmarking di atas menunjukkan kinerja yang mengesankan dari AI Gemini Google di berbagai tugas. Terutama, Gemini Ultra telah mencapai hasil yang luar biasa dalam benchmark MMLU dengan akurasi 90,04%, menunjukkan pemahaman yang unggul dalam pertanyaan pilihan ganda di 57 subjek.

Dalam GSM8K, yang menilai pertanyaan matematika sekolah dasar, Gemini Ultra mencetak 94,4%, menunjukkan kemampuan pemrosesan aritmatika yang canggih. Dalam benchmark kode, Gemini Ultra mencapai skor 74,4% dalam HumanEval untuk generasi kode Python, menunjukkan pemahaman bahasa pemrograman yang kuat.

Benchmark DROP, yang menguji pemahaman membaca, melihat Gemini Ultra lagi memimpin dengan skor 82,4%. Sementara itu, dalam tes penalaran umum, HellaSwag, Gemini Ultra berkinerja dengan baik, meskipun tidak melampaui benchmark yang sangat tinggi yang ditetapkan oleh GPT-4.

Kesimpulan

Arsitektur unik Gemini, yang ditenagai oleh teknologi canggih Google, memposisikan Gemini sebagai pemain yang tangguh di arena AI, menantang benchmark yang ada yang ditetapkan oleh model seperti GPT-4. Versi Gemini—Ultra, Pro, dan Nano—masing-masing memenuhi kebutuhan spesifik, dari tugas penalaran kompleks hingga aplikasi perangkat yang efisien, menunjukkan komitmen Google untuk membuat AI canggih yang dapat diakses di berbagai platform dan perangkat.

Integrasi Gemini ke dalam ekosistem Google, dari Bard hingga Google Cloud Vertex, menyoroti potensinya untuk meningkatkan pengalaman pengguna di berbagai layanan. Ini berjanji tidak hanya untuk memperbarui aplikasi yang ada tetapi juga untuk membuka jalur baru untuk solusi yang didorong oleh AI, baik dalam asisten pribadi, upaya kreatif, atau analisis bisnis.

Ketika kita melihat ke depan, kemajuan terus-menerus dalam model AI seperti Gemini menekankan pentingnya penelitian dan pengembangan yang berkelanjutan. Tantangan dalam melatih model yang sopistikasi seperti ini dan memastikan penggunaannya yang etis dan bertanggung jawab tetap berada di garis depan diskusi.

I have spent the past five years immersing myself in the fascinating world of Machine Learning and Deep Learning. My passion and expertise have led me to contribute to over 50 diverse software engineering projects, with a particular focus on AI/ML. My ongoing curiosity has also drawn me toward Natural Language Processing, a field I am eager to explore further.