potongan Multimodal AI Gemini Google - Penyelaman Mendalam Teknis - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Multimodal AI Gemini Google – Penyelaman Mendalam Secara Teknis

mm
Updated on
Model Multimodal Pertama Google: Gemini

Sundar Pichai, CEO Google, bersama Demis Hassabis dari Google DeepMind, punya memperkenalkan Gemini pada Desember 2023. Model bahasa besar baru ini terintegrasi di seluruh rangkaian produk Google, menawarkan peningkatan yang dapat dirasakan melalui layanan dan alat yang digunakan oleh jutaan orang.

Gemini, AI multimodal canggih Google, lahir dari upaya kolaboratif laboratorium DeepMind dan Brain AI yang terpadu. Gemini berdiri di atas pendahulunya, berjanji untuk menghadirkan rangkaian aplikasi yang lebih saling terhubung dan cerdas.

Pengumuman Google Gemini, yang terjadi setelah debut Bard, Duet AI, dan PaLM 2 LLM, menandai niat jelas Google untuk tidak hanya bersaing namun juga memimpin revolusi AI.

Bertentangan dengan anggapan apa pun tentang musim dingin AI, peluncuran Gemini menunjukkan musim semi AI yang berkembang pesat, penuh dengan potensi dan pertumbuhan. Mengingat satu tahun sejak munculnya ChatGPT, yang merupakan momen terobosan bagi AI, langkah Google menunjukkan bahwa ekspansi industri ini masih jauh dari selesai; pada kenyataannya, hal ini mungkin semakin meningkat.

Apa itu Gemini?

Model Gemini Google mampu memproses beragam tipe data seperti teks, gambar, audio, dan video. Muncul dalam tiga versi—Ultra, per, dan Nano—masing-masing disesuaikan untuk aplikasi spesifik, mulai dari penalaran kompleks hingga penggunaan pada perangkat. Ultra unggul dalam tugas-tugas multifaset dan akan tersedia di Bard Advanced, sementara Pro menawarkan keseimbangan kinerja dan efisiensi sumber daya, sudah terintegrasi ke dalam Bard untuk perintah teks. Nano, yang dioptimalkan untuk penerapan di perangkat, hadir dalam dua ukuran dan dilengkapi pengoptimalan perangkat keras seperti kuantisasi 4-bit untuk penggunaan offline di perangkat seperti Pixel 8 Pro.

Arsitektur Gemini unik dalam kemampuan keluaran multimodal aslinya, menggunakan token gambar terpisah untuk menghasilkan gambar dan mengintegrasikan fitur audio dari Universal Speech Model untuk pemahaman audio yang berbeda. Kemampuannya untuk menangani data video sebagai gambar berurutan, terjalin dengan input teks atau audio, menunjukkan kehebatan multimodalnya.

Gemini mendukung rangkaian teks, gambar, audio, dan video sebagai input

Gemini mendukung rangkaian teks, gambar, audio, dan video sebagai input

Mengakses Gemini

Gemini 1.0 diluncurkan di seluruh ekosistem Google, termasuk Bard, yang kini memanfaatkan kemampuan Gemini Pro yang disempurnakan. Google juga telah mengintegrasikan Gemini ke dalam layanan Penelusuran, Iklan, dan Duetnya, sehingga meningkatkan pengalaman pengguna dengan respons yang lebih cepat dan akurat.

Bagi mereka yang ingin memanfaatkan kemampuan Gemini, Google AI Studio dan Google Cloud Vertex menawarkan akses ke Gemini Pro, yang terakhir menyediakan fitur penyesuaian dan keamanan yang lebih baik.

Untuk merasakan peningkatan kemampuan Bard yang didukung oleh Gemini Pro, pengguna dapat melakukan langkah-langkah mudah berikut:

  1. Navigasi ke Penyair: Buka browser web pilihan Anda dan buka situs web Bard.
  2. Login Aman: Akses layanan dengan masuk menggunakan akun Google Anda, memastikan pengalaman yang lancar dan aman.
  3. Obrolan Interaktif: Anda sekarang dapat menggunakan Bard, di mana fitur-fitur canggih Gemini Pro dapat dipilih.

Kekuatan Multimodalitas:

Pada intinya, Gemini menggunakan arsitektur berbasis transformator, serupa dengan yang digunakan pada model NLP sukses seperti GPT-3. Namun keunikan Gemini terletak pada kemampuannya memproses dan mengintegrasikan informasi dari berbagai modalitas, termasuk teks, gambar, dan kode. Hal ini dicapai melalui teknik baru yang disebut perhatian lintas modal, yang memungkinkan model mempelajari hubungan dan ketergantungan antara berbagai jenis data.

Berikut rincian komponen utama Gemini:

  • Pembuat Enkode Multimodal: Modul ini memproses data masukan dari setiap modalitas (misalnya teks, gambar) secara independen, mengekstraksi fitur-fitur yang relevan dan menghasilkan representasi individual.
  • Jaringan Perhatian Lintas Modal: Jaringan ini adalah jantungnya Gemini. Hal ini memungkinkan model untuk mempelajari hubungan dan ketergantungan antara representasi yang berbeda, memungkinkan mereka untuk “berbicara” satu sama lain dan memperkaya pemahaman mereka.
  • Dekoder Multimodal: Modul ini memanfaatkan representasi yang diperkaya yang dihasilkan oleh jaringan perhatian lintas-modal untuk melakukan berbagai tugas, seperti pembuatan teks gambar, pembuatan teks-ke-gambar, dan pembuatan kode.

Model Gemini bukan hanya tentang memahami teks atau gambar—ini tentang mengintegrasikan berbagai jenis informasi dengan cara yang lebih dekat dengan cara kita, sebagai manusia, memandang dunia. Misalnya, Gemini dapat melihat rangkaian gambar dan menentukan urutan logis atau spasial objek di dalamnya. Ia juga dapat menganalisis fitur desain objek untuk membuat penilaian, seperti mobil mana yang memiliki bentuk lebih aerodinamis.

Namun bakat Gemini lebih dari sekadar pemahaman visual. Ini dapat mengubah serangkaian instruksi menjadi kode, menciptakan alat praktis seperti penghitung waktu mundur yang tidak hanya berfungsi sesuai petunjuk tetapi juga mencakup elemen kreatif, seperti emoji motivasi, untuk meningkatkan interaksi pengguna. Hal ini menunjukkan kemampuan untuk menangani tugas-tugas yang memerlukan perpaduan antara kreativitas dan fungsionalitas—keterampilan yang sering dianggap sebagai ciri khas manusia.

Kemampuan Gemini : Penalaran Spasial

Kemampuan Gemini : Penalaran Spasial (sumber)

 

Kemampuan Gemini mencakup pelaksanaan tugas pemrograman

Kemampuan Gemini mencakup pelaksanaan tugas pemrograman(sumber)

Desain Gemini yang canggih didasarkan pada sejarah penelitian jaringan saraf yang kaya dan memanfaatkan teknologi TPU mutakhir Google untuk pelatihan. Gemini Ultra, khususnya, telah menetapkan tolok ukur baru di berbagai domain AI, menunjukkan peningkatan kinerja yang luar biasa dalam tugas-tugas penalaran multimodal.

Dengan kemampuannya mengurai dan memahami data yang kompleks, Gemini menawarkan solusi untuk aplikasi dunia nyata, khususnya di bidang pendidikan. Ia dapat menganalisis dan memperbaiki solusi terhadap masalah, seperti dalam fisika, dengan memahami catatan tulisan tangan dan menyediakan penyusunan huruf matematika yang akurat. Kemampuan tersebut menunjukkan masa depan di mana AI membantu dalam lingkungan pendidikan, menawarkan alat canggih kepada siswa dan pendidik untuk belajar dan memecahkan masalah.

Gemini telah dimanfaatkan untuk menciptakan agen seperti AlphaCode 2, yang unggul dalam masalah pemrograman kompetitif. Hal ini menunjukkan potensi Gemini untuk bertindak sebagai AI generalis, yang mampu menangani masalah multi-langkah yang kompleks.

Gemini Nano menghadirkan kekuatan AI ke perangkat sehari-hari, mempertahankan kemampuan mengesankan dalam tugas-tugas seperti peringkasan dan pemahaman bacaan, serta tantangan terkait coding dan STEM. Model-model yang lebih kecil ini telah disesuaikan untuk menawarkan fungsionalitas AI berkualitas tinggi pada perangkat dengan memori lebih rendah, menjadikan AI tingkat lanjut lebih mudah diakses dari sebelumnya.

Pengembangan Gemini melibatkan inovasi dalam algoritma pelatihan dan infrastruktur, menggunakan TPU terbaru Google. Hal ini memungkinkan penskalaan yang efisien dan proses pelatihan yang kuat, memastikan bahwa model terkecil sekalipun memberikan kinerja yang luar biasa.

Kumpulan data pelatihan untuk Gemini beragam sesuai kemampuannya, termasuk dokumen web, buku, kode, gambar, audio, dan video. Kumpulan data multimodal dan multibahasa ini memastikan model Gemini dapat memahami dan memproses berbagai jenis konten secara efektif.

Gemini dan GPT-4

Terlepas dari munculnya model-model lain, pertanyaan yang ada di benak semua orang adalah bagaimana Gemini Google dibandingkan dengan GPT-4 OpenAI, tolok ukur industri untuk LLM baru. Data Google menunjukkan bahwa meskipun GPT-4 mungkin unggul dalam tugas-tugas penalaran yang masuk akal, Gemini Ultra memiliki keunggulan di hampir semua bidang lainnya.

Gemini VS GPT-4

Gemini VS GPT-4

Tabel benchmark di atas menunjukkan kinerja mengesankan AI Gemini Google dalam berbagai tugas. Khususnya, Gemini Ultra telah mencapai hasil luar biasa dalam tolok ukur MMLU dengan akurasi 90.04%, yang menunjukkan pemahamannya yang unggul dalam pertanyaan pilihan ganda di 57 mata pelajaran.

Dalam GSM8K, yang menilai soal matematika sekolah dasar, Gemini Ultra mendapat skor 94.4%, menunjukkan keterampilan pemrosesan aritmatika tingkat lanjut. Dalam tolok ukur pengkodean, Gemini Ultra memperoleh skor 74.4% dalam pembuatan kode HumanEval untuk Python, yang menunjukkan pemahaman bahasa pemrogramannya yang kuat.

Tolok ukur DROP, yang menguji pemahaman membaca, menunjukkan Gemini Ultra kembali memimpin dengan skor 82.4%. Sementara itu, dalam pengujian akal sehat, HellaSwag, Gemini Ultra memiliki kinerja yang mengagumkan, meskipun tidak melampaui tolok ukur sangat tinggi yang ditetapkan oleh GPT-4.

Kesimpulan

Arsitektur unik Gemini, yang didukung oleh teknologi mutakhir Google, memposisikannya sebagai pemain tangguh di arena AI, menantang tolok ukur yang ditetapkan oleh model seperti GPT-4. Versi-versinya—Ultra, Pro, dan Nano—masing-masing memenuhi kebutuhan spesifik, mulai dari tugas penalaran yang kompleks hingga aplikasi pada perangkat yang efisien, yang menunjukkan komitmen Google untuk membuat AI tingkat lanjut dapat diakses di berbagai platform dan perangkat.

Integrasi Gemini ke dalam ekosistem Google, mulai dari Bard hingga Google Cloud Vertex, menyoroti potensinya untuk meningkatkan pengalaman pengguna di berbagai spektrum layanan. Hal ini tidak hanya menjanjikan penyempurnaan aplikasi yang sudah ada, namun juga membuka jalan baru bagi solusi berbasis AI, baik dalam bantuan yang dipersonalisasi, upaya kreatif, atau analisis bisnis.

Melihat ke depan, kemajuan berkelanjutan dalam model AI seperti Gemini menggarisbawahi pentingnya penelitian dan pengembangan yang berkelanjutan. Tantangan dalam melatih model canggih tersebut dan memastikan penggunaannya yang etis dan bertanggung jawab masih menjadi topik utama diskusi.

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.