AGI

Menjelajahi Gemini 1.5: Bagaimana Model AI Multimodal Terbaru Google Meningkatkan Lanskap AI di Luar Pendahulunya

Published February 20, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Dalam lanskap kecerdasan buatan yang berkembang pesat, Google terus memimpin dengan pengembangan pionirnya dalam teknologi AI multimodal. Tak lama setelah debut Gemini 1.0, model bahasa besar multimodal canggihnya, Google sekarang telah memperkenalkan Gemini 1.5. Iterasi ini tidak hanya meningkatkan kapasitas yang ditetapkan oleh Gemini 1.0 tetapi juga membawa perbaikan signifikan dalam metodologi Google untuk memproses dan mengintegrasikan data multimodal. Artikel ini menyediakan penjelajahan Gemini 1.5, memperlihatkan pendekatan inovatif dan fitur khasnya.

Gemini 1.0: Membangun Fondasi

Diluncurkan oleh Google DeepMind dan Google Research pada 6 Desember 2023, Gemini 1.0 memperkenalkan jenis baru model AI multimodal yang dapat memahami dan menghasilkan konten dalam berbagai format, seperti teks, audio, gambar, dan video. Ini menandai langkah penting dalam AI, memperluas cakupan untuk mengelola jenis informasi yang beragam.

Fitur unggulan Gemini adalah kemampuannya untuk menggabungkan beberapa jenis data dengan mulus. Tidak seperti model AI konvensional yang mungkin mengkhususkan diri dalam satu format data, Gemini mengintegrasikan teks, visual, dan audio. Integrasi ini memungkinkannya untuk melakukan tugas seperti menganalisis catatan tulisan tangan atau memecahkan diagram kompleks, sehingga memecahkan spektrum luas tantangan kompleks.

Keluarga Gemini menawarkan model untuk berbagai aplikasi: model Ultra untuk tugas kompleks, model Pro untuk kecepatan dan skalabilitas pada platform utama seperti Google Bard, dan model Nano (Nano-1 dan Nano-2) dengan 1,8 miliar dan 3,25 miliar parameter, masing-masing, dirancang untuk integrasi ke perangkat seperti smartphone Google Pixel 8 Pro.

Lompatan ke Gemini 1.5

Rilis terbaru Google, Gemini 1.5, meningkatkan fungsionalitas dan efisiensi operasional dari pendahulunya, Gemini 1.0. Versi ini mengadopsi arsitektur Mixture-of-Experts (MoE) yang inovatif, sebuah perbedaan dari pendekatan model besar yang terintegrasi seperti yang terlihat pada pendahulunya. Arsitektur ini mengincorporasi koleksi model transformer yang lebih kecil dan khusus, transformer models, masing-masing mahir dalam mengelola segmen data tertentu atau tugas khusus. Pengaturan ini memungkinkan Gemini 1.5 untuk secara dinamis mengaktifkan ahli yang paling sesuai berdasarkan data masuk, menyederhanakan kemampuan model untuk belajar dan memproses informasi.

Pendekatan inovatif ini secara signifikan meningkatkan efisiensi pelatihan dan penerapan model dengan mengaktifkan hanya ahli yang diperlukan untuk tugas. Akibatnya, Gemini 1.5 mampu dengan cepat menguasai tugas kompleks dan menghasilkan hasil berkualitas tinggi lebih efisien daripada model konvensional. Kemajuan seperti ini memungkinkan tim penelitian Google untuk mempercepat pengembangan dan peningkatan model Gemini, memperluas kemungkinan dalam domain AI.

Memperluas Kemampuan

Kemajuan yang cukup berarti dalam Gemini 1.5 adalah kemampuan pemrosesan informasi yang diperluas. Jendela konteks model, yang merupakan jumlah data pengguna yang dapat dianalisis untuk menghasilkan respons, sekarang diperpanjang hingga 1 juta token — peningkatan yang substansial dari 32.000 token Gemini 1.0. Peningkatan ini berarti Gemini 1.5 Pro dapat secara bersamaan memproses jumlah data yang luas, seperti satu jam konten video, sebelas jam audio, atau kode besar dan dokumen teks. Ini juga telah diuji dengan sukses hingga 10 juta token, menunjukkan kemampuan luar biasa untuk memahami dan menafsirkan dataset yang sangat besar.

Sekilas Kemampuan Gemini 1.5

Peningkatan arsitektural Gemini 1.5 dan jendela konteks yang diperluas memungkinkannya untuk melakukan analisis yang canggih atas himpunan informasi besar. Apakah itu menyelami detail intrinsik dari transkrip misi Apollo 11 atau menafsirkan film bisu, Gemini 1.5 menunjukkan kemampuan pemecahan masalah yang tak tertandingi, terutama dengan blok kode panjang.

Dikembangkan pada akselerator TPUv4 canggih Google, Gemini 1.5 Pro telah dilatih pada dataset yang beragam, mencakup berbagai domain dan termasuk konten multimodal dan multibahasa. Basis pelatihan yang luas ini, dikombinasikan dengan penyetelan halus berdasarkan data preferensi manusia, memastikan bahwa output Gemini 1.5 Pro sesuai dengan persepsi manusia.

Melalui pengujian benchmark yang ketat melawan sejumlah tugas, Gemini 1.5 Pro tidak hanya mengungguli pendahulunya dalam sebagian besar evaluasi tetapi juga berdiri sejajar dengan model Gemini 1.0 Ultra yang lebih besar. Gemini 1.5 Pro menunjukkan kemampuan “pembelajaran dalam konteks” yang kuat, efektif memperoleh pengetahuan baru dari prompt rinci tanpa perlu penyesuaian lebih lanjut. Ini terutama terlihat dalam kinerjanya pada benchmark Terjemahan Mesin dari Satu Buku (MTOB), di mana ia menerjemahkan dari bahasa Inggris ke Kalamang—bahasa yang dituturkan oleh sejumlah kecil orang—dengan kemampuan yang setara dengan pembelajaran manusia, menekankan kemampuan adaptasi dan efisiensi pembelajarannya.

Akses Pratinjau Terbatas

Gemini 1.5 Pro sekarang tersedia dalam akses pratinjau terbatas untuk pengembang dan pelanggan perusahaan melalui AI Studio dan Vertex AI, dengan rencana untuk rilis yang lebih luas dan opsi yang dapat disesuaikan di horizon. Fase pratinjau ini menawarkan kesempatan unik untuk menjelajahi jendela konteks yang diperluas, dengan perbaikan kecepatan pemrosesan yang diantisipasi. Pengembang dan pelanggan perusahaan yang tertarik dengan Gemini 1.5 Pro dapat mendaftar melalui AI Studio atau menghubungi tim akun Vertex AI mereka untuk informasi lebih lanjut.

Intinya

Gemini 1.5 mewakili langkah maju yang signifikan dalam pengembangan AI multimodal. Membangun dari fondasi yang diletakkan oleh Gemini 1.0, versi baru ini membawa metode yang ditingkatkan untuk memproses dan mengintegrasikan berbagai jenis data. Pengenalan pendekatan arsitektur yang inovatif dan kemampuan pemrosesan data yang diperluas menyoroti upaya berkelanjutan Google untuk meningkatkan teknologi AI. Dengan potensinya untuk penanganan tugas yang lebih efisien dan sistem AI yang lebih adaptif, Gemini 1.5 menunjukkan evolusi terus-menerus AI. Saat ini tersedia untuk sekelompok pengembang dan pelanggan perusahaan yang terpilih, ini menandai kemungkinan menarik untuk masa depan AI, dengan ketersediaan yang lebih luas dan kemajuan lebih lanjut di cakrawala.

Related Topics:Large Multimodal Models Multimodal AI Multimodal Large Language Model

Dr. Tehseen Zia

Dr. Tehseen Zia adalah Profesor Asosiasi Tetap di COMSATS University Islamabad, memegang gelar PhD di AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Penglihatan Komputer, ia telah membuat kontribusi signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga telah memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.