AGI

Menjelajahi Google DeepMind’s New Gemini: Apa yang Membuatnya Begitu Populer?

Published December 21, 2023

Updated April 4, 2026

Dr. Tehseen Zia

Di dunia Kecerdasan Buatan (AI), ciptaan terbaru Google DeepMind, Gemini, sedang membuat heboh. Pengembangan inovatif ini bertujuan untuk menangani tantangan kompleks mereplikasi persepsi manusia, terutama kemampuannya untuk mengintegrasikan berbagai input sensorik. Persepsi manusia, secara inheren multimodal, menggunakan beberapa saluran secara bersamaan untuk memahami lingkungan. Multimodal AI, mengambil inspirasi dari kompleksitas ini, berusaha untuk mengintegrasikan, memahami, dan bernalar tentang informasi dari berbagai sumber, mencerminkan kemampuan persepsi manusia.

Kompleksitas Multimodal AI

Sementara AI telah membuat kemajuan dalam menangani mode sensorik individual, mencapai multimodal AI yang sebenarnya masih merupakan tantangan yang sangat besar. Metode saat ini melibatkan pelatihan komponen terpisah untuk modalitas yang berbeda dan menjahitnya bersama, tetapi mereka sering gagal dalam tugas yang memerlukan penalaran konseptual yang rumit.

Emergence of Gemini

Dalam upaya mereplikasi persepsi multimodal manusia, Google Gemini telah muncul sebagai pengembangan yang menjanjikan. Ciptaan ini menawarkan perspektif unik ke dalam potensi AI untuk mendekode kerumitan persepsi manusia. Gemini mengambil pendekatan yang berbeda, secara inheren multimodal dan menjalani pra-pelatihan pada berbagai modalitas. Melalui pelatihan tambahan dengan data multimodal tambahan, Gemini memperhalus efektivitasnya, menunjukkan janji dalam memahami dan bernalar tentang input yang beragam.

Apa itu Gemini?

Google Gemini, diperkenalkan pada 6 Desember 2023, adalah keluarga model AI multimodal yang dikembangkan oleh unit Google DeepMind Alphabet dalam kolaborasi dengan Google Research. Gemini 1.0 dirancang untuk memahami dan menghasilkan konten di berbagai jenis data, termasuk teks, audio, gambar, dan video.

Fitur unggulan Gemini adalah multimodalitas aslinya, yang membedakannya dari model AI multimodal konvensional. Kemampuan unik ini memungkinkan Gemini untuk memproses dan bernalar secara mulus di berbagai jenis data seperti audio, gambar, dan teks. Secara signifikan, Gemini memiliki penalaran cross-modal, yang memungkinkan untuk menafsirkan catatan tulisan tangan, grafik, dan diagram untuk menangani masalah kompleks. Arsitektur Gemini mendukung penggunaan langsung teks, gambar, gelombang audio, dan bingkai video sebagai urutan yang berselang-seling.

Kelurga Gemini

Gemini memiliki berbagai model yang disesuaikan dengan kasus penggunaan dan skenario penerapan tertentu. Model Ultra, yang dirancang untuk tugas yang sangat kompleks, diharapkan dapat diakses pada awal 2024. Model Pro memprioritaskan kinerja dan skalabilitas, cocok untuk platform yang kuat seperti Google Bard. Sebaliknya, model Nano dioptimalkan untuk penggunaan perangkat dan hadir dalam dua versi—Nano-1 dengan 1,8 miliar parameter dan Nano-2 dengan 3,25 miliar parameter. Model Nano ini dapat diintegrasikan secara mulus ke dalam perangkat, termasuk smartphone Google Pixel 8 Pro.

Gemini Vs ChatGPT

Menurut sumber perusahaan, peneliti telah secara luas membandingkan Gemini dengan varian ChatGPT di mana Gemini telah mengungguli ChatGPT 3.5 dalam pengujian yang luas. Gemini Ultra unggul dalam 30 dari 32 benchmark yang umum digunakan dalam penelitian model bahasa besar. Dengan skor 90,0% pada MMLU (pemahaman bahasa multitugas besar), Gemini Ultra melampaui ahli manusia, menunjukkan keunggulannya dalam pemahaman bahasa multitugas besar. MMLU terdiri dari kombinasi 57 subjek seperti matematika, fisika, sejarah, hukum, kedokteran, dan etika untuk menguji pengetahuan dunia dan kemampuan pemecahan masalah. Dilatih untuk menjadi multimodal, Gemini dapat memproses berbagai jenis media, membedakannya dalam lanskap AI yang kompetitif.

Kasus Penggunaan

Munculnya Gemini telah melahirkan berbagai kasus penggunaan, beberapa di antaranya adalah:

Penalaran Multimodal Lanjutan: Gemini unggul dalam penalaran multimodal lanjutan, mengenali dan memahami teks, gambar, audio, dan lebih secara bersamaan. Pendekatan komprehensif ini meningkatkan kemampuannya untuk memahami informasi nuansa dan unggul dalam menjelaskan dan bernalar, terutama dalam subjek kompleks seperti matematika dan fisika.
Pemrograman Komputer: Gemini unggul dalam memahami dan menghasilkan program komputer berkualitas tinggi dalam berbagai bahasa yang umum digunakan. Ini juga dapat digunakan sebagai mesin untuk sistem pemrograman yang lebih maju, seperti yang ditunjukkan dalam memecahkan masalah pemrograman kompetitif.
Transformasi Diagnostik Medis: Kemampuan pemrosesan data multimodal Gemini dapat menandai perubahan dalam diagnostik medis, potensialmente meningkatkan proses pengambilan keputusan dengan menyediakan akses ke berbagai sumber data.
Transformasi Peramalan Keuangan: Gemini mengubah peramalan keuangan dengan menafsirkan data yang beragam dalam laporan keuangan dan tren pasar, menyediakan wawasan cepat untuk pengambilan keputusan yang tepat.

Tantangan

Sementara Google Gemini telah membuat kemajuan yang mengesankan dalam memajukan AI multimodal, ia menghadapi beberapa tantangan yang memerlukan pertimbangan hati-hati. Karena pelatihan data ekstensif, sangat penting untuk mendekatinya dengan hati-hati untuk memastikan penggunaan data pengguna yang bertanggung jawab, mengatasi kekhawatiran privasi dan hak cipta. Potensi bias dalam data pelatihan juga menimbulkan masalah keadilan, memerlukan pengujian etis sebelum dirilis ke publik untuk meminimalkan bias tersebut. Kekhawatiran juga ada tentang potensi penyalahgunaan model AI yang kuat seperti Gemini untuk serangan siber, menyoroti pentingnya penerapan yang bertanggung jawab dan pengawasan berkelanjutan dalam lanskap AI yang dinamis.

Pengembangan Masa Depan Gemini

Google telah mengkonfirmasi komitmennya untuk meningkatkan Gemini, memungkinkannya untuk versi masa depan dengan kemajuan dalam perencanaan dan memori. Selain itu, perusahaan berencana untuk memperluas jendela konteks, memungkinkan Gemini untuk memproses lebih banyak informasi dan memberikan respons yang lebih nuansa. Ketika kita menantikan kemajuan potensial, kemampuan unik Gemini menawarkan prospek yang menjanjikan untuk masa depan AI.

Intinya

Gemini Google DeepMind menandai pergeseran paradigma dalam integrasi AI, melampaui model tradisional. Dengan multimodalitas asli dan penalaran cross-modal, Gemini unggul dalam tugas kompleks. Meskipun menghadapi tantangan, aplikasinya dalam penalaran lanjutan, pemrograman, diagnostik, dan transformasi peramalan keuangan menyoroti potensinya. Ketika Google berkomitmen untuk pengembangan masa depan, dampak Gemini yang mendalam secara halus mengubah lanskap AI, menandai awal dari era baru dalam kemampuan multimodal.

Unite.AI