potongan Menjelajahi Gemini Baru Google DeepMind: Tentang Apa Buzznya? - Bersatu.AI
Terhubung dengan kami

Kecerdasan Buatan

Menjelajahi Gemini Baru Google DeepMind: Tentang Apa Buzznya?

mm
Updated on

Di dunia Kecerdasan Buatan (AI), kreasi terbaru Google DeepMind, Gemini, menghasilkan gebrakan. Pengembangan inovatif ini bertujuan untuk mengatasi tantangan rumit dalam mereplikasi persepsi manusia, khususnya kemampuannya untuk mengintegrasikan berbagai masukan sensorik. Persepsi manusia, yang pada dasarnya bersifat multimodal, menggunakan berbagai saluran secara bersamaan untuk memahami lingkungan. AI multimoda, mengambil inspirasi dari kompleksitas ini, berupaya untuk mengintegrasikan, memahami, dan mempertimbangkan informasi dari berbagai sumber, yang mencerminkan kemampuan persepsi seperti manusia.

Kompleksitas AI Multimodal

Meskipun AI telah membuat kemajuan dalam menangani mode sensorik individu, mencapai AI multimodal yang sebenarnya masih merupakan tantangan yang berat. Metode-metode yang ada saat ini melibatkan pelatihan komponen-komponen terpisah untuk modalitas yang berbeda dan menyatukannya, namun metode-metode tersebut sering kali gagal dalam tugas-tugas yang membutuhkan penalaran yang rumit dan konseptual.

Munculnya Gemini

Dalam upaya mereplikasi persepsi multimodal manusia, Google Gemini telah muncul sebagai perkembangan yang menjanjikan. Ciptaan ini menawarkan perspektif unik mengenai potensi AI untuk memecahkan seluk-beluk persepsi manusia. Gemini mengambil pendekatan yang berbeda, secara inheren bersifat multimodal dan menjalani pra-pelatihan tentang berbagai modalitas. Melalui penyempurnaan lebih lanjut dengan data multimodal tambahan, Gemini menyempurnakan efektivitasnya, menunjukkan harapan dalam pemahaman dan penalaran tentang beragam masukan.

Apa itu Gemini?

Google Gemini, yang diperkenalkan pada 6 Desember 2023, adalah rangkaian model AI multimodal yang dikembangkan oleh unit Google DeepMind Alphabet bekerja sama dengan Google Research. Gemini 1.0 dirancang untuk memahami dan menghasilkan konten di seluruh spektrum tipe data, termasuk teks, audio, gambar, dan video.

Fitur menonjol dari Gemini adalah multimodalitas aslinya, yang membedakannya dari model AI multimodal konvensional. Kemampuan unik ini memungkinkan Gemini memproses dan mempertimbangkan beragam tipe data dengan lancar seperti audio, gambar, dan teks. Secara signifikan, Gemini memiliki penalaran lintas-modal, yang memungkinkannya menafsirkan catatan tulisan tangan, grafik, dan diagram untuk mengatasi masalah yang kompleks. Arsitekturnya mendukung penyerapan langsung teks, gambar, bentuk gelombang audio, dan bingkai video sebagai urutan yang disisipkan.

Keluarga Gemini

Gemini menawarkan serangkaian model yang disesuaikan dengan kasus penggunaan dan skenario penerapan tertentu. Model Ultra, yang dirancang untuk tugas-tugas yang sangat rumit, diharapkan dapat diakses pada awal tahun 2024. Model Pro memprioritaskan kinerja dan skalabilitas, cocok untuk platform tangguh seperti Google Bard. Sebaliknya, model Nano dioptimalkan untuk pemanfaatan pada perangkat dan hadir dalam dua versi—Nano-1 dengan 1.8 miliar parameter dan Nano-2 dengan 3.25 miliar parameter. Model Nano ini terintegrasi dengan mulus ke dalam perangkat, termasuk smartphone Google Pixel 8 Pro.

Gemini Vs ObrolanGPT

Menurut sumber perusahaan, para peneliti telah banyak membandingkan Gemini dengan varian ChatGPT yang kinerjanya mengungguli ChatGPT 3.5 dalam pengujian luas. Gemini Ultra unggul dalam 30 dari 32 tolok ukur yang banyak digunakan dalam penelitian model bahasa besar. Mendapat skor 90.0% pada MMLU (pemahaman bahasa multitugas masif), Gemini Ultra melampaui pakar manusia, menunjukkan kehebatannya dalam pemahaman bahasa multitugas masif. MMLU terdiri dari kombinasi 57 mata pelajaran seperti matematika, fisika, sejarah, hukum, kedokteran dan etika untuk menguji pengetahuan dunia dan kemampuan pemecahan masalah. Dilatih untuk menjadi multimodal, Gemini dapat memproses berbagai jenis media, menjadikannya berbeda dalam lanskap AI yang kompetitif.

Gunakan Kasus

Kemunculan Gemini telah melahirkan berbagai use case, beberapa di antaranya adalah sebagai berikut:

  • Penalaran Multimodal Tingkat Lanjut: Gemini unggul dalam penalaran multimodal tingkat lanjut, sekaligus mengenali dan memahami teks, gambar, audio, dan banyak lagi. Pendekatan komprehensif ini meningkatkan kemampuannya untuk memahami berbagai informasi dan unggul dalam menjelaskan dan menalar, terutama dalam mata pelajaran yang kompleks seperti matematika dan fisika.
  • Pemrograman Komputer: Gemini unggul dalam memahami dan menghasilkan program komputer berkualitas tinggi dalam bahasa yang banyak digunakan. Ini juga dapat digunakan sebagai mesin untuk sistem pengkodean yang lebih maju, seperti yang ditunjukkan dalam memecahkan masalah pemrograman kompetitif.
  • Transformasi Diagnostik Medis: Kemampuan pemrosesan data multimodal Gemini dapat menandai pergeseran dalam diagnostik medis, yang berpotensi meningkatkan proses pengambilan keputusan dengan menyediakan akses ke beragam sumber data.
  • Transformasi Peramalan Keuangan: Gemini membentuk kembali perkiraan keuangan dengan menafsirkan beragam data dalam laporan keuangan dan tren pasar, memberikan wawasan cepat untuk pengambilan keputusan yang tepat.

Tantangan

Meskipun Google Gemini telah membuat kemajuan mengesankan dalam memajukan AI multimodal, Google Gemini menghadapi tantangan tertentu yang memerlukan pertimbangan cermat. Karena pelatihan datanya yang ekstensif, penting untuk melakukan pendekatan secara hati-hati untuk memastikan penggunaan data pengguna yang bertanggung jawab, mengatasi masalah privasi dan hak cipta. Potensi bias dalam data pelatihan juga menimbulkan masalah keadilan, sehingga memerlukan pengujian etis sebelum dirilis ke publik untuk meminimalkan bias tersebut. Kekhawatiran juga muncul mengenai potensi penyalahgunaan model AI yang kuat seperti Gemini untuk serangan siber, sehingga menyoroti pentingnya penerapan yang bertanggung jawab dan pengawasan berkelanjutan dalam lanskap AI yang dinamis.

Perkembangan Gemini di Masa Depan

Google telah menegaskan komitmennya untuk menyempurnakan Gemini, memberdayakannya untuk versi masa depan dengan kemajuan dalam perencanaan dan memori. Selain itu, perusahaan bertujuan untuk memperluas jendela konteks, memungkinkan Gemini memproses lebih banyak informasi dan memberikan respons yang lebih beragam. Saat kami menantikan potensi terobosan, kemampuan khas Gemini menawarkan prospek menjanjikan untuk masa depan AI.

The Bottom Line

Gemini dari Google DeepMind menandakan perubahan paradigma dalam integrasi AI, melampaui model tradisional. Dengan multimodalitas asli dan penalaran lintas modal, Gemini unggul dalam tugas-tugas kompleks. Meskipun terdapat tantangan, penerapannya dalam penalaran tingkat lanjut, pemrograman, diagnostik, dan transformasi perkiraan keuangan menyoroti potensinya. Seiring komitmen Google terhadap pengembangannya di masa depan, dampak besar Gemini secara halus mengubah lanskap AI, menandai dimulainya era baru dalam kemampuan multimoda.

Dr. Tehseen Zia adalah Associate Professor Tetap di COMSATS University Islamabad, memegang gelar PhD di bidang AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Visi Komputer, ia telah memberikan kontribusi yang signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.