AGI

Med-Gemini: Mengubah AI Medis dengan Model Multimodal Berikutnya

Published June 10, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Kecerdasan buatan (AI) telah membuat gelombang di bidang medis selama beberapa tahun terakhir. Ini memperbaiki akurasi diagnostik gambar medis, membantu menciptakan pengobatan yang dipersonalisasi melalui analisis data genomik, dan mempercepat penemuan obat dengan memeriksa data biologis. Namun, meskipun kemajuan yang mengesankan ini, sebagian besar aplikasi AI saat ini terbatas pada tugas tertentu menggunakan hanya satu jenis data, seperti pemindaian CT atau informasi genetik. Pendekatan single-modality ini sangat berbeda dari cara dokter bekerja, mengintegrasikan data dari berbagai sumber untuk mendiagnosis kondisi, memprediksi hasil, dan membuat rencana pengobatan yang komprehensif.

Untuk benar-benar mendukung klinisi, peneliti, dan pasien dalam tugas seperti menghasilkan laporan radiologi, menganalisis gambar medis, dan memprediksi penyakit dari data genomik, AI perlu menangani tugas medis yang beragam dengan beralasan atas data multimodal yang kompleks, termasuk teks, gambar, video, dan catatan kesehatan elektronik (EHRs). Namun, membangun sistem AI medis multimodal ini telah menjadi tantangan karena kapasitas AI yang terbatas untuk mengelola jenis data yang beragam dan kelangkaan dataset biomedis yang komprehensif.

Kebutuhan untuk AI Medis Multimodal

Perawatan kesehatan adalah jaringan kompleks dari sumber data yang terhubung, dari gambar medis hingga informasi genetik, yang digunakan oleh profesional kesehatan untuk memahami dan mengobati pasien. Namun, sistem AI tradisional seringkali fokus pada tugas tunggal dengan jenis data tunggal, membatasi kemampuan mereka untuk memberikan gambaran komprehensif tentang kondisi pasien. Sistem AI unimodal ini memerlukan jumlah data yang besar, yang dapat mahal untuk diperoleh, memberikan cakupan kemampuan yang terbatas, dan menghadapi tantangan untuk mengintegrasikan wawasan dari sumber yang berbeda.

AI Multimodal dapat mengatasi tantangan sistem AI medis yang ada dengan memberikan perspektif holistik yang menggabungkan informasi dari sumber yang beragam, menawarkan pemahaman yang lebih akurat dan lengkap tentang kesehatan pasien. Pendekatan terintegrasi ini meningkatkan akurasi diagnostik dengan mengidentifikasi pola dan korelasi yang mungkin terlewatkan saat menganalisis setiap modalitas secara independen. Selain itu, AI multimodal mempromosikan integrasi data, memungkinkan profesional kesehatan untuk mengakses tampilan terpadu dari informasi pasien, yang memfasilitasi kolaborasi dan pengambilan keputusan yang tepat. Kemampuan adaptif dan fleksibilitasnya memungkinkannya untuk belajar dari berbagai jenis data, beradaptasi dengan tantangan baru, dan berkembang dengan kemajuan medis.

Mengenalkan Med-Gemini

Kemajuan terbaru dalam model AI multimodal besar telah memicu gerakan dalam pengembangan sistem AI medis yang canggih. Memimpin gerakan ini adalah Google dan DeepMind, yang telah memperkenalkan model canggih mereka, Med-Gemini. Model AI medis multimodal ini telah menunjukkan kinerja yang luar biasa di 14 benchmark industri, mengungguli kompetitor seperti OpenAI’s GPT-4. Med-Gemini dibangun di atas Gemini keluarga model AI multimodal besar (LMMs) dari Google DeepMind, dirancang untuk memahami dan menghasilkan konten dalam berbagai format termasuk teks, audio, gambar, dan video. Berbeda dengan model multimodal tradisional, Gemini memiliki arsitektur Mixture-of-Experts (MoE) unik, dengan model transformer khusus yang terampil dalam menangani segmen data atau tugas tertentu. Dalam bidang medis, ini berarti Gemini dapat secara dinamis mengaktifkan ahli yang paling sesuai berdasarkan jenis data yang masuk, apakah itu gambar radiologi, urutan genetik, riwayat pasien, atau catatan klinis. Pengaturan ini mencerminkan pendekatan multidisiplin yang digunakan oleh klinisi, meningkatkan kemampuan model untuk belajar dan memproses informasi secara efisien.

Penyetelan Halus Gemini untuk AI Medis Multimodal

Untuk membuat Med-Gemini, peneliti menyetel ulang Gemini pada dataset medis yang anonim. Ini memungkinkan Med-Gemini untuk mewarisi kemampuan asli Gemini, termasuk percakapan bahasa, penalaran dengan data multimodal, dan mengelola konteks yang lebih panjang untuk tugas medis. Peneliti telah melatih tiga versi kustom dari encoder visi Gemini untuk modalitas 2D, modalitas 3D, dan genomik. Ini seperti melatih spesialis di bidang medis yang berbeda. Pelatihan ini telah menghasilkan tiga varian Med-Gemini khusus: Med-Gemini-2D, Med-Gemini-3D, dan Med-Gemini-Polygenic.

Med-Gemini-2D

Med-Gemini-2D dilatih untuk menangani gambar medis konvensional seperti sinar-X dada, irisan CT, patch patologi, dan gambar kamera. Model ini unggul dalam tugas seperti klasifikasi, pertanyaan visual, dan generasi teks. Misalnya, diberikan sinar-X dada dan instruksi “Apakah X-ray menunjukkan tanda-tanda yang mungkin mengindikasikan karsinoma (tanda pertumbuhan ganas)?”, Med-Gemini-2D dapat memberikan jawaban yang tepat. Peneliti mengungkapkan bahwa model Med-Gemini-2D yang disempurnakan memperbaiki generasi laporan AI yang diaktifkan untuk sinar-X dada sebesar 1% hingga 12%, menghasilkan laporan “setara atau lebih baik” daripada yang dibuat oleh radiolog.

Med-Gemini-3D

Mengembangkan kemampuan Med-Gemini-2D, Med-Gemini-3D dilatih untuk menafsirkan data medis 3D seperti pemindaian CT dan MRI. Pemindaian ini memberikan pandangan komprehensif tentang struktur anatomi, memerlukan tingkat pemahaman yang lebih dalam dan teknik analitis yang lebih maju. Kemampuan untuk menganalisis pemindaian 3D dengan instruksi teks menandai lompatan besar dalam diagnostik gambar medis. Evaluasi menunjukkan bahwa lebih dari setengah laporan yang dihasilkan oleh Med-Gemini-3D mengarah pada rekomendasi perawatan yang sama dengan yang dibuat oleh radiolog.

Med-Gemini-Polygenic

Berbeda dengan varian Med-Gemini lainnya yang fokus pada pencitraan medis, Med-Gemini-Polygenic dirancang untuk memprediksi penyakit dan hasil kesehatan dari data genomik. Peneliti mengklaim bahwa Med-Gemini-Polygenic adalah model pertama dari jenisnya yang menganalisis data genomik menggunakan instruksi teks. Eksperimen menunjukkan bahwa model ini mengungguli skor poligenik linier sebelumnya dalam memprediksi delapan hasil kesehatan, termasuk depresi, stroke, dan glaukoma. Mengesankan, itu juga menunjukkan kemampuan zero-shot, memprediksi hasil kesehatan tambahan tanpa pelatihan eksplisit. Kemajuan ini sangat penting untuk mendiagnosis penyakit seperti penyakit arteri koroner, PPOK, dan diabetes tipe 2.

Membangun Kepercayaan dan Memastikan Transparansi

Selain kemajuan yang luar biasa dalam menangani data medis multimodal, kemampuan interaktif Med-Gemini memiliki potensi untuk mengatasi tantangan dasar dalam adopsi AI dalam bidang medis, seperti sifat black-box AI dan kekhawatiran tentang penggantian pekerjaan. Berbeda dengan sistem AI biasa yang beroperasi dari ujung ke ujung dan sering berfungsi sebagai alat pengganti, Med-Gemini berfungsi sebagai alat bantu untuk profesional kesehatan. Dengan meningkatkan kemampuan analisis mereka, Med-Gemini menghilangkan kekhawatiran tentang penggantian pekerjaan. Kemampuannya untuk memberikan penjelasan rinci tentang analisis dan rekomendasinya meningkatkan transparansi, memungkinkan dokter untuk memahami dan memverifikasi keputusan AI. Transparansi ini membangun kepercayaan di antara profesional kesehatan. Selain itu, Med-Gemini mendukung pengawasan manusia, memastikan bahwa wawasan yang dihasilkan AI ditinjau dan divalidasi oleh ahli, memfasilitasi lingkungan kolaboratif di mana AI dan profesional medis bekerja sama untuk meningkatkan perawatan pasien.

Jalan Menuju Aplikasi Dunia Nyata

Meskipun Med-Gemini menunjukkan kemajuan yang mengesankan, ini masih dalam fase penelitian dan memerlukan validasi medis yang menyeluruh sebelum aplikasi dunia nyata. Uji klinis yang ketat dan pengujian ekstensif diperlukan untuk memastikan keandalan, keamanan, dan efektivitas model dalam berbagai pengaturan klinis. Peneliti harus memvalidasi kinerja Med-Gemini di berbagai kondisi medis dan demografi pasien untuk memastikan kekuatan dan generalisabilitasnya. Persetujuan dari otoritas kesehatan akan diperlukan untuk memastikan kepatuhan terhadap standar medis dan pedoman etika. Upaya kolaboratif antara pengembang AI, profesional medis, dan badan pengawas akan sangat penting untuk memperbaiki Med-Gemini, mengatasi keterbatasan, dan membangun kepercayaan pada utilitas klinisnya.

Intinya

Med-Gemini mewakili lompatan besar dalam AI medis dengan mengintegrasikan data multimodal, seperti teks, gambar, dan informasi genomik, untuk memberikan diagnostik dan rekomendasi pengobatan yang komprehensif. Berbeda dengan model AI tradisional yang terbatas pada tugas tunggal dan jenis data, arsitektur Med-Gemini yang canggih mencerminkan pendekatan multidisiplin yang digunakan oleh profesional kesehatan, meningkatkan akurasi diagnostik dan memfasilitasi kolaborasi. Meskipun potensi yang menjanjikan, Med-Gemini memerlukan validasi yang ketat dan persetujuan regulasi sebelum aplikasi dunia nyata. Pengembangannya menandai masa depan di mana AI membantu profesional kesehatan, meningkatkan perawatan pasien melalui analisis data terintegrasi yang canggih.