Kecerdasan buatan

Lihat, Pikir, Jelaskan: Munculnya Model Bahasa Visi di AI

Published May 19, 2025

Updated April 26, 2026

Dr. Tehseen Zia

Sekitar satu dekade yang lalu, kecerdasan buatan terbagi antara pengenalan gambar dan pemahaman bahasa. Model visi dapat mendeteksi objek tetapi tidak dapat menjelaskannya, dan model bahasa dapat menghasilkan teks tetapi tidak dapat “melihat.” Hari ini, perbedaan itu cepat menghilang. Model Bahasa Visi (VLMs) sekarang menggabungkan keterampilan visual dan bahasa, memungkinkan mereka untuk menafsirkan gambar dan menjelaskannya dengan cara yang terasa hampir manusiawi. Apa yang membuat mereka benar-benar luar biasa adalah proses penalaran langkah demi langkah mereka, yang dikenal sebagai Chain-of-Thought, yang membantu mengubah model ini menjadi alat yang kuat dan praktis di berbagai industri seperti kesehatan dan pendidikan. Dalam artikel ini, kita akan menjelajahi bagaimana VLMs bekerja, mengapa penalaran mereka penting, dan bagaimana mereka mengubah bidang dari kedokteran hingga mobil self-driving.

Mengenal Model Bahasa Visi

Model Bahasa Visi, atau VLMs, adalah jenis kecerdasan buatan yang dapat memahami gambar dan teks secara bersamaan. Tidak seperti sistem AI yang lebih lama yang hanya dapat menangani teks atau gambar, VLMs menggabungkan kedua keterampilan tersebut. Ini membuat mereka sangat serbaguna. Mereka dapat melihat gambar dan menjelaskan apa yang terjadi, menjawab pertanyaan tentang video, atau bahkan membuat gambar berdasarkan deskripsi tertulis.

Misalnya, jika Anda meminta VLM untuk menjelaskan foto anjing yang berlari di taman. VLM tidak hanya mengatakan, “Ada anjing.” Ini dapat mengatakan, “Anjing itu sedang mengejar bola di dekat pohon ek besar.” Ini melihat gambar dan menghubungkannya dengan kata-kata dengan cara yang masuk akal. Kemampuan untuk menggabungkan pemahaman visual dan bahasa menciptakan berbagai kemungkinan, dari membantu Anda mencari foto online hingga membantu tugas yang lebih kompleks seperti pemindaian medis.

Intinya, VLMs bekerja dengan menggabungkan dua bagian kunci: sistem visi yang menganalisis gambar dan sistem bahasa yang memproses teks. Bagian visi mendeteksi detail seperti bentuk dan warna, sedangkan bagian bahasa mengubah detail tersebut menjadi kalimat. VLMs dilatih pada dataset besar yang berisi miliaran pasangan gambar-teks, memberi mereka pengalaman luas untuk mengembangkan pemahaman yang kuat dan akurat.

Apa yang Dimaksud dengan Penalaran Chain-of-Thought pada VLMs

Penalaran Chain-of-Thought, atau CoT, adalah cara untuk membuat AI berpikir langkah demi langkah, seperti cara kita menyelesaikan masalah dengan memecahnya. Pada VLMs, ini berarti AI tidak hanya memberikan jawaban ketika Anda bertanya sesuatu tentang gambar, tetapi juga menjelaskan bagaimana ia sampai di sana, menjelaskan setiap langkah logis di sepanjang jalan.

Misalnya, jika Anda menunjukkan gambar kue ulang tahun dengan lilin kepada VLM dan bertanya, “Berapa umur orang itu?” Tanpa CoT, mungkin hanya menebak angka. Dengan CoT, ia berpikir: “Oke, saya melihat kue dengan lilin. Lilin biasanya menunjukkan umur seseorang. Mari kita hitung, ada 10. Jadi, orang itu mungkin berusia 10 tahun.” Anda dapat mengikuti penalaran saat ia berkembang, yang membuat jawaban menjadi lebih dapat dipercaya.

Demikian pula, ketika ditunjukkan adegan lalu lintas kepada VLM dan bertanya, “Apakah aman untuk menyeberang?” VLM mungkin berpikir: “Lampu pejalan kaki merah, jadi Anda tidak boleh menyeberang. Ada mobil yang berbelok di dekatnya, dan itu bergerak, tidak berhenti. Itu berarti tidak aman sekarang.” Dengan berjalan melalui langkah-langkah ini, AI menunjukkan apa yang ia perhatikan dalam gambar dan mengapa ia memutuskan apa yang dilakukan.

Mengapa Penalaran Chain-of-Thought Penting pada VLMs

Integrasi penalaran CoT ke dalam VLMs membawa beberapa keuntungan kunci.

Pertama, ini membuat AI lebih mudah dipercaya. Ketika ia menjelaskan langkah-langkahnya, Anda mendapatkan pemahaman yang jelas tentang bagaimana ia mencapai jawaban. Ini penting di bidang seperti kesehatan. Misalnya, ketika melihat pemindaian MRI, VLM mungkin mengatakan, “Saya melihat bayangan di sisi kiri otak. Area itu mengontrol ucapan, dan pasien mengalami kesulitan berbicara, jadi mungkin itu tumor.” Seorang dokter dapat mengikuti logika itu dan merasa yakin tentang input AI.

Kedua, ini membantu AI menyelesaikan masalah yang kompleks. Dengan memecahnya, ia dapat menangani pertanyaan yang memerlukan lebih dari sekedar pandangan singkat. Misalnya, menghitung lilin adalah sederhana, tetapi menentukan keamanan di jalan sibuk memerlukan beberapa langkah termasuk memeriksa lampu, mendeteksi mobil, dan menilai kecepatan. CoT memungkinkan AI menangani kompleksitas tersebut dengan membaginya menjadi langkah-langkah.

Ketiga, ini membuat AI lebih adaptif. Ketika ia berpikir langkah demi langkah, ia dapat menerapkan apa yang ia ketahui ke situasi baru. Jika ia belum pernah melihat jenis kue tertentu sebelumnya, ia masih dapat memahami koneksi antara lilin dan umur karena ia berpikir secara logis, bukan hanya mengandalkan pola yang diingat.

Bagaimana Penalaran Chain-of-Thought dan VLMs Meredefinisi Industri

Kombinasi CoT dan VLMs membuat dampak signifikan di berbagai bidang:

Kesehatan: Di bidang medis, VLMs seperti Google’s Med-PaLM 2 menggunakan CoT untuk memecah pertanyaan medis yang kompleks menjadi langkah-langkah diagnostik yang lebih kecil. Misalnya, ketika diberikan sinar-X dada dan gejala seperti batuk dan sakit kepala, AI mungkin berpikir: “Gejala-gejala ini bisa jadi pilek, alergi, atau sesuatu yang lebih serius. Tidak ada kelenjar getah bening yang membengkak, jadi tidak mungkin infeksi serius. Paru-paru tampaknya jernih, jadi mungkin tidak pneumonia. Pilek biasa paling sesuai.” Ini berjalan melalui pilihan dan sampai pada jawaban, memberikan dokter penjelasan yang jelas untuk bekerja sama.
Mobil Self-Driving: Untuk kendaraan otonom, VLMs yang ditingkatkan dengan CoT memperbaiki keamanan dan pengambilan keputusan. Misalnya, mobil self-driving dapat menganalisis adegan lalu lintas langkah demi langkah: memeriksa sinyal pejalan kaki, mengidentifikasi kendaraan yang bergerak, dan memutuskan apakah aman untuk melanjutkan. Sistem seperti Wayve’s LINGO-1 menghasilkan komentar bahasa alami untuk menjelaskan tindakan seperti memperlambat untuk seorang pengendara sepeda. Ini membantu insinyur dan penumpang memahami proses penalaran kendaraan. Logika langkah demi langkah juga memungkinkan penanganan kondisi jalan yang tidak biasa dengan menggabungkan input visual dengan pengetahuan kontekstual.
Analisis Geospasial: Model Gemini dari Google mengaplikasikan penalaran CoT pada data spasial seperti peta dan gambar satelit. Misalnya, ini dapat menilai kerusakan badai dengan mengintegrasikan gambar satelit, prakiraan cuaca, dan data demografis, lalu menghasilkan visualisasi yang jelas dan jawaban untuk pertanyaan yang kompleks. Kemampuan ini mempercepat respons bencana dengan memberikan pengambil keputusan wawasan yang tepat waktu dan berguna tanpa memerlukan keahlian teknis.
Robotik: Di Robotik, integrasi CoT dan VLMs memungkinkan robot untuk merencanakan dan mengeksekusi tugas multi-langkah dengan lebih baik. Misalnya, ketika robot diberi tugas untuk mengambil objek, VLM yang ditingkatkan dengan CoT memungkinkan robot untuk mengidentifikasi cangkir, menentukan titik genggam yang terbaik, merencanakan jalur yang bebas tabrakan, dan melakukan gerakan, semuanya sambil “menjelaskan” setiap langkah prosesnya. Proyek seperti RT-2 menunjukkan bagaimana CoT memungkinkan robot untuk beradaptasi dengan tugas baru dan merespons perintah yang kompleks dengan penalaran yang jelas.
Pendidikan: Dalam pembelajaran, tutor AI seperti Khanmigo menggunakan CoT untuk mengajar dengan lebih baik. Untuk soal matematika, mungkin membimbing siswa: “Pertama, tulis persamaan. Berikutnya, dapatkan variabel itu sendiri dengan mengurangi 5 dari kedua sisi. Sekarang, bagilah dengan 2.” Alih-alih memberikan jawaban, ia berjalan melalui prosesnya, membantu siswa memahami konsep langkah demi langkah.

Intinya

Model Bahasa Visi (VLMs) memungkinkan AI untuk menafsirkan dan menjelaskan data visual menggunakan penalaran langkah demi langkah yang mirip dengan manusia melalui proses Chain-of-Thought (CoT). Pendekatan ini meningkatkan kepercayaan, adaptabilitas, dan kemampuan pemecahan masalah di berbagai industri seperti kesehatan, mobil self-driving, analisis geospasial, robotik, dan pendidikan. Dengan mengubah cara AI menangani tugas yang kompleks dan mendukung pengambilan keputusan, VLMs menetapkan standar baru untuk teknologi pintar yang dapat diandalkan dan praktis.

Related Topics:AI reasoning models chain of thought reasoning Chain-of-Thought (CoT)Large Multimodal Models LVLM vision language model

Dr. Tehseen Zia

Dr. Tehseen Zia adalah Profesor Asosiasi Tetap di COMSATS University Islamabad, memegang gelar PhD di AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Penglihatan Komputer, ia telah membuat kontribusi signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga telah memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.