Sudut Anderson
AI Mengalami Kesusahan untuk Membedakan Kiri dan Kanan dalam Pemindaian Medis

Sebuah studi baru menemukan bahwa model gambar AI seperti ChatGPT dapat salah membaca anatomi yang diputar atau dibalik, meningkatkan risiko kesalahan berbahaya dalam diagnosis, dengan tes yang menunjukkan bahwa mereka sering gagal dalam alasan spasial dasar dalam pemindaian medis – menebak di mana organ harus berada, bukan benar-benar melihat gambar. Mungkin dari minat yang lebih luas, penelitian ini menunjukkan bahwa model-model ini mungkin tidak membaca PDF yang diunggah atau melihat gambar Anda sama sekali.
Siapa pun yang pernah secara teratur mengunggah data, seperti konten PDF, ke model bahasa terkemuka seperti ChatGPT akan tahu bahwa LLM tidak selalu membaca atau memeriksa apa yang Anda sajikan kepada mereka; sebaliknya, mereka sering membuat asumsi tentang materi, berdasarkan apa yang Anda tulis tentangnya dalam prompt saat Anda mengunggahnya.

It can be difficult to persuade a language model to acknowledge that its answer was drawn from prior knowledge, metadata, or general assumptions rather than from the content it was given. Source: https://chatgpt.com
Salah satu alasan untuk ini adalah untuk meningkatkan kecepatan jawaban dengan mempertimbangkan materi yang diunggah ‘redundan’, dan mengandalkan teks-prompt untuk mengambil pengetahuan sebelumnya dari sistem – menghindari unggahan sama sekali, dan dalam prosesnya meminimalkan lalu lintas jaringan.
Yang lainnya adalah konservasi sumber daya (meskipun penyedia tampaknya tidak mungkin mengungkapkan ini, jika benar), di mana metadata yang ada yang diekstrak LLM dari pertukaran sebelumnya dalam obrolan digunakan sebagai dasar untuk jawaban lebih lanjut, bahkan ketika pertukaran dan metadata ini tidak mengandung informasi yang cukup untuk tujuan ini.
Kiri. Kanan?
Apa pun alasan untuk perhatian yang bervariasi dan kemampuan fokus dari generasi LLM saat ini, ada situasi dan konteks di mana menebak sangat berbahaya. Salah satunya adalah ketika AI yang bersangkutan diminta untuk menyediakan layanan medis seperti skrining atau estimasi risiko bahan radiologis.
Minggu ini, peneliti dari Jerman dan AS merilis studi penelitian baru yang memeriksa efikasi empat model visi-bahasa terkemuka, termasuk ChatGPT-4o, ketika diminta untuk mengidentifikasi lokasi organ dalam pemindaian medis.
Sangat mengejutkan, meskipun mewakili state-of-the-art dalam hal ini, model dasar mencapai tingkat keberhasilan yang tidak lebih tinggi dari kesempatan murni sebagian besar waktu – tampaknya karena mereka tidak dapat melepaskan pengetahuan anatomi sebelumnya dengan cukup, dan benar-benar melihat gambar yang disajikan kepada mereka, bukan mencapai prior yang mudah dipelajari dari data pelatihan mereka.
Peneliti menemukan bahwa LLM yang diuji berkinerja jauh lebih baik ketika bagian yang akan dipertimbangkan ditandai dengan indikator lain (seperti titik dan indikator urutan alfanumerik) serta dinamai – dan yang terbaik ketika tidak ada penyebutan organ atau anatomi dalam pertanyaan sama sekali:

Varying success levels, increasing as the model’s ability to resort to trained data is diminished, and it is forced to concentrate on the data in front of it. Source: https://wolfda95.github.io/your_other_left/
Makalah ini mengamati*:
‘State-of-the-art VLMs sudah memiliki pengetahuan anatomi sebelumnya yang kuat yang tertanam dalam komponen bahasa mereka. Dengan kata lain, mereka “tahu” di mana struktur anatomi biasanya terletak dalam anatomi manusia standar.
‘Kami menghipotesiskan bahwa VLMs sering membasiskan jawaban mereka pada pengetahuan sebelumnya ini daripada menganalisis konten gambar yang sebenarnya. Misalnya, ketika ditanya apakah hati berada di sebelah kanan perut, model mungkin menjawab afirmatif tanpa memeriksa gambar, hanya mengandalkan norma yang dipelajari bahwa hati biasanya terletak di sebelah kanan perut.
‘Perilaku seperti ini dapat menyebabkan kesalahan diagnosis kritis dalam kasus di mana posisi sebenarnya menyimpang dari pola anatomi yang khas, seperti dalam situs inversus, perubahan pasca operasi, atau perpindahan tumor.’
Untuk mengatasi masalah ini di upaya masa depan, penulis telah mengembangkan dataset yang dirancang untuk menangani masalah ini.
Temuan makalah ini mungkin mengejutkan banyak pembaca yang telah mengikuti perkembangan AI medis, karena radiografi telah ditandai sangat awal sebagai salah satu pekerjaan yang paling berisiko diotomasi melalui pembelajaran mesin.
Karya baru ini disebut Your other Left! Vision-Language Models Fail to Identify Relative Positions in Medical Images, dan berasal dari tujuh peneliti di dua fakultas di Universitas Ulm, dan Axiom Bio di AS.
Metode dan Data
Peneliti bertujuan untuk menjawab empat masalah: apakah model visi-bahasa state-of-the-art dapat menentukan posisi relatif dalam gambar radiologi; apakah penggunaan penanda visual dapat meningkatkan kinerja mereka dalam tugas ini; apakah mereka lebih mengandalkan pengetahuan anatomi sebelumnya daripada konten gambar yang sebenarnya; dan bagaimana mereka menangani tugas penempatan relatif ketika dibebaskan dari konteks medis.
Untuk ini, mereka mengkurasi dataset Medical Imaging Relative Positioning (MIRP).
Meskipun sebagian besar benchmark pertanyaan visual untuk irisan CT atau MRI termasuk tugas anatomi dan lokalasi, koleksi yang lebih lama ini mengabaikan tantangan inti menentukan posisi relatif, meninggalkan banyak tugas yang dapat diselesaikan menggunakan pengetahuan medis sebelumnya saja.
MIRP dirancang untuk menangani ini dengan menguji pertanyaan posisi relatif antara struktur anatomi, menilai dampak penanda visual, dan menerapkan rotasi dan flip acak untuk memblokir ketergantungan pada norma yang dipelajari. Dataset ini fokus pada irisan CT abdominal, karena kompleksitas dan prevalensinya dalam radiologi.
MIRP berisi jumlah yang sama dari ya dan tidak jawaban, dengan struktur anatomi dalam setiap pertanyaan opsional ditandai untuk kejelasan.
Tiga jenis penanda visual diuji: angka hitam dalam kotak putih; huruf hitam dalam kotak putih; dan titik merah dan biru:

The various visual markers used in MIRP. Source: https://arxiv.org/pdf/2508.00549
Koleksi ini bersumber dari dataset Beyond the Cranial Vault (BTCV) dan Abdominal Multi-Organ Segmentation (AMOS) yang ada.

Annotated slices from the AMOS dataset. Source: https://arxiv.org/pdf/2206.08023
Proyek TotalSegmentator digunakan untuk mengekstrak gambar anatomi datar dari data volumetrik:

Some of the 104 anatomical structures available in TotalSegmentator. Source: https://arxiv.org/pdf/2208.05868
Irisan gambar aksial kemudian diperoleh dengan kerangka SimpleITK.
Lokasi ‘tantangan’ gambar harus berjarak setidaknya 50px, dan memiliki ukuran setidaknya dua kali lipat dari penanda, untuk menghasilkan pasangan pertanyaan/jawaban.
Uji
Empat model visi-bahasa yang diuji adalah GPT-4o; Llama3.2; Pixtral; dan JanusPro dari DeepSeek.
Peneliti menguji masing-masing dari empat pertanyaan penelitian mereka, dengan yang pertama (Q1) adalah ‘Apakah VLM top-tier saat ini dapat secara akurat menentukan posisi relatif dalam gambar radiologis? Untuk pertanyaan ini, peneliti menguji model pada irisan CT polos, diputar, atau dibalik menggunakan format pertanyaan standar, seperti Apakah ginjal kiri berada di bawah perut?.
Hasil (ditampilkan di bawah) menunjukkan akurasi dekat 50 persen di semua model, menunjukkan kinerja pada tingkat kesempatan, dan ketidakmampuan untuk secara andal menilai posisi relatif tanpa penanda visual:

Average accuracy for all experiments using image-based evaluation on the MIRP benchmark (RQ1–RQ3) and the ablation dataset (AS).
Untuk menguji apakah penanda visual dapat membantu model visi-bahasa menentukan posisi relatif dalam gambar radiologis, studi ini mengulangi eksperimen menggunakan irisan CT yang dianotasi dengan huruf, angka, atau titik merah dan biru; dan di sini, format pertanyaan disesuaikan untuk merujuk pada penanda ini – misalnya, Apakah ginjal kiri (A) berada di bawah perut (B)? atau Apakah ginjal kiri (merah) berada di bawah perut (biru)?.
Hasil menunjukkan keuntungan akurasi kecil untuk GPT-4o dan Pixtral ketika penanda huruf atau angka digunakan, sedangkan JanusPro dan Llama3.2 melihat sedikit atau tidak ada manfaat, menunjukkan bahwa penanda saja mungkin tidak cukup untuk secara signifikan meningkatkan kinerja.

Accuracy for all experiments using image-based evaluation. For RQ2, RQ3, and AS, results are shown with the best-performing marker type for each model: letters for GPT-4o, and red–blue dots for Pixtral, JanusPro, and Llama3.4.
Untuk mengatasi pertanyaan ketiga, Apakah VLM lebih mengutamakan pengetahuan anatomi sebelumnya daripada input visual ketika menentukan posisi relatif dalam gambar radiologis?, penulis mengeksaminasi apakah model visi-bahasa lebih mengandalkan pengetahuan anatomi sebelumnya daripada bukti visual ketika menentukan posisi relatif dalam gambar radiologis.
Ketika diuji pada irisan CT yang diputar atau dibalik, GPT-4o dan Pixtral sering menghasilkan jawaban yang konsisten dengan posisi anatomi standar, bukan mencerminkan apa yang ditampilkan dalam gambar, dengan GPT-4o mencapai akurasi lebih dari 75 persen pada evaluasi berbasis anatomi, tetapi hanya performa pada tingkat kesempatan pada evaluasi berbasis gambar.
Menghilangkan istilah anatomi dari prompt dan hanya menggunakan penanda visual memaksa model untuk bergantung pada konten gambar, menghasilkan keuntungan yang signifikan, dengan GPT-4o melebihi 85 persen akurasi dengan penanda huruf, dan Pixtral lebih dari 75 persen dengan titik.

A comparison of the four vision-language models in determining the relative positions of anatomical structures in medical images – a key requirement for clinical use. Performance is at chance level with plain images (RQ1) and shows only minor gains with visual markers (RQ2). When anatomical names are removed and models must rely entirely on the markers, GPT-4o and Pixtral achieve substantial accuracy improvements (RQ3). Results are shown using each model’s best-performing marker type.
Hal ini menunjukkan bahwa meskipun keduanya dapat melakukan tugas menggunakan data gambar, mereka cenderung default ke prior anatomi yang dipelajari ketika diberikan nama anatomi – pola yang tidak jelas teramati pada JanusPro atau Llama3.2.
Meskipun kita tidak biasanya meliput studi ablasio, penulis mengatasi pertanyaan penelitian keempat dan terakhir dengan cara ini. Oleh karena itu, untuk menguji kemampuan penempatan relatif tanpa konteks medis, studi ini menggunakan gambar putih polos dengan penanda yang ditempatkan secara acak dan mengajukan pertanyaan sederhana seperti Apakah angka 1 berada di atas angka 2?. Pixtral menunjukkan hasil yang lebih baik dengan penanda titik, sedangkan model lainnya berkinerja serupa dengan skor RQ3 mereka.
JanusPro, dan terutama Llama3.2, bergelut bahkan dalam pengaturan yang disederhanakan, menunjukkan kelemahan dasar dalam penempatan relatif yang tidak terbatas pada citra medis.
Penulis mengamati bahwa GPT-4o berkinerja terbaik dengan penanda huruf, sedangkan Pixtral, JanusPro, dan Llama3.2 mencapai skor yang lebih tinggi dengan titik merah-biru. GPT-4o adalah pemain terbaik secara keseluruhan, dengan Pixtral memimpin di antara model sumber terbuka.
Kesimpulan
Pada catatan pribadi, makalah ini menarik perhatian saya tidak hanya karena signifikansi medisnya, tetapi juga karena menyoroti salah satu kelemahan dasar dan paling tidak dilaporkan dari gelombang SOTA LLM saat ini – bahwa, jika tugas dapat dihindari, dan kecuali Anda menyajikan materi dengan hati-hati, mereka tidak akan membaca teks yang Anda unggah atau memeriksa gambar yang Anda sajikan kepada mereka.
Lebih lanjut, studi ini menunjukkan bahwa jika teks-prompt Anda dalam cara apa pun menjelaskan apa yang menjadi materi sekunder yang dikirim, LLM akan cenderung memperlakukannya sebagai contoh ‘teleologis’, dan akan menganggap/mengasumsikan banyak hal tentangnya berdasarkan pengetahuan sebelumnya, bukan mempelajari dan mempertimbangkan apa yang Anda kirimkan.
Secara efektif, pada keadaan saat ini, VLM akan memiliki kesulitan besar dalam mengidentifikasi materi ‘aberran’ – salah satu keterampilan paling penting dalam diagnosis medis. Sementara memungkinkan untuk membalik logika dan memiliki sistem yang mencari outlier bukan hasil dalam-distribusi, model tersebut akan memerlukan kurasi yang luar biasa untuk menghindari mengalahkan sinyal dengan contoh yang tidak relevan atau palsu.
* Inline citations omitted, as there is no elegant way to include them as hyperlinks. Please refer to the source paper.
First published Monday, August 4, 2025












