Anderson’un Açısı

AI, Tıbbi Görüntülerde Solu Sağı Ayırt Edmekte Zorlanıyor

Published August 4, 2025

Updated April 26, 2026

Martin Anderson

A robot doctor confused by an x-ray of a hand – ChatGPT-40 and Firefly (Oct 2024).

Yeni bir çalışmada, ChatGPT gibi AI görüntü modellerinin flipped veya rotated anatomiyi yanlış okuyabildiği, bu nedenle teşhislerde tehlikeli hataların riskini artırdığı, testlerin ise bu modellerin genellikle tıbbi görüntülerde temel uzaysal akıl yürütme testlerini geçemediğini gösterdiği bulundu – tahmin ederek organların nerede olması gerektiğini, aslında görüntüye bakmak yerine. Belki daha geniş bir ilgi alanı, araştırmanın bu modellerin uploaded PDF’lerinizi veya resimlerinizi okumadığını veya bakmadığını gösterdiği, bunun yerine bunları yüklemeden önce yazdığınız.prompt hakkında yazdıklarına dayalı varsayımlar yapmaları.

Veri yüklediğiniz, örneğin PDF içeriği gibi, bir dil modeline düzenli olarak yüklediğiniz herkes, LLM’lerin her zaman gerekli olarak sunulan malzemeyi okumadığını veya incelemeyeceğini bilir; bunun yerine, genellikle yüklediğiniz şey hakkında yazdıklarınıza dayanarak malzeme hakkında varsayımlar yapar.

Bir dil modelinin, gerçekten içeriği incelememiş olduğunu, bunun yerine önceden sahip olduğu bilgiye, meta verilere veya genel varsayımlara dayanarak cevap verdiğini kabul etmesi çok zor olabilir. Kaynak: https://chatgpt.com

Bunun olası bir nedeni, cevap süresini artırmak için yüklü materyali ‘fazla’ olarak düşünmek ve sistemlerin önceden sahip olduğu bilgiye dayanarak metin-prompt’u kullanmaktır – böylece yüklemeyi tamamen atlayıp, aynı zamanda ağ trafiğini en aza indirgemektir.

Diğer bir neden ise kaynakların korunmasıdır (ancak sağlayıcılar bunu açıklamayaunlikely görünse de), sohbetin önceki alışverişlerinden LLM tarafından çıkarılan mevcut meta verilerin, daha fazla cevaplar için temel olarak kullanılması, bu alışverişlerin ve bu meta verilerin bu amaç için yeterli bilgi içermemesine rağmen.

Sol. Sağ?

Mevcut LLM’lerin değişken dikkat süresi ve odaklanma yetenekleri için ne olursa olsun, tahmin etmenin非常 tehlikeli olduğu durumlar ve bağlamlar vardır. Bunlardan biri, AI’nin tarama veya radyolojik materyalin risk tahmini gibi tıbbi hizmetler sağlamakla görevlendirildiği durumlardır.

Bu hafta, Almanya ve ABD’den araştırmacılar, ChatGPT-4o dahil dört önde gelen görüntü-dil modelinin, tıbbi görüntülerde organların konumunu belirleme yeteneklerini inceleyen yeni bir araştırma yayınladılar.

Şaşırtıcı bir şekilde, bu alanda state-of-the-art olan temel modeller, çoğu zaman yalnızca şanstaki bir başarı oranına ulaşabiliyorlar – görünüşe göre bunları, önceden sahip oldukları insan anatomisi bilgisini yeterli şekilde ayıramadıkları ve aslında bakmak yerine sunulan görüntülere, önceden sahip oldukları öncül bilgilerine başvuruyorlar.

Araştırmacılar, test edilen LLM’lerin, diğer göstergelerle (nokta ve alfanümerik dizin göstergeleri gibi) işaretlenen ve adlandırılan bölümlerle daha iyi performans gösterdiğini, ayrıca sorguda anatomik veya organ isimlerinden hiç bahsedilmediğinde en iyi performans gösterdiklerini buldular:

Modelin, önceden sahip olduğu verilere başvurmak yerine sunulan verilere odaklanma yeteneğinin artmasıyla birlikte başarı seviyeleri artıyor. Kaynak: https://wolfda95.github.io/your_other_left/

Makalede观察 edildi*:

‘State-of-the-art VLM’ler zaten dil bileşenleri içinde güçlü öncül anatomik bilgiye sahiptir. Diğer bir deyişle, mereka “biliyorlar” anatomik yapıların standard insan anatomisinde genellikle nerede bulunduğunu.

‘VLM’lerin, bu öncül bilgiye dayanarak cevap verdiklerini, aslında görüntüyü analiz etmek yerine, varsayıyoruz. Örneğin, karaciğerin midenin sağında olup olmadığını sorduğunuzda, bir model, mide sağında olduğu için, görüntüye bakmadan, yalnızca öğrenilen norma dayanarak olumlu cevap verebilir.

‘Bu davranış, anatomik yapıların normal desenlerden sapma gösterdiği durumlarda, örneğin situs inversus, postoperatif değişiklikler veya tümör yer değiştirmesi gibi durumlarda, kritik teşhis hatalarına yol açabilir.’

Sorunu gelecekteki çalışmalarda hafifletmek için, yazarlar bu sorunu ele almak üzere tasarlanmış bir veri seti geliştirdiler.

Makalenin bulguları, tıbbi AI’nin gelişimini izleyen birçok okuyucu için şaşırtıcı olabilir, çünkü radyografi, çok erken bir aşamada, makine öğrenimi yoluyla otomasyona en açık işlerden biri olarak belirlenmişti.

Yeni çalışma, Your other Left! Vision-Language Models Fail to Identify Relative Positions in Medical Images adlı bir çalışma, Almanya ve ABD’deki iki fakülte ve Axiom Bio’dan yedi araştırmacı tarafından yapılmıştır.

Yöntem ve Veri

Araştırmacılar, dört soruyu cevaplamaya çalıştılar: state-of-the-art görüntü-dil modellerinin tıbbi görüntülerde相対位置larını belirleyip belirleyemeyeceği; görsel işaretlerin bu görevdeki performansını artırıp artıramayacağı; öncül anatomik bilgilere dayanmak yerine 실제 görüntüye bakıp bakmadıkları ve tıbbi bağlamdan arındırılmış göreliliğini nasıl işledikleri.

Bunun için Medical Imaging Relative Positioning (MIRP) veri setini oluşturdular.

Mevcut çoğu görsel soru-cevap benchmark’leri için CT veya MRI dilimlerinde anatomik ve lokalizasyon görevleri içerse de, bu koleksiyonlar göreliliğini belirleme temel zorluğunu göz ardı ediyorlar, birçok görevi yalnızca tıbbi bilgi kullanılarak çözülebiliyor.

MIRP, bu sorunu ele almak üzere tasarlandı, anatomik yapılar arasındaki göreliliğini test ediyor, görsel işaretlerin etkisini değerlendiriyor ve öğrenilen normlara dayanmaktan kaçınmak için rastgele旋回 ve.flip işlemleri uyguluyor. Veri seti, karın CT dilimlerine odaklanıyor, çünkü bunlar radyolojide karmaşıklık ve yaygınlık açısından önemli.

MIRP, eşit sayıda evet ve hayır cevapları içeriyor, her bir soruda anatomik yapılar isteğe bağlı olarak belirtiliyor.

Üç tür görsel işaret test edildi: beyaz bir kutu içindeki siyah numaralar; beyaz bir kutu içindeki siyah harfler; ve kırmızı ve mavi bir nokta:

MIRP’de kullanılan çeşitli görsel işaretler. Kaynak: https://arxiv.org/pdf/2508.00549

Koleksiyon, mevcut Beyond the Cranial Vault (BTCV) ve Abdominal Multi-Organ Segmentation (AMOS) veri setlerinden elde edildi.

AMOS veri setinden annotated dilim. Kaynak: https://arxiv.org/pdf/2206.08023

TotalSegmentator projesi, hacimsel verilerden anatomik düzlem görüntülerini çıkarmak için kullanıldı:

TotalSegmentator’da bulunan 104 anatomik yapıdan bazıları. Kaynak: https://arxiv.org/pdf/2208.05868

Axial görüntü dilimlerini elde etmek için SimpleITK çerçevesi kullanıldı.

‘Zorlu’ görüntü konumları, en az 50px uzaklıkta ve işaretlerin boyutundan en az iki kat büyük olmalı, böylece soru-cevap çiftleri oluşturulabildi.

Testler

Test edilen dört görüntü-dil modeli GPT-4o; Llama3.2; Pixtral; ve DeepSeek’in JanusPro‘su.

Araştırmacılar, her bir araştırma sorusunu sırasıyla test etti, ilki (Q1) ‘Mevcut üst düzey VLM’ler tıbbi görüntülerde göreliliğini doğru bir şekilde belirleyebilir mi? için, araştırmacılar modelleri, standart bir soru formatı kullanarak, düz, döndürülmüş veya flipped CT dilimlerinde test etti.

Sonuçlar (aşağıda gösterilen), tüm modellerde %50’nin üzerinde bir doğruluk oranı gösterdi, bu da şansa dayalı bir performans ve göreliliğini güvenilir bir şekilde belirleme yeteneğinin eksikliğini gösterdi:

MIRP benchmark’ünde (RQ1–RQ3) ve ablasyon veri setinde (AS) kullanılan görüntü tabanlı değerlendirme için tüm deneylerin ortalama doğruluğu.

Görsel işaretlerin, görüntü-dil modellerinin tıbbi görüntülerde göreliliğini belirleme yeteneğini artırıp artıramayacağını test etmek için, araştırmacılar harf, numara veya kırmızı ve mavi nokta gibi işaretlerle işaretlenmiş CT dilimlerini kullandılar ve soru formatını bu işaretlere göre ayarladılar – örneğin, Sol böbrek (A) mide (B)’nin altında mı? veya Sol böbrek (kırmızı) mide (mavi)’nin altında mı?.

Sonuçlar, GPT-4o ve Pixtral için harf veya numara işaretleri kullanıldığında küçük doğruluk kazançları gösterdi, mientras JanusPro ve Llama3.2 için ise işaretlerin kullanımı neredeyse hiçbir fayda sağlamadı, bu da işaretlerin alone başına performansını önemli ölçüde iyileştirmeye yetmeyeceğini gösterdi.

Görüntü tabanlı değerlendirme için tüm deneylerin doğruluğu. RQ2, RQ3 ve AS için, her modelin en iyi performans gösteren işaret türü ile sonuçlar gösteriliyor: GPT-4o için harfler ve Pixtral, JanusPro ve Llama3.4 için kırmızı-mavi noktalar.

Üçüncü soru için (VLM’ler, tıbbi görüntülerde göreliliğini belirlerken, öncül anatomik bilgilere mi yoksa görsel girdiye mi öncelik veriyor?), yazarlar, görüntü-dil modellerinin, tıbbi görüntülerde göreliliğini belirlerken, görsel girdiden ziyade öncül anatomik bilgilere öncelik veriyor olup olmadığını incelediler.

Döndürülmüş veya flipped CT dilimlerinde test edildiğinde, GPT-4o ve Pixtral genellikle standard anatomik konumlarla tutarlı cevaplar ürettiler, bu da görüntüdeki gerçek durumu yansıtmadı, GPT-4o anatomiden oluşan değerlendirme için %75’in üzerinde bir doğruluk oranı elde etti, ancak görüntü tabanlı değerlendirme için yalnızca şansa dayalı bir performans gösterdi.

Anatomik terimlerin sorgulardan kaldırılması ve yalnızca görsel işaretlerin kullanılması, modellerin görüntü içeriğine dayanmak zorunda kalmasına yol açtı, bu da önemli kazançlara yol açtı, GPT-4o harf işaretleriyle %85’in üzerinde bir doğruluk oranı elde etti ve Pixtral da nokta işaretleriyle %75’in üzerinde bir doğruluk oranı elde etti.

Dört görüntü-dil modelinin tıbbi görüntülerde anatomik yapıların göreliliğini belirleme yeteneği karşılaştırması – klinik kullanım için önemli bir gereksinim. Performans, düz görüntülerde (RQ1) şansa dayalı seviyede ve görsel işaretlerle (RQ2) yalnızca küçük kazançlar gösteriyor. Anatomik adlar kaldırıldığında ve modeller yalnızca işaretlere dayanmak zorunda kaldığında, GPT-4o ve Pixtral önemli doğruluk kazançları elde ediyor. Sonuçlar, her modelin en iyi performans gösteren işaret türü ile gösteriliyor.

Bu, her iki modelin de görevi görüntü verilerine kullanarak gerçekleştirebileceğini, ancak anatomik adlar verildiğinde, öncül anatomik bilgilere başvurmak eğiliminde olduklarını gösteriyor – bu modelde明显 bir şekilde gözlemlenmedi.

Araştırmacılar, GPT-4o’nun harf işaretleriyle en iyi performans gösterdiğini, Pixtral, JanusPro ve Llama3.2’nin ise kırmızı-mavi noktalarla daha yüksek puanlar elde ettiğini gözlemlediler. GPT-4o genel olarak en iyi performans gösteren model oldu, Pixtral ise açık kaynaklı modeller arasında lider oldu.

Sonuç

Kişisel bir not olarak, bu makale beni, tıbbi önemi nedeniyle değil, sondern mevcut LLM’lerin temel bir eksikliğini vurguladığı için çekti – eğer görevden kaçınmak mümkün ise ve sunulan materyali dikkatli bir şekilde sunmadığınız sürece, bunlar okumayacaklardır yüklediğiniz metinleri veya sunulan görüntüleri incelemeyecektir.

Araştırma ayrıca, metin-prompt’un herhangi bir şekilde ikincil sunulan materyali açıkladığı durumlarda, LLM’nin bunu ‘teleolojik’ bir örnek olarak ele alacağına ve öncül bilgilerine dayanarak birçok şeyi varsayacağına işaret ediyor.

Etkili bir şekilde, VLM’ler ‘anormal’ materyali tanımlama yeteneğinde büyük zorluklarla karşılaşacaktır – tıbbi teşhisin temel bir becerisi. Mantığı tersine çevirmek ve bir sistemın aykırı materyali araması yerine, in-distribution sonuçlarına odaklanması mümkündür, ancak modelin sinyali alakasız veya sahte örneklerle boğmamak için olağanüstü bir şekilde küratörlüğü gerekir.

* İç Referanslar atlandı, çünkü bunları hyperlink olarak dahil etmenin zarif bir yolu yok. Lütfen kaynak makaleye başvurun.

Pazartesi, 4 Ağustos 2025 tarihinde ilk kez yayımlandı

Related Topics:LVLM medicine Multimodal Medical AI vision language model

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

AI, Tıbbi Görüntülerde Solu Sağı Ayırt Edmekte Zorlanıyor

Sol. Sağ?

Yöntem ve Veri

Testler

Sonuç

You may like