Connect with us

Anderson 视角

AI 在醫學掃描中難以區分左右

mm
A robot doctor confused by an x-ray of a hand – ChatGPT-40 and Firefly (Oct 2024).

一項新研究發現,AI 圖像模型(如 ChatGPT)可能會誤判翻轉或旋轉的解剖結構,從而增加診斷錯誤的風險,測試結果表明,它們在醫學掃描中經常無法正確判斷相對位置 – 猜測器官的位置,而不是真正地查看圖像。也許更值得關注的是,這項研究表明,這些模型可能根本沒有閱讀您的上傳 PDF 或查看您的圖像。

 

任何經常上傳數據(如 PDF 內容)到領先語言模型(如 ChatGPT)的人都知道,LLM 不總是會閱讀或檢查您呈現的內容;相反,它們經常根據您在上傳時輸入的提示來對材料進行假設

即使讓語言模型承認它沒有真正檢查內容,也很有挑戰性,而是基於先前的知識、元數據或一般假設。來源:https://chatgpt.com

即使讓語言模型承認它沒有真正檢查內容,也很有挑戰性,而是基於先前的知識、元數據或一般假設。來源:https://chatgpt.com

這可能是為了增加速度,通過考慮上傳的材料是“冗余”的,並依靠文本提示來利用系統的先前知識 – 完全避免上傳,並在此過程中最小化網絡流量。

另一個原因可能是資源保護(儘管提供商不太可能披露這一點,如果這是真的),即現有的元數據被用作基礎,以回答後續問題,即使這些交換和元數據不包含足夠的信息來服務這個目的。

左右?

無論當前一代 LLM 的注意力和聚焦能力的原因是什麼,但有一些情況和背景下,猜測是非常危險的。其中之一就是當 AI 被要求提供醫學服務,例如篩查或輻射學材料的風險估計

本周,德國和美國的研究人員發佈了一項新研究,研究了四個領先的視覺語言模型(包括 ChatGPT-4o)的有效性,當它們被要求在醫學掃描中識別器官的位置時。

令人驚訝的是,儘管它們代表了最先進的技術,但基礎模型在大多數時間內的成功率不高於偶然性 – 顯然是因為它們無法充分地將其訓練的解剖學知識與實際圖像內容分開,並真正地查看它們呈現的圖像,而不是依靠先前的先驗知識從訓練數據中獲取。

研究人員發現,當需要考慮的部分用其他指標(如點和字母數字序列指標)以及名稱標記時,LLM 的表現明顯改善;而當完全沒有提及器官或解剖學名稱時,表現最佳。

隨著模型被迫關注圖像內容而不是依靠訓練數據,成功率會增加。來源:https://wolfda95.github.io/your_other_left/

隨著模型被迫關注圖像內容而不是依靠訓練數據,成功率會增加。來源:https://wolfda95.github.io/your_other_left/

這篇論文觀察到*:

‘最先進的 VLM 已經在其語言組件中嵌入了強大的先驗解剖學知識。換句話說,它們“知道”解剖結構在標準人體解剖學中通常的位置。

‘我們假設 VLM 通常基於此先驗知識而不是分析實際圖像內容來回答問題。例如,當被問及肝臟是否在胃的右側時,模型可能會根據學習的規範(肝臟通常在胃的右側)回答是,而不是檢查圖像。

‘這種行為可能會導致在實際位置與典型解剖學模式有所偏差的情況下(如 situs inversus、手術後改變或腫瘤移位)發生關鍵的誤診。

為了在未來的工作中緩解這個問題,作者們開發了一個數據集來解決這個問題。

這篇論文的發現可能會令很多跟蹤醫學 AI 發展的讀者感到驚訝,因為放射學很早就被認為是最有可能被機器學習自動化的工作之一。

這項新工作被稱為 你的另一邊!視覺語言模型在醫學圖像中無法識別相對位置,它來自德國和美國的七位研究人員。

方法和數據

研究人員試圖回答四個問題:最先進的視覺語言模型是否能夠在放射學圖像中正確確定相對位置;視覺標記是否能夠改善它們在這項任務中的表現;它們是否更依賴先前的解剖學知識而不是實際圖像內容;以及它們如何處理相對位置任務當刪除任何醫學背景時。

為此,它們策劃了 醫學圖像相對位置 (MIRP) 數據集。

雖然大多數現有的視覺問題回答基準測試都包括解剖學和定位任務,但這些舊集合忽略了確定相對位置的核心挑戰,使得許多任務可以使用先前的醫學知識來解決。

MIRP 旨在通過測試解剖結構之間的相對位置問題、評估視覺標記的影響以及應用隨機旋轉和翻轉來阻止對學習規範的依賴來解決這個問題。數據集關注腹部 CT 切片,由於其複雜性和在放射學中的普遍性。

MIRP 包含相等數量的 答案,其中每個問題的解剖結構可以選擇標記以提高清晰度。

測試了三種類型的視覺標記:白色框中的黑色數字;白色框中的黑色字母;以及紅色和藍色點:

MIRP 中使用的各種視覺標記。來源:https://arxiv.org/pdf/2508.00549

MIRP 中使用的各種視覺標記。來源:https://arxiv.org/pdf/2508.00549

該集合來自現有的 超越顱骨vault (BTCV) 和 腹部多器官分割 (AMOS) 數據集。

AMOS 數據集的標記切片。來源:https://arxiv.org/pdf/2206.08023

AMOS 數據集的標記切片。來源:https://arxiv.org/pdf/2206.08023

TotalSegmentator 項目被用來從體積數據中提取解剖學平面圖像:

TotalSegmentator 中的 104 個解剖結構。來源:https://arxiv.org/pdf/2208.05868

TotalSegmentator 中的 104 個解剖結構。來源:https://arxiv.org/pdf/2208.05868

然後使用 SimpleITK 框架獲得軸向圖像切片。

“挑戰”圖像位置必須至少相距 50px,並且至少是標記大小的兩倍,以生成問題和答案對。

測試

測試的四個視覺語言模型是 GPT-4oLlama3.2Pixtral;和 DeepSeek 的 JanusPro

研究人員逐一測試了他們的四個研究問題,第一個問題(Q1)是 ‘當前頂級 VLM 能夠在放射學圖像中正確確定相對位置嗎?’ 對於這個問題,研究人員使用標準問題格式(如 左腎是否在胃下方?)測試了模型在普通、旋轉或翻轉的 CT 切片上的表現。

結果(如下所示)顯示,所有模型的準確率均接近 50%,表明它們的表現與隨機猜測無異,並且無法可靠地判斷相對位置,而不使用視覺標記:

在 MIRP 基準測試(RQ1–RQ3)和消融數據集(AS)上使用圖像基礎評估的所有實驗的平均準確率。

在 MIRP 基準測試(RQ1–RQ3)和消融數據集(AS)上使用圖像基礎評估的所有實驗的平均準確率。

為了測試視覺標記是否能夠幫助視覺語言模型確定放射學圖像中的相對位置,研究人員使用帶有字母、數字或紅色和藍色點的 CT 切片重復進行了實驗;並且問題格式被調整為引用這些標記 – 例如,左腎(A)是否在胃(B)下方?左腎(紅色)是否在胃(藍色)下方?

結果顯示,當使用字母或數字標記時,GPT-4o 和 Pixtral 的準確率略有提高,而 JanusPro 和 Llama3.2 的準確率幾乎沒有提高,表明標記本身可能不足以顯著改善性能。

使用圖像基礎評估的所有實驗的準確率。對於 RQ2、RQ3 和 AS,結果以每個模型的最佳標記類型顯示:GPT-4o 的字母和 Pixtral、JanusPro 和 Llama3.4 的紅藍點。

使用圖像基礎評估的所有實驗的準確率。對於 RQ2、RQ3 和 AS,結果以每個模型的最佳標記類型顯示:GPT-4o 的字母和 Pixtral、JanusPro 和 Llama3.4 的紅藍點。

為了解答第三個問題,視覺語言模型在確定放射學圖像中的相對位置時是否更依賴先前的解剖學知識而不是視覺輸入?,作者們研究了視覺語言模型是否在確定相對位置時更依賴先前的解剖學知識而不是視覺證據。

當在旋轉或翻轉的 CT 切片上進行測試時,GPT-4o 和 Pixtral 通常會產生與標準解剖學位置一致的答案,而不是反映圖像中的內容,GPT-4o 在基於解剖學的評估中達到了 75% 以上的準確率,但在基於圖像的評估中只有隨機水準的表現。

從提示中刪除解剖學術語並只使用視覺標記,迫使模型依賴圖像內容,從而導致準確率明顯提高,GPT-4o 的準確率超過 85%,使用字母標記,Pixtral 的準確率超過 75%,使用點標記。

四個視覺語言模型在醫學圖像中確定解剖結構相對位置的比較 - 這是臨床應用的關鍵要求。使用每個模型的最佳標記類型顯示的結果,性能在普通圖像(RQ1)上達到隨機水準,並且在使用視覺標記(RQ2)時只有小幅度提高。當刪除解剖學名稱並強制模型完全依賴標記時,GPT-4o 和 Pixtral 的準確率顯著提高(RQ3)。

四個視覺語言模型在醫學圖像中確定解剖結構相對位置的比較 – 這是臨床應用的關鍵要求。使用每個模型的最佳標記類型顯示的結果,性能在普通圖像(RQ1)上達到隨機水準,並且在使用視覺標記(RQ2)時只有小幅度提高。當刪除解剖學名稱並強制模型完全依賴標記時,GPT-4o 和 Pixtral 的準確率顯著提高(RQ3)。

這表明,雖然它們都能夠使用圖像數據執行任務,但當給定解剖學名稱時,它們往往會依賴學習的先驗知識 – 這種模式在 JanusPro 和 Llama3.2 中並不明顯。

雖然我們通常不會介紹消融研究,但作者們通過這種方式解答了第四個也是最後一個研究問題。因此,為了在沒有任何醫學背景的情況下測試相對位置能力,研究人員使用了普通白色圖像,隨機放置標記,並提出簡單問題,例如 1 號是否在 2 號上方?。Pixtral 顯示了使用點標記的改善結果,而其他模型的表現與其 RQ3 分數相似。

JanusPro,尤其是 Llama3.2,即使在這種簡化的設置中也面臨困難,表明它們在相對位置方面存在根本的弱點,這些弱點不僅限於醫學圖像。

作者們觀察到,GPT-4o 在使用字母標記時表現最佳,而 Pixtral、JanusPro 和 Llama3.2 則在使用紅藍點時表現最佳。GPT-4o 是整體最佳表現者,在開源模型中,Pixtral 排名第一。

結論

從個人角度來看,這篇論文引起了我的興趣,不是因為它的醫學意義,而是因為它強調了當前 SOTA LLM 的一個基本缺陷 – 即,如果可以避免任務,除非您小心地呈現您的材料,否則它們不會閱讀您上傳的文本或檢查您呈現的圖像。

此外,研究表明,如果您的文本提示以任何方式解釋了您提交的次要材料,LLM 會將其視為“目的論”示例,並根據先前的知識對其進行假設/假定,而不是研究和考慮您提交的內容。

實際上,目前的 VLM 將很難識別“異常”材料 – 這是診斷醫學中最重要的技能之一。雖然可以反轉邏輯,讓系統尋找異常結果而不是在分布結果中,但模型需要特殊的策劃以避免用不相關或虛假的例子淹沒信號。

 

* 內聯引用被省略,因為沒有優雅的方法將其包含為超鏈接。請參考原始論文。

首次發表於 2025 年 8 月 4 日星期一

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai