Connect with us

AI๋Š” ์˜๋ฃŒ ์Šค์บ”์—์„œ ์™ผ์ชฝ๊ณผ ์˜ค๋ฅธ์ชฝ์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค

Anderson์˜ ๊ด€์ 

AI๋Š” ์˜๋ฃŒ ์Šค์บ”์—์„œ ์™ผ์ชฝ๊ณผ ์˜ค๋ฅธ์ชฝ์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค

mm
A robot doctor confused by an x-ray of a hand โ€“ ChatGPT-40 and Firefly (Oct 2024).

새로운 연구에 따르면 ChatGPT와 같은 AI 이미지 모델은 뒤집히거나 회전된 해부학적 구조를 잘못 읽을 수 있으며, 이는 진단에서 위험한 오류의 위험을 높이며, 테스트 결과는 이러한 모델이 의료 스캔에서 기본적인 공간적推론을 자주 실패한다는 것을 나타낸다. – 실제 이미지를 보는 대신 기관이 어디에 있어야 하는지 추측하는 대신에, 아마도 더广い 관심을 끌 수 있는 연구는 이러한 모델이 실제로 업로드된 PDF를 읽거나 이미지를 보지 않을 수 있다는 것을 보여준다.

 

의료 스캔에서 왼쪽과 오른쪽을 구분하는 데 어려움을 겪는다는 것을 알게 된 사람은 누구나, ChatGPT와 같은 선도적인 언어 모델에 데이터를 정기적으로 업로드하는 사람들은 LLM이 항상 필요한 경우에 업로드된 데이터를 읽거나 검토하지 않는다는 것을 알게 된다. 대신, 업로드할 때 입력한 프롬프트에 따라 자료에 대한 가정을 하는 경우가 많다.

์–ธ์ œ๋‚˜ ์–ธ์–ด ๋ชจ๋ธ์ด ์‹ค์ œ๋กœ ์—…๋กœ๋“œ๋œ ์ฝ˜ํ…์ธ ๋ฅผ ๊ฒ€ํ† ํ•˜์ง€ ์•Š๊ณ , ์ด์ „ ์ง€์‹, ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ๋˜๋Š” ์ผ๋ฐ˜์ ์ธ ๊ฐ€์ •์— ๋”ฐ๋ผ ๋‹ต๋ณ€์„ ๋‚ด๋ฆฐ ๊ฒƒ์„ ์ธ์ •ํ•˜๋„๋ก ํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ๋‹ค. ์ถœ์ฒ˜: https://chatgpt.com

언제나 언어 모델이 실제로 업로드된 콘텐츠를 검토하지 않고, 이전 지식, 메타데이터 또는 일반적인 가정에 따라 답변을 내린 것을 인정하도록 하는 것은 어려울 수 있다. 출처: https://chatgpt.com

이러한 이유 중 하나는 업로드된 자료를 ‘중복’으로 간주하고, 이전 지식에 의존하여 시스템의 반응 속도를 높이는 것이다. 또 다른 이유는 자원 보존이다(그러나 제공업체는 이것이 사실이라면 공개하지 않을 것 같다). 여기서 기존 메타데이터가 이전 채팅에서 추출되어 추가 답변의 기준으로 사용된다.

왼쪽, 오른쪽?

현재 세대의 LLM이 가진 다양한 주의력과 집중력에도 불구하고, 추측이極히 위험한 상황과 맥락이 있다. 이러한 상황 중 하나는 AI가 의료 서비스를 제공하는 경우이다. 예를 들어, 스크리닝 또는방사선 물질의 위험도 평가와 같은 경우이다.

이번 주 독일과 미국의 연구자들은 ChatGPT-4o를 포함한 4개의 선도적인 비전-언어 모델이 의료 스캔에서 기관의 위치를 식별하는 능력을 조사하는 새로운 연구를 발표했다.

驚くことに, 이러한 모델은 대부분의 경우 순수한 우연에 불과한 성공률을 달성하지 못한다. 이는 이러한 모델이 충분히 훈련된 인간 해부학 지식을 분리하지 못하고, 실제로 이미지를 보는 대신 훈련 데이터에서 쉽게 얻을 수 있는 이전 지식에 의존하기 때문이다.

연구자들은 이러한 모델이 더 나은 성능을 보이는 경우가 많았으며, 섹션에 다른 지시자(예: 점과 알파벳 수열 지시자)와 함께 명명된 경우, 그리고 모든 해부학적 이름이 제거된 경우에 가장 잘 작동한다.

๋ชจ๋ธ์ด ํ›ˆ๋ จ๋œ ๋ฐ์ดํ„ฐ์— ์˜์กดํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๊ฐ์†Œํ•˜๊ณ , ์‹ค์ œ ๋ฐ์ดํ„ฐ์— ์ง‘์ค‘ํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ ์„ฑ๋Šฅ์ด ์ฆ๊ฐ€ํ•˜๋Š” ๋‹ค์–‘ํ•œ ์„ฑ๋Šฅ ์ˆ˜์ค€. ์ถœ์ฒ˜: https://wolfda95.github.io/your_other_left/

모델이 훈련된 데이터에 의존하는 능력이 감소하고, 실제 데이터에 집중해야 하는 경우 성능이 증가하는 다양한 성능 수준. 출처: https://wolfda95.github.io/your_other_left/

연구 논문은 다음을 관찰한다:

‘현재의 최고 수준의 VLM은 이미 강력한 이전 해부학적 지식을 언어 구성 요소 내에 내장하고 있습니다. 즉, 해부학적 구조가 일반적으로 표준 인간 해부학에서 어디에 위치하는지 “안다”.

‘우리는 VLM이 실제 이미지 내용을 분석하는 대신 이러한 이전 지식을 기반으로 답변을 내린다고 가정합니다. 예를 들어, 간이 胃의 오른쪽에 있는지 묻는 경우, 모델은 이미지를 검사하지 않고 간이 일반적으로 胃의 오른쪽에 위치한다는 학습된 규범에 의존하여 긍정적으로 답변할 수 있습니다.

‘이러한 행동은 해부학적 패턴에서 실제 위치가 벗어나는 경우에 치명적인 오진으로 이어질 수 있습니다. 예를 들어, 시투스 인버수스, 수술 후 변경 또는 종양 이탈과 같은 경우입니다.’

미래의 노력에서 이 문제를 완화하기 위해, 저자들은 이 문제를 해결하기 위한 데이터셋을 개발했다.

이 연구의 결과는 의료 AI의 개발을 따라온 많은 독자에게 놀라울 수 있다. 방사선학은 이미자동화의 가능성이 가장 높은 직업 중 하나로 早期에 지명되었다.

새로운 연구는 당신의 다른 왼쪽! 비전-언어 모델은 의료 이미지에서 상대적 위치를 식별하지 못한다라는 제목으로, 독일과 미국의 2개 학부 및 Axiom Bio의 7명의 연구자에 의해 수행되었다.

방법 및 데이터

연구자들은 4개의 문제를 해결하려고 했다. 첫째, 현재 최고 수준의 비전-언어 모델이 의료 이미지에서 상대적 위치를 올바르게 결정할 수 있는지, 둘째, 시각적 표시자가 이러한 작업에서 모델의 성능을 향상시키는지, 셋째, 모델이 실제 이미지 내용보다 이전 해부학적 지식을 더 많이 사용하는지, 그리고 마지막으로 모델이 의료 맥락 없이 상대적 위치 지정 작업을 처리하는 방식을 조사했다.

이를 위해 mereka는 의료 이미지 상대 위치(MIRP) 데이터셋을 구축했다.

대부분의 기존 시각적 질문-답변 벤치마크는 해부학적 구조와 위치 지정 작업을 포함하지만, 이러한 이전 컬렉션은 상대적 위치를 결정하는 핵심적인 도전을 간과한다. 이는 많은 작업이 단지 이전 의료 지식만으로 해결할 수 있음을 의미한다.

MIRP는 상대적 위치 질문을 해부학적 구조 사이에서 테스트하고, 시각적 표시자의 영향을 평가하며, 학습된 규범에 의존하지 않도록 임의로 회전하고 뒤집는다. 데이터셋은 복부 CT 슬라이스에 중점을 둔다. 이는 복잡성과 방사선학에서의 普遍性 때문이다.

MIRP에는 아니오答案이 동일하게 포함되어 있으며, 각 질문의 해부학적 구조는 명확성을 위해 선택적으로 표시된다.

세 가지 유형의 시각적 표시자가 테스트되었다. 검은 숫자가 있는 흰색 상자, 검은 글자가 있는 흰색 상자, 그리고 빨간 점과 파란 점:

MIRP์—์„œ ์‚ฌ์šฉ๋œ ๋‹ค์–‘ํ•œ ์‹œ๊ฐ์  ํ‘œ์‹œ์ž. ์ถœ์ฒ˜: https://arxiv.org/pdf/2508.00549

MIRP에서 사용된 다양한 시각적 표시자. 출처: https://arxiv.org/pdf/2508.00549

수집은 기존의 뇌의 바깥(BTCV)와 복부 다중 기관 분할(AMOS) 데이터셋에서 가져왔다.

AMOS ๋ฐ์ดํ„ฐ์…‹์˜ ์ฃผ์„์ด ๋‹ฌ๋ฆฐ ์Šฌ๋ผ์ด์Šค. ์ถœ์ฒ˜: https://arxiv.org/pdf/2206.08023

AMOS 데이터셋의 주석이 달린 슬라이스. 출처: https://arxiv.org/pdf/2206.08023

TotalSegmentator 프로젝트는 해부학적 평면 이미지를 볼륨 데이터에서 추출하는 데 사용되었다.

TotalSegmentator์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” 104๊ฐœ์˜ ํ•ด๋ถ€ํ•™์  ๊ตฌ์กฐ ์ค‘ ์ผ๋ถ€. ์ถœ์ฒ˜: https://arxiv.org/pdf/2208.05868

TotalSegmentator에서 사용할 수 있는 104개의 해부학적 구조 중 일부. 출처: https://arxiv.org/pdf/2208.05868

축 방향 이미지 슬라이스는 SimpleITK 프레임워크로 얻었다.

‘도전’ 이미지 위치는 최소 50px 떨어져 있어야 하며 표시자의 크기보다 적어도 두 배의 크기가 있어야 했다. 이를 통해 질문/답변 쌍을 생성할 수 있었다.

테스트

테스트된 4개의 비전-언어 모델은 GPT-4o, Llama3.2, Pixtral, 그리고 DeepSeek의 JanusPro였다.

연구자들은 각 연구 질문을 차례로 테스트했으며, 첫 번째 질문(Q1)은 ‘현재 최고 수준의 VLM이 의료 이미지에서 상대적 위치를 정확하게 결정할 수 있는가?’였다.

결과(아래에 표시됨)는 모든 모델에서 약 50%의 정확도를 보여주었으며, 이는 우연의 수준에서 상대적 위치를 신뢰할 수 있게 판단할 수 없음을 나타낸다.

MIRP ๋ฒค์น˜๋งˆํฌ(RQ1-RQ3) ๋ฐ ablation ๋ฐ์ดํ„ฐ์…‹(AS)์„ ์‚ฌ์šฉํ•œ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์— ๋Œ€ํ•œ ๋ชจ๋“  ์‹คํ—˜์˜ ํ‰๊ท  ์ •ํ™•๋„.

MIRP 벤치마크(RQ1-RQ3) 및 ablation 데이터셋(AS)을 사용한 이미지 기반 평가에 대한 모든 실험의 평균 정확도.

비전-언어 모델이 의료 이미지에서 상대적 위치를 결정하는 데 시각적 표시자가 도움이 될 수 있는지 테스트하기 위해, 연구는 시각적 표시자가 있는 CT 슬라이스를 사용하여 실험을 반복했다.

결과는 GPT-4o와 Pixtral에서 문자 또는 숫자 표시자가 사용될 때 작은 정확도 향상을 보여주었지만, JanusPro와 Llama3.2는 거의 또는 전혀 이점을 보지 못했다. 이는 표시자만으로는 성능을 크게 개선하기에 충분하지 않을 수 있음을 시사한다.

์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์— ๋Œ€ํ•œ ๋ชจ๋“  ์‹คํ—˜์˜ ์ •ํ™•๋„. RQ2, RQ3 ๋ฐ AS์˜ ๊ฒฝ์šฐ, ๊ฐ ๋ชจ๋ธ์˜ ์ตœ์ ์˜ ํ‘œ์‹œ ์œ ํ˜•์œผ๋กœ ํ‘œ์‹œ๋œ ๊ฒฐ๊ณผ๊ฐ€ ํ‘œ์‹œ๋ฉ๋‹ˆ๋‹ค. GPT-4o์˜ ๊ฒฝ์šฐ ๋ฌธ์ž, Pixtral, JanusPro ๋ฐ Llama3.4์˜ ๊ฒฝ์šฐ ๋นจ๊ฐ„์ƒ‰-ํŒŒ๋ž€์ƒ‰ ์ .

이미지 기반 평가에 대한 모든 실험의 정확도. RQ2, RQ3 및 AS의 경우, 각 모델의 최적의 표시 유형으로 표시된 결과가 표시됩니다. GPT-4o의 경우 문자, Pixtral, JanusPro 및 Llama3.4의 경우 빨간색-파란색 점.

세 번째 질문에 대한 답변은 ‘VLM이 의료 이미지에서 상대적 위치를 결정할 때 이전 해부학적 지식을 시각적 입력보다 우선시하는가?’였다.

회전 또는 뒤집어진 CT 슬라이스에서 테스트된 결과, GPT-4o와 Pixtral은 표준 해부학적 위치와 일치하는 답변을 많이 생성했으며, 이는 실제 이미지 내용을 반영하는 것보다 표준 해부학적 위치를 반영하는 것을 의미한다.

해부학적 용어를 제거하고 시각적 표시자만 사용하면 모델이 이미지 내용에 의존하도록 강제하여 큰 성과 향상을 가져왔다. GPT-4o는 문자 표시자로 85% 이상의 정확도를 달성했고, Pixtral은 점으로 75% 이상의 정확도를 달성했다.

์˜๋ฃŒ ์ด๋ฏธ์ง€์—์„œ ํ•ด๋ถ€ํ•™์  ๊ตฌ์กฐ์˜ ์ƒ๋Œ€์  ์œ„์น˜๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ 4๊ฐœ์˜ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์˜ ๋น„๊ต - ์ž„์ƒ ์‚ฌ์šฉ์„ ์œ„ํ•œ ํ•ต์‹ฌ ์š”๊ตฌ ์‚ฌํ•ญ. ์„ฑ๋Šฅ์€ ํ‰๋ฉด ์ด๋ฏธ์ง€(RQ1)์—์„œ ์šฐ์—ฐ์˜ ์ˆ˜์ค€์ด๋ฉฐ, ์‹œ๊ฐ์  ํ‘œ์‹œ์ž(RQ2)๋กœ ์•ฝ๊ฐ„์˜ ์ด์ ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ํ•ด๋ถ€ํ•™์  ์ด๋ฆ„์„ ์ œ๊ฑฐํ•˜๊ณ  ๋ชจ๋ธ์ด ํ‘œ์‹œ์ž์—๋งŒ ์˜์กดํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ(GPT-4o ๋ฐ Pixtral์—์„œ) ์ƒ๋‹นํ•œ ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ฐ ๋ชจ๋ธ์˜ ์ตœ์ ์˜ ํ‘œ์‹œ ์œ ํ˜•์œผ๋กœ ํ‘œ์‹œ๋œ ๊ฒฐ๊ณผ๊ฐ€ ํ‘œ์‹œ๋ฉ๋‹ˆ๋‹ค.

의료 이미지에서 해부학적 구조의 상대적 위치를 결정하는 데 대한 4개의 비전-언어 모델의 비교 – 임상 사용을 위한 핵심 요구 사항. 성능은 평면 이미지(RQ1)에서 우연의 수준이며, 시각적 표시자(RQ2)로 약간의 이점을 보여주며, 해부학적 이름을 제거하고 모델이 표시자에만 의존해야 하는 경우(GPT-4o 및 Pixtral에서) 상당한 정확도 향상을 보여준다. 각 모델의 최적의 표시 유형으로 표시된 결과가 표시됩니다.

이것은 GPT-4o와 Pixtral이 이미지 데이터를 사용하여 작업을 수행할 수 있지만, 해부학적 이름이 주어질 때 이전 해부학적 지식에 의존하는 경향이 있음을 시사한다. 이 패턴은 JanusPro 또는 Llama3.2에서 명확하게 관찰되지 않는다.

연구자들은 마지막 연구 질문에 대한 답변을 ablation 연구를 통해 제공했다. 따라서, 의료 맥락 없이 상대적 위치 지정 능력을 테스트하기 위해, 연구는 평면 흰색 이미지에 임의로 위치한 표시자와 함께 단순한 질문(예: “1번 숫자가 2번 숫자 위에 있는가?”)을 사용했다.

Pixtral은 점 표시자로 향상된 결과를 보여주었으며, 다른 모델은 RQ3 점수와 유사한 성능을 보였다. JanusPro, 특히 Llama3.2는 심지어 이 단순화된 설정에서도 어려움을 겪었으며, 이는 의료 이미지가 아닌 상대적 위치 지정에 대한 기본적인 약점을 나타낸다.

연구자들은 GPT-4o가 문자 표시자로 가장 잘 수행되었으며, Pixtral, JanusPro 및 Llama3.2는 빨간색-파란색 점으로 더 높은 점수를 얻었다고 관찰했다. GPT-4o는 전체적으로最高의 성능을 보였으며, Pixtral은 오픈 소스 모델 중最高의 성능을 보였다.

결론

개인적인 관점에서, 이 논문은 의료적인 중요성으로 인해 değil, 현재의 SOTA LLMs의 가장 근본적이고 가장少報된 약점 중 하나를 강조한다는 점에서 내 관심을 끌었다. 즉, 작업을 피할 수 있다면, 그리고 당신이 제출한 자료를 주의 깊게 제시하지 않는다면, 이러한 모델은 업로드된 텍스트를 읽거나 제출한 이미지를 검토하지不会한다.

さらに, 연구는 텍스트 프롬프트가 제출한 자료에 대해 설명하는 경우, LLM이 이를 ‘目的論的’ 예로 간주하고, 이전 지식, 메타데이터 또는 일반적인 가정에 따라 많은 것을 가정한다는 것을 나타낸다. 실제로 제출한 내용을 검토하고 고려하는 대신에, 제출한 것이다.

실제로, 이러한 VLMs는 ‘이상적인’ 자료를 식별하는 데 큰 어려움을 겪을 것이다. 이는 의료 진단에서 가장 중요한 기술 중 하나이다. 물론, 논리를 역전시키고 시스템을 이상치보다 아웃라이어를 찾도록 할 수 있지만, 모델은 신호를 불필요하거나 가짜 예제로 압도하지 않도록 예외적인 큐레이션을 필요로 할 것이다.

 

* 인라인引用은 포함되지 않았습니다. 출처 논문을 참조하십시오.

2025년 8월 4일 처음 게시

๊ธฐ๊ณ„ ํ•™์Šต ์ž‘๊ฐ€, ์ธ๊ฐ„ ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€. Metaphysic.ai์˜ ์—ฐ๊ตฌ ์ฝ˜ํ…์ธ  ์ฑ…์ž„์ž ์ถœ์‹ .
๊ฐœ์ธ ์‚ฌ์ดํŠธ: martinanderson.ai
์—ฐ๋ฝ์ฒ˜: [email protected]
ํŠธ์œ„ํ„ฐ: @manders_ai

๊ด‘๊ณ  ๊ณ ์ง€: Unite.AI๋Š” ๋…์ž์—๊ฒŒ ์ •ํ™•ํ•œ ์ •๋ณด์™€ ๋‰ด์Šค๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ์—„๊ฒฉํ•œ ํŽธ์ง‘ ๊ธฐ์ค€์„ ์ค€์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ๋‹น์‚ฌ๊ฐ€ ๊ฒ€ํ† ํ•œ ์ œํ’ˆ ๋งํฌ๋ฅผ ํด๋ฆญํ•  ๊ฒฝ์šฐ ๋ณด์ƒ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.