Взгляд Anderson

AI испытывает трудности с определением левой и правой стороны на медицинских снимках

Published August 4, 2025

Updated April 26, 2026

Martin Anderson

A robot doctor confused by an x-ray of a hand – ChatGPT-40 and Firefly (Oct 2024).

Новое исследование показывает, что модели изображений AI, такие как ChatGPT, могут неправильно интерпретировать перевернутую или повернутую анатомию, увеличивая риск опасных ошибок в диагностике, с тестами, указывающими на то, что они часто терпят неудачу в базовом пространственном рассуждении в медицинских снимках – предполагая, где должны находиться органы, а не фактически смотря на изображение. Возможно, более широкий интерес представляет собой то, что исследование демонстрирует, что эти модели могут не читать ваши загруженные PDF-файлы или смотреть на ваши изображения вовсе.

Кто-либо, кто регулярно загружал данные, такие как содержимое PDF, в ведущую языковую модель, такую как ChatGPT, знает, что LLM не всегда обязательно читают или изучают то, что вы им представляете; скорее, они очень часто делают предположения о материале, основанные на том, что вы написали о нем в вашем запросе при загрузке.

Может быть сложно даже заставить языковую модель признать, что она не действительно изучала представленный материал, а основала свой ответ на предыдущих знаниях, метаданных или общих предположениях. Source: https://chatgpt.com

Может быть сложно убедить языковую модель признать, что ее ответ был получен из предыдущих знаний, метаданных или общих предположений, а не из содержимого, которое было ей дано. Source: https://chatgpt.com

Одной из возможных причин этого может быть увеличение скорости ответа за счет рассмотрения загруженного материала как “избыточного” и полаганиясь на текст-пrompt для использования предыдущих знаний системы – избегая загрузки вовсе и минимизируя сетевой трафик.

Другой причиной может быть сохранение ресурсов (хотя поставщики, кажется, вряд ли раскрыют это, если оно верно), где существующая метаинформация, которую LLM извлекла из предыдущих обменов в чате, используется в качестве основы для дальнейших ответов, даже когда эти обмены и метаинформация не содержат достаточно информации для выполнения этой цели.

Левый. Правый?

Какова бы ни была причина разнообразного внимания и способностей фокусировки текущего поколения LLM, есть ситуации и контексты, в которых предположение является чрезвычайно опасным. Одним из них является когда AI, о котором идет речь, запрашивается для предоставления медицинских услуг, таких как скрининг или оценка риска радиологического материала.

На этой неделе исследователи из Германии и США опубликовали новое исследование, изучающее эффективность четырех ведущих моделей vision-language, включая ChatGPT-4o, когда их просят определить местоположение органов в медицинских снимках.

Удивительно, но, несмотря на представление собой состояние дела в этом отношении, базовые модели не достигают более высокого успеха, чем чистая случайность большинство времени – по-видимому, потому что они не могут достаточно хорошо отделить свои обученные знания человеческой анатомии и фактически посмотреть на представленные изображения, вместо того, чтобы обращаться за легким обученным приором из их обучающих данных.

Исследователи обнаружили, что протестированные LLM показали значительно лучшие результаты, когда разделы, которые необходимо учитывать, были обозначены другими индикаторами (такими как точки и алфавитно-цифровые последовательные индикаторы), а также были названы – и лучше всего, когда никаких упоминаний об органах или анатомии не было включено в запрос вовсе:

Различные уровни успеха, увеличивающиеся по мере того, как способность модели полагаться на обученные данные уменьшается, и она вынуждена сосредоточиться на данных перед ней. Source: https://wolfda95.github.io/your_other_left/

В статье отмечается*:

‘Современные VLM уже обладают сильными предыдущими анатомическими знаниями, встроенными в их языковые компоненты. Другими словами, они “знают”, где анатомические структуры обычно расположены в стандартной человеческой анатомии.

‘Мы предполагаем, что VLM часто основывают свои ответы на этих предыдущих знаниях, а не анализируют фактическое содержимое изображения. Например, когда их спрашивают, находится ли печень справа от желудка, модель может ответить утвердительно, не осматривая изображение, полагаясь только на изученную норму, что печень обычно расположена справа от желудка.

‘Такое поведение может привести к критическим неправильным диагнозам в случаях, когда фактические положения отклоняются от типичных анатомических закономерностей, таких как в situs inversus, пост-хирургических изменениях или опухолевых смещениях.’

Чтобы смягчить проблему в будущих усилиях, авторы разработали набор данных, предназначенный для решения этой проблемы.

Результаты исследования могут быть удивительными для многих читателей, которые следили за развитием медицинского AI, поскольку радиография была отмечена очень рано как одна из работ, наиболее подверженных риску автоматизации через машинное обучение.

Новая работа называется Ваша другая левая! Модели vision-language не могут определить относительные положения в медицинских изображениях, и исходит от семи исследователей из двух факультетов Ульмского университета и Axiom Bio в США.

Метод и данные

Исследователи поставили цель ответить на четыре вопроса: могут ли современные модели vision-language правильно определить относительные положения в радиологических изображениях; улучшает ли использование визуальных маркеров их производительность в этом задании; полагаются ли они больше на предыдущие анатомические знания, чем на фактическое содержимое изображения; и как хорошо они справляются с задачами относительного позиционирования, когда лишены любого медицинского контекста.

Для этого они курировали набор данных Медицинское изображение относительного позиционирования (MIRP).

Хотя большинство существующих визуальных вопросов-ответов для срезов CT или MRI включают анатомические и локализационные задачи, эти старые коллекции упускают из виду основную задачу определения относительных положений, оставляя многие задачи, решаемые с помощью предыдущих медицинских знаний.

MIRP предназначен для решения этой проблемы, тестируя относительные позиционные вопросы между анатомическими структурами, оценивая влияние визуальных маркеров и применяя случайные повороты и перевороты для блокировки зависимости от изученных норм. Набор данных фокусируется на абдоминальных срезах CT, из-за их сложности и распространенности в радиологии.

MIRP содержит равное количество да и нет ответов, с анатомическими структурами в каждом вопросе, опционально обозначенными для ясности.

Три типа визуальных маркеров были протестированы: черные цифры в белом квадрате; черные буквы в белом квадрате; и красная и синяя точка:

Различные визуальные маркеры, использованные в MIRP. Source: https://arxiv.org/pdf/2508.00549

Коллекция была получена из существующих наборов данных За пределами краниального свода (BTCV) и Абдоминальная сегментация множества органов (AMOS).

Аннотированные срезы из набора данных AMOS. Source: https://arxiv.org/pdf/2206.08023

Проект TotalSegmentator был использован для извлечения плоских анатомических изображений из объемных данных:

Некоторые из 104 анатомических структур, доступных в TotalSegmentator. Source: https://arxiv.org/pdf/2208.05868

Аксиальные срезы изображений были затем получены с помощью фреймворка SimpleITK.

‘Челлендж’-местоположения изображений должны были быть как минимум 50 пикселей друг от друга и иметь размер не менее двойного размера маркеров, чтобы сгенерировать пары вопрос-ответ.

Тесты

Четыре модели vision-language, протестированные в исследовании, были GPT-4o; Llama3.2; Pixtral; и JanusPro от DeepSeek.

Исследователи протестировали каждую из своих четырех исследовательских вопросов в свою очередь, с первым (Q1) вопросом ‘Могут ли современные лучшие модели VLM точно определить относительные положения в радиологических изображениях? Для этого исследования исследователи протестировали модели на простых, повернутых или перевернутых срезах CT, используя стандартный формат вопроса, такой как Расположена ли левая почка ниже желудка?.

Результаты (показанные ниже) показали точность, близкую к 50 процентам во всех моделях, указывая на производительность на уровне случайности и неспособность надежно судить о относительных положениях без визуальных маркеров:

Средняя точность для всех экспериментов, используя оценку на основе изображения в бенчмарке MIRP (RQ1–RQ3) и наборе данных абляции (AS).

Чтобы протестировать, могут ли визуальные маркеры помочь моделям vision-language определить относительные положения в радиологических изображениях, исследование повторно провело эксперименты, используя срезы CT, аннотированные буквами, цифрами или красными и синими точками; и здесь вопросный формат был скорректирован для ссылки на эти маркеры – например, Расположена ли левая почка (А) ниже желудка (Б)? или Расположена ли левая почка (красная) ниже желудка (синяя)?.

Результаты показали небольшие приросты точности для GPT-4o и Pixtral, когда использовались маркеры букв или цифр, в то время как JanusPro и Llama3.2 увидели мало или совсем не выиграли, что предполагает, что маркеры сами по себе могут быть недостаточны для значительного улучшения производительности.

Точность для всех экспериментов, используя оценку на основе изображения. Для RQ2, RQ3 и AS результаты показаны с лучшим маркером для каждой модели: буквами для GPT-4o и красно-синими точками для Pixtral, JanusPro и Llama3.4.

Чтобы решить третий вопрос, Приоритизируют ли VLM предыдущие анатомические знания над визуальным вводом при определении относительных положений в радиологических изображениях?, авторы изучили, полагаются ли модели vision-language больше на предыдущие анатомические знания, чем на визуальные данные, при определении относительных положений в радиологических изображениях.

Когда их тестировали на повернутых или перевернутых срезах CT, GPT-4o и Pixtral часто производили ответы, согласные со стандартными анатомическими положениями, а не отражающие то, что было показано на изображении, с GPT-4o, достигающим более 75 процентов точности на анатомической оценке, но только на уровне случайности на оценке на основе изображения.

Удаление анатомических терминов из запросов и использование только визуальных маркеров заставило модели полагаться на содержимое изображения, что привело к значительным выигрышам, с GPT-4o, превышающим 85 процентов точности с буквенными маркерами, и Pixtral более 75 процентов с точками.

Сравнение четырех моделей vision-language в определении относительных положений анатомических структур в медицинских изображениях – ключевой требование для клинического использования. Производительность находится на уровне случайности с простыми изображениями (RQ1) и показывает только незначительные выигрыши с визуальными маркерами (RQ2). Когда анатомические имена удаляются и модели должны полагаться исключительно на маркеры, GPT-4o и Pixtral достигают существенных улучшений точности (RQ3). Результаты показаны с использованием лучшего маркера для каждой модели.

Это предполагает, что хотя обе модели могут выполнять задачу, используя данные изображения, они склонны полагаться на изученные анатомические приоры, когда им даны анатомические имена – закономерность, не четко наблюдаемая в JanusPro или Llama3.2.

Хотя мы обычно не освещаем исследования абляции, авторы решили четвертый и последний исследовательский вопрос таким образом. Следовательно, чтобы протестировать способность относительного позиционирования без какого-либо медицинского контекста, исследование использовало простые белые изображения с случайно размещенными маркерами и задавало простые вопросы, такие как Расположен ли номер 1 выше номера 2?. Pixtral показал улучшенные результаты с точечными маркерами, в то время как другие модели показали производительность, аналогичную их результатам RQ3.

JanusPro, и особенно Llama3.2, испытывали трудности даже в этом упрощенном контексте, указывая на основные слабости в относительном позиционировании, которые не ограничиваются медицинскими изображениями.

Авторы отмечают, что GPT-4o показал лучшие результаты с буквенными маркерами, в то время как Pixtral, JanusPro и Llama3.2 достигли более высоких баллов с красно-синими точками. GPT-4o был лучшим исполнителем, с Pixtral, лидирующим среди открытых моделей.

Заключение

На личной заметке, эта статья привлекла мое внимание не столько за ее медицинское значение, но и потому, что она подчеркивает одну из наиболее недооцененных и фундаментальных недостатков текущей волны SOTA LLM – что, если задача может быть избегаема, и если вы не представляете свой материал тщательно, они не будут читать тексты, которые вы загружаете, или изучать изображения, которые вы им представляете.

Дальнейшее исследование указывает на то, что если ваш текст-пrompt каким-либо образом объясняет, что такое представленный материал, LLM будет склонен рассматривать его как ‘телологический’ пример и будет предполагать/предполагать многие вещи о нем, основываясь на предыдущих знаниях, вместо того, чтобы изучать и учитывать то, что вы представили.

По сути, на этом этапе вещей VLM будут иметь большие трудности с определением ‘аномального’ материала – одного из наиболее важных навыков в диагностической медицине. Хотя возможно обратить логику и заставить систему искать аутлиеры вместо результатов в распределении, модель потребует исключительной кюрации, чтобы избежать подавления сигнала ненужными или ложными примерами.

* Внутренние цитаты опущены, поскольку нет элегантного способа включить их в качестве гиперссылок. Пожалуйста, обратитесь к исходной статье.

Опубликовано впервые в понедельник, 4 августа 2025 года