Погляд Anderson
AI бореться з тим, щоб розрізнити лівий від правого в медичних знімках

Нове дослідження показало, що моделі зображень AI, такі як ChatGPT, можуть неправильно інтерпретувати перевернуту або повернуту анатомію, збільшуючи ризик небезпечних помилок у діагнозі, а тести показують, що вони часто не проходять базові просторові міркування в медичних знімках – вгадуючи, де повинні бути органи, а не фактично дивлячись на зображення. Можливо, ширше цікавить, дослідження демонструє, що ці моделі можуть не читати ваші завантажені PDF-файли або дивитися на ваші зображення зовсім.
Хтось, хто регулярно завантажував дані, такі як вміст PDF, до провідної мови моделі, як ChatGPT, знає, що LLM не завжди обов’язково читає або вивчає те, що ви йому представляєте; натомість, вони часто роблять припущення про матеріал, засновані на тому, що ви написали про нього в своєму запиті, коли завантажили його.

Це може бути складно переконати мовну модель визнати, що її відповідь була взята з попередніх знань, метаданих або загальних припущень, а не з вмісту, який їй був наданий. Джерело: https://chatgpt.com
Одна з можливих причин цього полягає в тому, щоб збільшити швидкість відповіді, розглядаючи завантажений матеріал як “надлишковий” і покладаючись на текст-пrompt, щоб скористатися попередніми знаннями системи – уникнувши завантаження зовсім, і тим самим мінімізуючи мережевий трафік.
Інша причина – збереження ресурсів (хоча постачальники здаються малоймовірними, щоб розкрити це, якщо це правда), де існуючі метадані, які LLM витягнув з раніших обмінів в чаті, використовуються як основа для подальших відповідей, навіть коли ці обміни та метадані не містять достатньо інформації для виконання цієї мети.
Лівий. Правий?
Хай би яку причину мали різноманітні уваги та можливості фокусування поточнього покоління LLM, існують ситуації та контексти, в яких вгадування є非常ньо небезпечним. Одним з них є коли AI, про яку йдеться, запитується про надання медичних послуг, таких як скринінг або оцінка ризику радіологічного матеріалу.
Цього тижня дослідники з Німеччини та США опублікували нове дослідження щодо ефективності чотирьох провідних моделей мови-образу, включаючи ChatGPT-4o, коли їх запитували про визначення місця розташування органів у медичних знімках.
Незважаючи на те, що вони представляють стан справ у цій сфері, базові моделі не досягли вищого рівня успіху, ніж чистий випадок більшості часу – очевидно, тому що вони не можуть достатньо відрізнити свої навчені знання людської анатомії та фактично дивитися на зображення, які їм представлені, а не тягнутися до легкого навченого пріорітету з їхніх навчальних даних.
Дослідники виявили, що тести LLM показали значно кращі результати, коли розділи, які мали бути розглянуті, були позначені іншими індикаторами (такими як крапки та алфавітно-числові послідовності) та названі – і найкраще з усіх, коли жодної згадки про органи чи анатомію не було включено в запит:

Різноманітні рівні успіху, що збільшуються, коли здатність моделі до звернення до навчених даних зменшується, і вона змушена зосередитися на даних перед нею. Джерело: https://wolfda95.github.io/your_other_left/
У роботі спостерігається*:
‘Сучасні VLM вже володіють сильними попередніми анатомічними знаннями, закладеними в їхніх мовних компонентах. Інакше кажучи, вони “знають”, де анатомічні структури зазвичай розташовані в стандартній людській анатомії.
‘Ми гіпотезуємо, що VLM часто базують свої відповіді на цьому попередньому знанні, а не на аналізі фактичного вмісту зображення. Наприклад, коли запитується, чи знаходиться печінка праворуч від шлунка, модель може відповісти стверджувально, не оглядаючи зображення, покладаючись лише на вивчений норм, що печінка зазвичай розташована праворуч від шлунка.
‘Таке поведінка може привести до критичних неправильних діагнозів у випадках, коли фактичні положення відхиляються від типових анатомічних моделей, таких як у situs inversus, післяхірургічні зміни або зміщення пухлини.’
Щоб пом’якшити проблему в майбутніх зусиллях, автори створили набір даних, призначений для вирішення цієї проблеми.
Робота авторів може бути несподіваною для багатьох читачів, які слідкували за розвитком медичної AI, оскільки радіографія була відзначена дуже рано як одна з робіт, яка найбільш піддається автоматизації через машинне навчання.
Нова робота називається Ваш інший лівий! Моделі мови-образу не можуть визначити відносні положення в медичних зображеннях, і походять від семи дослідників по двох факультетах Університету Ульма та Axiom Bio у США.
Метод і дані
Дослідники поставили за мету відповісти на чотири питання: чи можуть сучасні моделі мови-образу правильно визначити відносні положення в радіологічних зображеннях; чи покращує використання візуальних маркерів їхню продуктивність у цьому завданні; чи вони покладаються більше на попереднє анатомічне знання, ніж на фактичний вміст зображення; і як вони справляються з відносними завданнями положення, коли позбавлені будь-якого медичного контексту.
Для цього вони створили набір даних Медична візуалізація відносного положення (MIRP).
Хоча більшість існуючих візуальних питань-відповідей для зрізів CT або МРТ включають анатомічні та локалізаційні завдання, ці старіші колекції не враховують основну проблему визначення відносних положень, залишаючи багато завдань, які можна вирішити, використовуючи попереднє медичне знання самостійно.
MIRP призначений для вирішення цієї проблеми, тестуючи відносні питання положення між анатомічними структурами, оцінюючи вплив візуальних маркерів, і застосовуючи випадкові оберти та перевороти, щоб заблокувати покладання на вивчені норми. Набір даних фокусується на черевних зрізах CT, через їхню складність і поширеність у радіології.
MIRP містить рівну кількість так і ні відповідей, з анатомічними структурами в кожному запиті, опціонально позначеними для ясності.
Три типи візуальних маркерів були протестовані: чорні цифри у білому боксі; чорні букви у білому боксі; і червона та синя крапка:

Різноманітні візуальні маркери, використані в MIRP. Джерело: https://arxiv.org/pdf/2508.00549
Збірка була отримана з існуючих наборів даних Поза черепною порожниною (BTCV) і Сегментаціяหลาย органів черевної порожнини (AMOS).

Позначені зрізи з набору даних AMOS. Джерело: https://arxiv.org/pdf/2206.08023
Проект TotalSegmentator був використаний для витягування анатомічних плоских зображень з об’ємних даних:

Деякі з 104 анатомічних структур, доступних у TotalSegmentator. Джерело: https://arxiv.org/pdf/2208.05868
Аксіальні зрізи зображень були отримані за допомогою.framework SimpleITK.
‘Челендж’-місця зображень мали бути хоча б 50 пікселів один від одного, і мали мати розмір хоча б у два рази більший, ніж маркери, щоб згенерувати пари запит-відповідь.
Тести
Чотири моделі мови-образу, які були протестовані, були GPT-4o; Llama3.2; Pixtral; і DeepSeek’s JanusPro.
Дослідники протестували кожне зі своїх чотирьох дослідницьких питань по черзі, з першим (Q1) ‘Чи можуть сучасні топові VLM правильно визначити відносні положення в радіологічних зображеннях? Для цього питання дослідники протестували моделі на звичайних, повернутих або перевернутих зрізах CT, використовуючи стандартний формат питання, такий як Чи знаходиться ліва нирка нижче шлунка?.
Результати (показані нижче) показали точність близько 50 відсотків по всіх моделях, вказуючи на продуктивність на рівні випадку, і нездатність надійно судити про відносні положення без візуальних маркерів:

Середня точність усіх експериментів, які використовують оцінку на основі зображення на бенчмарку MIRP (RQ1–RQ3) і наборі даних абляції (AS).
Щоб протестувати, чи можуть візуальні маркери допомогти моделям мови-образу визначити відносні положення в радіологічних зображеннях, дослідження повторили експерименти, використовуючи зрізи CT, позначені буквами, цифрами або червоними та синіми крапками; і тут питання формату були змінені на посилання на ці маркери – наприклад, Чи знаходиться ліва нирка (А) нижче шлунка (Б)? або Чи знаходиться ліва нирка (червона) нижче шлунка (синя)?.
Результати показали невеликі підвищення точності для GPT-4o і Pixtral, коли використовувалися маркери букв або цифр, тоді як JanusPro і Llama3.2 бачили мало чи жодної вигоди, що свідчить про те, що маркери самі по собі можуть не бути достатніми, щоб суттєво покращити продуктивність.

Точність усіх експериментів, які використовують оцінку на основі зображення. Для RQ2, RQ3 і AS результати показані з найкращим маркером для кожної моделі: буквами для GPT-4o, і червоними-синіми крапками для Pixtral, JanusPro і Llama3.4.
Щоб відповісти на третє питання, Чи пріоритезують VLM попереднє анатомічне знання над візуальним входом при визначенні відносних положень в радіологічних зображеннях?, автори вивчили, чи моделі мови-образу покладаються більше на попереднє анатомічне знання, ніж на візуальну інформацію, коли визначають відносні положення в радіологічних зображеннях.
Коли тестувалися на повернутих або перевернутих зрізах CT, GPT-4o і Pixtral часто давали відповіді, сумісні зі стандартними анатомічними положеннями, а не відображали те, що було показано на зображенні, з GPT-4o, який досяг понад 75 відсотків точності на анатомічній оцінці, але лише на рівні випадку на оцінці на основі зображення.
Видалення анатомічних термінів з запитів і використання лише візуальних маркерів змусило моделі покладатися на вміст зображення, що призвело до помітних підвищень, з GPT-4o, який перевищив 85 відсотків точності з маркерами букв, і Pixtral понад 75 відсотків з крапками.

Порівняння чотирьох моделей мови-образу при визначенні відносних положень анатомічних структур у медичних зображеннях – ключовий вимір для клінічного використання. Продуктивність знаходиться на рівні випадку з плоскими зображеннями (RQ1) і показує лише незначні підвищення з візуальними маркерами (RQ2). Коли анатомічні назви видалені, і моделі повинні покладатися повністю на маркери, GPT-4o і Pixtral досягають суттєвих підвищень точності (RQ3). Результати показані з найкращим маркером для кожної моделі.
Це свідчить про те, що хоча обидві можуть виконувати завдання, використовуючи дані зображення, вони схильні до звернення до вивчених анатомічних припущень, коли їм надаються анатомічні назви – закономерність, яку не чітко спостерігають у JanusPro чи Llama3.2.
Хоча ми зазвичай не висвітлюємо дослідження абляції, автори відповіли на четверте і останнє дослідницьке питання в цьому спосіб. Тому, щоб протестувати відносне положення без будь-якого медичного контексту, дослідження використовувало плоскі білі зображення з випадково розміщеними маркерами і ставило прості питання, такі як Чи знаходиться номер 1 вище номера 2?. Pixtral показав покращені результати з маркерами крапок, тоді як інші моделі показали подібні результати до їхніх оцінок RQ3.
JanusPro, і особливо Llama3.2, боролися навіть у цьому спрощеному середовищі, вказуючи на основні слабкості у відносному положенні, які не обмежуються медичними зображеннями.
Автори спостерігають, що GPT-4o показав найкращі результати з маркерами букв, тоді як Pixtral, JanusPro і Llama3.2 досягли вищої оцінки з червоними-синіми крапками. GPT-4o був загальним переможцем, з Pixtral, який очолив серед відкритих моделей.
Висновок
На особистому рівні, ця робота привернула мою увагу не так сильно через її медичне значення, а тому, що вона підкреслює одну з найбільш недооцінених і фундаментальних слабкостей поточної хвилі SOTA LLM – якщо завдання можна уникнути, і якщо ви не представляєте свій матеріал ретельно, вони не прочитají тексти, які ви завантажуєте, або вивчатимуть зображення, які ви їм представляєте.
Далі, дослідження вказує на те, що якщо ваш текст-пrompt у будь-який спосіб пояснює, що таке вторинний представлений матеріал, LLM схильний розглядати його як ‘телеологічний’ приклад, і буде припускати/припускати багато речей про нього, заснованих на попередніх знаннях, а не вивчати і розглянути те, що ви йому представили.
Ефектно, на цьому етапі справ VLM матиме велику трудність у визначенні ‘відхильного’ матеріалу – однієї з найбільш важливих навичок у діагностичній медицині. Хоча можливо обернути логіку і мати систему, яка шукає аутліери замість результатів у розподілі, модель потребуватиме виняткової кураторії, щоб уникнути перевантаження сигналу нерелевантними або хибними прикладами.
* Внутрішні посилання опущені, оскільки немає елегантного способу включити їх як гіперпосилання. Будь ласка, зверніться до джерельної статті.
Перша публікація понеділка, 4 серпня 2025












