Kąt Andersona
AI ma trudności z rozróżnieniem lewej i prawej strony w badaniach medycznych

Nauka odkryła, że modele obrazowe AI, takie jak ChatGPT, mogą błędnie odczytywać odwrócone lub obrócone anatomie, zwiększając ryzyko niebezpiecznych błędów w diagnozie, a testy wskazują, że często nie radzą sobie z podstawowym rozumowaniem przestrzennym w badaniach medycznych – gadając, gdzie powinny się znajdować narządy, zamiast rzeczywistego oglądania obrazu. Może to być interesujące, że badania dowodzą, iż te modele mogą nie czytać Twoich przesłanych plików PDF ani nie oglądać Twoich obrazów w ogóle.
Ktoś, kto regularnie przesyła dane, takie jak zawartość plików PDF, do wiodącego modelu językowego, jak ChatGPT, wie, że LLM nie zawsze koniecznie czytają lub badają to, co im się przedstawia; raczej, bardzo często robią założenia o materiale, opierając się na tym, co napisano o nim w prompcie podczas przesyłania.

Może być trudno przekonać model językowy, aby przyznał, że jego odpowiedź pochodziła z wcześniej nabytej wiedzy, metadanych lub ogólnych założeń, a nie z zawartości, którą mu się przedstawiło. Źródło: https://chatgpt.com
Jednym z powodów może być zwiększenie szybkości odpowiedzi poprzez uznanie przesłanego materiału za “nadmierne” i poleganie na tekście-prompt, aby skorzystać z wcześniej nabytej wiedzy systemu – unikając przesyłania w ogóle i w ten sposób minimalizując ruch sieciowy.
Innym powodem może być oszczędność zasobów (chociaż dostawcy wydają się mało prawdopodobni, aby ujawnić to, jeśli jest to prawda), gdzie istniejące metadane, które LLM wyodrębnił z poprzednich wymian w czacie, są używane jako podstawa do dalszych odpowiedzi, nawet wtedy, gdy te wymiany i metadane nie zawierają wystarczającej ilości informacji, aby służyć temu celowi.
Lewa. Prawa?
Niezależnie od powodu zmiennej uwagi i zdolności koncentracji bieżącej generacji LLM, istnieją sytuacje i konteksty, w których zgadywanie jest niezwykle niebezpieczne. Jednym z nich jest, gdy AI jest proszony o świadczenie usług medycznych, takich jak przesiewowe badania lub szacowanie ryzyka materiału radiologicznego.
W tym tygodniu naukowcy z Niemiec i USA opublikowali nowe badanie, które bada skuteczność czterech wiodących modeli językowo-wizualnych, w tym ChatGPT-4o, gdy zostaną poproszone o identyfikację położenia narządów w badaniach medycznych.
Zaskakująco, pomimo reprezentowania stanu sztuki w tym zakresie, podstawowe modele osiągają nie wyższą szybkość powodzenia niż czysty przypadek większości czasu – zdaje się, że nie są w stanie oddzielić swojej wiedzy o ludzkiej anatomii i spojrzeć na obraz, który im się przedstawia, zamiast sięgać po łatwą wiedzę wcześniej nabytą z danych szkoleniowych.
Naukowcy odkryli, że LLM testowane radziły sobie znacznie lepiej, gdy sekcje, które miały być brane pod uwagę, były oznaczone innymi wskaźnikami (takimi jak kropki i alfanumeryczne wskaźniki sekwencyjne) oraz nazwane – i najlepiej, gdy nie było żadnej wzmianki o narządach lub anatomii w zapytaniu w ogóle:

Różne poziomy sukcesu, zwiększające się wraz z tym, jak model jest zmuszony skoncentrować się na danych przed nim. Źródło: https://wolfda95.github.io/your_other_left/
Artykuł obserwuje*:
‘Modele językowo-wizualne posiadają silną wiedzę anatomiczną wbudowaną w swoje składniki językowe. Innymi słowy, “wiedzą”, gdzie struktury anatomiczne są zwykle umiejscowione w standardowej anatomii ludzkiej.
‘Przypuszczamy, że VLM często opierają swoje odpowiedzi na tej wiedzy wcześniej nabytej, zamiast analizować rzeczywistą zawartość obrazu. Na przykład, gdy zostaną poproszone, czy wątroba jest po prawej stronie żołądka, model może odpowiedzieć twierdząco, nie oglądając obrazu, polegając wyłącznie na nauce, że wątroba jest zwykle umiejscowiona po prawej stronie żołądka.
‘Taka zachowanie mogłoby prowadzić do krytycznych błędów w diagnozie w przypadkach, w których rzeczywiste położenia odbiegają od typowych wzorców anatomicznych, takich jak w situs inversus, zmiany pooperacyjne lub przesunięcie guza.’
Aby złagodzić problem w przyszłych wysiłkach, autorzy opracowali zestaw danych zaprojektowany w celu rozwiązania tego problemu.
Wyniki artykułu mogą być zaskakujące dla wielu czytelników, którzy śledzili rozwój sztucznej inteligencji medycznej, ponieważ radiografia była wczesnym wyznaczeniem jako jeden z zawodów najbardziej narażonych na automatyzację za pomocą uczenia maszynowego.
Nowa praca nowa praca nosi tytuł Twoja inna lewa! Modele językowo-wizualne nie potrafią określić względnych położeń w obrazach medycznych i pochodzi od siedmiu naukowców z dwóch wydziałów na Uniwersytecie w Ulm i Axiom Bio w USA.
Metoda i dane
Naukowcy postawili sobie za cel odpowiedzieć na cztery problemy: czy wiodące modele językowo-wizualne mogą poprawnie określić względne położenia w obrazach radiologicznych; czy użycie wskaźników wizualnych poprawia ich wyniki w tym zadaniu; czy polegają one bardziej na wiedzy anatomicznej wcześniej nabytej niż na rzeczywistej zawartości obrazu; i jak dobrze radzą sobie z zadaniami względnego położenia, gdy pozbawione są jakiegokolwiek kontekstu medycznego.
W tym celu opracowali zestaw danych Medyczne położenie względne (MIRP).
Chociaż większość istniejących benchmarków pytań wizualnych dla obrazów CT lub MRI obejmuje zadania anatomiczne i lokalizacyjne, te starsze kolekcje pomijają podstawowe wyzwanie określania względnych położeń, pozostawiając wiele zadań, które można rozwiązać za pomocą samej wiedzy medycznej.
MIRP jest zaprojektowany w celu rozwiązania tego problemu, testując pytania o względne położenia między strukturami anatomicznymi, oceniając wpływ wskaźników wizualnych i stosując losowe obroty i odwrócenia, aby zablokować poleganie na nauczonych normach. Zestaw danych koncentruje się na plasterkach CT jamy brzusznej, ze względu na ich złożoność i powszechność w radiologii.
MIRP zawiera równą liczbę tak i nie odpowiedzi, z opcjonalnymi strukturami anatomicznymi w każdym pytaniu.
Trzy typy wskaźników wizualnych zostały przetestowane: czarne numery w białym polu; czarne litery w białym polu; i czerwona i niebieska kropka:

Różne wskaźniki wizualne użyte w MIRP. Źródło: https://arxiv.org/pdf/2508.00549
Zbiór został pozyskany z istniejących zestawów danych Poza szkieletem czaszkowym (BTCV) i Segmentacja wielu narządów jamy brzusznej (AMOS).

Plasterki z zestawu danych AMOS. Źródło: https://arxiv.org/pdf/2206.08023
Projekt TotalSegmentator został użyty do wyodrębnienia płaskich obrazów anatomicznych z danych wielowymiarowych:

Niektóre z 104 struktur anatomicznych dostępnych w TotalSegmentator. Źródło: https://arxiv.org/pdf/2208.05868
Następnie wyciągnięto plasterki obrazów osiowych za pomocą frameworka SimpleITK.
Lokalizacje “wyzwań” musiały być oddalone o co najmniej 50 pikseli i mieć rozmiar co najmniej dwukrotnie większy niż wskaźniki, aby wygenerować pary pytań i odpowiedzi.
Testy
Cztery modele językowo-wizualne zostały przetestowane: GPT-4o; Llama3.2; Pixtral; i DeepSeek’s JanusPro.
Naukowcy przetestowali każde ze swoich czterech pytań badawczych z kolei, z pierwszym (Q1) ‘Czy obecne topowe VLM mogą dokładnie określić względne położenia w obrazach radiologicznych? Dla tego zapytania naukowcy przetestowali modele na zwykłych, obróconych lub odwróconych plasterkach CT, używając standardowego formatu pytań, takiego jak Czy lewa nerka jest poniżej żołądka?.
Wyniki (pokazane poniżej) wykazały, że dokładność jest bliska 50 procentom we wszystkich modelach, co wskazuje na poziom przypadkowy i brak możliwości wiarygodnego określania względnych położeń bez wskaźników wizualnych:

Średnia dokładność we wszystkich eksperymentach przy użyciu oceny opartej na obrazie w benchmarku MIRP (RQ1–RQ3) i zestawie danych ablacjacji (AS).
Aby przetestować, czy wskaźniki wizualne mogą pomóc modelom językowo-wizualnym w określaniu względnych położeń w obrazach radiologicznych, naukowcy powtórzyli eksperymenty, używając plasterków CT z adnotacjami liter, numerów lub czerwonych i niebieskich kropek; i tutaj format pytań został dostosowany do odniesienia tych wskaźników – na przykład Czy lewa nerka (A) jest poniżej żołądka (B)? lub Czy lewa nerka (czerwona) jest poniżej żołądka (niebieska)?.
Wyniki wykazały niewielkie zyski dokładności dla GPT-4o i Pixtral, gdy używano wskaźników liter lub numerów, podczas gdy JanusPro i Llama3.2 nie zauważyły znaczących korzyści, co sugeruje, że same wskaźniki mogą nie być wystarczające, aby znacznie poprawić wyniki.

Dokładność we wszystkich eksperymentach przy użyciu oceny opartej na obrazie. Dla RQ2, RQ3 i AS, wyniki są pokazane z najlepszym typem wskaźnika dla każdego modelu: litery dla GPT-4o i czerwono-niebieskie kropki dla Pixtral, JanusPro i Llama3.4.
Aby rozwiązać trzecie pytanie, Czy VLM priorytetowo traktują wiedzę anatomiczną wcześniej nabytą nad dane wizualne przy określaniu względnych położeń w obrazach radiologicznych?, autorzy zbadali, czy modele językowo-wizualne polegają bardziej na wiedzy anatomicznej wcześniej nabytej niż na dowodach wizualnych przy określaniu względnych położeń w obrazach radiologicznych.
Gdy przetestowano je na obróconych lub odwróconych plasterkach CT, GPT-4o i Pixtral często produkowały odpowiedzi zgodne ze standardowymi położeniami anatomicznymi, zamiast odzwierciedlać to, co było widoczne na obrazie, z GPT-4o osiągając ponad 75 procent dokładności w ocenie anatomicznej, ale tylko na poziomie przypadkowym w ocenie opartej na obrazie.
Usunięcie terminów anatomicznych z podpowiedzi i użycie tylko wskaźników wizualnych zmusiło modele do polegania na zawartości obrazu, prowadząc do znaczących zysków, z GPT-4o przekraczając 85 procent dokładności z wskaźnikami literowymi i Pixtral ponad 75 procent z kropkami.

Porównanie czterech modeli językowo-wizualnych w określaniu względnych położeń struktur anatomicznych w obrazach medycznych – kluczowy wymóg dla użycia klinicznego. Wyniki są pokazane przy użyciu najlepszych wskaźników dla każdego modelu.
To sugeruje, że chociaż oba mogą wykonywać to zadanie przy użyciu danych obrazu, tendencja do polegania na nauczonych priorytetach anatomicznych, gdy podano nazwy anatomiczne, nie jest wyraźnie obserwowana w JanusPro lub Llama3.2.
Chociaż zwykle nie pokrywamy badań ablacjacji, autorzy rozwiązali czwarte i ostatnie pytanie badawcze w ten sposób. Dlatego, aby przetestować umiejętność określania względnych położeń bez jakiegokolwiek kontekstu medycznego, badanie użyło zwykłych białych obrazów z losowo umieszczonymi wskaźnikami i zadawało proste pytania, takie jak Czy numer 1 jest powyżej numeru 2?. Pixtral pokazał poprawione wyniki z wskaźnikami kropkowymi, podczas gdy pozostałe modele osiągały wyniki podobne do ich wyników w RQ3.
JanusPro, a szczególnie Llama3.2, miał trudności nawet w tym uproszczonym ustawieniu, co wskazuje na podstawowe słabości w określaniu względnych położeń, które nie są ograniczone do obrazów medycznych.
Autorzy obserwują, że GPT-4o radził sobie najlepiej z wskaźnikami literowymi, podczas gdy Pixtral, JanusPro i Llama3.2 osiągały lepsze wyniki z czerwono-niebieskimi kropkami. GPT-4o był najlepszym wykonawcą, z Pixtral prowadzącym wśród modeli open-source.
Wnioski
Z osobistej perspektywy, ten artykuł zainteresował mnie nie tyle ze względu na jego znaczenie medyczne, ale dlatego, że podkreśla jeden z najmniej zgłaszanych i podstawowych braków bieżącej fali modeli językowych – że, jeśli zadanie może być uniknięte, i chyba, że przedstawisz swój materiał starannie, nie przeczytają tekstów, które przesyłasz, ani nie będą oglądać obrazów, które im się przedstawiasz.
Ponadto, badanie wskazuje, że jeśli Twoja podpowiedź w jakikolwiek sposób wyjaśnia, co to jest za materiał, LLM będzie skłonny traktować go jako “teleologiczny” przykład i będzie zakładał/założy wiele rzeczy na jego temat na podstawie wiedzy wcześniej nabytej, zamiast studiować i brać pod uwagę to, co przesłałeś.
Skutecznie, w tym stanie, VLM będą miały ogromne trudności z identyfikacją “odstających” materiałów – jednej z najważniejszych umiejętności w medycynie diagnostycznej. Chociaż jest możliwe, aby odwrócić logikę i mieć system, który szuka odchyłek zamiast wyników wewnątrz dystrybucji, model wymagałby wyjątkowej kuracji, aby uniknąć przytłoczenia sygnału nieistotnymi lub fałszywymi przykładami.
* Cytaty w tekście pominięte, ponieważ nie ma eleganckiego sposobu, aby je uwzględnić jako łącza. Proszę odnieść się do oryginalnego artykułu.
Pierwotnie opublikowane w poniedziałek, 4 sierpnia 2025












