Andersons vinkel
AI Struggles to Tell Left From Right in Medical Scans

En ny studie viser at AI-bilde-modeller som ChatGPT kan misforstå flippede eller roterte anatomiske strukturer, og øke risikoen for farlige feil i diagnose, med tester som indikerer at de ofte mislykkes i grunnleggende romlige resonnering i medisinske bilder – gjettning hvor organene burde være, i stedet for å faktisk se på bildet. Kanskje av større interesse, viser forskningen at disse modellene kanskje ikke leser dine lastede PDF-er eller ser på dine bilder i det hele tatt.
Den som har lastet opp data, som PDF-innhold, til en ledende språkmodell som ChatGPT, vil vite at LLM-er ikke alltid nødvendigvis leser eller undersøker hva du presenterer for dem; i stedet gjør de ofte antagelser om materialet, basert på hva du skrev om det i din prompt når du lastet det opp.

Det kan være vanskelig å overtale en språkmodell til å innrømme at svaret ble trukket fra tidligere kunnskap, metadata eller generelle antagelser, i stedet for fra innholdet det ble gitt. Source: https://chatgpt.com
En mulig årsak til dette er å øke hastigheten på svaret ved å vurdere det lastede materialet som ‘overflødig’, og å stole på tekst-prompten for å trekke på systemets tidligere kunnskap – og unngå å laste det hele, og i prosessen minimere nettverks-trafikk.
En annen årsak kan være besparing av ressurser (selv om leverandørene ser ut til å være uvillige til å avsløre dette, hvis det er sant), hvor eksisterende metadata som LLM-en har trukket fra tidligere utvekslinger i chatten, blir brukt som grunnlag for videre svar, selv når disse utvekslingene og metadata ikke inneholder nok informasjon til å kunne brukes til dette formålet.
Venstre. Høyre?
Uansett hva årsaken måtte være for den varierende oppmerksomheten og fokus-evnen til den nåværende generasjonen av LLM-er, finnes det situasjoner og sammenhenger hvor gjettning er ekstremt farlig. En av disse er når AI-en i Frage blir bedt om å yte medisinske tjenester som skjerming eller risikovurdering av radiologisk materiale.
Denne uken ga forskere fra Tyskland og USA ut en ny forskningsstudie som undersøker effikasiteten til fire ledende visuell-språk-modeller, inkludert ChatGPT-4o, når de blir bedt om å identifisere plasseringen av organer i medisinske bilder.
Overraskende nok, til tross for å representere den siste utviklingen på dette området, oppnår basis-modellene ikke høyere suksessrate enn ren tilfeldighet de fleste gangene – tilsynelatende fordi de ikke kan skille sin trente kunnskap om menneskelig anatomi tilstrekkelig, og faktisk se på bildene som presenteres for dem, i stedet for å nå etter en enkel trent prior fra deres treningsdata.
Forskerne fant at LLM-ene som ble testet, fungerte betydelig bedre når seksjonene som skulle vurderes, ble markert med andre indikatorer (så som punkter og alfanumeriske sekvensindikatorer) samt navngitt – og best av alt når det ikke var noen omtale av organer eller anatomi i spørsmålet i det hele tatt:

Varierende suksessnivå, økende som modellens evne til å benytte seg av trent data blir redusert, og den blir tvunget til å konsentrere seg om dataene foran den. Source: https://wolfda95.github.io/your_other_left/
Artikkelen observerer*:
‘State-of-the-art VLMs already possess strong prior anatomical knowledge embedded within their language components. With other words, they “know” where anatomical structures are typically located in standard human anatomy.
‘We hypothesize that VLMs often base their answers on this prior knowledge rather than analyzing the actual image content. For example, when asked whether the liver is to the right of the stomach, a model might answer affirmatively without inspecting the image, relying solely on the learned norm that the liver is usually located to the right of the stomach.
‘Such behavior could lead to critical misdiagnoses in cases where the actual positions deviate from typical anatomical patterns, such as in situs inversus, post-surgical alterations, or tumor displacement.’
For å mildne problemet i fremtidige forsøk, har forfatterne utviklet en datasett som er designet for å møte dette problemet.
Artikkelen kan være overraskende for mange lesere som har fulgt utviklingen av medisinsk AI, ettersom radiografi ble tidlig merket som en av jobbene som er mest utsatt for å bli automatisert gjennom maskinlæring.
Den nye studien heter Your other Left! Vision-Language Models Fail to Identify Relative Positions in Medical Images, og kommer fra syv forskere på to fakulteter ved Universitetet i Ulm, og Axiom Bio i USA.
Metode og Data
Forskerne ønsket å svare på fire spørsmål: om state-of-the-art visuell-språk-modeller kan korrekt bestemme relative posisjoner i radiologiske bilder; om bruk av visuelle markører kan forbedre deres ytelse i denne oppgaven; om de avhenger mer av tidligere anatomi-kunnskap enn av den faktiske bilde-innholdet; og hvordan godt de håndterer relative posisjoningsoppgaver når de fratas all medisinsk kontekst.
For å nå dette, kuraterte de Medical Imaging Relative Positioning (MIRP) datasett.
Til tross for at de fleste eksisterende visuelle-spørsmål-benchmark for CT eller MRI-slices inkluderer anatomi- og lokaliseringsoppgaver, overseer disse eldre samlingene den sentrale utfordringen med å bestemme relative posisjoner, og lar mange oppgaver bli løst ved hjelp av tidligere medisinsk kunnskap alene.
MIRP er designet for å møte dette ved å teste relative posisjons-spørsmål mellom anatomi-strukturer, og vurderer effekten av visuelle markører, og anvender tilfeldige rotasjoner og flips for å blokkere avhengighet av lært normer. Datasettet fokuserer på abdominale CT-slices, på grunn av deres kompleksitet og utbredelse i radiologi.
MIRP inneholder en lik mengde ja og nei svar, med anatomi-strukturer i hvert spørsmål valgfritt merket for å lette forståelsen.
Tre typer visuelle markører ble testet: sorte numre i en hvit boks; sorte bokstaver i en hvit boks; og en rød og en blå punkt:

De ulike visuelle markørene som ble brukt i MIRP. Source: https://arxiv.org/pdf/2508.00549
Samlingen ble hentet fra de eksisterende Beyond the Cranial Vault (BTCV) og Abdominal Multi-Organ Segmentation (AMOS) datasettene.

Annoterte slices fra AMOS-datasett. Source: https://arxiv.org/pdf/2206.08023
TotalSegmentator-prosjektet ble brukt til å trekke ut anatomi-flate bilder fra volumetrisk data:

Noen av de 104 anatomi-strukturer som er tilgjengelige i TotalSegmentator. Source: https://arxiv.org/pdf/2208.05868
Axiale bilde-slices ble deretter oppnådd med SimpleITK-rammeverket.
‘Ufordring’-bildesteder måtte være minst 50px fra hverandre, og ha en størrelse som var minst dobbelt så stor som markørene, for å kunne generere spørsmål/svar-par.
Tester
De fire visuell-språk-modellene som ble testet, var GPT-4o; Llama3.2; Pixtral; og DeepSeek’s JanusPro.
Forskerne testet hver av sine fire forsknings-spørsmål på rad, med det første (Q1) som var ‘Kan nåværende top-tier VLM-er korrekt bestemme relative posisjoner i radiologiske bilder? ‘ For dette spørsmålet, testet forskerne modellene på vanlige, roterte eller flippede CT-slices, ved hjelp av en standard spørsmål-format, som Er venstre nyre under magen?.
Resultatene (som vises nedenfor) viste nøyaktigheter nær 50 prosent over alle modeller, og indikerte at de ikke kunne pålitelig dømme relative posisjoner uten visuelle markører:

Gjennomsnittlig nøyaktighet for alle eksperimenter som bruker bilde-basert evaluering på MIRP-benchmark (RQ1–RQ3) og ablasjons-datasett (AS).
For å teste om visuelle markører kunne hjelpe visuell-språk-modeller til å bestemme relative posisjoner i radiologiske bilder, gjentok studien eksperimentene ved å bruke CT-slices annotert med bokstaver, numre eller røde og blå punkt; og her, ble spørsmål-formatet justert for å referere til disse markørene – for eksempel, Er venstre nyre (A) under magen (B)? eller Er venstre nyre (rød) under magen (blå)?.
Resultatene viste små nøyaktighets-gevinster for GPT-4o og Pixtral når bokstav- eller nummer-markører ble brukt, mens JanusPro og Llama3.2 så lite eller ingen forbedring, og indikerte at markører alene kanskje ikke er nok til å betydelig forbedre ytelsen.

Nøyaktighet for alle eksperimenter som bruker bilde-basert evaluering. For RQ2, RQ3, og AS, vises resultater med den beste markør-typen for hver modell: bokstaver for GPT-4o, og rød-blå punkt for Pixtral, JanusPro, og Llama3.4.
For å møte det tredje spørsmålet, Do VLMs prioritize prior anatomical knowledge over visual input when determining relative positions in radiological images?, undersøkte forfatterne om visuell-språk-modeller prioriterer tidligere anatomi-kunnskap over visuell input når de bestemmer relative posisjoner i radiologiske bilder.
Når testet på roterte eller flippede CT-slices, produserte GPT-4o og Pixtral ofte svar som var konsistente med standard anatomi-posisjoner, i stedet for å reflektere hva som var vist i bildet, med GPT-4o som oppnådde over 75 prosent nøyaktighet på anatomi-basert evaluering, men bare tilfeldig nivå på bilde-basert evaluering.
Fjerning av anatomi-termer fra promptene og bruk av bare visuelle markører, tvang modellene til å avhenge av bilde-innholdet, og ledet til merkede gevinster, med GPT-4o som oversteg 85 prosent nøyaktighet med bokstav-markører, og Pixtral over 75 prosent med punkt.

En sammenligning av de fire visuell-språk-modellene i å bestemme relative posisjoner av anatomi-strukturer i medisinske bilder – en nøkkel-krav for klinisk bruk. Ytelsen er på tilfeldig nivå med vanlige bilder (RQ1) og viser bare små gevinster med visuelle markører (RQ2). Når anatomi-navn er fjernet og modellene må avhenge helt av markørene, oppnår GPT-4o og Pixtral betydelige nøyaktighets-forbedringer (RQ3). Resultater vises med hver modells beste markør-type.
Dette indikerer at mens begge kan utføre oppgaven ved hjelp av bilde-data, tenderer de til å gå tilbake til lært anatomi-priorer når de får anatomi-navn – en mønster som ikke er tydelig observert i JanusPro eller Llama3.2.
Selv om vi vanligvis ikke dekker ablasjons-studier, møtte forfatterne det fjerde og siste forsknings-spørsmålet på denne måten. Derfor, for å teste relative posisjonings-evnen uten noen medisinsk kontekst, brukte studien vanlige hvite bilder med tilfeldig plasserte markører og stillede enkle spørsmål som Er nummer 1 over nummer 2?. Pixtral viste forbedrede resultater med punkt-markører, mens de andre modellene fungerte lignende som deres RQ3-poeng.
JanusPro, og spesielt Llama3.2, hadde vanskeligheter selv i denne forenklet settingen, og indikerte underliggende svakheter i relative posisjonering som ikke er begrenset til medisinske bilder.
Forfatterne observerer at GPT-4o fungerte best med bokstav-markører, mens Pixtral, JanusPro, og Llama3.2 oppnådde høyere poeng med rød-blå punkt. GPT-4o var den overordnede beste utføreren, med Pixtral som ledet blant åpne kilde-modeller.
Konklusjon
På en personlig note, trakk denne artikkelen min interesse ikke så mye for dens medisinske betydning, men fordi den understreker en av de mest under-rapporterte og grunnleggende svakhetene til den nåværende bølgen av SOTA LLM-er – at, hvis oppgaven kan unngås, og medmindre du presenterer ditt materiale omsorgsfullt, vil de ikke lese tekstene du laster opp eller undersøke bildene du presenterer for dem.
Videre indikerer studien at hvis din tekst-prompt på noen måte forklarer hva det sekundære lastede materialet er, vil LLM-en tendere til å behandle det som et ‘teleologisk’ eksempel, og vil anta/antakke mange ting om det basert på tidligere kunnskap, i stedet for å studere og vurdere hva du lastet opp.
Effektivt, på dette stadium, vil VLM-er ha store vanskeligheter med å identifisere ‘avvikende’ materiale – en av de mest essensielle ferdighetene i diagnostisk medisin. Mens det er mulig å reversere logikken og få en modell til å se etter outlier i stedet for in-distribution resultater, ville modellen trenge unik kurasjon for å unngå å overvelde signalen med irrelevante eller spuriøse eksempler.
* Inline-citeringer er utelatt, da det ikke finnes noen elegant måte å inkludere dem som lenker. Vennligst se kilde-artikkelen.
Først publisert mandag, 4. august 2025












