Connect with us

AI má potíže s rozlišením levé a pravé strany v medicínských snímcích

Andersonův úhel

AI má potíže s rozlišením levé a pravé strany v medicínských snímcích

mm
A robot doctor confused by an x-ray of a hand – ChatGPT-40 and Firefly (Oct 2024).

Nová studie zjistila, že modely obrazových jazyků AI, jako je ChatGPT, mohou špatně interpretovat otočenou nebo otočenou anatomii, a tím zvyšují riziko nebezpečných chyb v diagnostice, s testy ukazujícími, že často selhávají při základních prostorových úsudcích v medicínských snímcích – hadají, kde by měly být orgány, místo aby se skutečně dívaly na obraz, který jim byl předložen. Možná širšího zájmu, výzkum ukazuje, že tyto modely nemusí číst vaše nahrávané PDF soubory nebo se dívat na vaše obrázky vůbec.

 

Kdokoli, kdo pravidelně nahrává data, jako je obsah PDF, do předního jazykového modelu, jako je ChatGPT, ví, že LLMs (velké jazykové modely) ne vždy nutně čtou nebo zkoumají to, co jim předkládáte; spíše často dělají předpoklady o materiálu, na základě toho, co jste o něm napsali v promptu, když jste jej nahráli.

Může být obtížné dostat jazykový model, aby přiznal, že skutečně nezkoumal obsah, který jste mu předložili, ale že své odpovědi založil na předchozích znalostech, metadatech nebo obecných předpokladech. Source: https://chatgpt.com

Může být obtížné přesvědčit jazykový model, aby uznal, že jeho odpověď byla odvozena z předchozích znalostí, metadat nebo obecných předpokladů, spíše než z obsahu, který mu byl dán. Source: https://chatgpt.com

Jedním z možných důvodů je zvýšení rychlosti odpovědi tím, že se nahrávaný materiál považuje za “nepotřebný”, a spoléhá se na textový prompt pro využití předchozích znalostí systému – a tím se vyhýbá nahrávání entirely, a minimalizuje tak síťový provoz.

Dalším důvodem je konzervace zdrojů (i když poskytovatelé se zdají nepravděpodobní, že by to uvedli, pokud je to pravda), kde existující metadata, která LLM extrahovala z předchozích výměn v chatu, se použijí jako základ pro další odpovědi, i když tyto výměny a metadata neobsahují dostatek informací pro tento účel.

Levá, pravá?

Jakýkoli důvod pro různou pozornost a schopnost soustředění současné generace LLMs, existují situace a kontexty, ve kterých je hadání extrémně nebezpečné. Jedním z nich je, když se AI žádá o poskytnutí lékařských služeb, jako je screening nebo odhad rizika radiologického materiálu.

Tento týden výzkumníci z Německa a USA vydali novou studii, která zkoumá účinnost čtyř předních modelů vizuálního jazyka, včetně ChatGPT-4o, při identifikaci umístění orgánů v medicínských snímcích.

Překvapivě, navzdory tomu, že reprezentují stav umění v tomto ohledu, základní modely dosahují úspěchu pouze na úrovni náhody většinu času – zřejmě proto, že nejsou schopny dostatečně oddělit své tréninkové znalosti lidské anatomie a skutečně podívat se na předložené obrázky, místo aby se uchýlili k snadnému tréninkovému předchozímu z jejich tréninkových dat.

Výzkumníci zjistili, že testované LLMs dosáhly významně lepších výsledků, když byly sekce, které měly být zváženy, označeny jinými indikátory (jako tečky a alfanumerické sekvence) a pojmenovány – a nejlépe, když nebyla v dotazu zmíněna žádná anatomie nebo orgány:

Různé úrovně úspěchu, zvyšující se, jak se modelova schopnost uchýlit se k tréninkovým datům snižuje, a je nucen soustředit se na data před ním.

Různé úrovně úspěchu, zvyšující se, jak se modelova schopnost uchýlit se k tréninkovým datům snižuje, a je nucen soustředit se na data před ním. Source: https://wolfda95.github.io/your_other_left/

Studie pozoruje*:

‘Stav umění VLMs již obsahuje silné předchozí anatomické znalosti vložené do svých jazykových komponent. Jinými slovy, “vědí”, kde anatomické struktury jsou obvykle umístěny v standardní lidské anatomii.

‘Domníváme se, že VLMs často založily své odpovědi na těchto předchozích znalostech, spíše než na analýze skutečného obrazového obsahu. Například, když se zeptají, zda je játra vpravo od žaludku, model může odpovědět kladně, aniž by prohlédl obraz, a spoléhal se pouze na naučenou normu, že játra jsou obvykle umístěna vpravo od žaludku.

‘Toto chování by mohlo vést k kritickým chybným diagnózám v případech, kdy skutečné pozice odchylují od typických anatomických vzorců, jako je situs inversus, pooperační změny nebo tumorové posunutí.’

Aby se problém zmírnil v budoucích úsilích, autoři vyvinuli dataset navržen pro řešení tohoto problému.

Zjištění studie mohou být překvapující pro mnoho čtenářů, kteří sledovali vývoj lékařské AI, protože radiografie byla časně označena jako jedna z pracovních míst, která je nejvíce ohrožena automatizací prostřednictvím strojového učení.

Nová práce se nazývá Vaše druhá levá! Modely vizuálního jazyka selhávají při identifikaci relativních pozic v medicínských obrazech, a pochází od sedmi výzkumníků z dvou fakult na Univerzitě v Ulmu a Axiom Bio v USA.

Metoda a data

Výzkumníci se pokusili odpovědět na čtyři otázky: zda modely vizuálního jazyka mohou správně určit relativní pozice v radiologických obrazech; zda použití vizuálních markerů zlepšuje jejich výkon v této úloze; zda se spoléhají více na předchozí anatomické znalosti než na skutečný obrazový obsah; a jak zvládají relativní pozicování, když jsou zbaveny jakéhokoli lékařského kontextu.

K tomu vytvořili dataset Medicínské obrazové relativní pozicování (MIRP).

Ačkoli většina existujících vizuálních otázek a odpovědí pro CT nebo MRI řezy zahrnuje anatomické a lokalizační úkoly, tyto starší sbírky přehlížejí základní výzvu při určování relativních pozic, což mnoho úkolů umožňuje řešit pomocí předchozích lékařských znalostí samotných.

MIRP je navržen tak, aby řešil tuto otázku testováním relativních pozic mezi anatomickými strukturami, hodnocení dopadu vizuálních markerů a aplikací náhodných rotací a otočení, aby se zabránilo spoléhání se na naučené normy. Dataset se zaměřuje na abdominální CT řezy, kvůli jejich složitosti a prevalenci v radiologii.

MIRP obsahuje stejný počet ano a ne odpovědí, s anatomickými strukturami v každé otázce volitelně označenými pro jasnost.

Tři typy vizuálních markerů byly testovány: černá čísla v bílém poli; černé písmena v bílém poli; a červená a modrá tečka:

Různé vizuální markery používané v MIRP.

Různé vizuální markery používané v MIRP. Source: https://arxiv.org/pdf/2508.00549

Sbírka byla získána z existujících Peyond the Cranial Vault (BTCV) a Abdominální multiorganová segmentace (AMOS) datasetů.

Označené řezy z datasetu AMOS.

Označené řezy z datasetu AMOS. Source: https://arxiv.org/pdf/2206.08023

Projekt TotalSegmentator byl použit k extrahování anatomických plochých obrazů z objemových dat:

Některé z 104 anatomických struktur dostupných v TotalSegmentatoru.

Některé z 104 anatomických struktur dostupných v TotalSegmentatoru. Source: https://arxiv.org/pdf/2208.05868

Aximální obrazové řezy byly poté získány pomocí frameworku SimpleITK.

‘Výzvou’ umístění obrazů muselo být alespoň 50px daleko, a mít velikost alespoň dvojnásobnou velikost markerů, aby se vygenerovaly otázky a odpovědi.

Testy

Čtyři modely vizuálního jazyka byly testovány: GPT-4o; Llama3.2; Pixtral; a DeepSeek’s JanusPro.

Výzkumníci testovali každou ze svých čtyř výzkumných otázek, s první (Q1) being ‘Můžou současné špičkové VLMs přesně určit relativní pozice v radiologických obrazech? Pro tuto otázku testovali modely na obyčejných, otočených nebo otočených CT řezech pomocí standardního formátu otázky, jako je Je levá ledvina pod žaludkem?.

Výsledky (zobrazené níže) ukázaly přesnost blízko 50 procentu napříč všemi modely, indikující výkon na úrovni náhody, a neschopnost spolehlivě posoudit relativní pozice bez vizuálních markerů:

Průměrná přesnost pro všechny experimenty pomocí obrazové evaluace na MIRP benchmarku (RQ1–RQ3) a ablační dataset (AS).

Průměrná přesnost pro všechny experimenty pomocí obrazové evaluace na MIRP benchmarku (RQ1–RQ3) a ablační dataset (AS).

Aby se otestovalo, zda vizuální markery mohou pomoci modelům vizuálního jazyka určit relativní pozice v radiologických obrazech, studie opakovala experimenty pomocí CT řezů označených písmeny, čísly nebo červenými a modrými tečkami; a zde, formát otázky byl upraven tak, aby odkazoval na tyto markery – například Je levá ledvina (A) pod žaludkem (B)? nebo Je levá ledvina (červená) pod žaludkem (modrá)?.

Výsledky ukázaly malé zlepšení přesnosti pro GPT-4o a Pixtral, když byly použity písmenné nebo číselné markery, zatímco JanusPro a Llama3.2 viděly málo nebo žádné zlepšení, naznačující, že markery samotné nemusí být dostatečné pro významné zlepšení výkonu.

Přesnost pro všechny experimenty pomocí obrazové evaluace. Pro RQ2, RQ3 a AS, výsledky jsou zobrazeny s nejlepšími markerovými typy pro každý model: písmena pro GPT-4o, a červeno-modré tečky pro Pixtral, JanusPro a Llama3.4.

Přesnost pro všechny experimenty pomocí obrazové evaluace. Pro RQ2, RQ3 a AS, výsledky jsou zobrazeny s nejlepšími markerovými typy pro každý model: písmena pro GPT-4o, a červeno-modré tečky pro Pixtral, JanusPro a Llama3.4.

Aby se zodpověděla třetí otázka, Spoléhají se VLMs více na předchozí anatomické znalosti než na vizuální vstup při určování relativních pozic v radiologických obrazech?, autoři zkoumali, zda modely vizuálního jazyka spoléhají více na předchozí anatomické znalosti než na vizuální vstup při určování relativních pozic v radiologických obrazech.

Když byly testovány na otočených nebo otočených CT řezech, GPT-4o a Pixtral často produkovaly odpovědi konzistentní se standardními anatomickými pozicemi, spíše než odrážející to, co bylo zobrazeno na obraze, s GPT-4o dosahujícím přes 75 procentní přesnosti na anatomické evaluaci, ale pouze na úrovni náhody na obrazové evaluaci.

Odstranění anatomických termínů z promptů a použití pouze vizuálních markerů donutilo modely spoléhat se na obrazový obsah, vedoucí k výraznému zlepšení, s GPT-4o přesahujícím 85 procentní přesnost s písmennými markery, a Pixtral přesahujícím 75 procent s tečkami.

Srovnání čtyř modelů vizuálního jazyka při určování relativních pozic anatomických struktur v medicínských obrazech – klíčový požadavek pro klinické použití. Výkon je na úrovni náhody s obyčejnými obrazi (RQ1) a ukazuje pouze malé zlepšení s vizuálními markery (RQ2). Když jsou odstraněny anatomické názvy a modely musí se spoléhat pouze na markery, GPT-4o a Pixtral dosahují podstatného zlepšení přesnosti (RQ3). Výsledky jsou zobrazeny s nejlepšími markerovými typy pro každý model.

Srovnání čtyř modelů vizuálního jazyka při určování relativních pozic anatomických struktur v medicínských obrazech – klíčový požadavek pro klinické použití. Výkon je na úrovni náhody s obyčejnými obrazi (RQ1) a ukazuje pouze malé zlepšení s vizuálními markery (RQ2). Když jsou odstraněny anatomické názvy a modely musí se spoléhat pouze na markery, GPT-4o a Pixtral dosahují podstatného zlepšení přesnosti (RQ3). Výsledky jsou zobrazeny s nejlepšími markerovými typy pro každý model.

To naznačuje, že zatímco oba mohou provádět úkol pomocí obrazových dat, tendují k tomu, aby se uchýlili k naučeným anatomickým prioritám, když jsou jim dány anatomické názvy – vzorec, který není jasně pozorován u JanusPro nebo Llama3.2.

Ačkoli obvykle nepokrýváme ablační studie, autoři se zabývali čtvrtou a poslední výzkumnou otázkou tímto způsobem. Proto, aby se otestovala relativní pozicovací schopnost bez jakéhokoli lékařského kontextu, studie použila obyčejné bílé obrázky s náhodně umístěnými markery a položila jednoduché otázky, jako je Je číslo 1 nad číslem 2?. Pixtral ukázal lepší výsledky s tečkovými markery, zatímco ostatní modely vykazovaly podobné výsledky jako jejich RQ3 skóre.

JanusPro, a zejména Llama3.2, bojovaly i v tomto zjednodušeném nastavení, ukazující základní slabiny v relativním pozicování, které nejsou omezeny na medicínské obrazy.

Autoři pozorují, že GPT-4o vykazoval nejlepší výkon s písmennými markery, zatímco Pixtral, JanusPro a Llama3.2 dosáhly vyšších skóre s červeno-modrými tečkami. GPT-4o byl celkovým nejlepším performerem, s Pixtral vedoucím mezi open-source modely.

Závěr

Osobně mě tato studie zaujala nejen pro její lékařský význam, ale také proto, že poukazuje na jednu z nejvíce podhodnocených a fundamentálních nedostatků současné vlny SOTA LLMs – že, pokud je to možné, a pokud nepředložíte materiál pečlivě, ne přečtou texty, které nahráváte, nebo ne prohlédnou obrázky, které předkládáte.

Studie také naznačuje, že pokud váš textový prompt jakkoli vysvětluje, co je sekundární nahrávaný materiál, LLM se bude spoléhat na předchozí znalosti, místo aby se skutečně díval na to, co jste nahráli.

Efektivně, v tomto stavu, VLMs budou mít velké potíže s identifikací ‘aberrantního’ materiálu – jedné z nejzákladnějších dovedností v diagnostické medicíně. Zatímco je možné obrátit logiku a mít systém, který hledá outliers místo in-distribution výsledků, model by potřeboval výjimečnou kultivaci, aby se zabránilo zahlcení signálu irelevantními nebo falešnými příklady.

 

* Inline citace byly vynechány, protože není žádný elegantní způsob, jak je zahrnout jako hypertextové odkazy. Prosím, odkážete na původní článek.

Poprvé publikováno v pondělí, 4. srpna 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai