Andersonin kulma
Tekoäly kamppailee kertomaan vasemman ja oikean eron lääketieteellisissä kuvissa

Uusi tutkimus osoittaa, että tekoälykuvamallit, kuten ChatGPT, voivat tulkita väärin käännettyjä tai pyörityjä anatomisia rakenteita, mikä lisää vaarallisten virheiden riskiä diagnosoissa, ja testit osoittavat, että ne usein epäonnistuvat perustason avaintiedustelussa lääketieteellisissä kuvissa – arvaamalla, missä elimet pitäisi olla, sen sijaan, että ne todella katsoisivat kuvaa. Ehkä laajempaa kiinnostusta herättävässä tutkimuksessa todistetaan, että nämä mallit eivät välttämättä lue ladattuja PDF-tiedostoja tai tarkastele kuvia lainkaan.
Kuka tahansa, joka on koskaan säännöllisesti lähettänyt tietoja, kuten PDF-sisältöä, johtavaan kielimalliin, kuten ChatGPT:hen, tietää, että LLM:t eivät aina välttämättä lue tai tarkastele sitä, mitä heille esitetään; sen sijaan he usein tekevät oletuksia materiaalista, perustuen siihen, mitä he kirjoittivat siitä käyttäessään sitä, kun he lähettivät sen.

On vaikea saada kielimalli myöntämään, että sen vastaus perustui aikaisempaan tietoon, metatietoihin tai yleisiin oletuksiin, eikä esitetyn sisällön tarkasteluun. Lähde: https://chatgpt.com
Yksi mahdollinen syy tähän on vastauksen nopeuden lisääminen käsittelemällä lähettämistä materiaaleja “tarpeettomina” ja luottamalla tekstipromptiin, joka perustuu järjestelmän aikaisempaan tietoon – välttämällä latauksen kokonaan ja siten minimoiden verkkoliikennettä.
Toinen syy on resurssien säästö (vaikka palveluntarjoajat näyttävät epätodennäköisiltä, jos se on totta), jossa aiempien vaihtoehtojen metadata, jonka LLM on poistanut chatista, käytetään perustana edelleen vastauksille, vaikka nämä vaihtoehdot ja metadata eivät sisällä tarpeeksi tietoa tähän tarkoitukseen.
Vasen. Oikea?
Riippumatta siitä, mikä on syy nykyisten LLM:ien vaihtelevaan huomioonpanoon ja fokusointikykyyn, on olemassa tilanteita ja konteksteja, joissa arvaaminen on erittäin vaarallista. Yksi näistä on, kun kyseessä on tekoäly, jota pyydetään tarjoamaan lääketieteellisiä palveluita, kuten seulontaa tai radiologisen aineiston riskiarvioita.
Tällä viikolla tutkijat Saksasta ja Yhdysvalloista julkaisivat uuden tutkimuksen, jossa tarkastellaan neljän johtavan visuaalisen kielen mallin, mukaan lukien ChatGPT-4o, kykyä tunnistaa elinten sijainti lääketieteellisissä kuvissa.
Yllättäen, vaikka ne edustavat tietynlaista osaamista, perusmallit saavuttavat vain satunnaisen onnistumisprosentin useimmiten – ilmeisesti, koska ne eivät pysty irrottautumaan koulutetusta tietämyksestään ihmisanatomian osalta ja todella katsomaan esitettyjä kuvia, sen sijaan, että ne turvautuvat helppoon koulutettuun prior -tietoon koulutusaineistostaan.
Tutkijat totesivat, että testatut LLM:t suoriutuivat merkittävästi paremmin, kun jaettiin muiden indikaattoreiden (kuten pisteiden ja alfanumeeristen sekvenssimerkkien) avulla, sekä nimetty – ja parhaillaan, kun mitään elinten tai anatomian mainintaa ei ollut kysymyksessä:

Vaihtelevat onnistumisprosentit, joissa paranevat, kun mallin kyky turvautua koulutettuun tietoon vähenee, ja se joutuu keskittymään esitettyyn tietoon. Lähde: https://wolfda95.github.io/your_other_left/
Tutkimusraportti toteaa*:
‘Nykyiset VLM:t omistavat jo vahvan aikaisemman anatominen tietämyksen kielen komponenteissaan. Toisin sanoen, ne “tietävät”, missä anatominen rakenteet ovat tyypillisesti sijoittuneet standardissa ihmisanatomia.
‘Oletamme, että VLM:t usein perustavat vastauksensa tähän aikaisempaan tietoon, sen sijaan, että ne analysoisivat itse kuvan sisällön. Esimerkiksi, kun kysytään, onko maksa oikealla puolella vatsaa, malli voi vastata myöntävästi ilman, että se tarkastelisi kuvaa, luottaen oppimaansa normiin, jonka mukaan maksa on yleensä sijoittunut vatsan oikealle puolelle.
‘Tällainen käyttäytyminen voi johtaa kriittisiin väärään diagnosointiin tapauksissa, joissa todelliset sijainnit poikkeavat tyypillisistä anatominen malleista, kuten situs inversus, jälkeenkirurgiset muutokset tai kasvaimen siirtäminen.’
Tutkijat ovat kehittäneet tietokannan, joka on suunniteltu ratkaisemaan tämän ongelman.
Tutkimuksen tulokset saattavat olla yllättäviä monille lukijoille, jotka ovat seuranneet lääketieteellisen tekoälyn kehitystä, koska radiografia oli merkittynä hyvin varhain yhdeksi työtehtäväksi, joka on suurimmassa vaarassa automaatioon tekoälyn kautta.
Uusi tutkimus on nimeltään Toinen vasen! Visuaalisen kielen mallit eivät pysty määrittämään suhteellisia sijainteja lääketieteellisissä kuvissa, ja se on peräisin seitsemältä tutkijalta kahdesta tiedekunnasta Ulmin yliopistossa ja Axiom Bio Yhdysvalloissa.
Menetelmä ja data
Tutkijat pyrkivät vastaamaan neljään kysymykseen: voivatko nykyiset visuaaliset kielen mallit määrittää suhteellisia sijainteja radiologisissa kuvissa; parantavatko visuaaliset merkit heidän suorituskykyään tässä tehtävässä; riippuvatko ne enemmän aikaisesta anatominen tietämyksestä kuin itse kuvan sisällöstä; ja miten hyvin he suoriutuvat suhteellisista sijaintitehtävistä, kun niistä poistetaan kaikki lääketieteellinen konteksti.
Tätä varten he kokosivat Lääketieteellinen kuvien suhteellinen sijainti (MIRP) -tietokannan.
Vaikka useimmat olemassa olevat visuaalisen kysymyksen ja vastauksen benchmarkit CT- tai MRI-kuville sisältävät anatominen ja lokalisaatiotehtäviä, nämä vanhemmat kokoelmat jättävät monia tehtäviä, jotka voidaan ratkaista vain lääketieteellisen tietämyksen avulla.
MIRP on suunniteltu ratkaisemaan tämä testaamalla suhteellisia sijaintikysymyksiä anatominen rakenteiden välillä, arvioiden visuaalisten merkkien vaikutusta ja soveltamalla satunnaisia rotaatioita ja käännöksiä oppimien normien estämiseksi. Tietokanta keskittyy vatsan CT-kuviin niiden monimutkaisuuden ja yleisyyden vuoksi radiologiassa.
MIRP sisältää yhdenmukaisen määrän kyllä ja ei -vastauksia, joissa anatominen rakenteet kussakin kysymyksessä on valinnaisesti merkitty selkeyden vuoksi.
Kolmea visuaalista merkintätapaa testattiin: mustat numerot valkoisessa ruudussa; mustat kirjaimet valkoisessa ruudussa; ja punainen ja sininen piste:

MIRP:ssä käytetyt visuaaliset merkit. Lähde: https://arxiv.org/pdf/2508.00549
Kokoelma perustui olemassa oleviin Beyond the Cranial Vault (BTCV) ja Vatsan monen elimen segmentointi (AMOS) -tietokantoihin.

AMOS-tietokannan merkityt leikkeet. Lähde: https://arxiv.org/pdf/2206.08023
TotalSegmentator -projektia käytettiin anatominen tasaisen kuvien poistamiseen tilavuusaineistosta:

Jotkut TotalSegmentatorissa saatavilla olevat 104 anatominen rakennetta. Lähde: https://arxiv.org/pdf/2208.05868
Axiaalinen kuvaleikkaukset saatiin SimpleITK -kehyksellä.
‘Haaste’ -kuvien sijainnit olivat oltava vähintään 50px erillään, ja niiden koko oli oltava vähintään kaksi kertaa merkkien koko, jotta voitiin luoda kysymys-vastaus -parit.
Testit
Neljä visuaalista kielen mallia testattiin: GPT-4o; Llama3.2; Pixtral; ja DeepSeekin JanusPro.
Tutkijat testasivat jokaisen neljästä tutkimuskysymyksestä vuorotellen, joista ensimmäinen (Q1) oli ‘Voivatko nykyiset huipputason VLM:t määrittää suhteellisia sijainteja radiologisissa kuvissa? Tässä kysymyksessä tutkijat testasivat malleja perus-, pyörity- tai käännetyillä CT-kuville käyttäen standardikysymysmuotoa, kuten Onko vasen munuainen vatsan alapuolella?.
Tulokset (näytetty alla) osoittivat, että mallien tarkkuus oli lähellä 50 prosenttia kaikissa malleissa, mikä osoittaa, että ne suoriutuivat vain satunnaisella tasolla ja eivät pystyneet luotettavasti arvioimaan suhteellisia sijainteja ilman visuaalisten merkkien avustusta:

Keskimääräinen tarkkuus kaikissa kokeissa MIRP-benchmarkin (RQ1–RQ3) ja ablaatioaineiston (AS) perusteella.
Kun tutkijat testasivat, voivatko visuaaliset merkit auttaa visuaalisen kielen malleja määrittämään suhteellisia sijainteja radiologisissa kuvissa, he toistivat kokeet käyttäen CT-kuvia, joissa oli kirjaimia, numeroita tai punaisia ja sinisiä pisteitä; ja tässä kysymysmuotoa muutettiin viittaamaan näihin merkkeihin – esimerkiksi Onko vasen munuainen (A) vatsan alapuolella (B)? tai Onko vasen munuainen (punainen) vatsan alapuolella (sininen)?.
Tulokset osoittivat pienet tarkkuuden parannukset GPT-4o:lle ja Pixtral:lle, kun kirjain- tai numeromerkit käytettiin, kun taas JanusPro ja Llama3.2 näkivät vain vähäistä tai ei ollenkaan hyötyä, mikä viittaa siihen, että merkit yksinään eivät välttämättä ole riittäviä parantamaan suorituskykyä merkittävästi.

Tarkkuus kaikissa kokeissa kuvapohjaisen arvioinnin perusteella. RQ2:lle, RQ3:lle ja AS:lle tulokset on esitetty parhaan suorituskyvyn mukaisilla merkeillä kullekin mallille: kirjaimilla GPT-4o:lle ja punaisilla-sinisinä pisteinä Pixtral:lle, JanusPro:lle ja Llama3.4:lle.
Kolmatta kysymystä varten tutkijat tutkivat, priorisoivatko VLM:t aikaisemman anatominen tietämyksen visuaalista syötettä määrittäessään suhteellisia sijainteja radiologisissa kuvissa.
Kun testattiin pyörity- tai käännetyillä CT-kuville, GPT-4o ja Pixtral usein tuottivat vastauksia, jotka olivat yhdenmukaisia standardien anatominen sijaintien kanssa, sen sijaan, että ne heijastivat, mitä kuvassa näkyi, GPT-4o saavutti yli 75 prosentin tarkkuuden anatominen perusteella, mutta vain satunnaisen tasolla kuvan perusteella.
Anatomisten termejen poistaminen kysymyksistä ja käyttäminen vain visuaalisten merkkien avulla pakotti mallit riippumaan kuvan sisällöstä, mikä johti merkittäviin parannuksiin, GPT-4o ylittäen 85 prosentin tarkkuuden kirjaimilla ja Pixtral yli 75 prosentin pisteillä.

Neljän visuaalisen kielen mallin vertailu anatominen rakenteiden suhteellisten sijaintien määrittämisessä lääketieteellisissä kuvissa – avainvaatimus kliinisessä käytössä. Suorituskyky on satunnaisella tasolla peruskuville (RQ1) ja näyttää vain vähäisiä parannuksia visuaalisten merkkien kanssa (RQ2). Kun anatomisten nimet poistetaan ja mallit joutuvat turvautumaan kokonaan merkkeihin, GPT-4o ja Pixtral saavuttavat merkittäviä tarkkuuden parannuksia (RQ3). Tulokset on esitetty kunkin mallin parhaan suorituskyvyn mukaisilla merkeillä.
Tämä viittaa siihen, että vaikka molemmat pystyvät suorittamaan tehtävän käyttäen kuvatietoa, ne taipuvat turvautumaan oppimaansa anatominen prioriteetteihin, kun niille annetaan anatomisten nimet – käyttäytymismalli, jota ei havaittu selvästi JanusPro:ssa tai Llama3.2:ssa.
Vaikka emme yleensä käsittele ablaatiotutkimuksia, tutkijat käsittelevät neljättä ja viimeistä tutkimuskysymystä tässä yhteydessä. Siispä tutkijat testasivat suhteellisen sijaintikykyä ilman lääketieteellistä kontekstia käyttäen perusvalkoisia kuvia, joissa oli satunnaisesti sijoitettuja merkkejä, ja kysymyksiä, kuten Onko numero 1 ylempänä kuin numero 2?. Pixtral osoitti parannettua suorituskykyä pisteillä, kun taas muut mallit suoriutuivat samalla tasolla kuin heidän RQ3-tuloksensa.
JanusPro, erityisesti Llama3.2, kamppaili jopa yksinkertaisessa asetelmassa, mikä osoittaa perustavanlaatuisia heikkouksia suhteellisessa sijainnissa, jotka eivät rajoitu lääketieteellisiin kuviin.
Tutkijat huomauttavat, että GPT-4o suoriutui parhaiten kirjaimilla, kun taas Pixtral, JanusPro ja Llama3.2 saavuttivat korkeammat tulokset punaisilla-sinisinä pisteinä. GPT-4o oli yleisesti ottaen paras suorittaja, Pixtral johti avoimissa mallissa.
Johtopäätös
Henkilökohtaisesti tämä tutkimus herätti mielenkiintoni ei niinkään sen lääketieteellisen merkityksen vuoksi, vaan koska se korostaa yhtä nykyisten SOTA LLM:ien vähäisesti raportoituista ja perustavimmista puutteista – että, jos tehtävä voidaan välttää, ja jos et esitä materiaalia huolellisesti, ne eivät lue tekstiä, jonka lähettäät, eivätkä tarkastele kuvia, jotka esität niille.
Lisäksi tutkimus osoittaa, että jos tekstipromptissasi mainitaan mitään toissijaisesta esitettävistä materiaaleista, LLM taipuu käsittämään sen “teleologiseksi” esimerkiksi, ja olettaa/olettaa monia asioita siitä perustuen aikaisempaan tietoon, sen sijaan, että se tutkisi ja tarkastelisi, mitä olet lähettänyt.
Toisin sanoen, tässä vaiheessa VLM:t ovat vaikeassa asemassa havaitsemassa “poikkeavaa” materiaalia – yksi lääketieteellisen diagnosoinnin tärkeimmistä taidoista. Vaikka on mahdollista kääntää logiikkaa ja saada järjestelmä etsimään poikkeamia sen sijaan, että se etsisi jakautumisen mukaisia tuloksia, malli tarvitsisi poikkeuksellista kuraattorin huolenpitoa välttääkseen signaalin ylittämisen merkityksettömillä tai epäolennaisilla esimerkeillä.
* Sisäiset viittaukset on jätetty pois, koska niiden sisällyttäminen linkkeinä ei ole eleganttia. Viittaukset alkuperäiseen tutkimusraporttiin.
Julkaistu ensimmäisen kerran maanantaina 4. elokuuta 2025












