Connect with us

L’IA fatica a distinguere sinistra da destra nelle scansioni mediche

Angolo di Anderson

L’IA fatica a distinguere sinistra da destra nelle scansioni mediche

mm
A robot doctor confused by an x-ray of a hand – ChatGPT-40 and Firefly (Oct 2024).

Uno studio recente scopre che i modelli di immagine dell’IA come ChatGPT possono malinterpretare l’anatomia capovolta o ruotata, aumentando il rischio di errori pericolosi nella diagnosi, con test che indicano che spesso falliscono nella ragione spaziale di base nelle scansioni mediche – indovinando dove dovrebbero essere gli organi, piuttosto che guardare effettivamente l’immagine. Forse di interesse più ampio, la ricerca dimostra che questi modelli potrebbero non leggere i tuoi PDF caricati o guardare le tue immagini affatto.

 

Chiunque abbia mai caricato regolarmente dati, come contenuti PDF, in un modello linguistico leader come ChatGPT sa che i LLM non leggono sempre necessariamente o esaminano ciò che gli presenti; piuttosto, fanno spesso ipotesi sul materiale, basate su ciò che hai scritto al riguardo nel prompt quando lo hai caricato.

È possibile che sia difficile persino far ammettere a un modello linguistico che non ha esaminato effettivamente il contenuto che gli hai presentato, ma ha basato la sua risposta sulla conoscenza precedente, sui metadati o su presunzioni generali. Source: https://chatgpt.com

È difficile convincere un modello linguistico ad ammettere che la sua risposta è stata tratta dalla conoscenza precedente, dai metadati o da presunzioni generali piuttosto che dal contenuto che gli è stato fornito. Source: https://chatgpt.com

Una possibile ragione per questo è aumentare la velocità della risposta considerando il materiale caricato ‘ridondante’ e facendo affidamento sul testo-prompt per attingere alla conoscenza precedente del sistema – evitando completamente il caricamento e minimizzando così il traffico di rete.

Un’altra ragione è la conservazione delle risorse (anche se i fornitori sembrano improbabili da divulgare, se vero), dove i metadati esistenti che il LLM ha estratto da scambi precedenti nella chat vengono utilizzati come base per ulteriori risposte, anche quando questi scambi e quei metadati non contengono abbastanza informazioni per servire a questo scopo.

Sinistra. Destra?

Qualunque sia la ragione per l’attenzione variabile e le capacità di focalizzazione dell’attuale generazione di LLM, ci sono situazioni e contesti in cui l’indovinare è estremamente pericoloso. Uno di questi è quando l’IA in questione viene chiesta di fornire servizi medici come lo screening o la stima del rischio di materiale radiologico.

Questo settimana, ricercatori della Germania e degli Stati Uniti hanno pubblicato uno studio di ricerca che esamina l’efficacia di quattro modelli linguistici-visivi di punta, tra cui ChatGPT-4o, quando richiesti di identificare la posizione degli organi nelle scansioni mediche.

Sorprendentemente, nonostante rappresentino lo stato dell’arte in questo senso, i modelli di base raggiungono un tasso di successo non superiore a quello del puro caso la maggior parte del tempo – apparentemente perché non riescono a staccare la loro conoscenza addestrata dell’anatomia umana in modo adeguato e a guardare effettivamente le immagini presentate loro, invece di ricorrere a un facile addestramento prior dai loro dati di addestramento.

I ricercatori hanno scoperto che i LLM testati hanno ottenuto risultati significativamente migliori quando le sezioni da considerare erano indicate da altri indicatori (come punti e indicatori di sequenza alfanumerica) e anche nominati – e meglio di tutti quando non c’era menzione di organi o anatomia nella query:

Livelli di successo variabili, che aumentano man mano che la capacità del modello di ricorrere ai dati di addestramento viene ridotta e viene costretto a concentrarsi sui dati presenti.

Livelli di successo variabili, che aumentano man mano che la capacità del modello di ricorrere ai dati di addestramento viene ridotta e viene costretto a concentrarsi sui dati presenti. Source: https://wolfda95.github.io/your_other_left/

Il documento osserva*:

‘I VLM di stato dell’arte possiedono già una forte conoscenza anatomica precedente incorporata nei loro componenti linguistici. In altre parole, “sanno” dove sono normalmente posizionati le strutture anatomiche nella normale anatomia umana.

‘Ipotizziamo che i VLM si basino spesso sulle loro risposte su questa conoscenza precedente piuttosto che analizzare il contenuto effettivo dell’immagine. Ad esempio, quando viene chiesto se il fegato è a destra dello stomaco, un modello potrebbe rispondere affermativamente senza ispezionare l’immagine, facendo affidamento solo sulla norma appresa che il fegato è normalmente posizionato a destra dello stomaco.

‘Un tale comportamento potrebbe portare a diagnosi critiche in casi in cui le posizioni effettive deviano dai modelli anatomici tipici, come nel situs inversus, alterazioni post-chirurgiche o spostamento di tumori.’

Per mitigare il problema in future iniziative, gli autori hanno sviluppato un set di dati progettato per affrontare questo problema.

Le scoperte del documento potrebbero sorprendere molti lettori che hanno seguito lo sviluppo dell’IA medica, poiché la radiografia era indicata molto presto come uno dei lavori più a rischio di essere automatizzato attraverso l’apprendimento automatico.

Il nuovo lavoro si intitola Il tuo altro sinistra! I modelli linguistici-visivi falliscono nell’identificare le posizioni relative nelle immagini mediche, e proviene da sette ricercatori di due facoltà dell’Università di Ulm e Axiom Bio negli Stati Uniti.

Metodo e dati

I ricercatori hanno cercato di rispondere a quattro questioni: se i modelli linguistici-visivi di stato dell’arte possono determinare correttamente le posizioni relative nelle immagini radiologiche; se l’uso di marcatori visivi migliora la loro prestazione in questo compito; se si affidano più alla conoscenza anatomica precedente che al contenuto effettivo dell’immagine; e come gestiscono i compiti di posizionamento relativo quando privati di qualsiasi contesto medico.

Per far ciò, hanno curato il set di dati Medical Imaging Relative Positioning (MIRP).

Sebbene la maggior parte dei benchmark di risposta alle domande visive esistenti per fette di CT o MRI includa compiti di anatomia e localizzazione, queste raccolte più vecchie trascurano la sfida fondamentale di determinare posizioni relative, lasciando molti compiti risolvibili utilizzando solo la conoscenza medica precedente.

MIRP è progettato per affrontare questo problema, testando domande di posizione relativa tra strutture anatomiche, valutando l’impatto dei marcatori visivi e applicando rotazioni e capovolgimenti casuali per bloccare l’affidamento su norme apprese. Il set di dati si concentra su fette di CT addominali, a causa della loro complessità e diffusione nella radiologia.

MIRP contiene un numero uguale di risposte e no, con le strutture anatomiche in ogni domanda opzionalmente segnalate per chiarezza.

Sono stati testati tre tipi di marcatori visivi: numeri neri in una scatola bianca; lettere nere in una scatola bianca; e un punto rosso e un punto blu:

I vari marcatori visivi utilizzati in MIRP. Source: https://arxiv.org/pdf/2508.00549

I vari marcatori visivi utilizzati in MIRP. Source: https://arxiv.org/pdf/2508.00549

La raccolta è stata ottenuta dai set di dati esistenti Beyond the Cranial Vault (BTCV) e Abdominal Multi-Organ Segmentation (AMOS).

Fette annotate del set di dati AMOS. Source: https://arxiv.org/pdf/2206.08023

Fette annotate del set di dati AMOS. Source: https://arxiv.org/pdf/2206.08023

Il progetto TotalSegmentator è stato utilizzato per estrarre immagini anatomiche piatte da dati volumetrici:

Alcune delle 104 strutture anatomiche disponibili in TotalSegmentator. Source: https://arxiv.org/pdf/2208.05868

Alcune delle 104 strutture anatomiche disponibili in TotalSegmentator. Source: https://arxiv.org/pdf/2208.05868

Sono state quindi ottenute fette di immagine assiali con il framework SimpleITK.

Le posizioni delle ‘sfide’ delle immagini dovevano essere almeno 50px lontane e avere una dimensione almeno doppia rispetto ai marcatori, al fine di generare coppie di domande e risposte.

Test

I quattro modelli linguistici-visivi testati sono stati GPT-4o; Llama3.2; Pixtral; e DeepSeek’s JanusPro.

I ricercatori hanno testato ciascuna delle loro quattro domande di ricerca a turno, con la prima (Q1) essendo ‘I VLM di stato dell’arte possono determinare correttamente le posizioni relative nelle immagini radiologiche? Per questa indagine, i ricercatori hanno testato i modelli su fette di CT piatte, ruotate o capovolte utilizzando un formato di domanda standard, come Il rene sinistro è sotto lo stomaco?.

I risultati (mostrati di seguito) hanno mostrato accuratezze vicine al 50 percento in tutti i modelli, indicando una prestazione al livello del caso, e un’incapacità di giudicare in modo affidabile le posizioni relative senza marcatori visivi:

Accuratezza media per tutti gli esperimenti utilizzando la valutazione basata sull'immagine sul benchmark MIRP (RQ1–RQ3) e il set di dati di ablazione (AS).

Accuratezza media per tutti gli esperimenti utilizzando la valutazione basata sull’immagine sul benchmark MIRP (RQ1–RQ3) e il set di dati di ablazione (AS).

Per testare se i marcatori visivi possono aiutare i modelli linguistici-visivi a determinare le posizioni relative nelle immagini radiologiche, lo studio ha ripetuto gli esperimenti utilizzando fette di CT annotate con lettere, numeri o punti rossi e blu; e qui, il formato della domanda è stato adattato per fare riferimento a questi marcatori – ad esempio, Il rene sinistro (A) è sotto lo stomaco (B)? o Il rene sinistro (rosso) è sotto lo stomaco (blu)?.

I risultati hanno mostrato piccoli guadagni di accuratezza per GPT-4o e Pixtral quando sono stati utilizzati marcatori di lettere o numeri, mentre JanusPro e Llama3.2 hanno visto poco o nessun beneficio, suggerendo che i marcatori da soli potrebbero non essere sufficienti per migliorare significativamente la prestazione.

Accuratezza per tutti gli esperimenti utilizzando la valutazione basata sull'immagine. Per RQ2, RQ3 e AS, i risultati sono mostrati con il miglior tipo di marcatore per ogni modello: lettere per GPT-4o e punti rossi-blui per Pixtral, JanusPro e Llama3.4.

Accuratezza per tutti gli esperimenti utilizzando la valutazione basata sull’immagine. Per RQ2, RQ3 e AS, i risultati sono mostrati con il miglior tipo di marcatore per ogni modello: lettere per GPT-4o e punti rossi-blui per Pixtral, JanusPro e Llama3.4.

Per affrontare la terza domanda, I VLM si affidano più alla conoscenza anatomica precedente che al contenuto visivo quando determinano le posizioni relative nelle immagini radiologiche?, gli autori hanno esaminato se i modelli linguistici-visivi si affidano più alla conoscenza anatomica precedente che al contenuto visivo quando determinano le posizioni relative nelle immagini radiologiche.

Quando testati su fette di CT ruotate o capovolte, GPT-4o e Pixtral hanno spesso prodotto risposte coerenti con le posizioni anatomiche standard, piuttosto che riflettere ciò che è mostrato nell’immagine, con GPT-4o che ha raggiunto oltre il 75 percento di accuratezza nella valutazione basata sull’anatomia, ma solo una prestazione al livello del caso nella valutazione basata sull’immagine.

Rimuovendo i termini anatomici dai prompt e utilizzando solo marcatori visivi ha costretto i modelli a dipendere dal contenuto dell’immagine, portando a guadagni significativi, con GPT-4o che ha superato l’85 percento di accuratezza con marcatori di lettere e Pixtral oltre il 75 percento con i punti.

Un confronto dei quattro modelli linguistici-visivi nel determinare le posizioni relative delle strutture anatomiche nelle immagini mediche – un requisito fondamentale per l'uso clinico. La prestazione è al livello del caso con immagini piatte (RQ1) e mostra solo piccoli guadagni con marcatori visivi (RQ2). Quando i nomi anatomici vengono rimossi e i modelli devono affidarsi interamente ai marcatori, GPT-4o e Pixtral raggiungono miglioramenti significativi dell'accuratezza (RQ3). I risultati sono mostrati utilizzando il miglior tipo di marcatore per ogni modello.

Un confronto dei quattro modelli linguistici-visivi nel determinare le posizioni relative delle strutture anatomiche nelle immagini mediche – un requisito fondamentale per l’uso clinico. La prestazione è al livello del caso con immagini piatte (RQ1) e mostra solo piccoli guadagni con marcatori visivi (RQ2). Quando i nomi anatomici vengono rimossi e i modelli devono affidarsi interamente ai marcatori, GPT-4o e Pixtral raggiungono miglioramenti significativi dell’accuratezza (RQ3). I risultati sono mostrati utilizzando il miglior tipo di marcatore per ogni modello.

Ciò suggerisce che mentre entrambi possono eseguire il compito utilizzando i dati dell’immagine, tendono a ricorrere ai priors anatomici appresi quando vengono forniti nomi anatomici – un modello non chiaramente osservato in JanusPro o Llama3.2.

Sebbene non copriamo normalmente gli studi di ablazione, gli autori hanno affrontato la quarta e ultima domanda di ricerca in questo modo. Pertanto, per testare la capacità di posizionamento relativo senza alcun contesto medico, lo studio ha utilizzato immagini piatte bianche con marcatori posizionati casualmente e ha posto domande semplici come Il numero 1 è sopra il numero 2?. Pixtral ha mostrato risultati migliorati con marcatori di punti, mentre gli altri modelli hanno eseguito in modo simile ai loro punteggi RQ3.

JanusPro, e in particolare Llama3.2, hanno faticato anche in questo ambiente semplificato, indicando debolezze sottostanti nel posizionamento relativo che non sono limitate alle immagini mediche.

Gli autori osservano che GPT-4o ha eseguito meglio con marcatori di lettere, mentre Pixtral, JanusPro e Llama3.2 hanno ottenuto punteggi più alti con punti rossi-blui. GPT-4o è stato il miglior performer complessivo, con Pixtral in testa tra i modelli open-source.

Conclusione

Sulla base personale, questo documento ha attirato la mia attenzione non tanto per il suo significato medico, ma perché evidenzia una delle carenze più sottovalutate e fondamentali dell’attuale ondata di LLM di stato dell’arte – che, se il compito può essere evitato, e a meno che non si presenti il materiale con cura, non leggeranno i testi che carichi o esamineranno le immagini che presenti.

Inoltre, lo studio indica che se il tuo prompt di testo in qualsiasi modo spiega cosa sia il materiale secondario presentato, il LLM tenderà a trattarlo come un esempio ‘teleologico’ e presumere/assumere molte cose al riguardo sulla base della conoscenza precedente, invece di studiare e considerare cosa hai presentato.

Effettivamente, in questo stato delle cose, i VLM avranno grandi difficoltà nell’identificare il materiale ‘anomalo’ – una delle abilità più essenziali nella medicina diagnostica. Sebbene sia possibile invertire la logica e avere un sistema che cerchi gli outlier invece dei risultati in-distribution, il modello avrebbe bisogno di una cura eccezionale per evitare di sovraccaricare il segnale con esempi irrilevanti o spurii.

 

* Le citazioni in linea sono state omesse, poiché non c’è un modo elegante per includerle come collegamenti ipertestuali. Si prega di fare riferimento al documento originale.

Pubblicato per la prima volta lunedì, 4 agosto 2025

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.