Connect with us

Lutas do AI para Distinguir Esquerda de Direita em Exames Médicos

Ângulo de Anderson

Lutas do AI para Distinguir Esquerda de Direita em Exames Médicos

mm
A robot doctor confused by an x-ray of a hand – ChatGPT-40 and Firefly (Oct 2024).

Um novo estudo descobriu que modelos de imagem de IA, como o ChatGPT, podem ler mal a anatomia invertida ou rotacionada, aumentando o risco de erros perigosos no diagnóstico, com testes indicando que eles frequentemente falham no raciocínio espacial básico em exames médicos – adivinhando onde os órgãos devem estar, em vez de realmente olhar para a imagem. Talvez de maior interesse, a pesquisa demonstra que esses modelos podem não estar lendo seus arquivos PDF enviados ou olhando para suas imagens em todos os casos.

 

Qualquer pessoa que já tenha enviado dados regularmente, como conteúdo de PDF, para um modelo de linguagem líder como o ChatGPT, sabe que os LLMs não sempre necessariamente lêem ou examinam o que você apresenta a eles; em vez disso, eles frequentemente fazem suposições sobre o material, com base no que você escreveu sobre ele no prompt quando o enviou.

Pode ser um desafio fazer com que um modelo de linguagem admita que não examinou realmente o conteúdo que você apresentou a ele, mas baseou sua resposta em conhecimento prévio, metadados ou suposições gerais. Fonte: https://chatgpt.com

Pode ser difícil persuadir um modelo de linguagem a admitir que sua resposta foi extraída do conhecimento prévio, metadados ou suposições gerais, em vez de do conteúdo que lhe foi apresentado. Fonte: https://chatgpt.com

Uma possível razão para isso é aumentar a velocidade da resposta, considerando o material enviado como “redundante” e confiando no prompt de texto para utilizar o conhecimento prévio do sistema – evitando o envio completamente e, no processo, minimizando o tráfego de rede.

Outra razão é a conservação de recursos (embora os provedores pareçam improváveis de divulgar isso, se for verdade), onde os metadados existentes que o LLM extraiu de trocas anteriores no chat são usados como base para respostas adicionais, mesmo quando essas trocas e metadados não contêm informações suficientes para atender a esse propósito.

Esquerda. Direita?

Independentemente da razão para a atenção variada e habilidades de foco da geração atual de LLMs, há situações e contextos em que adivinhar é extremamente perigoso. Um deles é quando a IA em questão está sendo solicitada a fornecer serviços médicos, como triagem ou estimativa de risco de material radiológico.

Esta semana, pesquisadores da Alemanha e dos EUA lançaram um novo estudo de pesquisa examinando a eficácia de quatro modelos de linguagem de visão líderes, incluindo o ChatGPT-4o, quando solicitados a identificar a localização de órgãos em exames médicos.

Surpreendentemente, apesar de representar o estado da arte nesse aspecto, os modelos básicos alcançam uma taxa de sucesso não superior à chance mais do que na maioria das vezes – aparentemente porque eles são incapazes de desvincular seu conhecimento treinado de anatomia humana adequadamente e realmente olhar para as imagens apresentadas a eles, em vez de recorrer a um fácil treinado prior de seus dados de treinamento.

Os pesquisadores descobriram que os LLMs testados se saíram significativamente melhor quando as seções a serem consideradas foram denotadas por outros indicadores (como pontos e sequências alfanuméricas) e nomeadas – e melhor de tudo quando nenhuma menção a órgãos ou anatomia foi incluída na consulta:

Níveis de sucesso variados, aumentando à medida que a capacidade do modelo de recorrer a dados treinados é diminuída, e ele é forçado a se concentrar nos dados à sua frente. Fonte: https://wolfda95.github.io/your_other_left/

Níveis de sucesso variados, aumentando à medida que a capacidade do modelo de recorrer a dados treinados é diminuída, e ele é forçado a se concentrar nos dados à sua frente. Fonte: https://wolfda95.github.io/your_other_left/

O artigo observa*:

‘Os VLMs de ponta já possuem conhecimento anatômico forte incorporado em seus componentes de linguagem. Em outras palavras, eles “sabem” onde as estruturas anatômicas estão localizadas em anatomia humana padrão.

‘Nós hipotetizamos que os VLMs frequentemente baseiam suas respostas nesse conhecimento prévio, em vez de analisar o conteúdo real da imagem. Por exemplo, quando solicitados a dizer se o fígado está à direita do estômago, um modelo pode responder afirmativamente sem inspecionar a imagem, confiando apenas no padrão aprendido de que o fígado geralmente está localizado à direita do estômago.

‘Esse comportamento pode levar a diagnósticos críticos em casos em que as posições reais se desviam dos padrões anatômicos típicos, como em situs inversus, alterações pós-cirúrgicas ou deslocamento de tumor.’

Para mitigar o problema em esforços futuros, os autores desenvolveram um conjunto de dados projetado para abordar esse problema.

Os resultados do artigo podem ser surpreendentes para muitos leitores que seguiram o desenvolvimento da IA médica, uma vez que a radiografia foi indicada muito cedo como um dos trabalhos mais propensos a ser automatizados por meio do aprendizado de máquina.

O novo trabalho é chamado de Seu outro esquerdo! Modelos de linguagem de visão falham em identificar posições relativas em imagens médicas, e vem de sete pesquisadores de duas faculdades da Universidade de Ulm e da Axiom Bio nos EUA.

Método e Dados

Os pesquisadores se propuseram a responder a quatro questões: se os modelos de linguagem de visão de ponta podem determinar corretamente as posições relativas em imagens de radiologia; se o uso de marcadores visuais melhora seu desempenho nessa tarefa; se eles confiam mais no conhecimento anatômico prévio do que no conteúdo real da imagem; e como eles lidam com tarefas de posicionamento relativo quando privados de qualquer contexto médico.

Para isso, eles criaram o conjunto de dados Posicionamento Relativo de Imagens Médicas (MIRP).

Embora a maioria dos benchmarks de perguntas visuais existentes para fatias de CT ou MRI inclua tarefas anatômicas e de localização, essas coleções mais antigas ignoram o desafio central de determinar posições relativas, deixando muitas tarefas resolvidas usando apenas conhecimento médico prévio.

O MIRP é projetado para abordar isso, testando questões de posição relativa entre estruturas anatômicas, avaliando o impacto de marcadores visuais e aplicando rotações e inversões aleatórias para bloquear a confiança em normas aprendidas. O conjunto de dados se concentra em fatias de CT abdominais, devido à sua complexidade e prevalência na radiologia.

O MIRP contém um número igual de sim e não respostas, com as estruturas anatômicas em cada pergunta opcionalmente marcadas para clareza.

Três tipos de marcadores visuais foram testados: números pretos em uma caixa branca; letras pretas em uma caixa branca; e um ponto vermelho e um ponto azul:

Os vários marcadores visuais usados no MIRP. Fonte: https://arxiv.org/pdf/2508.00549

Os vários marcadores visuais usados no MIRP. Fonte: https://arxiv.org/pdf/2508.00549

A coleção foi extraída dos conjuntos de dados existentes Além da Caixa Craniana (BTCV) e Segmentação de Múltiplos Órgãos Abdominais (AMOS).

Fatias anotadas do conjunto de dados AMOS. Fonte: https://arxiv.org/pdf/2206.08023

Fatias anotadas do conjunto de dados AMOS. Fonte: https://arxiv.org/pdf/2206.08023

O projeto TotalSegmentator foi usado para extrair imagens anatômicas planas de dados volumétricos:

Algumas das 104 estruturas anatômicas disponíveis no TotalSegmentator. Fonte: https://arxiv.org/pdf/2208.05868

Algumas das 104 estruturas anatômicas disponíveis no TotalSegmentator. Fonte: https://arxiv.org/pdf/2208.05868

Fatias de imagem axiais foram obtidas então com o framework SimpleITK.

As localizações de imagem de “desafio” tinham que estar a pelo menos 50px de distância e ter um tamanho pelo menos duas vezes maior que o dos marcadores, a fim de gerar pares de pergunta e resposta.

Testes

Os quatro modelos de linguagem de visão testados foram GPT-4o; Llama3.2; Pixtral; e o JanusPro da DeepSeek.

Os pesquisadores testaram cada uma de suas quatro questões de pesquisa por vez, com a primeira (Q1) sendo ‘Os VLMs atuais podem determinar corretamente as posições relativas em imagens radiológicas? Para essa investigação, os pesquisadores testaram os modelos em fatias de CT simples, rotacionadas ou invertidas, usando um formato de pergunta padrão, como Está o rim esquerdo abaixo do estômago?.

Os resultados (mostrados abaixo) mostraram precisões próximas a 50 por cento em todos os modelos, indicando desempenho no nível da chance e uma incapacidade de julgar consistentemente as posições relativas sem marcadores visuais:

Precisão média para todos os experimentos usando avaliação baseada em imagem no benchmark MIRP (RQ1–RQ3) e no conjunto de dados de ablação (AS).

Precisão média para todos os experimentos usando avaliação baseada em imagem no benchmark MIRP (RQ1–RQ3) e no conjunto de dados de ablação (AS).

Para testar se os marcadores visuais podem ajudar os modelos de linguagem de visão a determinar as posições relativas em imagens radiológicas, o estudo repetiu os experimentos usando fatias de CT anotadas com letras, números ou pontos vermelhos e azuis; e aqui, o formato da pergunta foi ajustado para referenciar esses marcadores – por exemplo, Está o rim esquerdo (A) abaixo do estômago (B)? ou Está o rim esquerdo (vermelho) abaixo do estômago (azul)?.

Os resultados mostraram pequenos ganhos de precisão para o GPT-4o e o Pixtral quando marcadores de letra ou número foram usados, enquanto o JanusPro e o Llama3.2 viram pouco ou nenhum benefício, sugerindo que os marcadores sozinhos podem não ser suficientes para melhorar significativamente o desempenho.

Precisão para todos os experimentos usando avaliação baseada em imagem. Para RQ2, RQ3 e AS, os resultados são mostrados com o melhor tipo de marcador para cada modelo: letras para GPT-4o e pontos vermelho-azul para Pixtral, JanusPro e Llama3.4.

Precisão para todos os experimentos usando avaliação baseada em imagem. Para RQ2, RQ3 e AS, os resultados são mostrados com o melhor tipo de marcador para cada modelo: letras para GPT-4o e pontos vermelho-azul para Pixtral, JanusPro e Llama3.4.

Para abordar a terceira questão, Os VLMs priorizam o conhecimento anatômico prévio sobre a entrada visual ao determinar as posições relativas em imagens radiológicas?, os autores examinaram se os modelos de linguagem de visão confiam mais no conhecimento anatômico prévio do que na evidência visual ao determinar as posições relativas em imagens radiológicas.

Quando testados em fatias de CT rotacionadas ou invertidas, o GPT-4o e o Pixtral frequentemente produziram respostas consistentes com as posições anatômicas padrão, em vez de refletir o que estava mostrado na imagem, com o GPT-4o alcançando mais de 75 por cento de precisão na avaliação baseada em anatomia, mas apenas desempenho no nível da chance na avaliação baseada em imagem.

Remover os termos anatômicos dos prompts e usar apenas marcadores visuais forçou os modelos a depender do conteúdo da imagem, levando a ganhos marcantes, com o GPT-4o excedendo 85 por cento de precisão com marcadores de letra e o Pixtral ultrapassando 75 por cento com pontos.

Uma comparação dos quatro modelos de linguagem de visão ao determinar as posições relativas de estruturas anatômicas em imagens médicas – um requisito-chave para uso clínico. O desempenho está no nível da chance com imagens simples (RQ1) e mostra apenas ganhos menores com marcadores visuais (RQ2). Quando os nomes anatômicos são removidos e os modelos devem confiar inteiramente nos marcadores, o GPT-4o e o Pixtral alcançam melhorias significativas de precisão (RQ3). Os resultados são mostrados usando o melhor tipo de marcador para cada modelo.

Uma comparação dos quatro modelos de linguagem de visão ao determinar as posições relativas de estruturas anatômicas em imagens médicas – um requisito-chave para uso clínico. O desempenho está no nível da chance com imagens simples (RQ1) e mostra apenas ganhos menores com marcadores visuais (RQ2). Quando os nomes anatômicos são removidos e os modelos devem confiar inteiramente nos marcadores, o GPT-4o e o Pixtral alcançam melhorias significativas de precisão (RQ3). Os resultados são mostrados usando o melhor tipo de marcador para cada modelo.

Isso sugere que, embora ambos possam realizar a tarefa usando dados de imagem, eles tendem a recorrer a priores anatômicos aprendidos quando fornecidos com nomes anatômicos – um padrão não claramente observado no JanusPro ou no Llama3.2.

Embora normalmente não cubramos estudos de ablação, os autores abordaram a quarta e última questão de pesquisa dessa forma. Portanto, para testar a capacidade de posicionamento relativo sem qualquer contexto médico, o estudo usou imagens brancas simples com marcadores colocados aleatoriamente e fez perguntas simples, como Está o número 1 acima do número 2?. O Pixtral mostrou resultados melhorados com marcadores de ponto, enquanto os outros modelos se saíram de forma semelhante aos seus escores RQ3.

O JanusPro, e particularmente o Llama3.2, lutaram mesmo nesse cenário simplificado, indicando fraquezas subjacentes no posicionamento relativo que não se limitam a imagens médicas.

Os autores observam que o GPT-4o se saiu melhor com marcadores de letra, enquanto o Pixtral, o JanusPro e o Llama3.2 alcançaram pontuações mais altas com pontos vermelho-azul. O GPT-4o foi o melhor desempenho geral, com o Pixtral liderando entre os modelos de código aberto.

Conclusão

Em uma nota pessoal, este artigo me chamou a atenção não tanto por sua importância médica, mas porque destaca uma das falhas mais sub-relatadas e fundamentais da onda atual de LLMs de ponta – que, se a tarefa puder ser evitada, e a menos que você apresente seu material com cuidado, eles não lerão os textos que você envia ou examinarão as imagens que você apresenta a eles.

Além disso, o estudo indica que, se o seu prompt de texto de qualquer forma explica o que o material secundário enviado é, o LLM tenderá a tratá-lo como um exemplo “teleológico” e presumirá/assumirá muitas coisas sobre ele com base no conhecimento prévio, em vez de estudar e considerar o que você enviou.

Em essência, nesse estado de coisas, os VLMs terão grande dificuldade em identificar material “anormal” – uma das habilidades mais essenciais na medicina diagnóstica. Embora seja possível reverter a lógica e ter um sistema procurar outliers em vez de resultados dentro da distribuição, o modelo precisaria de curadoria excepcional para evitar sobrecarregar o sinal com exemplos irrelevantes ou espúrios.

 

* Citações em linha omitidas, pois não há uma maneira elegante de incluí-las como hiperlinks. Por favor, consulte o artigo original.

Publicado pela primeira vez na segunda-feira, 4 de agosto de 2025

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.