Ángulo de Anderson

Las IA luchan para distinguir entre izquierda y derecha en las exploraciones médicas

Published August 4, 2025

Updated April 26, 2026

Martin Anderson

A robot doctor confused by an x-ray of a hand – ChatGPT-40 and Firefly (Oct 2024).

Un nuevo estudio encuentra que los modelos de imagen de IA como ChatGPT pueden malinterpretar la anatomía volteada o rotada, lo que aumenta el riesgo de errores peligrosos en el diagnóstico, con pruebas que indican que a menudo fallan en la razón espacial básica en las exploraciones médicas – adivinando dónde deberían estar los órganos, en lugar de realmente mirar la imagen. Quizás de interés más amplio, la investigación demuestra que estos modelos pueden no estar leyendo sus PDF subidos o mirando sus imágenes en absoluto.

Cualquiera que haya subido regularmente datos, como contenido de PDF, a un modelo de lenguaje líder como ChatGPT sabrá que los LLM no siempre leen o examinan lo que se les presenta; más bien, a menudo hacen suposiciones sobre el material, basadas en lo que escribió sobre él en su prompt cuando lo subió.

Puede ser un desafío incluso hacer que un modelo de lenguaje admita que no examinó realmente el contenido que se le presentó, sino que basó su respuesta en conocimiento previo, metadatos o suposiciones generales. Fuente: https://chatgpt.com

Puede ser difícil persuadir a un modelo de lenguaje para que admita que su respuesta se basó en conocimiento previo, metadatos o suposiciones generales en lugar de en el contenido que se le dio. Fuente: https://chatgpt.com

Una posible razón para esto es aumentar la velocidad de la respuesta considerando el material subido como ‘redundante’ y confiando en el texto-prompt para utilizar el conocimiento previo del sistema – evitando la subida por completo y minimizando así el tráfico de la red.

Otra razón es la conservación de recursos (aunque los proveedores parecen poco dispuestos a divulgar esto, si es cierto), donde los metadatos existentes que el LLM extrajo de intercambios anteriores en el chat se utilizan como base para respuestas adicionales, incluso cuando estos intercambios y esos metadatos no contienen suficiente información para servir a este propósito.

Izquierda. Derecha?

Sea cual sea la razón para la atención variable y las capacidades de enfoque de la generación actual de LLM, hay situaciones y contextos en los que adivinar es extremadamente peligroso. Uno de ellos es cuando la IA en cuestión se le pide que proporcione servicios médicos como detección o estimación de riesgo de material radiológico.

Esta semana, investigadores de Alemania y EE. UU. publicaron un nuevo estudio de investigación que examina la eficacia de cuatro modelos de visión-lenguaje líderes, incluido ChatGPT-4o, cuando se les pide que identifiquen la ubicación de órganos en exploraciones médicas.

Sorprendentemente, a pesar de representar el estado del arte en este respecto, los modelos base logran una tasa de éxito no superior a la casualidad la mayoría de las veces – aparentemente porque no pueden separar adecuadamente su conocimiento entrenado de la anatomía humana y mirar realmente las imágenes que se les presentan, en lugar de recurrir a un conocimiento previo entrenado previo de sus datos de entrenamiento.

Los investigadores encontraron que los LLM probados obtuvieron resultados significativamente mejores cuando las secciones a considerar estaban denotadas por otros indicadores (como puntos y secuencias alfanuméricas) y nombradas – y lo mejor de todo cuando no se mencionaba la anatomía o los órganos en la consulta en absoluto:

Niveles de éxito variables, que aumentan a medida que la capacidad del modelo para recurrir a datos entrenados disminuye, y se ve obligado a concentrarse en los datos que tiene ante sí. Fuente: https://wolfda95.github.io/your_other_left/

El documento observa*:

‘Los VLM de vanguardia ya poseen un fuerte conocimiento anatómico previo incorporado en sus componentes de lenguaje. En otras palabras, “saben” dónde se encuentran típicamente las estructuras anatómicas en la anatomía humana estándar.

‘Hipotetizamos que los VLM a menudo basan sus respuestas en este conocimiento previo en lugar de analizar el contenido real de la imagen. Por ejemplo, cuando se les pregunta si el hígado está a la derecha del estómago, un modelo podría responder afirmativamente sin inspeccionar la imagen, confiando únicamente en la norma aprendida de que el hígado suele estar ubicado a la derecha del estómago.

‘Este comportamiento podría llevar a diagnósticos críticos en casos donde las posiciones reales se desvían de los patrones anatómicos típicos, como en situs inversus, alteraciones postquirúrgicas o desplazamiento de tumores.’

Para mitigar el problema en futuros esfuerzos, los autores han desarrollado un conjunto de datos diseñado para abordar este problema.

Los hallazgos del documento pueden ser sorprendentes para muchos lectores que han seguido el desarrollo de la IA médica, ya que la radiografía fue señalada muy temprano como uno de los trabajos más en riesgo de ser automatizados a través del aprendizaje automático.

El nuevo trabajo se llama ¡Tu otra izquierda! Los modelos de visión-lenguaje no logran identificar posiciones relativas en imágenes médicas, y proviene de siete investigadores de dos facultades en la Universidad de Ulm, y Axiom Bio en EE. UU.

Método y datos

Los investigadores se propusieron responder a cuatro cuestiones: si los modelos de visión-lenguaje de vanguardia pueden determinar correctamente las posiciones relativas en imágenes de radiología; si el uso de marcadores visuales mejora su rendimiento en esta tarea; si confían más en el conocimiento anatómico previo que en el contenido real de la imagen; y cómo manejan las tareas de posición relativa cuando se les priva de cualquier contexto médico.

Para ello, curaron el conjunto de datos Posicionamiento relativo de imágenes médicas (MIRP).

Aunque la mayoría de los benchmarks de preguntas visuales existentes para rebanadas de CT o MRI incluyen tareas de anatomía y localización, estas colecciones más antiguas pasan por alto el desafío fundamental de determinar posiciones relativas, lo que deja muchas tareas resolubles utilizando solo el conocimiento médico previo.

MIRP está diseñado para abordar esto, probando preguntas de posición relativa entre estructuras anatómicas, evaluando el impacto de los marcadores visuales y aplicando rotaciones y giros aleatorios para bloquear la confianza en las normas aprendidas. El conjunto de datos se centra en rebanadas de CT abdominales, debido a su complejidad y prevalencia en radiología.

MIRP contiene un número igual de sí y no respuestas, con las estructuras anatómicas en cada pregunta opcionalmente marcadas para mayor claridad.

Se probaron tres tipos de marcadores visuales: números negros en una caja blanca; letras negras en una caja blanca; y un punto rojo y un punto azul:

Los varios marcadores visuales utilizados en MIRP. Fuente: https://arxiv.org/pdf/2508.00549

La colección se obtuvo de los conjuntos de datos existentes Más allá de la bóveda craneal (BTCV) y Segmentación de múltiples órganos abdominales (AMOS).

Rebanadas anotadas del conjunto de datos AMOS. Fuente: https://arxiv.org/pdf/2206.08023

Se utilizó el proyecto TotalSegmentator para extraer imágenes anatómicas planas de datos volumétricos:

Algunas de las 104 estructuras anatómicas disponibles en TotalSegmentator. Fuente: https://arxiv.org/pdf/2208.05868

Luego se obtuvieron rebanadas de imagen axial con el marco SimpleITK.

Las ubicaciones de las ‘imágenes desafiantes’ tenían que estar al menos a 50 píxeles de distancia y tener un tamaño al menos el doble que el de los marcadores, para generar pares de pregunta y respuesta.

Pruebas

Los cuatro modelos de visión-lenguaje probados fueron GPT-4o; Llama3.2; Pixtral; y JanusPro de DeepSeek.

Los investigadores probaron cada una de sus cuatro preguntas de investigación por turnos, con la primera (Q1) siendo ‘¿Pueden los VLM actuales determinar con precisión las posiciones relativas en imágenes radiológicas? Para esta investigación, los investigadores probaron los modelos en rebanadas de CT simples, rotadas o volteadas utilizando un formato de pregunta estándar, como ¿Está el riñón izquierdo debajo del estómago?.

Los resultados (que se muestran a continuación) mostraron precisiones cercanas al 50 por ciento en todos los modelos, lo que indica un rendimiento al nivel de la casualidad, y una incapacidad para juzgar con confiabilidad las posiciones relativas sin marcadores visuales:

Precisión promedio para todos los experimentos utilizando la evaluación basada en la imagen en el benchmark MIRP (RQ1–RQ3) y el conjunto de datos de ablación (AS).

Para probar si los marcadores visuales pueden ayudar a los modelos de visión-lenguaje a determinar las posiciones relativas en imágenes radiológicas, el estudio repitió los experimentos utilizando rebanadas de CT anotadas con letras, números o puntos rojos y azules; y aquí, el formato de la pregunta se ajustó para hacer referencia a estos marcadores – por ejemplo, ¿Está el riñón izquierdo (A) debajo del estómago (B)? o ¿Está el riñón izquierdo (rojo) debajo del estómago (azul)?.

Los resultados mostraron pequeñas ganancias en la precisión para GPT-4o y Pixtral cuando se utilizaron marcadores de letras o números, mientras que JanusPro y Llama3.2 vieron poco o ningún beneficio, lo que sugiere que los marcadores solos pueden no ser suficientes para mejorar significativamente el rendimiento.

Precisión para todos los experimentos utilizando la evaluación basada en la imagen. Para RQ2, RQ3 y AS, los resultados se muestran con el tipo de marcador con mejor rendimiento para cada modelo: letras para GPT-4o, y puntos rojo-azul para Pixtral, JanusPro y Llama3.4.

Para abordar la tercera pregunta, ¿Priorizan los VLM el conocimiento anatómico previo sobre la entrada visual al determinar las posiciones relativas en imágenes radiológicas?, los autores examinaron si los modelos de visión-lenguaje confían más en el conocimiento anatómico previo que en la evidencia visual al determinar las posiciones relativas en imágenes radiológicas.

Cuando se probaron en rebanadas de CT rotadas o volteadas, GPT-4o y Pixtral a menudo produjeron respuestas consistentes con las posiciones anatómicas estándar, en lugar de reflejar lo que se mostraba en la imagen, con GPT-4o logrando más del 75 por ciento de precisión en la evaluación basada en la anatomía, pero solo un rendimiento al nivel de la casualidad en la evaluación basada en la imagen.

Eliminar los términos anatómicos de los prompts y utilizar solo marcadores visuales obligó a los modelos a depender del contenido de la imagen, lo que llevó a ganancias significativas, con GPT-4o superando el 85 por ciento de precisión con marcadores de letras, y Pixtral superando el 75 por ciento con puntos.

Una comparación de los cuatro modelos de visión-lenguaje al determinar las posiciones relativas de las estructuras anatómicas en imágenes médicas – un requisito clave para el uso clínico. El rendimiento está al nivel de la casualidad con imágenes simples (RQ1) y muestra solo ganancias menores con marcadores visuales (RQ2). Cuando se eliminan los nombres anatómicos y los modelos deben confiar únicamente en los marcadores, GPT-4o y Pixtral logran mejoras sustanciales en la precisión (RQ3). Los resultados se muestran utilizando el tipo de marcador con mejor rendimiento para cada modelo.

Esto sugiere que, si bien ambos pueden realizar la tarea utilizando datos de la imagen, tienden a recurrir a los conocimientos anatómicos previos aprendidos cuando se les dan nombres anatómicos – un patrón que no se observa claramente en JanusPro o Llama3.2.

Aunque no suele cubrir estudios de ablación, los autores abordaron la cuarta y última pregunta de investigación de esta manera. Por lo tanto, para probar la capacidad de posición relativa sin ningún contexto médico, el estudio utilizó imágenes blancas simples con marcadores colocados aleatoriamente y preguntas simples como ¿Está el número 1 encima del número 2?. Pixtral mostró mejores resultados con marcadores de puntos, mientras que los otros modelos obtuvieron resultados similares a sus puntajes RQ3.

JanusPro, y particularmente Llama3.2, lucharon incluso en este entorno simplificado, lo que indica debilidades subyacentes en la posición relativa que no se limitan a la imaginería médica.

Los autores observan que GPT-4o se desempeñó mejor con marcadores de letras, mientras que Pixtral, JanusPro y Llama3.2 obtuvieron mejores resultados con puntos rojo-azul. GPT-4o fue el modelo con mejor rendimiento general, con Pixtral liderando entre los modelos de código abierto.

Conclusión

En una nota personal, este documento me llamó la atención no tanto por su importancia médica, sino porque destaca una de las limitaciones más infrarreportadas y fundamentales de la actual ola de LLM de vanguardia – que, si la tarea puede evitarse de alguna manera, y a menos que se presente el material con cuidado, no leerán los textos que se suben o examinarán las imágenes que se presentan.

Además, el estudio indica que, si el prompt de texto de alguna manera explica qué es el material secundario subido, la IA tenderá a tratarlo como un ejemplo ‘teleológico’ y presumirá/supondrá muchas cosas sobre él basándose en el conocimiento previo, en lugar de estudiar y considerar lo que se subió.

En efecto, en este estado de cosas, los VLM tendrán grandes dificultades para identificar material ‘anómalo’ – una de las habilidades más esenciales en la medicina diagnóstica. Si bien es posible invertir la lógica y tener un sistema que busque outliers en lugar de resultados dentro de la distribución, el modelo necesitaría una curación excepcional para evitar abrumar la señal con ejemplos irrelevantes o espurios.

* Se omitieron las citas en línea, ya que no hay una forma elegante de incluirlos como hipervínculos. Por favor, consulte el documento de origen.

Publicado por primera vez el lunes 4 de agosto de 2025