Inteligencia artificial

Incluso los modelos de lenguaje de estado de la técnica luchan por comprender la lógica temporal

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

Predecir estados futuros es una misión crítica en la investigación de visión por computadora – no menos en robótica, donde deben considerarse situaciones del mundo real. Los sistemas de aprendizaje automático encargados de tareas críticas para la misión, por lo tanto, necesitan una comprensión adecuada del mundo físico.

Sin embargo, en algunos casos, un conocimiento aparentemente impresionante de la realidad temporal podría ser engañoso: un nuevo artículo de los Emiratos Árabes Unidos ha encontrado que los modelos de lenguaje multimodal de estado de la técnica (MLLMs), incluidos los líderes del sector GPT-4o y Google Gemini, no cumplen cuando se trata de interpretar cómo se representa el tiempo en las imágenes.

Pares de secuencias de ejemplo (ver imagen a continuación), que serían fáciles para los humanos incluso cuando se les presenta en el orden incorrecto, pueden engañar a los MLLMs avanzados cuando se les presenta en contextos o configuraciones inesperados (como segunda imagen primero, concatenados en imágenes individuales, imágenes secuenciales múltiples que pueden o no representar el orden temporal correcto, etc.).

Muestras de uno de los conjuntos de datos compilados para el nuevo estudio, que muestran eventos secuenciales. Los investigadores han hecho que estos datos estén disponibles en https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Muestras de uno de los conjuntos de datos compilados para el nuevo estudio, que muestran eventos secuenciales en la forma de ‘antes y después’ de imágenes. Los investigadores han hecho que estos datos estén disponibles en https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Los investigadores encargaron a los modelos realizar desafíos básicos de razonamiento temporal, como determinar el orden de los eventos o estimar los intervalos de tiempo, y encontraron que los siete MLLMs probados tuvieron un rendimiento notablemente por debajo de la precisión humana:

‘En general, los [resultados] revelan que todos los MLLMs actuales, incluido GPT-4o – el modelo más avanzado en nuestra evaluación – luchan con la prueba propuesta. A pesar del rendimiento superior de GPT-4o en relación con otros modelos, no logra demostrar consistentemente un razonamiento temporal preciso en diferentes configuraciones.

‘Las puntuaciones de precisión consistentes son notablemente bajas para todos los modelos, lo que indica limitaciones significativas en su capacidad para comprender e interpretar secuencias temporales a partir de entradas visuales. Estas deficiencias son evidentes incluso cuando los modelos se proporcionan con entradas de múltiples imágenes u optimizan las solicitudes, lo que sugiere que las arquitecturas y metodologías de capacitación actuales son insuficientes para una comprensión robusta del orden temporal.’

Los sistemas de aprendizaje automático están diseñados para optimizar los resultados más precisos, pero también los más eficientes y agradables para las personas*. Dado que no revelan su razonamiento explícitamente, puede ser difícil determinar cuándo están haciendo trampa o utilizando ‘atajos’.

En tal caso, el MLLM puede llegar a la respuesta correcta por el método incorrecto. El hecho de que tal respuesta pueda ser correcta puede inspirar una confianza falsa en el modelo, que podría producir resultados incorrectos por el mismo método en tareas posteriores presentadas a él.

Peor aún, esta desviación puede volverse aún más profundamente arraigada en la cadena de desarrollo si los humanos se impresionan con ella y brindan retroalimentación positiva en pruebas y sesiones de anotación que pueden contribuir a la dirección que los datos y / o el modelo podrían tomar.

En este caso, la sugerencia es que los MLLMs están ‘simulando’ una comprensión real de la cronología y los fenómenos temporales, observando y anclando en indicadores secundarios (como sellos de tiempo, por ejemplo, en datos de video, orden de imágenes en un diseño, o incluso – potencialmente – nombres de archivo numerados secuencialmente).

Esto también indica que los MLLMs actualmente no satisfacen ninguna definición real de haber generalizado un concepto de fenómenos temporales – al menos, en la medida en que los humanos pueden.

El nuevo artículo se titula ¿Pueden los MLLMs multimodales hacer comprensión y razonamiento visual temporal? La respuesta es ¡No!, y proviene de tres investigadores de la Universidad de Inteligencia Artificial Mohamed bin Zayed y Alibaba International Digital Commerce.

Datos y pruebas

Los autores señalan que los benchmarks y estudios anteriores, como MMMU y TemporalBench, se concentran en entradas de imagen única o formulan preguntas para los MLLMs que pueden ser demasiado fáciles de responder, y pueden no descubrir una tendencia hacia el comportamiento de atajo.

Por lo tanto, los autores ofrecen dos enfoques actualizados: Comprensión del orden temporal (TOU) y Estimación de tiempo de lapso (TLE). El enfoque TOU prueba la capacidad de los modelos para determinar la secuencia correcta de eventos a partir de pares de fotogramas de video; el método TLE evalúa la capacidad del MLLM para estimar la diferencia de tiempo entre dos imágenes, que van desde segundos hasta años.

Del artículo, las dos tareas principales del benchmark TemporalVQA: en la comprensión del orden temporal, el modelo decide qué imagen muestra un evento que ocurrió primero; en la estimación de tiempo de lapso, el modelo estima cuánto tiempo ha pasado entre dos imágenes, seleccionando entre opciones que incluyen segundos, minutos, días o años. Estas tareas tienen como objetivo probar cómo bien los MLLMs pueden razonar sobre la temporización y la secuencia de eventos visuales. Fuente: https://arxiv.org/pdf/2501.10674

Los investigadores curaron 360 pares de imágenes para el benchmark TOU, utilizando videos de código abierto de Pixabay y Pexels, para que fuera posible hacer que el conjunto de datos estuviera disponible a través de una GUI.

Los videos cubrieron una variedad de temas, desde personas en actividades cotidianas hasta contenido no humano como animales y plantas. De estos, se seleccionaron pares de fotogramas para mostrar una secuencia de eventos con suficiente variación para hacer que el fotograma inicial fuera ‘obvio’.

La selección humana se utilizó para garantizar que los fotogramas pudieran ordenarse definitivamente. Por ejemplo, uno de los pares curados muestra una taza de té parcialmente llena en un fotograma y la misma taza llena de té en el siguiente, lo que hace que la lógica de la secuencia sea fácil de identificar.

La lógica temporal de estas dos imágenes no puede evitarse, ya que el té no puede ser succionado de vuelta a través de la boquilla.

De esta manera, se obtuvieron 360 pares de imágenes.

Para el enfoque TLE, se eligieron imágenes libres de derechos de autor de Google y Flickr, así como fotogramas seleccionados de videos libres de derechos de autor en YouTube. El tema de estos videos presentaba escenas u objetos cuyo intervalo de cambio variaba desde segundos hasta días hasta estaciones – por ejemplo, frutas que maduran o el cambio de estaciones en paisajes.

Así, se curaron 125 pares de imágenes para el método TLE.

No todos los MLLMs probados podían procesar múltiples imágenes; por lo tanto, las pruebas difirieron para acomodar las capacidades de cada modelo.

Se generaron múltiples versiones de los conjuntos de datos curados, en los que algunos de los pares se concatenaron verticalmente y otros horizontalmente. Otras variaciones intercambiaron la secuencia temporal correcta de los pares.

Se desarrollaron dos tipos de solicitudes. El primero siguió este plantilla:

¿Ocurrió el evento en la (izquierda / superior / primera) imagen antes del evento en la (derecha / inferior / segunda) imagen? Estado verdadero o falso con razonamiento.

El segundo siguió este esquema:

¿Entre estas dos imágenes, cuál muestra el evento que ocurrió primero? Estado (izquierda o derecha / superior o inferior / primera o segunda) con razonamiento.

Para TLE, las preguntas eran de opción múltiple, que pedían a los modelos que evaluaran el lapso de tiempo entre las dos imágenes presentadas, con segundos, horas, minutos, días, meses y años disponibles como unidades de tiempo. En esta configuración, la imagen más reciente se presentó en la derecha.

La solicitud utilizada aquí fue:

En la imagen dada, estime el tiempo que ha pasado entre la primera imagen (izquierda) y la segunda imagen (derecha).

Elige una de las siguientes opciones:

1. Menos de 15 segundos B. Entre 2 minutos y 15 minutos C. Entre 1 hora y 12 horas D. Entre 2 días y 30 días E. Entre 4 meses y 12 meses F. Más de 3 años

Los MLLMs probados fueron ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; y LLaVA-CoT.

Comprensión del orden temporal: Resultados

Resultados de la comprensión del orden temporal en diferentes modelos y diseños de entrada, que muestran precisión y consistencia para varios ajustes y solicitudes.

Con respecto a los resultados que se muestran arriba, los autores encontraron que todos los MLLMs probados, incluido GPT-4o (que mostró el mejor rendimiento general), lucharon significativamente con el benchmark TemporalVQA – y incluso GPT-4o no logró exhibir consistentemente un razonamiento temporal confiable en diferentes configuraciones.

Los autores sostienen que las puntuaciones de precisión consistentemente bajas en todos los LLMs destacan limitaciones significativas en la capacidad de los modelos para interpretar y razonar sobre secuencias temporales a partir de datos visuales. Los investigadores señalan que estos desafíos persisten incluso con el uso de entradas de múltiples imágenes y solicitudes optimizadas, lo que apunta a limitaciones fundamentales en las arquitecturas y métodos de capacitación actuales.

Las pruebas mostraron variaciones significativas en el rendimiento en diferentes estrategias de solicitud. Mientras que GPT-4o mejoró con solicitudes optimizadas (alcanzando el 4% en configuraciones de imagen única y el 65,3% en configuraciones de múltiples imágenes), el rendimiento permaneció por debajo de los niveles aceptables.

Modelos como LLaVA-NeXT y Qwen-VL fueron aún más sensibles, con un rendimiento que disminuyó cuando se utilizaron solicitudes alternativas, lo que sugiere que la ingeniería de solicitudes por sí sola no puede superar las limitaciones fundamentales de los MLLMs en cuanto al razonamiento temporal.

Las pruebas también indicaron que el diseño de la imagen (es decir, vertical vs. horizontal) impactó significativamente el rendimiento del modelo. GPT-4o mejoró su consistencia con arreglos verticales, pasando del 39,2% al 52,8%; sin embargo, otros modelos, incluidas las cepas LLaVA, mostraron fuertes sesgos direccionales, destacando en una orientación pero fallando en otra.

El artículo indica que estas inconsistencias sugieren una dependencia de las pistas espaciales, más que un verdadero razonamiento temporal, con los MLLMs que no analizan genuinamente la secuencia de eventos o la comprensión de la progresión en el tiempo. En cambio, parecen haber confiado en patrones o características visuales relacionadas con el diseño de las imágenes, como su posición o alineación, para tomar decisiones.

Pruebas cualitativas resaltan las predicciones de GPT-4o cuando se enfrenta a diferentes órdenes de entrada. En el primer orden, los pares de imágenes se presentan en su secuencia original, mientras que en el segundo orden, la secuencia se invierte. Las clasificaciones correctas se marcan en verde, las clasificaciones incorrectas puras en rojo, el razonamiento alucinado en naranja y el razonamiento ilógico o ‘inválido’ en marrón, lo que revela las inconsistencias del modelo en diferentes configuraciones de entrada.

La comparación de pruebas entre entradas de imagen única y múltiple demostró una mejora limitada en general, con GPT-4o que funcionó ligeramente mejor en la entrada de múltiples imágenes, pasando del 31,0% al 43,6% (con P1) y del 46,0% al 65,3% (con P2).

Otros modelos, como InternVL, demostraron una precisión estable pero baja, mientras que Qwen-VL vio ganancias menores. Los autores concluyen que estos resultados indican que el contexto visual adicional no mejora sustancialmente las capacidades de razonamiento temporal, ya que los modelos luchan por integrar la información temporal de manera efectiva.

Estudio humano

En un estudio humano, se realizaron tres encuestas para evaluar cómo se desempeñó el MLLM multimodal con mejor rendimiento en comparación con la estimación humana.

Los humanos lograron el 90,3% de precisión, superando el 65,3% de GPT-4o en un 25%. El conjunto de datos resultó ser confiable, con errores humanos mínimos y un acuerdo consistente en las respuestas correctas.

Resultados del estudio de usuario humano para la primera ronda de pruebas.

Estimación de tiempo de lapso: Resultados

Resultados para TLE: la estimación de tiempo de lapso evalúa la precisión del modelo para identificar intervalos entre pares de imágenes, en escalas que van desde segundos hasta años. La tarea evalúa la capacidad de cada modelo para seleccionar la escala de tiempo correcta para la brecha temporal.

En estas pruebas, los MLLMs funcionaron solo de manera adecuada en la estimación de tiempo de lapso: GPT-4o logró el 70% de precisión, pero los otros modelos funcionaron significativamente peor (ver tabla arriba), y el rendimiento también varió notablemente en las diferentes escalas de tiempo.

Los autores comentan:

‘La tarea de estimación de tiempo de lapso prueba la capacidad de los MLLMs para inferir intervalos temporales entre pares de imágenes. [Todos] los MLLMs, incluidos los mejores rendimientos como GPT-4o y Gemini1.5-Pro, luchan con esta tarea, logrando solo niveles de precisión moderados del 60-70%. GPT-4o muestra un rendimiento inconsistente, con un fuerte rendimiento en Segundos y Años pero con un rendimiento deficiente en Horas.

De manera similar, LLaVA-CoT demuestra un rendimiento excepcional en los intervalos de tiempo de Segundos y Días, mientras que muestra un rendimiento notablemente deficiente en los otros intervalos de tiempo.’

Estudio humano

En el estudio humano para TLE, el rendimiento humano promedio mejoró en GPT-4o (el mejor modelo en esta categoría) en un 12,3%.

Los autores señalan que algunos de los desafíos fueron particularmente exigentes, y que en un caso todos los participantes humanos devolvieron una respuesta incorrecta, junto con todos los participantes de la IA.

Los autores concluyen que GPT-4o exhibe ‘capacidades de razonamiento razonablemente robustas, a pesar del orden de las imágenes presentadas a él.

Conclusión

Si los MLLMs eventualmente acumulan y absorben suficientes datos de ‘atajo’ para cubrir incluso los desafíos más difíciles de este tipo presentados por los autores en este estudio, ya sea que puedan decirse que han desarrollado capacidades de generalización de estilo humano en este dominio podría convertirse en un punto discutible.

Tampoco se sabe exactamente por qué ruta obtenemos nuestras propias capacidades en razonamiento temporal – ¿acaso también ‘hacemos trampa’ hasta que la cantidad de experiencia aprendida revele un patrón que se desempeña como ‘instinto’ en cuanto a este tipo de prueba?

* Desde el punto de vista de que los modelos están siendo cada vez más optimizados con funciones de pérdida que han contribuido a la retroalimentación humana, y efectivamente optimizados por pruebas y triage humanas posteriores.

Publicado por primera vez el lunes 27 de enero de 2025