Inteligência artificial
Mesmo os Modelos de Linguagem de Estado da Arte Lutam para Entender a Lógica Temporal

Prever estados futuros é uma missão crítica na pesquisa de visão computacional – não menos na robótica, onde situações do mundo real devem ser consideradas. Sistemas de aprendizado de máquina encarregados de tarefas críticas, portanto, precisam de uma compreensão adequada do mundo físico.
No entanto, em alguns casos, um conhecimento aparentemente impressionante da realidade temporal pode ser enganoso: um novo artigo dos Emirados Árabes Unidos descobriu que modelos de linguagem multimodais de estado da arte (MLLMs), incluindo líderes de setor GPT-4o e Google Gemini, falham quando se trata de interpretar como o tempo é representado em imagens.
Exemplos de pares sequenciais (veja a imagem abaixo), que seriam fáceis para humanos, mesmo quando colocados na ordem errada, podem confundir MLLMs avançados quando apresentados em contextos ou configurações inesperados (como segunda-imagem-primeira, concatenados em imagens únicas, imagens sequenciais múltiplas que podem ou não representar a ordem temporal correta, e assim por diante.).

Amostras de um dos conjuntos de dados compilados para o novo estudo, que mostram eventos sequenciais na forma de ‘antes e depois’ de imagens. Os pesquisadores tornaram esses dados disponíveis em https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer
Os pesquisadores encarregaram os modelos de desafios básicos de raciocínio temporal, como determinar a ordem de eventos ou estimar lacunas de tempo, e descobriram que os sete MLLMs testados performaram notavelmente abaixo da precisão humana:
‘No geral, os [resultados] revelam que todos os MLLMs atuais, incluindo o GPT-4o – o modelo mais avançado em nossa avaliação – lutam com o benchmark proposto. Apesar do desempenho superior do GPT-4o em relação a outros modelos, ele falha em demonstrar consistentemente um raciocínio temporal preciso em diferentes configurações.
‘As pontuações de precisão consistentes são notavelmente baixas para todos os modelos, indicando limitações significativas em sua capacidade de compreender e interpretar sequências temporais a partir de entradas visuais. Essas deficiências são evidentes, mesmo quando os modelos são fornecidos com entradas de multi-imagem ou prompts otimizados, sugerindo que as arquiteturas e metodologias de treinamento atuais são insuficientes para uma compreensão robusta da ordem temporal.’
Sistemas de aprendizado de máquina são projetados para otimizar os resultados mais precisos, mas também os mais eficientes e agradáveis às pessoas*. Como eles não revelam seu raciocínio explicitamente, pode ser difícil dizer quando estão trapaceando, ou usando ‘atalhos’.
Nesse caso, o MLLM pode chegar à resposta certa pelo método errado. O fato de que tal resposta pode ser correta pode inspirar falsa confiança no modelo, que poderia produzir resultados incorretos pelo mesmo método em tarefas posteriores apresentadas a ele.
Pior ainda, essa desorientação pode se tornar ainda mais profundamente enraizada na cadeia de desenvolvimento se os humanos forem impressionados por ela e derem feedback positivo em testes e sessões de anotação que podem contribuir para a direção que os dados e/ou o modelo podem tomar.
Nesse caso, a sugestão é que os MLLMs estão ‘fingindo’ uma compreensão real da cronologia e fenômenos temporais, observando e ancorando em indicadores secundários (como carimbos de data e hora, por exemplo, em dados de vídeo, ordem de imagens em um layout, ou até mesmo – potencialmente – nomes de arquivo numerados sequencialmente).
Isso também indica que os MLLMs atualmente falham em satisfazer qualquer definição real de ter generalizado um conceito de fenômenos temporais – pelo menos, na medida em que os humanos podem.
O novo artigo é intitulado Os MLLMs Multimodais Podem Fazer Entendimento e Raciocínio Temporal Visual? A resposta é Não!, e vem de três pesquisadores da Universidade de Inteligência Artificial Mohamed bin Zayed e do Comércio Digital Internacional Alibaba.
Dados e Testes
Os autores observam que benchmarks e estudos anteriores, como MMMU e TemporalBench, se concentram em entradas de imagem única ou formulam perguntas para os MLLMs que podem ser um pouco fáceis de responder, e podem não descobrir uma tendência para comportamento de atalho.
Portanto, os autores oferecem duas abordagens atualizadas: Entendimento da Ordem Temporal (TOU) e Estimativa de Intervalo de Tempo (TLE). A abordagem TOU testa a capacidade dos modelos de determinar a sequência correta de eventos a partir de pares de frames de vídeo; o método TLE avalia a capacidade do MLLM de estimar a diferença de tempo entre duas imagens, variando de segundos a anos.

Do artigo, as duas tarefas principais do benchmark TemporalVQA: no Entendimento da Ordem Temporal, o modelo decide qual das duas imagens mostra um evento que ocorreu primeiro; na Estimativa de Intervalo de Tempo, o modelo estima quanto tempo passou entre as duas imagens, selecionando de opções que incluem segundos, minutos, dias ou anos. Essas tarefas visam testar como bem os MLLMs podem raciocinar sobre o tempo e a sequência de eventos visuais. Fonte: https://arxiv.org/pdf/2501.10674
Os pesquisadores curaram 360 pares de imagens para o benchmark TOU, usando vídeos de código aberto do Pixabay e Pexels, para que fosse possível tornar o conjunto de dados disponível via uma interface gráfica.
Os vídeos abrangiam uma variedade de assuntos, desde pessoas em atividades do dia a dia até conteúdo não humano, como animais e plantas. A partir desses, pares de frames foram selecionados para retratar uma sequência de eventos com variação suficiente para tornar a moldura inicial ‘óbvia’.
A seleção humana foi usada para garantir que os frames pudessem ser definitivamente ordenados. Por exemplo, um dos pares curados mostra uma xícara de chá parcialmente cheia em um frame e a mesma xícara completamente cheia de chá no próximo, tornando a lógica da sequência fácil de identificar.

A lógica temporal dessas duas imagens não pode ser escapada, pois o chá não pode ser sugado de volta pelo bico.
Dessa forma, 360 pares de imagens foram obtidos.
Para a abordagem TLE, imagens livres de direitos autorais foram escolhidas do Google e Flickr, bem como frames selecionados de vídeos livres de direitos autorais no YouTube. O assunto dos vídeos apresentava cenas ou objetos cujo intervalo de mudança variava de segundos a dias a estações – por exemplo, frutas amadurecendo ou a mudança de estações em paisagens.
Assim, 125 pares de imagens foram curados para o método TLE.
Não todos os MLLMs testados podiam processar múltiplas imagens; portanto, os testes diferiram para acomodar as capacidades de cada modelo.
Múltiplas versões dos conjuntos de dados curados foram geradas, nas quais alguns dos pares foram concatenados verticalmente e outros horizontalmente. Variações adicionais trocaram a sequência temporal correta dos pares.
Dois tipos de prompts foram desenvolvidos. O primeiro seguiu este modelo:
Ocorreu o evento na (esquerda / topo / primeira) imagem antes do evento na (direita / baixo / segunda) imagem? Estado verdadeiro ou falso com raciocínio.
O segundo seguiu este esquema:
Entre essas duas imagens, qual delas retrata o evento que ocorreu primeiro? Estado (esquerda ou direita / topo ou baixo / primeira ou segunda) com raciocínio.
Para o TLE, as perguntas eram de múltipla escolha, pedindo aos modelos que avaliassem o intervalo de tempo entre as duas imagens apresentadas, com segundos, horas, minutos, dias, meses e anos disponíveis como unidades de tempo. Nessa configuração, a imagem mais recente foi apresentada à direita.
O prompt usado aqui foi:
Na imagem dada, estime o tempo que passou entre a primeira imagem (esquerda) e a segunda imagem (direita).
Escolha uma das seguintes opções:
-
Menos de 15 segundos
B. Entre 2 minutos e 15 minutos
C. Entre 1 hora e 12 horas
D. Entre 2 dias e 30 dias
E. Entre 4 meses e 12 meses
F. Mais de 3 anos
Os MLLMs testados foram ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; e LLaVA-CoT.
Entendimento da Ordem Temporal: Resultados

Resultados do Entendimento da Ordem Temporal em diferentes modelos e layouts de entrada, mostrando precisão e consistência para várias configurações e prompts.
Com relação aos resultados mostrados acima, os autores encontraram que todos os MLLMs testados, incluindo o GPT-4o (que mostrou o melhor desempenho geral), lutaram significativamente com o benchmark TemporalVQA – e mesmo o GPT-4o falhou em exibir consistentemente um raciocínio temporal confiável em diferentes configurações.
Os autores argumentam que as pontuações de precisão consistentemente baixas em todos os LLMs destacam limitações significativas na capacidade dos modelos de interpretar e raciocinar sobre sequências temporais a partir de dados visuais. Os pesquisadores observam que esses desafios persistem mesmo com o uso de entradas de multi-imagem e prompts otimizados, apontando para limitações fundamentais nas arquiteturas e métodos de treinamento atuais.
Os testes mostraram variações significativas no desempenho entre estratégias de prompting. Embora o GPT-4o tenha melhorado com prompts otimizados (atingindo 4% em configurações de imagem única e 65,3% em configurações de multi-imagem), o desempenho permaneceu abaixo dos níveis aceitáveis.
Modelos como LLaVA-NeXT e Qwen-VL foram ainda mais sensíveis, com desempenho declinando quando prompts alternativos foram usados, sugerindo que a engenharia de prompts por si só não pode superar as limitações fundamentais dos MLLMs em relação ao raciocínio temporal.
Os testes também indicaram que o layout da imagem (ou seja, vertical vs. horizontal) impactou significativamente o desempenho do modelo. O GPT-4o melhorou sua consistência com arranjos verticais, subindo de 39,2% para 52,8%; no entanto, outros modelos, incluindo as linhagens LLaVA, mostraram fortes viés direcionais, destacando-se em uma orientação mas falhando em outra.
O artigo indica que essas inconsistências sugerem confiança em pistas espaciais, em vez de um verdadeiro raciocínio temporal, com os MLLMs não analisando genuinamente a sequência de eventos ou compreendendo a progressão ao longo do tempo. Em vez disso, eles parecem ter confiado em padrões ou recursos visuais relacionados ao layout das imagens, como sua posição ou alinhamento, para tomar decisões.

Testes qualitativos destacam as previsões do GPT-4o quando enfrentando diferentes ordens de entrada. Na primeira ordem, os pares de imagens são apresentados em sua sequência original, enquanto na segunda ordem, a sequência é revertida. Classificações corretas são marcadas em verde, classificações puramente erradas em vermelho, raciocínio alucinado em laranja e raciocínio ilógico ou ‘inválido’ em marrom, revelando as inconsistências do modelo em diferentes configurações de entrada.
Testes de comparação entre entradas de imagem única e multi-imagem demonstraram melhoria limitada, com o GPT-4o performando ligeiramente melhor em entradas de multi-imagem, subindo de 31,0% para 43,6% (com P1) e 46,0% para 65,3% (com P2).
Outros modelos, como o InternVL, demonstraram precisão estável mas baixa, enquanto o Qwen-VL viu ganhos menores. Os autores concluem que esses resultados indicam que contexto visual adicional não melhora substancialmente as capacidades de raciocínio temporal, pois os modelos lutam para integrar informações temporais de forma eficaz.
Estudo Humano
Em um estudo humano, três pesquisas foram realizadas para avaliar como o MLLM multimodal de melhor desempenho performou em comparação com a estimativa humana.
Os humanos alcançaram 90,3% de precisão, superando os 65,3% do GPT-4o por 25%. O conjunto de dados provou ser confiável, com erros humanos mínimos e concordância consistente sobre respostas corretas.

Resultados do estudo de usuário humano para a primeira rodada de testes.
Estimativa de Intervalo de Tempo: Resultados

Resultados para o TLE: a estimativa de intervalo de tempo avalia a precisão do modelo em identificar intervalos entre pares de imagens, em escalas de segundos a anos. A tarefa avalia a capacidade de cada modelo de selecionar a escala de tempo correta para a lacuna temporal.
Nesses testes, os MLLMs performaram apenas adequadamente na estimativa de intervalo de tempo: o GPT-4o alcançou 70% de precisão, mas os outros modelos performaram significativamente pior (veja a tabela acima), e o desempenho também variou notavelmente em diferentes escalas de tempo.
Os autores comentam:
‘A tarefa de estimativa de intervalo de tempo testa a capacidade dos MLLMs de inferir intervalos temporais entre pares de imagens. [Todos] os MLLMs, incluindo os principais desempenhadores como GPT-4o e Gemini1.5-Pro, lutam com essa tarefa, alcançando apenas níveis de precisão moderados de 60-70%. O GPT-4o mostra desempenho inconsistente, com forte desempenho em Segundos e Anos, mas subdesempenhando em Horas.
Da mesma forma, o LLaVA-CoT demonstra desempenho excepcional nos intervalos de tempo de Segundos e Dias, enquanto mostra desempenho notavelmente pobre em outros intervalos de tempo.’
Estudo Humano
No estudo humano para o TLE, o desempenho humano médio melhorou em relação ao GPT-4o (o melhor modelo também nessa categoria) em 12,3%.
Os autores observam que alguns dos desafios foram particularmente exigentes, e que, em um caso, todos os participantes humanos retornaram uma resposta errada, juntamente com todos os participantes da IA.
Os autores concluem que o GPT-4o exibe ‘capacidades de raciocínio razoavelmente robustas, não obstante a ordem das imagens apresentadas a ele.
Conclusão
Se os MLLMs eventualmente acumularem e absorverem dados suficientes de ‘atalhos’ para cobrir mesmo os desafios mais difíceis desse tipo apresentados pelos autores neste estudo, se eles podem ou não ser considerados como tendo desenvolvido capacidades de generalização de estilo humano nesse domínio pode se tornar um ponto discutível.
Também não é conhecido exatamente por qual rota obtemos nossas próprias capacidades de raciocínio temporal – será que também ‘trapaceamos’ até que a quantidade de experiência aprendida revele um padrão que se comporta como ‘instinto’ em relação a esse tipo de teste?
* Do ponto de vista de que os modelos estão sendo cada vez mais otimizados com funções de perda que o feedback humano contribuiu para, e efetivamente otimizados por testes e triagem humanos subsequentes.
Publicado pela primeira vez na segunda-feira, 27 de janeiro de 2025












