Entre em contato

Modelos de IA tropeçam na leitura básica do relógio, enquanto humanos se destacam

Inteligência artificial

Modelos de IA tropeçam na leitura básica do relógio, enquanto humanos se destacam

mm

A estudo compreensivo Testar 11 modelos líderes de IA contra humanos na leitura de relógios analógicos expôs uma fragilidade surpreendente nos sistemas atuais de inteligência artificial. Enquanto humanos alcançaram 89.1% de precisão na leitura das horas, o modelo de melhor desempenho do Google obteve apenas 13.3% de precisão no mesmo teste.

O estudo ClockBench, conduzido pelo pesquisador Alek Safar, demonstra que mesmo os sistemas de IA mais avançados têm dificuldades com tarefas visuais que a maioria das pessoas domina na infância. Os sistemas testados pelo Google, OpenAI, Antrópico, e outros grandes laboratórios de IA usando 180 relógios analógicos personalizados.

Isso vai além dos relógios. Os resultados destacam limitações fundamentais na forma como os sistemas de IA processam e raciocinam sobre informações visuais. "Ler relógios analógicos estabelece um alto padrão para o raciocínio dentro do espaço visual", observa Safar no artigo de pesquisa. A tarefa exige que os modelos identifiquem os ponteiros do relógio, entendam suas relações e traduzam o posicionamento visual em tempo numérico.

A diferença de desempenho torna-se ainda mais evidente ao examinar padrões de erro. Quando humanos cometeram erros, o erro mediano foi de apenas três minutos. Os modelos de IA, por outro lado, erraram o alvo por uma a três horas – aproximadamente o equivalente a um palpite aleatório em um relógio de 12 horas.

Fraquezas Específicas Reveladas

Os sistemas de IA tiveram dificuldades específicas com:

  • Algarismos romanos (precisão de 3.2%)
  • Mostradores de relógio espelhados ou invertidos
  • Fundos coloridos ou designs complexos
  • Relógios com ponteiros de segundos que exigem leituras precisas

Curiosamente, quando os modelos de IA conseguiram ler um relógio, eles tiveram um bom desempenho em tarefas subsequentes, como adicionar tempo ou converter fusos horários. Isso sugere que o principal desafio reside no reconhecimento visual inicial, e não no raciocínio matemático.

Análise do desempenho da indústria

Os modelos do Google lideraram o grupo, com Gêmeos 2.5 Pró alcançando 13.3% de precisão e o Gemini 2.5 Flash atingindo 10.5%. GPA-5 do OpenAI obteve 8.4%, enquanto a Anthropic's Claude Os modelos tiveram desempenho inferior, com Claude 4 Sonnet em 4.2% e Claude 4.1 Opus em 5.6%.

O Grok 4 da xAI registrou resultados surpreendentemente ruins com precisão de 0.7%, embora isso tenha ocorrido porque o modelo sinalizou incorretamente que 63% de todos os relógios mostravam tempos impossíveis, quando apenas 20.6% realmente o fizeram.

Fonte: Alek Safar

Implicações mais amplas para o desenvolvimento de IA

O estudo baseia-se na abordagem de referência “fácil para os humanos, difícil para a IA” observada em testes como ARC-AGI e Banco Simples. Embora os sistemas de IA tenham rapidamente superado tarefas que exigem muito conhecimento e até mesmo superado o desempenho humano em muitos testes padronizados, o raciocínio visual básico continua problemático.

A pesquisa sugere que as abordagens atuais de escalonamento podem não resolver os desafios do raciocínio visual. Safar levanta a hipótese de que relógios analógicos podem estar sub-representados nos dados de treinamento e que traduzir representações visuais de relógios em texto para fins de raciocínio cria complicações adicionais.

O ClockBench se junta a uma coleção crescente de benchmarks projetados para identificar limitações de IA que não são imediatamente óbvias no desempenho em testes tradicionais. O conjunto completo de dados permanece privado para evitar a contaminação de treinamentos futuros de IA, com apenas pequenas amostras disponibilizadas publicamente para testes.

Os resultados levantam questões sobre se os paradigmas de desenvolvimento de IA existentes podem abordar essas lacunas de raciocínio visual ou se abordagens inteiramente novas serão necessárias — semelhante a como a computação em tempo de teste desbloqueou o progresso em outros domínios.

Por enquanto, o humilde relógio analógico se apresenta como uma fortaleza inesperada contra a inteligência artificial, legível por praticamente qualquer humano, mas confundindo os sistemas de IA mais sofisticados do mundo.

Alex McFarland é um jornalista e escritor de IA que explora os mais recentes desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups e publicações de IA em todo o mundo.