Connect with us

Inteligência artificial

Modelos de IA tropeçam na leitura básica de relógios enquanto humanos se destacam

mm

Um estudo abrangente testando 11 modelos de IA líderes contra humanos na leitura de relógios analógicos expôs uma surpreendente fraqueza nos sistemas de inteligência artificial atuais. Enquanto os humanos alcançaram 89,1% de precisão ao dizer a hora, o melhor modelo do Google conseguiu apenas 13,3% de precisão no mesmo teste.

O estudo ClockBench, conduzido pelo pesquisador Alek Safar, demonstra que mesmo os sistemas de IA mais avançados lutam com tarefas visuais que a maioria das pessoas domina na infância. O benchmark testou sistemas da Google, OpenAI, Anthropic e outros laboratórios de IA importantes usando 180 relógios analógicos personalizados.

Isso vai além dos relógios. Os resultados destacam limitações fundamentais na forma como os sistemas de IA processam e raciocinam sobre informações visuais. “Ler relógios analógicos define uma barra alta para fazer raciocínio dentro do espaço visual”, observa Safar no artigo de pesquisa. A tarefa exige que os modelos identifiquem os ponteiros do relógio, entendam suas relações e traduzam a posição visual em tempo numérico.

A diferença de desempenho se torna ainda mais impressionante ao examinar os padrões de erro. Quando os humanos cometiam erros, a média do erro era de apenas três minutos. Os modelos de IA, por outro lado, erravam a marca por uma a três horas – aproximadamente equivalente a adivinhação aleatória em um relógio de 12 horas.

Fraquezas Específicas Reveladas

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.