Connect with us

Inteligencia artificial

Los modelos de IA tropiezan con la lectura básica de relojes mientras los humanos destacan

mm

Un estudio integral que pone a prueba 11 modelos de IA líderes contra humanos en la lectura de relojes analógicos ha expuesto una debilidad sorprendente en los sistemas actuales de inteligencia artificial. Mientras que los humanos lograron un 89,1% de precisión al decir la hora, el modelo mejor valorado de Google logró solo un 13,3% de precisión en la misma prueba.

El estudio ClockBench, realizado por el investigador Alek Safar, demuestra que incluso los sistemas de IA más avanzados luchan con tareas visuales que la mayoría de las personas dominan en la infancia. La prueba evaluó sistemas de Google, OpenAI, Anthropic, y otros laboratorios de IA importantes utilizando 180 relojes analógicos personalizados.

Esto va más allá de los relojes. Los resultados resaltan las limitaciones fundamentales en la forma en que los sistemas de IA procesan y razonan sobre la información visual. “La lectura de relojes analógicos establece una alta barrera para realizar razonamiento dentro del espacio visual”, señala Safar en el documento de investigación. La tarea requiere que los modelos identifiquen las manecillas del reloj, entiendan sus relaciones y traduzcan la posición visual en hora numérica.

La brecha de rendimiento se vuelve aún más llamativa al examinar los patrones de error. Cuando los humanos cometieron errores, el error mediano fue de solo tres minutos. Los modelos de IA, por otro lado, se equivocaron por uno a tres horas – aproximadamente equivalente a adivinar al azar en un reloj de 12 horas.

Debilidades específicas reveladas

Alex McFarland es un periodista y escritor de inteligencia artificial que explora los últimos desarrollos en inteligencia artificial. Ha colaborado con numerosas startups y publicaciones de inteligencia artificial en todo el mundo.