Connect with us

Más allá de las mediciones de referencia: Por qué la evaluación de la IA necesita una verificación de la realidad

Inteligencia artificial

Más allá de las mediciones de referencia: Por qué la evaluación de la IA necesita una verificación de la realidad

mm

Si ha estado siguiendo la IA en los últimos tiempos, probablemente haya visto titulares que informan sobre los logros destacados de los modelos de IA que alcanzan récords en las mediciones de referencia. Desde tareas de reconocimiento de imágenes en ImageNet hasta lograr puntuaciones superhumanas en traducción y diagnóstico de imágenes médicas, las mediciones de referencia han sido durante mucho tiempo el estándar de oro para medir el rendimiento de la IA. Sin embargo, tan impresionantes como pueden ser estos números, no siempre capturan la complejidad de las aplicaciones del mundo real. Un modelo que se desempeña perfectamente en una medición de referencia aún puede fallar cuando se pone a prueba en entornos del mundo real. En este artículo, profundizaremos en por qué las mediciones de referencia tradicionales no capturan el verdadero valor de la IA y exploraremos métodos de evaluación alternativos que reflejan mejor los desafíos dinámicos, éticos y prácticos de implementar la IA en el mundo real.

El atractivo de las mediciones de referencia

Durante años, las mediciones de referencia han sido la base de la evaluación de la IA. Ofrecen conjuntos de datos estáticos diseñados para medir tareas específicas como el reconocimiento de objetos o la traducción automática. ImageNet, por ejemplo, es una medición de referencia ampliamente utilizada para probar la clasificación de objetos, mientras que BLEU y ROUGE califican la calidad del texto generado por máquina comparándolo con textos de referencia escritos por humanos. Estas pruebas estandarizadas permiten a los investigadores comparar el progreso y crear una competencia saludable en el campo. Las mediciones de referencia han desempeñado un papel clave en el impulso de importantes avances en el campo. La competencia ImageNet, por ejemplo, jugó un papel crucial en la revolución del aprendizaje profundo al mostrar mejoras significativas en la precisión.

Sin embargo, las mediciones de referencia a menudo simplifican la realidad. Como los modelos de IA suelen entrenarse para mejorar en una tarea bien definida bajo condiciones fijas, esto puede llevar a una optimización excesiva. Para lograr puntuaciones altas, los modelos pueden confiar en patrones de conjunto de datos que no se mantienen más allá de la medición de referencia. Un ejemplo famoso es un modelo de visión entrenado para distinguir lobos de huskies. En lugar de aprender características distinguibles de animales, el modelo se basó en la presencia de fondos nevados comúnmente asociados con lobos en los datos de entrenamiento. Como resultado, cuando el modelo se presentó con un husky en la nieve, lo etiquetó incorrectamente como un lobo. Esto muestra cómo la optimización excesiva para una medición de referencia puede llevar a modelos defectuosos. Como establece la Ley de Goodhart, “Cuando una medida se convierte en un objetivo, deja de ser una buena medida”. Así, cuando las puntuaciones de las mediciones de referencia se convierten en el objetivo, los modelos de IA ilustran la Ley de Goodhart: producen puntuaciones impresionantes en las clasificaciones, pero luchan para hacer frente a los desafíos del mundo real.

Expectativas humanas vs. puntuaciones métricas

Una de las mayores limitaciones de las mediciones de referencia es que a menudo no capturan lo que realmente importa a los humanos. Considere la traducción automática. Un modelo puede obtener una buena puntuación en la métrica BLEU, que mide la superposición entre las traducciones generadas por máquina y las traducciones de referencia. Si bien la métrica puede evaluar cuán plausible es una traducción en términos de superposición a nivel de palabra, no tiene en cuenta la fluidez o el significado. Una traducción podría obtener una mala puntuación a pesar de ser más natural o incluso más precisa, simplemente porque utilizó una redacción diferente a la de la referencia. Los usuarios humanos, sin embargo, se preocupan por el significado y la fluidez de las traducciones, no solo por la coincidencia exacta con una referencia. El mismo problema se aplica a la resumen de textos: una alta puntuación ROUGE no garantiza que un resumen sea coherente o que capture los puntos clave que un lector humano esperaría.

Para los modelos de IA generativos, el problema se vuelve aún más desafiante. Por ejemplo, los grandes modelos de lenguaje (LLM) suelen evaluarse en una medición de referencia MMLU para probar su capacidad para responder preguntas en múltiples dominios. Si bien la medición de referencia puede ayudar a probar el rendimiento de los LLM para responder preguntas, no garantiza la confiabilidad. Estos modelos aún pueden “alucinar“, presentando hechos falsos pero plausibles. Esta brecha no es fácil de detectar con mediciones de referencia que se centran en respuestas correctas sin evaluar la veracidad, el contexto o la coherencia. En un caso muy publicitado, un asistente de IA utilizado para redactar un breve legal citó casos judiciales completamente falsos. El modelo de IA puede parecer convincente en papel, pero falló en las expectativas humanas básicas de veracidad.

Desafíos de las mediciones de referencia estáticas en contextos dinámicos

  • Ajustarse a entornos cambiantes

Las mediciones de referencia estáticas evalúan el rendimiento de la IA bajo condiciones controladas, pero los escenarios del mundo real son impredecibles. Por ejemplo, un modelo de IA conversacional podría destacarse en preguntas únicas y predecibles en una medición de referencia, pero luchar en un diálogo de varios pasos que incluya seguimientos, jerga o errores de escritura. De manera similar, los automóviles autónomos a menudo se desempeñan bien en pruebas de detección de objetos bajo condiciones ideales, pero fallan en circunstancias inusuales, como mala iluminación, clima adverso o obstáculos inesperados. Por ejemplo, un signo de stop alterado con calcomanías puede confundir el sistema de visión del automóvil, lo que lleva a una mala interpretación. Estos ejemplos destacan que las mediciones de referencia estáticas no miden de manera fiable las complejidades del mundo real.

  • Consideraciones éticas y sociales

Las mediciones de referencia tradicionales a menudo no evalúan el rendimiento ético de la IA. Un modelo de reconocimiento de imágenes podría lograr una alta precisión pero malidentificar a individuos de ciertos grupos étnicos debido a datos de entrenamiento sesgados. De manera similar, los modelos de lenguaje pueden obtener buenas puntuaciones en gramática y fluidez mientras producen contenido sesgado o perjudicial. Estos problemas, que no se reflejan en las métricas de las mediciones de referencia, tienen consecuencias significativas en las aplicaciones del mundo real.

  • Incapacidad para capturar aspectos matizados

Las mediciones de referencia son excelentes para verificar habilidades de superficie, como si un modelo puede generar texto gramaticalmente correcto o una imagen realista. Pero a menudo luchan con cualidades más profundas, como el razonamiento común o la adecuación contextual. Por ejemplo, un modelo podría destacarse en una medición de referencia produciendo una oración perfecta, pero si esa oración es factualmente incorrecta, es inútil. La IA necesita entender cuándo y cómo decir algo, no solo qué decir. Las mediciones de referencia rara vez prueban este nivel de inteligencia, que es crítico para aplicaciones como chatbots o creación de contenido.

  • Adaptación contextual

Los modelos de IA a menudo luchan para adaptarse a nuevos contextos, especialmente cuando se enfrentan a datos fuera de su conjunto de entrenamiento. Las mediciones de referencia suelen estar diseñadas con datos similares a los que se entrenó el modelo. Esto significa que no prueban completamente cómo maneja un modelo entradas nuevas o inesperadas —un requisito crítico en las aplicaciones del mundo real. Por ejemplo, un chatbot podría destacarse en preguntas de medición de referencia, pero luchar cuando los usuarios hacen preguntas irrelevantes, como jerga o temas de nicho.

  • Razonamiento e inferencia

Si bien las mediciones de referencia pueden medir el reconocimiento de patrones o la generación de contenido, a menudo no alcanzan el razonamiento y la inferencia de nivel superior. La IA necesita hacer más que imitar patrones. Debe entender implicaciones, establecer conexiones lógicas e inferir nueva información. Por ejemplo, un modelo podría generar una respuesta factualmente correcta pero fallar en conectarla lógicamente con una conversación más amplia. Las mediciones de referencia actuales pueden no capturar completamente estas habilidades cognitivas avanzadas, lo que nos deja con una visión incompleta de las capacidades de la IA.

Más allá de las mediciones de referencia: Un nuevo enfoque para la evaluación de la IA

Para cerrar la brecha entre el rendimiento de las mediciones de referencia y el éxito en el mundo real, surge un nuevo enfoque para la evaluación de la IA. A continuación, se presentan algunas estrategias que están ganando tracción:

  • Retorno de información con intervención humana: En lugar de confiar únicamente en métricas automatizadas, involucre a evaluadores humanos en el proceso. Esto podría significar que expertos o usuarios finales evalúen las salidas de la IA para calidad, utilidad y adecuación. Los humanos pueden evaluar mejor aspectos como el tono, la relevancia y la consideración ética en comparación con las mediciones de referencia.
  • Pruebas de despliegue en el mundo real: Los sistemas de IA deben probarse en entornos lo más cercanos posible a las condiciones del mundo real. Por ejemplo, los automóviles autónomos podrían someterse a pruebas en carreteras simuladas con escenarios de tráfico impredecibles, mientras que los chatbots podrían desplegarse en entornos en vivo para manejar conversaciones diversas. Esto garantiza que los modelos se evalúen en las condiciones que realmente enfrentarán.
  • Pruebas de resistencia y estrés: Es crucial probar los sistemas de IA bajo condiciones inusuales o adversas. Esto podría involucrar probar un modelo de reconocimiento de imágenes con imágenes distorsionadas o ruidosas o evaluar un modelo de lenguaje con diálogos largos y complicados. Al entender cómo se comporta la IA bajo estrés, podemos prepararla mejor para los desafíos del mundo real.
  • Métricas de evaluación multidimensionales: En lugar de confiar en una sola puntuación de medición de referencia, evalúe la IA en una gama de métricas, incluyendo precisión, equidad, robustez y consideraciones éticas. Este enfoque holístico proporciona una comprensión más completa de las fortalezas y debilidades de un modelo de IA.
  • Pruebas específicas de dominio: La evaluación debe personalizarse para el dominio específico en el que se implementará la IA. La IA médica, por ejemplo, debe probarse en estudios de caso diseñados por profesionales médicos, mientras que una IA para mercados financieros debe evaluarse por su estabilidad durante las fluctuaciones económicas.

En resumen

Si bien las mediciones de referencia han avanzado en la investigación de la IA, no capturan el rendimiento del mundo real. A medida que la IA se mueve desde los laboratorios a las aplicaciones prácticas, la evaluación de la IA debe ser centrada en el ser humano y holística. Probar en condiciones del mundo real, incorporar retroalimentación humana y priorizar la equidad y la robustez son fundamentales. El objetivo no es encabezar las clasificaciones, sino desarrollar una IA que sea confiable, adaptable y valiosa en el mundo dinámico y complejo.

El Dr. Tehseen Zia es un profesor asociado titular en la Universidad COMSATS de Islamabad, con un doctorado en Inteligencia Artificial de la Universidad Técnica de Viena, Austria. Especializado en Inteligencia Artificial, Aprendizaje Automático, Ciencia de Datos y Visión por Computadora, ha hecho contribuciones significativas con publicaciones en revistas científicas reputadas. El Dr. Tehseen también ha liderado varios proyectos industriales como investigador principal y ha servido como consultor de Inteligencia Artificial.