Líderes de opinión

Benchmarks para LLM

Published August 28, 2024

Updated April 27, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Comprenda el papel y las limitaciones de las pruebas de referencia en la evaluación del rendimiento de LLM. Explore las técnicas para desarrollar LLM robustos.

Los grandes modelos de lenguaje han ganado una popularidad masiva en los últimos años. Quiero decir, lo has visto. La capacidad excepcional de los LLM para comprender los comandos del lenguaje humano los convirtió en la integración perfecta para las empresas, que apoyan flujos de trabajo críticos y automatizan tareas para lograr la máxima eficiencia. Además, más allá de la comprensión del usuario promedio, hay mucho más que los LLM pueden hacer. Y a medida que crece nuestra dependencia de ellos, realmente debemos prestar más atención a las medidas para garantizar la precisión y confiabilidad necesarias. Esto es una tarea global que concierne a instituciones enteras, pero en el ámbito de las empresas, ahora hay varias pruebas de referencia que se pueden utilizar para evaluar el rendimiento de los LLM en varios dominios. Estas pueden probar las capacidades del modelo en comprensión, construcción de lógica, matemáticas, etc., y los resultados determinan si un LLM está listo para la implementación empresarial.

En este artículo, he reunido una lista integral de las pruebas de referencia más populares para la evaluación de LLM. Discutiremos cada prueba de referencia en detalle y veremos cómo diferentes LLM se desempeñan contra los criterios de evaluación. Pero primero, analicemos la evaluación de LLM con más detalle.

¿Qué es la evaluación de LLM?

Al igual que otros modelos de IA, los LLM también necesitan ser evaluados contra pruebas de referencia específicas que evalúan varios aspectos del rendimiento del modelo de lenguaje: conocimiento, precisión, confiabilidad y coherencia. El estándar generalmente implica:

Comprensión de consultas de usuario: Evaluar la capacidad del modelo para comprender y interpretar con precisión una amplia gama de entradas de usuario.
Verificación de salida: Verificar las respuestas generadas por la IA contra una base de conocimientos de confianza para asegurarse de que sean correctas y relevantes.
Robustez: Medir cómo se desempeña el modelo con entradas ambiguas, incompletas o ruidosas.

La evaluación de LLM da a los desarrolladores el poder de identificar y abordar las limitaciones de manera eficiente, para que puedan mejorar la experiencia del usuario en general. Si un LLM se evalúa a fondo, será lo suficientemente preciso y robusto como para manejar diferentes aplicaciones del mundo real, incluso aquellas con entradas ambiguas o inesperadas.

Pruebas de referencia

Los LLM son una de las tecnologías más complicadas hasta la fecha y pueden alimentar incluso las aplicaciones más complicadas. Entonces, el proceso de evaluación simplemente tiene que ser igual de complejo, poniendo a prueba su proceso de pensamiento y precisión técnica.

Una prueba de referencia utiliza conjuntos de datos específicos, métricas y tareas de evaluación para probar el rendimiento de LLM, y permite comparar diferentes LLM y medir su precisión, lo que a su vez impulsa el progreso en la industria mediante un mejor rendimiento.

Aquí hay algunos de los aspectos más típicos del rendimiento de LLM:

Conocimiento: El conocimiento del modelo necesita ser probado en varios dominios. Eso es lo que la prueba de referencia de conocimiento es para. Evalúa cómo puede recordar información del modelo de diferentes campos, como Física, Programación, Geografía, etc.
Razonamiento lógico: Significa probar la capacidad del modelo para ‘pensar’ paso a paso y derivar una conclusión lógica, generalmente implican escenarios en los que el modelo tiene que seleccionar la continuación más plausible o explicación basada en el conocimiento cotidiano y el razonamiento lógico.
Comprensión lectora: Los modelos tienen que ser excelentes en la interpretación del lenguaje natural y generar respuestas en consecuencia. La prueba se parece a responder preguntas basadas en pasajes para evaluar la comprensión, la inferencia y la retención de detalles. Algo así como una prueba de lectura escolar.
Comprensión de código: Esto es necesario para medir la competencia de un modelo en la comprensión, escritura y depuración de código. Estas pruebas de referencia dan al modelo tareas de codificación o problemas que el modelo tiene que resolver con precisión, a menudo cubriendo una serie de lenguajes de programación y paradigmas.
Conocimiento del mundo: Para evaluar la comprensión del modelo de conocimiento general sobre el mundo. Estos conjuntos de datos generalmente tienen preguntas que necesitan un conocimiento enciclopédico amplio para ser respondidas correctamente, lo que los hace diferentes de las pruebas de referencia de conocimiento más específicas y especializadas.

Pruebas de referencia de “Conocimiento”

MMLU (Comprensión del lenguaje multimodal)

Esta prueba de referencia está diseñada para probar la comprensión del LLM de conocimiento factual en una variedad de temas como humanidades, ciencias sociales, historia, ciencias de la computación y incluso derecho. 57 preguntas y 15k tareas todas dirigidas a asegurarse de que el modelo tenga grandes capacidades de razonamiento. Esto hace que MMLU sea una buena herramienta para evaluar el conocimiento factual y el razonamiento del LLM en varios temas.

Recientemente se ha convertido en una prueba de referencia clave para evaluar LLM en las áreas mencionadas anteriormente. Los desarrolladores siempre quieren optimizar sus modelos para superar a otros en esta prueba de referencia, lo que la convierte en un estándar de facto para evaluar el razonamiento avanzado y el conocimiento en LLM. Los modelos de gran empresa han mostrado puntuaciones impresionantes en esta prueba de referencia, incluyendo GPT-4-omni con un 88,7%, Claude 3 Opus con un 86,8%, Gemini 1,5 Pro con un 85,9% y Llama-3 70B con un 82%. Los modelos pequeños generalmente no se desempeñan tan bien en esta prueba de referencia, generalmente no superando el 60-65%, pero el rendimiento reciente de Phi-3-Small-7b con un 75,3% es algo en lo que pensar.

Sin embargo, MMLU no está exento de inconvenientes: tiene problemas conocidos como preguntas ambiguas, respuestas incorrectas y falta de contexto. Y muchos piensan que algunas de sus tareas son demasiado fáciles para una evaluación adecuada de LLM.

Me gustaría aclarar que las pruebas de referencia como MMLU no representan perfectamente escenarios del mundo real. Si un LLM logra una gran puntuación en esto, no siempre significa que se ha convertido en un experto en la materia. Las pruebas de referencia son realmente bastante limitadas en alcance y a menudo dependen de preguntas de opción múltiple, que nunca pueden capturar completamente la complejidad y el contexto de las interacciones del mundo real. La comprensión real requiere conocer hechos y aplicar ese conocimiento de manera dinámica y esto implica pensamiento crítico, resolución de problemas y comprensión contextual. Por estas razones, los LLM constantemente necesitan ser perfeccionados y actualizados para que el modelo mantenga la relevancia y eficacia de la prueba de referencia.

GPQA (Prueba de referencia de preguntas y respuestas de nivel de posgrado de Google)

Esta prueba de referencia evalúa a los LLM en razonamiento lógico utilizando un conjunto de datos con solo 448 preguntas. Los expertos en el dominio lo desarrollaron y cubre temas en biología, física y química.

Cada pregunta pasa por el siguiente proceso de validación:

Un experto en el mismo tema responde la pregunta y proporciona comentarios detallados.
El autor de la pregunta revisa la pregunta basándose en estos comentarios.
Un segundo experto responde la pregunta revisada.

Este proceso en realidad puede asegurar que las preguntas sean objetivas, precisas y desafiantes para un modelo de lenguaje. Incluso los estudiosos experimentados logran solo una precisión del 65% en estas preguntas, mientras que GPT-4-omni alcanza solo un 53,6%, lo que destaca la brecha entre la inteligencia humana y la máquina.

Debido a los requisitos de calificación altos, el conjunto de datos es de hecho bastante pequeño, lo que limita un poco su poder estadístico para comparar la precisión, y requiere efectos de gran tamaño. Los expertos que crearon y validaron estas preguntas vinieron de Upwork, por lo que potencialmente introdujeron sesgos basados en su experiencia y los temas cubiertos.

Pruebas de referencia de código

HumanEval

164 problemas de programación, una prueba real para las capacidades de codificación de los LLM. Es HumanEval. Está diseñado para probar las capacidades de codificación básicas de los grandes modelos de lenguaje (LLM). Utiliza la métrica pass@k para juzgar la precisión funcional del código que se genera, que produce la probabilidad de que al menos uno de los ejemplos de código generados por el LLM supere los casos de prueba.

Si bien el conjunto de datos HumanEval incluye firmas de función, cadenas de documentación, cuerpos de código y varias pruebas unitarias, no incluye la gama completa de problemas de codificación del mundo real, lo que no probará adecuadamente la capacidad del modelo para generar código correcto para diversos escenarios.

MBPP (Programación de Python básica en su mayoría)

Mbpp consta de 1.000 preguntas de programación en Python recopiladas por la multitud. Estos son problemas de nivel de entrada y se centran en habilidades de programación fundamentales. Utiliza enfoques de disparo y ajuste fino para evaluar el rendimiento del modelo, y los modelos más grandes generalmente se desempeñan mejor en este conjunto de datos. Sin embargo, dado que el conjunto de datos contiene principalmente programas de nivel de entrada, todavía no representa completamente la complejidad y los desafíos de las aplicaciones del mundo real.

Pruebas de referencia de matemáticas

Si bien la mayoría de los LLM son bastante buenos en estructurar respuestas estándar, el razonamiento matemático es un problema mucho mayor para ellos. ¿Por qué? Porque requiere habilidades relacionadas con la comprensión de preguntas, un enfoque lógico paso a paso con razonamiento matemático y la derivación de la respuesta correcta.

El método “Cadena de pensamiento” (CoT) está diseñado para evaluar a los LLM en pruebas de referencia relacionadas con matemáticas, implica solicitar a los modelos que expliquen su proceso de razonamiento paso a paso al resolver un problema. Hay varios beneficios en esto. Hace que el proceso de razonamiento sea más transparente, ayuda a identificar fallos en la lógica del modelo y permite una evaluación más granular de las habilidades de resolución de problemas. Al descomponer problemas complejos en una serie de pasos más simples, CoT puede mejorar el rendimiento del modelo en las pruebas de referencia de matemáticas y proporcionar una comprensión más profunda de sus capacidades de razonamiento.

GSM8K: Una prueba de referencia de matemáticas popular

Una de las pruebas de referencia bien conocidas para evaluar las capacidades matemáticas en LLM es el conjunto de datos GSM8K. GSM8K consta de 8,5 mil problemas de matemáticas de nivel de escuela intermedia, que requieren varios pasos para resolver, y las soluciones implican principalmente realizar una secuencia de cálculos elementales. Generalmente, los modelos más grandes o aquellos entrenados específicamente para el razonamiento matemático tienden a desempeñarse mejor en esta prueba de referencia, por ejemplo, los modelos GPT-4 tienen una puntuación del 96,5%, mientras que DeepSeekMATH-RL-7B se queda ligeramente atrás con un 88,2%.

Si bien GSM8K es útil para evaluar la capacidad del modelo para manejar problemas de matemáticas de nivel de escuela intermedia, puede no capturar completamente la capacidad del modelo para resolver desafíos matemáticos más avanzados o diversos, lo que limita su eficacia como medida integral de la capacidad matemática.

El conjunto de datos de matemáticas: Una alternativa integral

El conjunto de datos de matemáticas abordó las limitaciones de pruebas de referencia como GSM8K. Este conjunto de datos es más extenso, cubriendo aritmética elemental hasta problemas de nivel de escuela secundaria e incluso universitario. También se compara con humanos, con un estudiante de doctorado en ciencias de la computación que no le gusta las matemáticas logrando una precisión del 40% y un medallista de oro logrando una precisión del 90%.

Proporciona una evaluación más integral de las capacidades matemáticas de un LLM. Asegura que el modelo sea competente en aritmética básica y sea competente en áreas complejas como álgebra, geometría y cálculo. Pero la complejidad y diversidad aumentadas de los problemas pueden hacer que sea un desafío para que los modelos logren una alta precisión, especialmente aquellos que no se entrenaron explícitamente en una amplia gama de conceptos matemáticos. Además, los formatos de problemas variados en el conjunto de datos de matemáticas pueden introducir inconsistencias en el rendimiento del modelo, lo que hace que sea más difícil sacar conclusiones definitivas sobre la competencia matemática general del modelo.

Utilizar el método de cadena de pensamiento con el conjunto de datos de matemáticas puede mejorar la evaluación porque revela las capacidades de razonamiento paso a paso de los LLM en una amplia gama de desafíos matemáticos. Un enfoque combinado como este asegura una evaluación más robusta y detallada de las capacidades matemáticas reales de un LLM.

Pruebas de referencia de comprensión lectora

Una evaluación de comprensión lectora evalúa la capacidad del modelo para comprender y procesar texto complejo, lo cual es especialmente fundamental para aplicaciones como soporte al cliente, generación de contenido e recuperación de información. Hay varias pruebas de referencia diseñadas para evaluar esta habilidad, cada una con atributos únicos que contribuyen a una evaluación integral de las capacidades del modelo.

RACE (Conjunto de datos de comprensión lectora de exámenes)

Las pruebas de referencia RACE tienen casi 28.000 pasajes y 100.000 preguntas recopiladas de los exámenes de inglés para estudiantes chinos de secundaria entre las edades de 12 y 18 años. No restringe las preguntas y respuestas para que se extraigan de los pasajes dados, lo que hace que las tareas sean aún más desafiantes.

Cubre una amplia gama de temas y tipos de preguntas, lo que hace una evaluación exhaustiva e incluye preguntas a diferentes niveles de dificultad. Además, las preguntas en RACE están diseñadas específicamente para probar las habilidades de lectura humanas y se crean con expertos en el dominio.

Sin embargo, la prueba de referencia tiene algunas desventajas. Dado que se desarrolló en materiales educativos chinos, es propensa a introducir sesgos culturales que no reflejan un contexto global. Además, el alto nivel de dificultad en algunas preguntas no es realmente representativo de tareas del mundo real típicas. Entonces, las evaluaciones de rendimiento pueden no ser muy precisas.

DROP (Razonamiento discreto sobre párrafos)

Otra aproximación significativa es DROP (Razonamiento discreto sobre párrafos), que desafía a los modelos a realizar razonamiento discreto sobre párrafos. Tiene 96.000 preguntas para probar las capacidades de razonamiento de los LLM y las preguntas se extraen de Wikipedia y se recopilan de Amazon Mechanical Turk. Las preguntas DROP a menudo requieren que los modelos realicen operaciones matemáticas como suma, resta y comparación basadas en la información dispersa en un pasaje.

Las preguntas son desafiantes. Requieren que los LLM localicen múltiples números en el pasaje y los sumen o resten para obtener la respuesta final. Los grandes modelos como GPT-4 y Palm logran un 80% y un 85%, mientras que los humanos logran un 96% en el conjunto de datos DROP.

Pruebas de referencia de sentido común

Probar el sentido común en los modelos de lenguaje es interesante pero también clave porque evalúa la capacidad del modelo para tomar decisiones y hacer inferencias que se alineen con el razonamiento humano. A diferencia de nosotros, que desarrollamos un modelo de mundo integral a través de experiencias prácticas, los modelos de lenguaje se entrenan en grandes conjuntos de datos sin comprender inherentemente el contexto. Esto significa que los modelos luchan con tareas que requieren una comprensión intuitiva de situaciones cotidianas, razonamiento lógico y conocimiento práctico, que son muy importantes para aplicaciones de IA robustas y confiables.

HellaSwag (Finales más difíciles, contextos más largos y actividades de bajo disparo para situaciones con generaciones adversas)

Hellaswag fue desarrollado por Rowan Zellers y colegas en la Universidad de Washington y el Instituto Allen de Inteligencia Artificial. Está diseñado para probar la capacidad del modelo para predecir la continuación más plausible de un escenario dado. Esta prueba de referencia se construyó utilizando la filtración adversa (AF), donde una serie de discriminadores seleccionan iterativamente respuestas incorrectas generadas por máquina. Este método crea un conjunto de datos con ejemplos triviales para humanos pero desafiantes para los modelos, lo que resulta en una “zona de dificultad” adecuada.

Si bien Hellaswag ha sido desafiante para modelos anteriores, los modelos de estado del arte como GPT-4 han logrado niveles de rendimiento cercanos a la precisión humana, lo que indica un progreso significativo en el campo. Sin embargo, estos resultados sugieren la necesidad de pruebas de referencia en constante evolución para mantener el ritmo de los avances en las capacidades de IA.

Openbook

El conjunto de datos Openbook consta de 5957 preguntas de ciencia de nivel elemental de múltiple opción. Las preguntas se recopilaron de exámenes de libro abierto y se desarrollaron para evaluar la comprensión humana del tema.

La prueba de referencia Openbook requiere capacidad de razonamiento más allá de la recuperación de información. GPT-4 logra la precisión más alta del 95,9% hasta ahora.

OpenbookQA se modela según exámenes de libro abierto y consta de 5.957 preguntas de ciencia de nivel elemental de múltiple opción. Estas preguntas están diseñadas para probar la comprensión de 1.326 hechos científicos básicos y su aplicación a situaciones nuevas.

Al igual que Hellaswag, los modelos anteriores encontraron OpenbookQA desafiante, pero los modelos modernos como GPT-4 han logrado niveles de rendimiento cercanos a los humanos. Este progreso subraya la importancia de desarrollar pruebas de referencia aún más complejas y matizadas para seguir empujando los límites de la comprensión de IA.

¿Son suficientes las pruebas de referencia para la evaluación del rendimiento de LLM?

Sí, si bien proporcionan un enfoque estandarizado para evaluar el rendimiento de LLM, también pueden ser engañosas. La Organización de Sistemas de Modelos Grandes dice que una buena prueba de referencia de LLM debe ser escalable, capaz de evaluar nuevos modelos con un número relativamente pequeño de pruebas, y proporcionar un orden de clasificación único para todos los modelos. Pero, hay razones por las que pueden no ser suficientes. Aquí hay algunas:

Filtración de pruebas de referencia

Este es un encuentro común, y sucede cuando los datos de entrenamiento se superponen con los datos de prueba, lo que hace una evaluación engañosa. Si un modelo ya ha encontrado algunas preguntas de prueba durante el entrenamiento, su resultado puede no reflejar con precisión sus capacidades reales. Pero una prueba de referencia ideal debería minimizar la memorización y reflejar escenarios del mundo real.

Sesgo de evaluación

Las clasificaciones de pruebas de referencia de LLM se utilizan para comparar el rendimiento de LLM en varias tareas. Sin embargo, confiar en esas clasificaciones para la comparación de modelos puede ser engañoso. Cambios simples en las pruebas de referencia, como alterar el orden de las preguntas, pueden cambiar la clasificación de los modelos hasta ocho posiciones. Además, los LLM pueden desempeñarse de manera diferente dependiendo de los métodos de puntuación, lo que destaca la importancia de considerar los sesgos de evaluación.

Apertura

La interacción del mundo real con LLM implica diseñar instrucciones para generar salidas de IA deseadas. Las salidas de LLM dependen de la efectividad de las instrucciones, y las pruebas de referencia están diseñadas para probar la conciencia de contexto de LLM. Si bien las pruebas de referencia están diseñadas para probar la conciencia de contexto de un LLM, no siempre se traducen directamente en el rendimiento del mundo real. Por ejemplo, un modelo que logra una puntuación del 100% en un conjunto de datos de prueba de referencia, como el LSAT, no garantiza el mismo nivel de precisión en aplicaciones prácticas. Esto subraya la importancia de considerar la naturaleza abierta de las tareas del mundo real en la evaluación de LLM.

Evaluación efectiva para LLM robustos

Entonces, ahora sabes que las pruebas de referencia no siempre son la mejor opción porque no siempre pueden generalizarse en todos los problemas. Pero, hay otras formas.

Pruebas de referencia personalizadas

Estas son perfectas para probar comportamientos y funcionalidades específicas en escenarios específicos de tareas. Digamos, si un LLM se diseña para oficiales médicos, los conjuntos de datos recopilados de entornos médicos efectivamente representarán escenarios del mundo real. Estas pruebas de referencia personalizadas pueden centrarse en la comprensión del lenguaje específico del dominio, el rendimiento y los requisitos contextuales únicos. Al alinear las pruebas de referencia con posibles escenarios del mundo real, puedes asegurarte de que el LLM se desempeñe bien en general y sobresalga en las tareas específicas para las que está destinado. Esto puede ayudar a identificar y abordar cualquier brecha o debilidad en las capacidades del modelo temprano.

Tubería de detección de fugas de datos

Si deseas que tus evaluaciones “muestren” integridad, tener una tubería de pruebas de referencia libre de fugas de datos es muy importante. La fuga de datos ocurre cuando los datos de prueba se incluyen en el corpus de preentrenamiento del modelo, lo que resulta en puntuaciones de rendimiento artificialmente altas. Para evitar esto, las pruebas de referencia deben cruzarse con los datos de preentrenamiento. Además, se deben tomar medidas para evitar cualquier información previamente vista. Esto puede involucrar el uso de conjuntos de datos propietarios o recién curados que se mantengan separados de la tubería de entrenamiento del modelo, lo que garantizará que las métricas de rendimiento que obtengas reflejen la capacidad del modelo para generalizar bien.

Evaluación humana

Las métricas automatizadas por sí solas no pueden capturar el espectro completo del rendimiento de un modelo, especialmente cuando se trata de aspectos muy matizados y subjetivos de la comprensión y generación del lenguaje. Aquí, la evaluación humana proporciona una evaluación mucho mejor:

Contratación de profesionales que puedan proporcionar evaluaciones detalladas y confiables, especialmente para dominios especializados.
Externalización ¡Plataformas como Amazon Mechanical Turk permiten recopilar juicios humanos diversos rápidamente y a bajo costo.
Retorno de la comunidad: Usar plataformas como el LMSYS leaderboard arena, donde los usuarios pueden votar y comparar modelos, agrega una capa adicional de información. El LMSYS Chatbot Arena Hard, por ejemplo, es particularmente efectivo para resaltar las diferencias sutiles entre los mejores modelos a través de interacciones y votos directos de los usuarios.

Conclusión

Sin evaluación y pruebas de referencia, no tendríamos forma de saber si la capacidad de los LLM para manejar tareas del mundo real es tan precisa y aplicable como pensamos que es. Pero, como dije, las pruebas de referencia no son una forma completamente segura de verificar eso, pueden llevar a brechas en el rendimiento de los LLM. Esto también puede frenar el desarrollo de LLM que sean verdaderamente robustos para el trabajo.

Así es como debería ser en un mundo ideal. Los LLM comprenden las consultas de los usuarios, identifican errores en las instrucciones, completan tareas como se indica y generan salidas confiables. Los resultados ya son excelentes pero no ideales. Aquí es donde las pruebas de referencia específicas de tareas son muy útiles, al igual que la evaluación humana y la detección de fugas de pruebas de referencia. Al usar esas, obtenemos la oportunidad de producir LLM realmente robustos.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, es una destacada científica de datos con más de una década de experiencia, que abarca tanto análisis de productos como análisis para tecnologías de vanguardia. Ella encabezó la creación y el análisis para Yasmina, el primer asistente de voz basado en IA completamente funcional y localizado para Arabia Saudita, manejando la compleja localización de datos y etiquetado para el árabe estándar moderno y los dialectos sauditas. Actualmente, Irina dirige el análisis de calidad en Yandex, impulsando avances en tecnologías de IA.