Líderes del pensamiento

Puntos de referencia para LLM

Publicado 28 de agosto de 2024

Irina Barskaya, Doctorado, científico de datos jefe en Yandex

Comprender el papel y las limitaciones de los puntos de referencia en la evaluación del desempeño de LLM. Explore las técnicas para desarrollar LLM sólidos.

Los Modelos de Lenguaje de Gran Tamaño (LLM) han ganado una popularidad masiva en los últimos años. Es decir, lo han visto. La excepcional capacidad de los LLM para comprender comandos del lenguaje humano los ha convertido en la integración perfecta para las empresas, respaldando flujos de trabajo críticos y automatizando tareas para maximizar la eficiencia. Además, más allá de la comprensión del usuario promedio, los LLM pueden hacer muchísimo más. Y a medida que aumenta nuestra dependencia de ellos, debemos prestar mayor atención a las medidas para garantizar la precisión y la fiabilidad necesarias. Esta es una tarea global que concierne a instituciones enteras, pero en el ámbito empresarial existen ahora varios puntos de referencia que pueden utilizarse para evaluar el rendimiento de los LLM en diversos dominios. Estos pueden evaluar las capacidades del modelo en comprensión, construcción lógica, matemáticas, etc., y los resultados determinan si un LLM está listo para su implementación empresarial.

En este artículo, he reunido una lista completa de los puntos de referencia más populares para la evaluación de un LLM. Discutiremos cada punto de referencia en detalle y veremos cómo se desempeñan los diferentes LLM según los criterios de evaluación. Pero primero, comprendamos la evaluación de un LLM con más detalle.

¿Qué es la evaluación LLM?

Al igual que otros modelos de IA, los LLM también deben evaluarse con criterios específicos que evalúan diversos aspectos del rendimiento del modelo lingüístico: conocimiento, precisión, fiabilidad y consistencia. El estándar suele incluir:

Comprensión de las consultas de los usuarios: Evaluar la capacidad del modelo para comprender e interpretar con precisión una amplia gama de entradas del usuario.
Verificación de salida: Verificar las respuestas generadas por IA con una base de conocimientos confiable para garantizar que sean correctas y relevantes.
Robustez: Medir qué tan bien se desempeña el modelo con entradas ambiguas, incompletas o ruidosas.

La evaluación LLM brinda a los desarrolladores el poder de identificar y abordar las limitaciones de manera eficiente, para que puedan mejorar la experiencia general del usuario. Si un LLM se evalúa minuciosamente, será lo suficientemente preciso y sólido como para manejar diferentes aplicaciones del mundo real, incluso aquellas con entradas ambiguas o inesperadas.

Los puntos de referencia

Los LLM son una de las piezas de tecnología más complicadas hasta la fecha y pueden impulsar incluso las aplicaciones más complicadas. Por lo tanto, el proceso de evaluación simplemente tiene que ser igualmente complejo y poner a prueba su proceso de pensamiento y precisión técnica.

Un punto de referencia utiliza conjuntos de datos, métricas y tareas de evaluación específicos para probar el desempeño de los LLM y permite comparar diferentes LLM y medir su precisión, lo que a su vez impulsa el progreso en la industria mediante un mejor desempeño.

Estos son algunos de los aspectos más típicos del desempeño de un LLM:

ConocimientoEl conocimiento del modelo debe evaluarse en diversos dominios. Para eso está el punto de referencia de conocimiento. Evalúa la eficacia con la que el modelo puede recordar información de diferentes campos, como física, programación, geografía, etc.
lógico Razonamiento:Significa probar la capacidad de un modelo para "pensar" paso a paso y derivar una conclusión lógica; generalmente implican escenarios en los que el modelo tiene que seleccionar la continuación o explicación más plausible basándose en el conocimiento cotidiano y el razonamiento lógico.
Comprensión lectora: Los modelos deben ser excelentes en la interpretación del lenguaje natural y luego generar respuestas en consecuencia. La prueba parece responder preguntas basadas en pasajes para medir la comprensión, la inferencia y la retención de detalles. Como una prueba de lectura escolar.
Comprensión del código: Esto es necesario para medir la competencia de un modelo en la comprensión, escritura y depuración de código. Estos puntos de referencia le dan al modelo tareas o problemas de codificación que el modelo debe resolver con precisión, y a menudo cubren una variedad de lenguajes y paradigmas de programación.
Conocimiento mundialPara evaluar la comprensión del modelo del conocimiento general sobre el mundo. Estos conjuntos de datos suelen contener preguntas que requieren un conocimiento amplio y enciclopédico para responderse correctamente, lo que los diferencia de los puntos de referencia de conocimiento más específicos y especializados.

Puntos de referencia de “conocimiento”

MMLU (Comprensión del lenguaje multimodal)

Este punto de referencia está diseñado para evaluar la comprensión del conocimiento fáctico del LLM en diversos temas como humanidades, ciencias sociales, historia, informática e incluso derecho. 57 preguntas y 15 tareas, todas dirigidas a garantizar que el modelo tenga excelentes capacidades de razonamiento. Esto convierte a MMLU en una buena herramienta para evaluar el conocimiento fáctico y el razonamiento de un LLM sobre diversos temas.

Recientemente se ha convertido en un punto de referencia clave para evaluar los LLM en las áreas mencionadas anteriormente. Los desarrolladores siempre quieren optimizar sus modelos para superar a otros en este punto de referencia, lo que lo convierte en un estándar de facto para evaluar el razonamiento y el conocimiento avanzados en los LLM. Los grandes modelos de nivel empresarial han demostrado puntuaciones impresionantes en este punto de referencia, incluido el GPT-4-omni con un 88.7%, Claude 3 Opus con un 86.8%, Gemini 1.5 Pro con un 85.9% y Llama-3 70B con un 82%. Los modelos pequeños normalmente no funcionan tan bien en este punto de referencia, por lo general no superan el 60-65%, pero el rendimiento reciente del Phi-3-Small-7b al 75.3% es algo en lo que hay que pensar.

Sin embargo, MMLU no está exenta de desventajas: ha conocido problemas como preguntas ambiguas, respuestas incorrectasy falta de contexto. Y muchos piensan que algunas de sus tareas son demasiado fáciles para una evaluación LLM adecuada.

Quiero aclarar que los puntos de referencia como MMLU no reflejan a la perfección las situaciones del mundo real. Si un Máster en Derecho (LLM) obtiene una excelente puntuación en este campo, no siempre significa que se haya convertido en un experto en la materia. Los puntos de referencia tienen un alcance bastante limitado y a menudo se basan en preguntas de opción múltiple, que nunca pueden captar plenamente la complejidad y el contexto de las interacciones del mundo real. Una verdadera comprensión requiere conocer los hechos y aplicar ese conocimiento de forma dinámica, lo que implica pensamiento crítico, resolución de problemas y comprensión del contexto. Por estas razones, los LLM deben perfeccionarse y actualizarse constantemente para que el modelo mantenga la relevancia y la eficacia del punto de referencia.

GPQA (punto de referencia de preguntas y respuestas a prueba de Google a nivel de posgrado)

Este punto de referencia evalúa los LLM en razonamiento lógico utilizando un datos con sólo 448 preguntas. Lo desarrollaron expertos en el campo y cubre temas de biología, física y química.

Cada pregunta pasa por el siguiente proceso de validación:

Un experto en el mismo tema responde la pregunta y brinda comentarios detallados.
El redactor de la pregunta revisa la pregunta basándose en estos comentarios.
Un segundo experto responde a la pregunta revisada.

En realidad, este proceso puede garantizar que las preguntas sean objetivas, precisas y desafiantes para un modelo de lenguaje. Incluso los doctorados experimentados logran solo una precisión del 65% en estas preguntas, mientras que GPT-4-omni alcanza solo el 53.6%, lo que resalta la brecha entre la inteligencia humana y la de la máquina.

Debido a los altos requisitos de calificación, el conjunto de datos es de hecho bastante pequeño, lo que limita en cierta medida su poder estadístico para comparar la precisión y requiere tamaños de efecto grandes. Los expertos que crearon y validaron estas preguntas provinieron de Upwork, por lo que potencialmente introdujeron sesgos según su experiencia y los temas cubiertos.

Puntos de referencia de código

evaluación humana

164 problemas de programación, una prueba real para las habilidades de codificación de los LLM. Es evaluación humana. Está diseñado para probar las capacidades básicas de codificación de modelos de lenguaje grandes (LLM). Utiliza la métrica pass@k para juzgar la precisión funcional del código que se está generando, lo que genera la probabilidad de que al menos una de las k muestras de código principales generadas por LLM pase los casos de prueba.

Si bien el conjunto de datos HumanEval incluye firmas de funciones, cadenas de documentación, cuerpos de código y varias pruebas unitarias, no incluye la gama completa de problemas de codificación del mundo real, que simplemente no probarán adecuadamente la capacidad de un modelo para crear código correcto para diversos escenarios.

MBPP (Programación Python principalmente básica)

Mbpp El punto de referencia consta de 1,000 preguntas de programación Python de origen público. Estos son problemas de nivel básico y se centran en habilidades fundamentales de programación. Utiliza enfoques de unos pocos disparos y de ajuste fino para evaluar el rendimiento del modelo, y los modelos más grandes suelen funcionar mejor en este conjunto de datos. Sin embargo, dado que el conjunto de datos contiene principalmente programas de nivel básico, todavía no representa completamente las complejidades y desafíos de las aplicaciones del mundo real.

Puntos de referencia de matemáticas

Si bien la mayoría de los LLM son bastante buenos para estructurar respuestas estándar, el razonamiento matemático es un problema mucho mayor para ellos. ¿Por qué? Porque requiere habilidades relacionadas con la comprensión de preguntas, un enfoque lógico paso a paso con razonamiento matemático y derivación de la respuesta correcta.

El método "Cadena de Pensamiento" (CoT) está diseñado para evaluar a los estudiantes de maestría en matemáticas en puntos de referencia. Consiste en incitar a los modelos a explicar su proceso de razonamiento paso a paso al resolver un problema. Esto ofrece varias ventajas: hace que el proceso de razonamiento sea más transparente, ayuda a identificar fallas en la lógica del modelo y permite una evaluación más detallada de las habilidades de resolución de problemas. Al descomponer problemas complejos en una serie de pasos más simples, CoT puede mejorar el rendimiento del modelo en los puntos de referencia matemáticos y proporcionar una comprensión más profunda de sus capacidades de razonamiento.

GSM8K: un punto de referencia matemático popular

Uno de los puntos de referencia más conocidos para evaluar las habilidades matemáticas en los LLM es el conjunto de datos GSM8K. GSM8K consta de 8.5 mil problemas matemáticos de secundaria, cuya resolución requiere algunos pasos y las soluciones implican principalmente realizar una secuencia de cálculos elementales. Normalmente, los modelos más grandes o aquellos específicamente entrenados para el razonamiento matemático tienden a funcionar mejor en este punto de referencia, por ejemplo, los modelos GPT-4 cuentan con una puntuación del 96.5%, mientras que DeepSeekMATH-RL-7B se queda ligeramente atrás con un 88.2%.

Si bien GSM8K es útil para evaluar la capacidad de un modelo para resolver problemas matemáticos de nivel escolar primario, es posible que no capture completamente la capacidad de un modelo para resolver desafíos matemáticos más avanzados o diversos, lo que limita su eficacia como medida integral de la capacidad matemática.

El conjunto de datos matemáticos: una alternativa integral

El conjunto de datos matemáticos abordó las deficiencias de puntos de referencia como GSM8K. Este conjunto de datos es más extenso y abarca desde la aritmética primaria hasta la escuela secundaria e incluso problemas de nivel universitario. También se compara con los humanos: un estudiante de doctorado en informática al que no le gustan las matemáticas logra una precisión del 40 % y un medallista de oro logra una precisión del 90 %.

Proporciona una evaluación más completa de las capacidades matemáticas de un LLM. Se encarga de demostrar que el modelo domina la aritmética básica y es competente en áreas complejas como álgebra, geometría y cálculo. Sin embargo, la mayor complejidad y diversidad de los problemas puede dificultar que los modelos alcancen una alta precisión, especialmente aquellos que no han sido entrenados explícitamente en una amplia gama de conceptos matemáticos. Además, la variedad de formatos de problemas en el conjunto de datos de matemáticas puede introducir inconsistencias en el rendimiento del modelo, lo que dificulta considerablemente la obtención de conclusiones definitivas sobre su competencia matemática general.

El uso del método de Cadena de Pensamiento con el conjunto de datos de Matemáticas puede mejorar la evaluación, ya que revela la capacidad de razonamiento paso a paso de los LLM en un amplio espectro de desafíos matemáticos. Un enfoque combinado como este garantiza una evaluación más sólida y detallada de las verdaderas capacidades matemáticas de un LLM.

Puntos de referencia de comprensión lectora

Una evaluación de comprensión lectora evalúa la capacidad del modelo para comprender y procesar textos complejos, lo cual es fundamental para aplicaciones como la atención al cliente, la generación de contenido y la recuperación de información. Existen varios parámetros diseñados para evaluar esta habilidad, cada uno con atributos únicos que contribuyen a una evaluación integral de las capacidades del modelo.

RACE (conjunto de datos de comprensión lectora de exámenes)

Los puntos de referencia RACE tienen casi 28,000 pasajes y 100,000 preguntas recopiladas de los exámenes de inglés para estudiantes chinos de secundaria y preparatoria entre 12 y 18 años. No restringe las preguntas y respuestas que se extraerán de los pasajes dados, lo que hace que las tareas sean uniformes. Cuanto más desafiante.

Cubre una amplia gama de temas y tipos de preguntas, lo que permite una evaluación exhaustiva e incluye preguntas en diferentes niveles de dificultad. Además, las preguntas de RACE están diseñadas específicamente para evaluar las habilidades de lectura humana y son creadas por expertos en el campo.

Sin embargo, el punto de referencia tiene algunos inconvenientes. Dado que está desarrollado con materiales educativos chinos, es propenso a introducir sesgos culturales que no reflejan un contexto global. Además, el alto nivel de dificultad de algunas preguntas no es realmente representativo de las tareas típicas del mundo real. Por tanto, las evaluaciones de desempeño pueden no ser tan precisas.

DROP (razonamiento discreto sobre párrafos)

Otro enfoque importante es DROP (Razonamiento discreto sobre párrafos), que desafía a los modelos a realizar razonamiento discreto sobre párrafos. Tiene 96,000 preguntas para probar las capacidades de razonamiento de los LLM y las preguntas se extraen de Wikipedia y se obtienen mediante colaboración colectiva de Amazon Mechanical Turk. Las preguntas DROP a menudo llaman a modelos para realizar operaciones matemáticas como suma, resta y comparación basadas en información dispersa en un pasaje.

Las preguntas son desafiantes. Requieren que los LLM ubiquen varios números en el pasaje y los sumen o resten para obtener la respuesta final. Los modelos grandes como GPT-4 y Palm alcanzan el 80% y el 85%, mientras que los humanos alcanzan el 96% en el conjunto de datos DROP.

Puntos de referencia de sentido común

Poner a prueba el sentido común en los modelos lingüísticos es interesante, pero también clave, ya que evalúa la capacidad de un modelo para emitir juicios e inferencias que se alinean con nuestro razonamiento humano. A diferencia de nosotros, que desarrollamos un modelo del mundo completo mediante experiencias prácticas, los modelos lingüísticos se entrenan con grandes conjuntos de datos sin comprender realmente el contexto. Esto significa que los modelos tienen dificultades con tareas que requieren una comprensión intuitiva de situaciones cotidianas, razonamiento lógico y conocimiento práctico, fundamentales para aplicaciones de IA robustas y fiables.

HellaSwag (Finales más difíciles, contextos más largos y actividades bajas para situaciones con generaciones adversas)

Hellaswag fue desarrollado por Rowan Zellers y sus colegas de la Universidad de Washington y el Instituto Allen de Inteligencia Artificial. Está diseñado para evaluar la capacidad de un modelo para predecir la continuación más plausible de un escenario dado. Este punto de referencia se construye mediante el Filtrado Adversario (AF), donde una serie de discriminadores selecciona iterativamente respuestas incorrectas generadas por máquinas adversarias. Este método crea un conjunto de datos con ejemplos triviales para los humanos, pero desafiantes para los modelos, lo que resulta en una zona de dificultad "Ricitos de Oro".

Si bien Hellaswag ha sido un desafío para los modelos anteriores, los modelos de última generación como el GPT-4 han logrado niveles de rendimiento cercanos a la precisión humana, lo que indica un progreso significativo en el campo. Sin embargo, estos resultados sugieren la necesidad de que los puntos de referencia evolucionen continuamente para seguir el ritmo de los avances en las capacidades de la IA.

libro abierto

El conjunto de datos de Openbook consta de 5957 preguntas de opción múltiple de ciencias de nivel elemental. Las preguntas se obtienen de exámenes a libro abierto y se desarrollan para evaluar la comprensión humana del tema.

El punto de referencia de Openbook requiere capacidad de razonamiento más allá de la recuperación de información. GPT-4 alcanza la precisión más alta del 95.9% hasta el momento.

OpenbookQA se basa en exámenes de libro abierto y consta de 5,957 preguntas de ciencias de nivel elemental de opción múltiple. Estas preguntas están diseñadas para probar la comprensión de 1,326 hechos científicos básicos y su aplicación a situaciones novedosas.

Al igual que Hellaswag, los modelos anteriores encontraron que OpenbookQA era un desafío, pero los modelos modernos como GPT-4 han alcanzado niveles de rendimiento casi humanos. Este progreso subraya la importancia de desarrollar puntos de referencia aún más complejos y matizados para seguir ampliando los límites de la comprensión de la IA.

¿Son suficientes los puntos de referencia para la evaluación del desempeño de un LLM?

Sí, si bien proporcionan un enfoque estandarizado para evaluar el desempeño del LLM, también pueden ser engañosos. La Large Model Systems Organization afirma que un buen punto de referencia de LLM debe ser escalable, capaz de evaluar nuevos modelos con un número relativamente pequeño de pruebas y proporcionar un orden de clasificación único para todos los modelos. Pero hay razones por las que pueden no ser suficientes. Éstos son algunos:

Fuga de referencia

Este es un encuentro común y ocurre cuando los datos de entrenamiento se superponen con los datos de prueba, lo que genera una evaluación engañosa. Si un modelo ya ha encontrado algunas preguntas de prueba durante el entrenamiento, es posible que su resultado no refleje con precisión sus verdaderas capacidades. Pero un punto de referencia ideal debería minimizar la memorización y reflejar escenarios del mundo real.

Sesgo de evaluación

Las tablas de clasificación de referencia de LLM se utilizan para comparar el rendimiento de los LLM en diversas tareas. Sin embargo, basarse en estas tablas de clasificación para la comparación de modelos puede ser... engañoso. Cambios simples en las pruebas de referencia, como alterar el orden de las preguntas, pueden cambiar la clasificación de los modelos hasta ocho posiciones. Además, los LLM pueden funcionar de manera diferente según los métodos de puntuación, lo que destaca la importancia de considerar los sesgos de evaluación.

Finalidad abierta

La interacción LLM en el mundo real implica el diseño de indicaciones para generar los resultados de IA deseados. Los resultados de los LLM dependen de la efectividad de las indicaciones, y los puntos de referencia están diseñados para probar el conocimiento del contexto de los LLM. Si bien los puntos de referencia están diseñados para probar el conocimiento del contexto de un LLM, no siempre se traducen directamente en el desempeño en el mundo real. Por ejemplo, un modelo que logra una puntuación del 100 % en un conjunto de datos de referencia, como el LSAT, no garantiza el mismo nivel de precisión en aplicaciones prácticas. Esto subraya la importancia de considerar la naturaleza abierta de las tareas del mundo real en la evaluación de LLM.

Evaluación eficaz para LLM sólidos

Ahora ya sabes que los puntos de referencia no siempre son la mejor opción porque no siempre pueden generalizarse para todos los problemas. Pero hay otras formas.

Puntos de referencia personalizados

Son ideales para probar comportamientos y funcionalidades específicos en escenarios específicos de cada tarea. Por ejemplo, si el LLM está diseñado para médicos, los conjuntos de datos recopilados en entornos médicos representarán eficazmente escenarios reales. Estos puntos de referencia personalizados pueden centrarse en la comprensión del lenguaje específico del dominio, el rendimiento y los requisitos contextuales únicos. Al alinear los puntos de referencia con posibles escenarios reales, se puede garantizar que el LLM tenga un buen rendimiento general y destaque en las tareas específicas para las que está diseñado. Esto puede ayudar a identificar y abordar cualquier deficiencia o debilidad en las capacidades del modelo desde el principio.

Canal de detección de fugas de datos

Si desea que sus evaluaciones demuestren integridad, es fundamental contar con un flujo de trabajo de referencia sin fugas de datos. La fuga de datos ocurre cuando los datos de referencia se incluyen en el corpus de preentrenamiento del modelo, lo que resulta en puntuaciones de rendimiento artificialmente altas. Para evitar esto, es necesario cruzar los datos de referencia con los datos de preentrenamiento. Además, se deben tomar medidas para evitar cualquier información previamente vista. Esto puede implicar el uso de conjuntos de datos propietarios o recientemente seleccionados, separados del flujo de trabajo de entrenamiento del modelo. Esto garantizará que las métricas de rendimiento obtenidas reflejen la capacidad del modelo para generalizar correctamente.

Evaluación humana

Las métricas automatizadas por sí solas no pueden capturar todo el espectro del rendimiento de un modelo, especialmente cuando se trata de aspectos muy matizados y subjetivos de la comprensión y generación del lenguaje. En este caso, la evaluación humana ofrece una evaluación mucho mejor:

Contratación de profesionales que pueden proporcionar evaluaciones detalladas y confiables, especialmente para dominios especializados.
Crowdsourcing! Plataformas como Amazon Mechanical Turk le permiten recopilar diversos juicios humanos rápidamente y por poco costo.
Comentarios de la comunidad: El uso de plataformas como el campo de clasificación LMSYS, donde los usuarios pueden votar y comparar modelos, agrega una capa adicional de conocimiento. El LMSYS Chatbot Arena Hard, por ejemplo, es particularmente eficaz a la hora de resaltar diferencias sutiles entre los mejores modelos a través de interacciones directas con el usuario y votaciones.

Conclusión

Sin evaluación y evaluación comparativa, no tendríamos forma de saber si la capacidad del LLM para manejar tareas del mundo real es tan precisa y aplicable como creemos. Pero, como dije, los puntos de referencia no son una forma completamente infalible de verificar eso, pueden generar brechas en el desempeño de los LLM. Esto también puede ralentizar el desarrollo de LLM que sean realmente sólidos para el trabajo.

Así debería ser en un mundo ideal. Los LLM comprenden las consultas de los usuarios, identifican errores en las indicaciones, completan tareas según las instrucciones y generan resultados confiables. Los resultados ya son excelentes, pero no ideales. Aquí es donde los puntos de referencia para tareas específicas resultan muy útiles, al igual que la evaluación humana y la detección de fugas en los puntos de referencia. Al usarlos, tenemos la oportunidad de producir LLM realmente sólidos.

Temas relacionados:Puntos de referencia de IA Puntos de referencia de rendimiento de la IA LLM Monitoreo del desempeño del LLM

Irina Barskaya, PhD, científica jefa de datos de Yandex

Irina Barskaya, PhD, es una distinguida científica de datos con más de una década de experiencia, que abarca tanto análisis de productos como análisis de tecnologías de vanguardia. Encabezó la creación y el análisis de Yasmina, el primer asistente de voz localizado y basado en IA completamente funcional para Arabia Saudita, que maneja la localización y el etiquetado de datos complejos para el árabe estándar moderno y los dialectos saudíes. Actualmente, Irina dirige el análisis de calidad en Yandex, impulsando avances en las tecnologías de IA.

Unir.AI