talón Evaluación de modelos de lenguaje grandes: una guía técnica - Unite.AI
Contáctanos

Inteligencia artificial

Evaluación de modelos de lenguaje grandes: una guía técnica

mm

Publicado

 on

Evaluación de modelos de lenguaje grandes

Los modelos de lenguajes grandes (LLM) como GPT-4, Claude y LLaMA han ganado popularidad. Gracias a su capacidad para generar texto impresionantemente similar al humano, estos sistemas de inteligencia artificial ahora se utilizan para todo, desde la creación de contenido hasta chatbots de servicio al cliente.

Pero ¿cómo sabemos si estos modelos son realmente buenos? Con el anuncio constante de nuevos LLM, todos afirmando ser más grandes y mejores, ¿cómo evaluamos y comparamos su desempeño?

En esta guía completa, exploraremos las principales técnicas para evaluar modelos de lenguaje grandes. Analizaremos los pros y los contras de cada enfoque, cuándo se aplican mejor y cómo puede aprovecharlos en sus propias pruebas de LLM.

Métricas específicas de tareas

Una de las formas más sencillas de evaluar un LLM es probarlo en tareas establecidas de PNL utilizando métricas estandarizadas. Por ejemplo:

Resumen

Para tareas de resumen, métricas como ROUGE (Suplente orientado a la recuperación para la evaluación de Gisting) se utilizan comúnmente. ROUGE compara el resumen generado por el modelo con un resumen de "referencia" escrito por humanos, contando la superposición de palabras o frases.

Hay varios sabores de ROUGE, cada uno con sus pros y sus contras:

  • ROJO-N: Compara la superposición de n-gramas (secuencias de N palabras). ROJO-1 usa unigramas (palabras individuales), ROJO-2 usa bigramas, etc. La ventaja es que captura el orden de las palabras, pero puede ser demasiado estricto.
  • ROJO-L: Basado en la subsecuencia común más larga (LCS). Más flexible en el orden de las palabras pero se centra en los puntos principales.
  • ROJO-W: Pondera los partidos de la LCS según su importancia. Intenta mejorar ROUGE-L.

En general, las métricas de ROUGE son rápidas, automáticas y funcionan bien para los resúmenes del sistema de clasificación. Sin embargo, no miden la coherencia ni el significado. Un resumen podría obtener una puntuación ROUGE alta y aun así no tener sentido.

La fórmula de ROUGE-N es:

ROUGE-N=∑∈{Resúmenes de referencia}∑∑�∈{Resúmenes de referencia}∑

Lugar:

  • Count_{match}(gram_n) es el recuento de n-gramas tanto en el resumen generado como en el de referencia.
  • Count(gram_n) es el recuento de n-gramas en el resumen de referencia.

Por ejemplo, para ROUGE-1 (unigramas):

  • Resumen generado: "El gato se sentó".
  • Resumen de la referencia: "El gato se sentó en la alfombra".
  • Unigramas superpuestos: “The”, “cat”, “sat”
  • Puntuación de ROUGE-1 = 3/5 = 0.6

ROJO-L utiliza la subsecuencia común más larga (LCS). Es más flexible con el orden de las palabras. La fórmula es:

ROUGE-L=���(generado,referencia)max(longitud(generada), longitud(referencia))

Cuando la LCS es la longitud de la subsecuencia común más larga.

ROJO-W pondera los partidos de la LCS. Considera la importancia de cada partido en la LCS.

Traducción

Para tareas de traducción automática, AZUL (Evaluación bilingüe suplente) es una métrica popular. BLEU mide la similitud entre la traducción de salida del modelo y las traducciones humanas profesionales, utilizando precisión de n-gramas y una penalización por brevedad.

Aspectos clave de cómo funciona BLEU:

  • Compara superposiciones de n-gramas para n hasta 4 (unigramas, bigramas, trigramas, 4 gramos).
  • Calcula una media geométrica de las precisiones de n-gramas.
  • Aplica una penalización por brevedad si la traducción es mucho más corta que la referencia.
  • Generalmente varía de 0 a 1, siendo 1 la coincidencia perfecta con la referencia.

BLEU se correlaciona razonablemente bien con los juicios humanos sobre la calidad de la traducción. Pero todavía tiene limitaciones:

  • Solo mide la precisión frente a referencias, no la recuperación o F1.
  • Tiene dificultades con las traducciones creativas que utilizan diferentes palabras.
  • Susceptible a “jugar” con trucos de traducción.

Otras métricas de traducción como METEOR y TER intentan mejorar las debilidades de BLEU. Pero, en general, las métricas automáticas no reflejan completamente la calidad de la traducción.

Otras tareas

Además del resumen y la traducción, se pueden utilizar métricas como F1, precisión, MSE y más para evaluar el desempeño de LLM en tareas como:

  • Clasificación de texto
  • Extraccion de informacion
  • Respuesta a la pregunta
  • Análisis de los sentimientos
  • Detección de errores gramaticales

La ventaja de las métricas específicas de tareas es que la evaluación se puede automatizar completamente utilizando conjuntos de datos estandarizados como Equipo para control de calidad y COLA punto de referencia para una variedad de tareas. Los resultados se pueden seguir fácilmente a lo largo del tiempo a medida que mejoran los modelos.

Sin embargo, estas métricas tienen un enfoque limitado y no pueden medir la calidad general del lenguaje. Los LLM que obtienen buenos resultados en métricas para una sola tarea pueden no generar textos coherentes, lógicos y útiles en general.

Puntos de referencia de investigación

Una forma popular de evaluar los LLM es compararlos con una amplia gama de puntos de referencia de investigación que cubren diversos temas y habilidades. Estos puntos de referencia permiten que los modelos se prueben rápidamente a escala.

Algunos puntos de referencia bien conocidos incluyen:

  • Super pegamento – Conjunto desafiante de 11 tareas lingüísticas diversas.
  • COLA – Colección de tareas de comprensión de 9 frases. Más simple que SuperGLUE.
  • MMLU – 57 tareas diferentes de STEM, ciencias sociales y humanidades. Evalúa conocimientos y capacidad de razonamiento.
  • Desafío de esquema de Winograd – Problemas de resolución de pronombres que requieren razonamiento de sentido común.
  • ARC – Tareas desafiantes de razonamiento en lenguaje natural.
  • Hellaswag – Razonamiento con sentido común sobre situaciones.
  • PIQA – Cuestiones de física que requieran diagramas.

Al evaluar puntos de referencia como estos, los investigadores pueden probar rápidamente los modelos sobre su capacidad para realizar matemáticas, lógica, razonamiento, codificación, sentido común y mucho más. El porcentaje de preguntas respondidas correctamente se convierte en una métrica de referencia para comparar modelos.

Sin embargo, un problema importante con los puntos de referencia es contaminación de datos de entrenamiento. Muchos puntos de referencia contienen ejemplos que los modelos ya vieron durante el entrenamiento previo. Esto permite que los modelos “memorizar”responde a preguntas específicas y se desempeña mejor que sus verdaderas capacidades.

Se intenta “descontaminar” puntos de referencia eliminando ejemplos superpuestos. Pero esto es difícil de hacer de manera integral, especialmente cuando los modelos pueden haber visto versiones parafraseadas o traducidas de las preguntas.

Entonces, si bien los puntos de referencia pueden evaluar un amplio conjunto de habilidades de manera eficiente, no pueden medir de manera confiable las verdaderas habilidades de razonamiento ni evitar la inflación de puntajes debido a la contaminación. Se necesitan métodos de evaluación complementarios.

Autoevaluación del LLM

Un enfoque intrigante es hacer que un LLM evalúe los resultados de otro LLM. La idea es aprovechar el concepto de tarea "más fácil":

  • Producir un resultado de alta calidad puede resultar difícil para un LLM.
  • Pero determinar si un resultado determinado es de alta calidad puede ser una tarea más sencilla.

Por ejemplo, si bien un LLM puede tener dificultades para generar un párrafo coherente y fáctico desde cero, puede juzgar más fácilmente si un párrafo determinado tiene sentido lógico y se ajusta al contexto.

Entonces el proceso es:

  1. Pase el mensaje de entrada al primer LLM para generar resultados.
  2. Pase el mensaje de entrada + la salida generada al segundo LLM "evaluador".
  3. Haga una pregunta al evaluador LLM para evaluar la calidad del resultado. por ejemplo, "¿Tiene sentido lógico la respuesta anterior?"

Este enfoque es rápido de implementar y automatiza la evaluación de LLM. Pero hay algunos desafíos:

  • El desempeño depende en gran medida de la elección del evaluador LLM y de la redacción inmediata.
  • Limitado por la dificultad de la tarea original. Evaluar el razonamiento complejo sigue siendo difícil para los LLM.
  • Puede resultar costoso desde el punto de vista computacional si se utilizan LLM basados ​​en API.

La autoevaluación es especialmente prometedora para evaluar la información recuperada en RAG (generación de recuperación aumentada) sistemas. Las consultas LLM adicionales pueden validarse si el contexto recuperado se utiliza adecuadamente.

En general, la autoevaluación muestra potencial pero requiere cuidado en su implementación. Complementa, en lugar de reemplazar, la evaluación humana.

Evaluación humana

Dadas las limitaciones de las métricas y los puntos de referencia automatizados, la evaluación humana sigue siendo el estándar de oro para evaluar rigurosamente la calidad de un LLM.

Los expertos pueden proporcionar evaluaciones cualitativas detalladas sobre:

  • Exactitud y corrección fáctica
  • Lógica, razonamiento y sentido común.
  • Coherencia, coherencia y legibilidad.
  • Adecuación del tono, estilo y voz.
  • Gramaticalidad y fluidez.
  • Creatividad y matices

Para evaluar un modelo, los humanos reciben un conjunto de indicaciones de entrada y respuestas generadas por LLM. Evalúan la calidad de las respuestas, a menudo utilizando escalas de calificación y rúbricas.

La desventaja es que la evaluación humana manual es costosa, lenta y difícil de escalar. También requiere desarrollar criterios estandarizados y capacitar a los evaluadores para que los apliquen de manera consistente.

Algunos investigadores han explorado formas creativas de financiar colectivamente evaluaciones de LLM humanas utilizando sistemas estilo torneo donde las personas apuestan y juzgan enfrentamientos entre modelos. Pero la cobertura sigue siendo limitada en comparación con las evaluaciones manuales completas.

Para los casos de uso empresarial en los que la calidad importa más que la escala bruta, las pruebas humanas expertas siguen siendo el estándar de oro a pesar de sus costos. Esto es especialmente cierto para las aplicaciones más riesgosas de los LLM.

Conclusión

La evaluación exhaustiva de grandes modelos de lenguaje requiere el uso de un conjunto de herramientas diverso de métodos complementarios, en lugar de depender de una única técnica.

Al combinar enfoques automatizados para lograr velocidad con una rigurosa supervisión humana para lograr precisión, podemos desarrollar metodologías de prueba confiables para modelos de lenguaje grandes. Con una evaluación sólida, podemos desbloquear el tremendo potencial de los LLM y al mismo tiempo gestionar sus riesgos de manera responsable.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.