Inteligencia artificial

Evaluación de Modelos de Lenguaje Grande: Una Guía Técnica

Publicado el 29 de enero de 2024

Actualizado el 22 de mayo de 2026

Por

Aayush Mittal Mittal

Los modelos de lenguaje grande (LLM) como GPT-4, Claude y LLaMA han explotado en popularidad. Gracias a su capacidad para generar texto impresionantemente similar al humano, estos sistemas de inteligencia artificial ahora se utilizan para todo, desde la creación de contenido hasta los chatbots de servicio al cliente.

Pero, ¿cómo sabemos si estos modelos son realmente buenos? Con nuevos LLM siendo anunciados constantemente, todos afirmando ser más grandes y mejores, ¿cómo evaluamos y comparamos su rendimiento?

En esta guía integral, exploraremos las principales técnicas para evaluar los modelos de lenguaje grande. Analizaremos los pros y los contras de cada enfoque, cuándo se aplican mejor y cómo puedes aprovecharlos en tus propias pruebas de LLM.

Métricas Específicas de Tarea

Una de las formas más directas de evaluar un LLM es probarlo en tareas de NLP establecidas utilizando métricas estandarizadas. Por ejemplo:

Resumen

Para tareas de resumen, se utilizan comúnmente métricas como ROUGE (Recall-Oriented Understudy for Gisting Evaluation). ROUGE compara el resumen generado por el modelo con un resumen “de referencia” escrito por un humano, contando la superposición de palabras o frases.

Hay varias variantes de ROUGE, cada una con sus pros y contras:

ROUGE-N: Compara la superposición de n-gramas (secuencias de N palabras). ROUGE-1 utiliza unigramas (palabras individuales), ROUGE-2 utiliza bigramas, etc. La ventaja es que captura el orden de las palabras, pero puede ser demasiado estricto.
ROUGE-L: Basado en la subsecuencia común más larga (LCS). Más flexible en el orden de las palabras, pero se centra en los puntos principales.
ROUGE-W: Pondera las coincidencias de LCS por su significado. Intenta mejorar a ROUGE-L.

En general, las métricas de ROUGE son rápidas, automáticas y funcionan bien para clasificar resúmenes de sistemas. Sin embargo, no miden la coherencia ni el significado. Un resumen podría obtener una alta puntuación de ROUGE y aún ser sin sentido.

La fórmula para ROUGE-N es:

$ROUGE-N = \sum ^{s \in {Resúmenes de Referencia}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Resúmenes de Referencia}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Donde:

Count_{match}(gram_n) es el recuento de n-gramas en ambos el resumen generado y el resumen de referencia.
Count(gram_n) es el recuento de n-gramas en el resumen de referencia.

Por ejemplo, para ROUGE-1 (unigramas):

Resumen generado: “El gato se sentó.”
Resumen de referencia: “El gato se sentó en la alfombra.”
Unigramas superpuestos: “El”, “gato”, “se sentó”
Puntuación de ROUGE-1 = 3/5 = 0,6

ROUGE-L utiliza la subsecuencia común más larga (LCS). Es más flexible con el orden de las palabras. La fórmula es:

$ROUGE-L = max(length(generated), length(reference)) L CS ( generated , reference )$

Dónde LCS es la longitud de la subsecuencia común más larga.

ROUGE-W pondera las coincidencias de LCS. Considera la importancia de cada coincidencia en la LCS.

Traducción

Para tareas de traducción automática, BLEU (Bilingual Evaluation Understudy) es una métrica popular. BLEU mide la similitud entre la salida de traducción del modelo y las traducciones profesionales humanas, utilizando la precisión de n-gramas y una penalización por brevedad.

Aspectos clave de cómo funciona BLEU:

Compara superposiciones de n-gramas para n hasta 4 (unigramas, bigramas, trigramas, 4-gramas).
Calcula una media geométrica de las precisiones de n-gramas.
Aplica una penalización por brevedad si la traducción es mucho más corta que la de referencia.
Generalmente oscila entre 0 y 1, siendo 1 una coincidencia perfecta con la referencia.

BLEU se correlaciona razonablemente bien con los juicios humanos de la calidad de la traducción. Pero todavía tiene limitaciones:

Solo mide la precisión contra referencias, no la recuperación ni la F1.
Tiene dificultades con traducciones creativas que utilizan una redacción diferente.
Es susceptible a “jugar” con trucos de traducción.

Otras métricas de traducción como METEOR y TER intentan mejorar las debilidades de BLEU. Pero en general, las métricas automáticas no capturan completamente la calidad de la traducción.

Otras Tareas

Además de la resolución de resúmenes y traducciones, se pueden utilizar métricas como F1, precisión, MSE y más para evaluar el rendimiento de LLM en tareas como:

Clasificación de texto
Extracción de información
Respuesta a preguntas
Análisis de sentimiento
Detección de errores gramaticales

La ventaja de las métricas específicas de tarea es que la evaluación puede ser completamente automatizada utilizando conjuntos de datos estandarizados como SQuAD para QA y GLUE para una variedad de tareas. Los resultados pueden ser fácilmente rastreados con el tiempo a medida que los modelos mejoran.

Sin embargo, estas métricas están enfocadas de manera estrecha y no pueden medir la calidad general del lenguaje. Los LLM que funcionan bien en métricas para una sola tarea pueden fallar al generar texto coherente, lógico y útil en general.

Benchmark de Investigación

Una forma popular de evaluar LLM es probarlos contra benchmarks de investigación amplios que cubren temas y habilidades diversos. Estos benchmarks permiten que los modelos sean probados rápidamente a gran escala.

Algunos benchmarks conocidos incluyen:

SuperGLUE – Un conjunto desafiante de 11 tareas de lenguaje diversas.
GLUE – Una colección de 9 tareas de comprensión de oraciones. Más simple que SuperGLUE.
MMLU – 57 tareas diferentes de ciencias, tecnología, ingeniería y matemáticas (STEM), ciencias sociales y humanidades. Prueba conocimiento y habilidad de razonamiento.
Winograd Schema Challenge – Problemas de resolución de pronombres que requieren razonamiento común.
ARC – Tareas de razonamiento de lenguaje natural desafiantes.
Hellaswag – Razonamiento común sobre situaciones.
PIQA – Preguntas de física que requieren diagramas.

Al evaluar en benchmarks como estos, los investigadores pueden probar rápidamente los modelos en su capacidad para realizar matemáticas, lógica, razonamiento, codificación, sentido común y mucho más. El porcentaje de preguntas respondidas correctamente se convierte en una métrica de benchmark para comparar modelos.

Sin embargo, un problema importante con los benchmarks es la contaminación de datos de entrenamiento. Muchos benchmarks contienen ejemplos que ya fueron vistos por los modelos durante el entrenamiento previo. Esto permite que los modelos “memoricen” respuestas a preguntas específicas y funcionen mejor de lo que realmente son capaces.

Se intentan “descontaminar” los benchmarks eliminando ejemplos superpuestos. Pero esto es desafiante de hacer de manera integral, especialmente cuando los modelos pueden haber visto versiones parafraseadas o traducidas de las preguntas.

Así que, aunque los benchmarks pueden probar un conjunto amplio de habilidades de manera eficiente, no pueden medir de manera fiable las capacidades de razonamiento verdaderas ni evitar la inflación de puntuaciones debido a la contaminación. Se necesitan métodos de evaluación complementarios.

Autorregulación de LLM

Un enfoque intrigante es tener un LLM que evalúe las salidas de otro LLM. La idea es aprovechar la tarea “más fácil”:

Producir una salida de alta calidad puede ser difícil para un LLM.
Pero determinar si una salida dada es de alta calidad puede ser una tarea más fácil.

Por ejemplo, mientras que un LLM puede luchar por generar un párrafo factual y coherente desde cero, puede juzgar más fácilmente si un párrafo dado tiene sentido lógico y se ajusta al contexto.

Así que el proceso es:

Pasar la entrada de la promoción al primer LLM para generar la salida.
Pasar la entrada de la promoción + la salida generada al segundo LLM “evaluador”.
Preguntar al LLM evaluador una pregunta para evaluar la calidad de la salida. Por ejemplo, “¿La respuesta anterior tiene sentido lógico?”

Este enfoque es rápido de implementar y automatiza la evaluación de LLM. Pero hay algunos desafíos:

El rendimiento depende mucho de la elección del LLM evaluador y la redacción de la promoción.
Está limitado por la dificultad de la tarea original. Evaluar el razonamiento complejo sigue siendo difícil para los LLM.
Puede ser costoso en términos computacionales si se utilizan LLM basados en API.

La autorregulación es especialmente prometedora para evaluar la información recuperada en sistemas de RAG (generación aumentada con recuperación). Las consultas adicionales de LLM pueden validar si el contexto recuperado se utiliza adecuadamente.

En general, la autorregulación muestra potencial pero requiere cuidado en la implementación. Complementa, en lugar de reemplazar, la evaluación humana.

Evaluación Humana

Dadas las limitaciones de las métricas automáticas y los benchmarks, la evaluación humana sigue siendo el estándar de oro para evaluar rigurosamente la calidad de LLM.

Los expertos pueden proporcionar evaluaciones cualitativas detalladas sobre:

Precisión y corrección factual
Lógica, razonamiento y sentido común
Coherencia, consistencia y legibilidad
Adecuación del tono, estilo y voz
Gramaticalidad y fluidez
Creatividad y sutileza

Para evaluar un modelo, a los humanos se les da un conjunto de promociones de entrada y las respuestas generadas por LLM. Evalúan la calidad de las respuestas, a menudo utilizando escalas de calificación y rubricas.

La desventaja es que la evaluación humana manual es costosa, lenta y difícil de escalar. También requiere desarrollar criterios estandarizados y capacitar a los evaluadores para aplicarlos consistentemente.

Algunos investigadores han explorado formas creativas de financiar las evaluaciones humanas de LLM mediante sistemas de torneo en los que las personas apuestan y juzgan enfrentamientos entre modelos. Pero la cobertura sigue siendo limitada en comparación con las evaluaciones manuales completas.

Para casos de uso empresariales donde la calidad es más importante que la escala bruta, las pruebas humanas expertas siguen siendo el estándar de oro a pesar de sus costos. Esto es especialmente cierto para aplicaciones más riesgosas de LLM.

Conclusión

Evaluar modelos de lenguaje grande de manera integral requiere utilizar una herramienta diversa de métodos complementarios, en lugar de confiar en una sola técnica.

Al combinar enfoques automáticos para la velocidad con una supervisión humana rigurosa para la precisión, podemos desarrollar metodologías de prueba confiables para modelos de lenguaje grande. Con una evaluación robusta, podemos desbloquear el enorme potencial de los LLM mientras gestionamos sus riesgos de manera responsable.

Aayush Mittal, Mittal

He dedicado los últimos cinco años sumergiéndome en el fascinante mundo de Machine Learning y Deep Learning. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad en curso también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.

Unite.AI