Inteligência artificial

Avaliando grandes modelos de linguagem: um guia técnico

Publicado

meses 6 atrás

29 de janeiro de 2024

Grandes modelos de linguagem (LLMs) como GPT-4, Claude e LLaMA explodiram em popularidade. Graças à sua capacidade de gerar textos impressionantemente semelhantes aos humanos, esses sistemas de IA agora estão sendo usados para tudo, desde a criação de conteúdo até chatbots de atendimento ao cliente.

Mas como sabemos se esses modelos são realmente bons? Com novos LLMs sendo anunciados constantemente, todos afirmando serem maiores e melhores, como avaliamos e comparamos seu desempenho?

Neste guia abrangente, exploraremos as principais técnicas para avaliar grandes modelos de linguagem. Veremos os prós e os contras de cada abordagem, quando elas são melhor aplicadas e como você pode aproveitá-las em seus próprios testes de LLM.

Métricas Específicas de Tarefas

Uma das maneiras mais diretas de avaliar um LLM é testá-lo em tarefas estabelecidas de PNL usando métricas padronizadas. Por exemplo:

Resumo

Para tarefas de resumo, métricas como ROUGE (Recall-Oriented Understudy for Gisting Evaluation) são comumente usados. ROUGE compara o resumo gerado pelo modelo a um resumo de “referência” escrito por humanos, contando a sobreposição de palavras ou frases.

Existem vários sabores de ROUGE, cada um com seus prós e contras:

ROUGE-N: Compara a sobreposição de n-gramas (sequências de N palavras). ROUGE-1 usa unigramas (palavras únicas), ROUGE-2 usa bigramas, etc. A vantagem é que captura a ordem das palavras, mas pode ser muito estrito.
ROUGE-L: Com base na subsequência comum mais longa (LCS). Mais flexível na ordem das palavras, mas concentra-se nos pontos principais.
ROUGE-W: Pondera as correspondências do LCS de acordo com sua importância. Tentativas de melhorar o ROUGE-L.

Em geral, as métricas ROUGE são rápidas, automáticas e funcionam bem para classificar resumos de sistemas. No entanto, eles não medem coerência ou significado. Um resumo pode obter uma pontuação alta no ROUGE e ainda assim ser absurdo.

A fórmula para ROUGE-N é:

$ROUGE-N = \sum ^{s \in {Resumos de referência}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Resumos de referência}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Onde:

Count_{match}(gram_n) é a contagem de n-gramas no resumo gerado e no resumo de referência.
Count(gram_n) é a contagem de n-gramas no resumo de referência.

Por exemplo, para ROUGE-1 (unigramas):

Resumo gerado: “O gato sentou.”
Resumo de referência: “O gato sentou no tapete.”
Unigramas sobrepostos: “O”, “gato”, “sat”
Pontuação ROUGE-1 = 3/5 = 0.6

ROUGE-L usa a subsequência comum mais longa (LCS). É mais flexível com a ordem das palavras. A fórmula é:

$ROUGE-L = max(comprimento(gerado), comprimento(referência)) L CS ( gerado , referência )$

Onde LCS é o comprimento da maior subsequência comum.

ROUGE-W pondera as correspondências do LCS. Considera a importância de cada partida na LCS.

Tradução

Para tarefas de tradução automática, AZUL (Subestudo de Avaliação Bilíngue) é uma métrica popular. O BLEU mede a semelhança entre a tradução de saída do modelo e as traduções humanas profissionais, usando precisão de n gramas e uma penalidade de brevidade.

Aspectos principais de como o BLEU funciona:

Compara sobreposições de n gramas para n até 4 (unigramas, bigramas, trigramas, 4 gramas).
Calcula uma média geométrica das precisões de n-gramas.
Aplica uma penalidade de brevidade se a tradução for muito menor que a referência.
Geralmente varia de 0 a 1, sendo 1 a correspondência perfeita com a referência.

O BLEU correlaciona-se razoavelmente bem com os julgamentos humanos sobre a qualidade da tradução. Mas ainda tem limitações:

Mede apenas a precisão em relação a referências, não em recall ou F1.
Luta com traduções criativas usando palavras diferentes.
Suscetível a “jogos” com truques de tradução.

Outras métricas de tradução, como METEOR e TER, tentam melhorar os pontos fracos do BLEU. Mas, em geral, as métricas automáticas não captam totalmente a qualidade da tradução.

Outras tarefas

Além de resumo e tradução, métricas como F1, precisão, MSE e muito mais podem ser usadas para avaliar o desempenho do LLM em tarefas como:

Classificação de texto
Extração de informação
Resposta de perguntas
Análise de sentimentos
Detecção de erros gramaticais

A vantagem das métricas específicas de tarefas é que a avaliação pode ser totalmente automatizada usando conjuntos de dados padronizados como Pelotão para controle de qualidade e COLA referência para uma série de tarefas. Os resultados podem ser facilmente acompanhados ao longo do tempo à medida que os modelos melhoram.

No entanto, essas métricas têm um foco restrito e não podem medir a qualidade geral da linguagem. LLMs que apresentam bom desempenho em métricas para uma única tarefa podem falhar na geração de texto coerente, lógico e útil em geral.

Referências de pesquisa

Uma forma popular de avaliar LLMs é testá-los em relação a amplos benchmarks de pesquisa que cobrem diversos tópicos e habilidades. Esses benchmarks permitem que os modelos sejam testados rapidamente em escala.

Alguns benchmarks bem conhecidos incluem:

SuperCOLA – Conjunto desafiador de 11 tarefas linguísticas diversas.
COLA – Coleção de tarefas de compreensão de 9 frases. Mais simples que SuperGLUE.
MMLU – 57 tarefas diferentes em STEM, ciências sociais e humanidades. Testa conhecimento e capacidade de raciocínio.
Desafio do esquema Winograd – Problemas de resolução de pronomes que requerem raciocínio de bom senso.
ARC – Tarefas desafiadoras de raciocínio em linguagem natural.
Hellaswag – Raciocínio de bom senso sobre situações.
PIQA – Questões de física que exigem diagramas.

Ao avaliar benchmarks como esses, os pesquisadores podem testar rapidamente os modelos quanto à sua capacidade de realizar matemática, lógica, raciocínio, codificação, bom senso e muito mais. A porcentagem de questões respondidas corretamente torna-se uma métrica de referência para comparação de modelos.

No entanto, um grande problema com os benchmarks é contaminação de dados de treinamento. Muitos benchmarks contêm exemplos que já foram vistos pelos modelos durante o pré-treinamento. Isso permite que os modelos “memorizar”responde a perguntas específicas e tem um desempenho melhor do que suas verdadeiras capacidades.

São feitas tentativas de “descontaminar”Benchmarks removendo exemplos sobrepostos. Mas é difícil fazê-lo de forma abrangente, especialmente quando os modelos podem ter visto versões parafraseadas ou traduzidas das perguntas.

Assim, embora os benchmarks possam testar um amplo conjunto de competências de forma eficiente, não podem medir de forma fiável as verdadeiras capacidades de raciocínio ou evitar a inflação das pontuações devido à contaminação. São necessários métodos de avaliação complementares.

Autoavaliação LLM

Uma abordagem intrigante é fazer com que um LLM avalie os resultados de outro LLM. A ideia é aproveitar o conceito de tarefa “mais fácil”:

Produzir um resultado de alta qualidade pode ser difícil para um LLM.
Mas determinar se um determinado resultado é de alta qualidade pode ser uma tarefa mais fácil.

Por exemplo, embora um LLM possa ter dificuldades para gerar um parágrafo factual e coerente a partir do zero, ele pode julgar mais facilmente se um determinado parágrafo faz sentido lógico e se ajusta ao contexto.

Então o processo é:

Passe o prompt de entrada para o primeiro LLM para gerar saída.
Passe o prompt de entrada + saída gerada para o segundo LLM “avaliador”.
Faça uma pergunta ao avaliador LLM para avaliar a qualidade do resultado. por exemplo, “A resposta acima faz sentido lógico?”

Essa abordagem é rápida de implementar e automatiza a avaliação do LLM. Mas existem alguns desafios:

O desempenho depende muito da escolha do avaliador LLM e da formulação imediata.
Limitado pela dificuldade da tarefa original. Avaliar raciocínios complexos ainda é difícil para LLMs.
Pode ser computacionalmente caro se usar LLMs baseados em API.

A autoavaliação é especialmente promissora para avaliar informações recuperadas em RAG (geração aumentada de recuperação) sistemas. Consultas adicionais do LLM podem validar se o contexto recuperado for usado adequadamente.

No geral, a autoavaliação mostra potencial, mas requer cuidado na implementação. Complementa, em vez de substituir, a avaliação humana.

Avaliação Humana

Dadas as limitações das métricas e benchmarks automatizados, a avaliação humana ainda é o padrão ouro para avaliar rigorosamente a qualidade do LLM.

Os especialistas podem fornecer avaliações qualitativas detalhadas sobre:

Precisão e correção factual
Lógica, raciocínio e bom senso
Coerência, consistência e legibilidade
Adequação de tom, estilo e voz
Gramaticalidade e fluência
Criatividade e nuances

Para avaliar um modelo, os humanos recebem um conjunto de solicitações de entrada e as respostas geradas pelo LLM. Avaliam a qualidade das respostas, muitas vezes utilizando escalas e rubricas de classificação.

A desvantagem é que a avaliação humana manual é cara, lenta e difícil de escalar. Também requer o desenvolvimento de critérios padronizados e o treinamento de avaliadores para aplicá-los de forma consistente.

Alguns pesquisadores exploraram maneiras criativas de financiar avaliações LLM humanas usando sistemas do tipo torneio, onde as pessoas apostam e julgam os confrontos entre modelos. Mas a cobertura ainda é limitada em comparação com avaliações manuais completas.

Para casos de uso de negócios em que a qualidade é mais importante do que a escala bruta, os testes humanos especializados continuam sendo o padrão ouro, apesar dos seus custos. Isto é especialmente verdadeiro para aplicações mais arriscadas de LLMs.

Conclusão

A avaliação completa de grandes modelos de linguagem requer o uso de um conjunto de ferramentas diversificado de métodos complementares, em vez de depender de uma única técnica.

Ao combinar abordagens automatizadas para velocidade com supervisão humana rigorosa para precisão, podemos desenvolver metodologias de teste confiáveis para grandes modelos de linguagem. Com uma avaliação robusta, podemos desbloquear o enorme potencial dos LLMs, ao mesmo tempo que gerimos os seus riscos de forma responsável.

Tópicos relacionados:AI GPT lhama métrica

A seguir

Navegando na era da desinformação: o caso da IA generativa centrada em dados

Não Perca

O futuro da inferência sem servidor para grandes modelos de linguagem

Aayush Mittal

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.

Unir-se.AI

Avaliando grandes modelos de linguagem: um guia técnico

Inteligência artificial

Avaliando grandes modelos de linguagem: um guia técnico

Índice analítico