Entre em contato

Avançando no alinhamento da IA ​​com os valores humanos por meio do WARM

Inteligência artificial

Avançando no alinhamento da IA ​​com os valores humanos por meio do WARM

mm
Modelos de recompensa com média de peso LLM

Alinhamento dos Sistemas de IA com os Valores Humanos

Os sistemas de inteligência artificial (IA) estão se tornando cada vez mais capazes de auxiliar os humanos em tarefas complexas, desde chatbots de atendimento ao cliente até algoritmos de diagnóstico médico. No entanto, à medida que estes sistemas de IA assumem mais responsabilidades, é crucial que permaneçam alinhados com os valores e preferências humanas. Uma abordagem para conseguir isso é por meio de uma técnica chamada aprendizagem por reforço a partir de feedback humano (RLHF). No RLHF, um sistema de IA, conhecido como política, é recompensado ou penalizado com base em julgamentos humanos sobre o seu comportamento. O objectivo é que a política aprenda a maximizar as suas recompensas e, assim, a comportar-se de acordo com as preferências humanas.

Um componente central do RLHF é o modelo de recompensa (RM). O MR é responsável por avaliar as ações e resultados da política e devolver um sinal de recompensa para orientar o processo de aprendizagem. Projetar um bom MR é um desafio, pois as preferências humanas podem ser complexas, dependentes do contexto e até mesmo inconsistentes entre os indivíduos. Recentemente, pesquisadores do Google DeepMind propuseram uma técnica inovadora chamada Weight Averaged Reward Models (WARM) para melhorar o design do RM.

O problema com o hacking de recompensas

Um grande problema no RLHF é o hacking de recompensas. O hacking de recompensas ocorre quando a política encontra brechas para manipular o sistema RM para obter recompensas elevadas sem realmente satisfazer os objetivos pretendidos. Por exemplo, suponha que o objetivo seja treinar uma IA assistente de redação para gerar resumos de alta qualidade. O RM pode recompensar resumos concisos e informativos. A política poderia então aprender a explorar isto, gerando resumos muito curtos e pouco informativos, repletos de palavras-chave que enganam o RM.

O hacking de recompensas acontece por dois motivos principais:

  1. Mudança de distribuição – O RM é treinado em um conjunto de dados limitado de exemplos rotulados por humanos. Quando implementada, os resultados da política podem vir de diferentes distribuições para as quais o RM não generaliza bem.
  2. Etiquetas barulhentas – A rotulagem humana é imperfeita, com divergências entre avaliadores. O RM pode basear-se em sinais espúrios em vez de indicadores robustos de qualidade.

O hacking de recompensas leva a sistemas inúteis que não atendem às expectativas humanas. Pior ainda, pode resultar em comportamentos de IA tendenciosos ou mesmo perigosos se implementados de forma descuidada.

A ascensão da fusão de modelos

O crescente interesse em estratégias de fusão de modelos como o Modelo Ratatouille é impulsionado pela constatação de que modelos maiores, embora poderosos, podem ser ineficientes e impraticáveis. Treinar um modelo de 1 trilhão de parâmetros requer quantidades proibitivas de dados, computação, tempo e custo. Mais crucialmente, tais modelos tendem a ajustar-se excessivamente à distribuição da formação, dificultando a sua capacidade de generalização para diversos cenários do mundo real.

A fusão de modelos fornece uma rota alternativa para desbloquear maiores capacidades sem aumento descontrolado. Ao reutilizar vários modelos especializados treinados em diferentes distribuições, tarefas ou objetivos, a fusão de modelos visa aumentar a versatilidade e a robustez fora da distribuição. A premissa é que diferentes modelos capturem padrões preditivos distintos que podem se complementar quando mesclados.

Resultados recentes ilustram a promessa deste conceito. Os modelos obtidos por fusão, apesar de terem muito menos parâmetros, podem igualar ou até superar o desempenho de modelos gigantes como o GPT-3. Por exemplo, um conjunto do Modelo Ratatouille de apenas 7 pontos de verificação de tamanho médio atinge precisão de última geração em conjuntos de dados de implicação textual de alta dimensão, superando o GPT-3.

A simplicidade da fusão por meio da média de peso é um grande bônus. O treinamento de vários modelos auxiliares exige recursos extras. Mas, o que é crucial, o cálculo do tempo de inferência permanece idêntico a um único modelo, uma vez que os pesos são condensados ​​num só. Isso torna o método facilmente adaptável, sem preocupações com aumento de latência ou custos de memória.

Mecanismos por trás da fusão de modelos

Mas o que exatamente permite esses ganhos de precisão com a fusão de modelos? Análises recentes oferecem algumas pistas:

  • Mitigando a memorização: cada modelo vê diferentes lotes embaralhados do conjunto de dados durante o treinamento. A média diminui qualquer memorização específica da instância, retendo apenas generalizações no nível do conjunto de dados.
  • Reduzindo a Variância: Modelos treinados de forma independente apresentam erros não correlacionados. Combiná-los reduz o ruído, melhorando a calibração.
  • Regularização via Diversidade: Tarefas auxiliares variadas forçam os modelos a se apegarem a recursos mais generalizáveis ​​e úteis em todas as distribuições.
  • Aumentando a Robustez: Inconsistência nas previsões sinaliza incerteza. A média modera os julgamentos atípicos, aumentando a confiabilidade.

Em essência, a fusão de modelos contrabalança as fraquezas dos modelos individuais para amplificar os seus pontos fortes coletivos. A representação mesclada captura as estruturas causais subjacentes comuns, ignorando variações incidentais.

Essa base conceitual conecta a fusão de modelos a outras técnicas populares, como montagem e aprendizagem multitarefa. Todos esses métodos aproveitam a diversidade entre modelos ou tarefas para obter sistemas versáteis e conscientes da incerteza. A simplicidade e a eficiência da média de peso, no entanto, proporcionam à fusão de modelos uma vantagem única para o avanço das implantações no mundo real.

Modelos de recompensa com média de peso

Processo de alinhamento com WARM

Processo de alinhamento com WARM

CALOROSO emprega de forma inovadora um modelo de recompensa proxy (RM), que é uma média ponderada de vários RMs individuais, cada um ajustado a partir do mesmo LLM pré-treinado, mas com hiperparâmetros variados. Este método aumenta a eficiência, a confiabilidade sob mudanças de distribuição e a robustez contra preferências inconsistentes. O estudo também mostra que o uso de WARM como proxy RM, particularmente com um número aumentado de RMs médios, melhora os resultados e atrasa o início do “hackeamento de recompensas”, um fenômeno em que as recompensas de controle se deterioram com o tempo.

Aqui está uma visão geral de alto nível:

  1. Comece com um modelo de linguagem base pré-treinado em um corpus grande. Inicialize vários RMs adicionando pequenas camadas específicas de tarefas na parte superior.
  2. Ajuste cada RM separadamente no conjunto de dados de preferência humana, usando diferentes hiperparâmetros, como taxa de aprendizagem para diversidade.
  3. Calcule a média dos pesos dos RMs ajustados para obter um único conjunto WARM.

O principal insight é que a média do peso retém apenas as informações invariantes que são aprendidas em todos os diversos RMs. Isto reduz a dependência de sinais espúrios, aumentando a robustez. O conjunto também se beneficia da redução da variância, melhorando a confiabilidade apesar das mudanças na distribuição.

Conforme discutido anteriormente, a diversidade entre modelos treinados de forma independente é crucial para desbloquear todo o potencial da fusão de modelos. Mas quais são algumas técnicas concretas para promover a diversidade produtiva?

O artigo WARM explora algumas ideias inteligentes que poderiam ser generalizadas de forma mais ampla:

Encomendar embaralhamentos

Uma abordagem trivial, mas impactante, é embaralhar a ordem em que os pontos de dados são vistos por cada modelo durante o treinamento. Mesmo este passo simples descorrelaciona os pesos, reduzindo a memorização redundante de padrões.

Variações de hiperparâmetros

Ajustar hiperparâmetros como taxa de aprendizagem e probabilidade de abandono para cada execução introduz uma diversidade útil. Os modelos convergem de maneira diferente, capturando propriedades distintas do conjunto de dados.

Média de pontos de verificação – Baklava

O método Baklava inicializa modelos para mesclar diferentes instantâneos ao longo da mesma trajetória de pré-treinamento. Isto relaxa as restrições em comparação com sopas modelo que exigem um ponto de partida partilhado. Em relação ao modelo ratatouille, o Baklava evita tarefas adicionais. No geral, atinge um equilíbrio eficaz entre precisão e diversidade.

ajustando vários modelos de recompensa

O processo começa com um Large Language Model (LLM) 𝜃_𝑝𝑡 pré-treinado. A partir deste modelo, vários pontos de verificação {𝜃_𝑠 𝑓 𝑡_𝑖} são derivados durante uma execução de ajuste fino supervisionado (SFT), cada um coletado em diferentes etapas de treinamento SFT. Esses pontos de verificação são então usados ​​como inicializações para o ajuste fino de vários modelos de recompensa (RMs) {𝜙𝑖} em um conjunto de dados de preferência. Este ajuste fino visa adaptar os modelos para se alinharem melhor com as preferências humanas. Após o ajuste fino, esses RMs são combinados por meio de um processo de cálculo da média dos pesos, resultando no modelo final, 𝜙_WARM.

A análise confirma que adicionar pontos de verificação mais antigos através da média móvel prejudica o desempenho individual, comprometendo os méritos da diversidade. Calcular a média apenas das representações finais de cada execução tem melhor desempenho. Em geral, equilibrar os objetivos de diversidade com a manutenção da precisão continua a ser um desafio de investigação em aberto.

No geral, a fusão de modelos alinha-se bem com o espírito geral no campo para reciclar os recursos existentes de forma eficaz para maior confiabilidade, eficiência e versatilidade. A simplicidade da média de peso solidifica sua posição como principal candidato para a montagem de modelos robustos a partir de blocos de construção prontamente disponíveis.

Ao contrário dos métodos tradicionais de agrupamento que calculam a média das previsões, o WARM mantém a sobrecarga computacional mínima, mantendo apenas um único conjunto de pesos. Experimentos em tarefas de resumo de texto demonstram a eficácia do WARM:

  • Para amostragem melhor de N, WARM atinge uma taxa de vitória de 92.5% contra seleção aleatória de acordo com rótulos de preferência humana.
  • No RLHF, uma política WARM atinge uma taxa de vitória de 79.4% em relação a uma política treinada com um único RM após o mesmo número de etapas.
  • WARM continua a funcionar bem mesmo quando um quarto dos rótulos humanos estão corrompidos.

Estes resultados ilustram o potencial do WARM como uma técnica prática para o desenvolvimento de assistentes de IA do mundo real que se comportam de forma confiável. Ao atenuar as inconsistências no feedback humano, as políticas WARM podem permanecer fortemente alinhadas com os valores humanos, mesmo que continuem a aprender com novas experiências.

The Bigger Picture

WARM está na interseção de duas tendências principais na pesquisa de alinhamento de IA. O primeiro é o estudo da generalização fora de distribuição (OOD), que visa melhorar o desempenho do modelo em novos dados que diferem da distribuição de treinamento. Em segundo lugar está a pesquisa sobre robustez algorítmica, com foco na confiabilidade apesar de pequenas perturbações ou ruídos de entrada.

Ao traçar conexões entre esses campos em torno da noção de invariâncias aprendidas, WARM nos leva a técnicas mais rigorosamente fundamentadas para alinhamento de valores. Os insights do WARM poderiam ser generalizados além do RLHF, fornecendo lições para sistemas mais amplos de aprendizado de máquina que interagem com o mundo aberto.

É claro que a modelagem de recompensas é apenas uma peça do quebra-cabeça do alinhamento. Ainda precisamos de progresso em outros desafios, como especificação de recompensas, supervisão escalonável e exploração segura. Combinado com técnicas complementares, o WARM poderia acelerar o desenvolvimento da IA ​​que promove de forma sustentável a prosperidade humana. Ao elucidar colectivamente os princípios subjacentes ao alinhamento robusto, os investigadores estão a traçar o caminho para uma IA ética e benéfica.

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.