Inteligência artificial

EUREKA: Design de recompensa em nível humano por meio da codificação de grandes modelos de linguagem

Atualização do on 21 de novembro de 2023

Com os avanços que os Grandes Modelos de Linguagem fizeram nos últimos anos, não é surpreendente por que essas estruturas LLM se destacam como planejadores semânticos para tarefas sequenciais de tomada de decisão de alto nível. No entanto, os desenvolvedores ainda acham um desafio utilizar todo o potencial das estruturas LLM para aprender tarefas complexas de manipulação de baixo nível. Apesar de sua eficiência, os Grandes Modelos de Linguagem de hoje exigem considerável domínio e conhecimento do assunto para aprender até mesmo habilidades simples ou construir instruções textuais, criando uma lacuna significativa entre seu desempenho e a destreza de nível humano.

Para preencher essa lacuna, desenvolvedores da Nvidia, CalTech, UPenn e outros introduziram o EUREKA, um algoritmo de design de nível humano alimentado por LLM. EUREKA visa aproveitar vários recursos de estruturas LLM, incluindo escrita de código, melhoria no contexto e geração de conteúdo zero-shot, para realizar uma otimização sem precedentes de códigos de recompensa. Esses códigos de recompensa, combinados com o aprendizado por reforço, permitem que as estruturas aprendam habilidades complexas ou executem tarefas de manipulação.

Neste artigo, examinaremos a estrutura EUREKA de uma perspectiva de desenvolvimento, explorando sua estrutura, funcionamento e os resultados que alcança na geração de funções de recompensa. Essas funções, conforme alegado pelos desenvolvedores, superam aquelas geradas por humanos. Também nos aprofundaremos em como a estrutura EUREKA abre caminho para uma nova abordagem para RLHF (Aprendizagem por Reforço usando Feedback Humano), permitindo a aprendizagem no contexto sem gradiente. Vamos começar.

EUREKA: Uma Introdução

Hoje, Estruturas LLM de última geração como GPT-3 e GPT-4 oferecem resultados excelentes ao servir como planejadores semânticos para tarefas sequenciais de tomada de decisão de alto nível, mas os desenvolvedores ainda estão procurando maneiras de melhorar seu desempenho quando se trata de aprender tarefas de manipulação de baixo nível, como girar a caneta destreza. Além disso, os desenvolvedores observaram que a aprendizagem por reforço pode ser usada para alcançar resultados sustentáveis em condições hábeis e em outros domínios, desde que as funções de recompensa sejam construídas cuidadosamente por designers humanos, e essas funções de recompensa sejam capazes de fornecer sinais de aprendizagem para comportamentos favoráveis. Quando comparadas com tarefas de aprendizagem por reforço do mundo real que aceitam recompensas esparsas, dificultam o aprendizado dos padrões pelo modelo, moldar essas recompensas fornece os sinais de aprendizagem incremental necessários. Além disso, as funções de recompensa, apesar da sua importância, são extremamente difíceis de conceber, e conceções subótimas destas funções conduzem frequentemente a comportamentos não intencionais.

Para enfrentar esses desafios e maximizar a eficiência desses tokens de recompensa, o EUREKA ou Eimpulsionado pela evolução Universal REenfermaria Kpor Agent pretende fazer as seguintes contribuições.

Alcançar desempenho de nível humano para projetar funções de recompensa.
Resolva com eficácia tarefas de manipulação sem usar engenharia de recompensa manual.
Gere funções de recompensa mais alinhadas ao ser humano e com melhor desempenho, introduzindo uma nova abordagem de aprendizagem no contexto sem gradiente, em vez do método tradicional RLHF ou Aprendizagem por Reforço a partir de Feedback Humano.

Existem três opções principais de design algorítmico que os desenvolvedores optaram para melhorar a generalidade do EUREKA: pesquisa evolutiva, ambiente como contexto e reflexão de recompensa. Em primeiro lugar, o quadro EUREKA assume a código-fonte do ambiente como contexto para gerar funções de recompensa executáveis em uma configuração de tiro zero. Em seguida, o framework executa uma busca evolutiva para melhorar substancialmente a qualidade de suas recompensas, propõe lotes de candidatos a recompensas a cada iteração ou época e refina aqueles que considera mais promissores. Na terceira e última etapa, a estrutura utiliza o reflexão de recompensa abordagem para tornar a melhoria contextual das recompensas mais eficaz, um processo que, em última análise, ajuda a estrutura a permitir a edição direcionada e automatizada de recompensas, usando um resumo textual da qualidade dessas recompensas com base em estatísticas de treinamento de políticas. A figura a seguir oferece uma breve visão geral de como funciona a estrutura EUREKA e, na próxima seção, falaremos sobre a arquitetura e o trabalho com mais detalhes.

EUREKA: arquitetura de modelo e definição de problemas

O objetivo principal da modelagem de recompensa é retornar uma função de recompensa moldada ou selecionada para uma função de recompensa verdadeira, o que pode representar dificuldades ao ser otimizado diretamente como recompensas esparsas. Além disso, os designers só podem usar consultas para acessar essas funções de recompensa verdadeiras, razão pela qual a estrutura EUREKA opta por geração de recompensa, uma configuração de síntese de programa baseada em RDP ou Reward Design Problem.

O Reward Design Problem ou RDP é uma tupla que contém um modelo mundial com um espaço de estado, espaço para funções de recompensa, uma função de transição e um espaço de ação. Um algoritmo de aprendizagem otimiza então as recompensas gerando uma política que resulta em um MDP ou Processo de Design de Markov, que produz a evolução escalar de qualquer política e só pode ser acessada por meio de consultas de política. O objetivo principal do RDP é gerar uma função de recompensa de forma que a política seja capaz de atingir a pontuação máxima de aptidão. Na definição do problema EUREKA, os desenvolvedores especificaram cada componente do problema de design de recompensa usando código. Além disso, para uma determinada string que especifica os detalhes da tarefa, o objetivo principal do problema de geração de recompensa é gerar um código de função de recompensa para maximizar a pontuação de aptidão.

Seguindo em frente, em sua essência, existem três componentes algorítmicos fundamentais na estrutura EUREKA. Pesquisa evolutiva (propor e recompensar candidatos refinados de forma iterativa), ambiente como contexto (gerar recompensas executáveis em configuração de tiro zero) e reflexão de recompensa (para permitir uma melhoria refinada das recompensas). O pseudocódigo do algoritmo é ilustrado na imagem a seguir.

Meio Ambiente como Contexto

Atualmente, as estruturas LLM precisam de especificações ambientais como entradas para projetar recompensas, enquanto a estrutura EUREKA propõe alimentar o código ambiental bruto diretamente como contexto, sem que o código de recompensa permita que as estruturas LLM tomem o modelo mundial como contexto. A abordagem seguida pela EUREKA tem dois benefícios principais. Primeiro, as estruturas LLM para fins de codificação são treinadas em conjuntos de códigos nativos escritos em linguagens de programação existentes como C, C++, Python, Java e muito mais, que é a razão fundamental pela qual eles são melhores na produção de saídas de código quando são permitidos diretamente. para compor o código na sintaxe e no estilo em que foram originalmente treinados. Em segundo lugar, o uso do código-fonte do ambiente geralmente revela os ambientes envolvidos semanticamente e as variáveis que são adequadas ou ideais para uso na tentativa de gerar uma função de recompensa de acordo com a tarefa especificada. Com base nesses insights, a estrutura EUREKA instrui o LLM a retornar um código Python mais executável diretamente com a ajuda apenas de dicas de formatação e designs genéricos de recompensa.

Pesquisa Evolucionária

A inclusão da busca evolutiva na estrutura EUREKA visa apresentar uma solução natural para os desafios de subotimização e erros ocorridos durante a execução conforme mencionado anteriormente. Com cada iteração ou época, a estrutura várias saídas independentes do modelo de linguagem grande, e desde que as gerações sejam todas iid, reduz exponencialmente a probabilidade de funções de recompensa durante as iterações apresentarem erros, dado que o número de amostras aumenta a cada época.

Na próxima etapa, a estrutura EUREKA usa as funções de recompensa executáveis da iteração anterior para realizar uma mutação de recompensa no contexto e, em seguida, propõe uma função de recompensa nova e aprimorada com base no feedback textual. A estrutura EUREKA, quando combinada com a melhoria no contexto e o seguimento de instruções capacidades de grandes modelos de linguagem é capaz de especificar o operador de mutação como um prompt de texto e sugere um método para usar o resumo textual do treinamento de políticas para modificar os códigos de recompensa existentes.

Reflexão de recompensa

Para fundamentar mutações de recompensa no contexto, é essencial avaliar a qualidade das recompensas geradas e, mais importante, colocá-las em palavras, e a estrutura EUREKA aborda isso usando a estratégia simples de fornecer as pontuações numéricas como avaliação de recompensa. Quando a função de aptidão para a tarefa serve como uma métrica holística para a verdade básica, falta-lhe atribuição de crédito e é incapaz de fornecer qualquer informação valiosa sobre a razão pela qual a função de recompensa funciona ou porque não funciona. Assim, numa tentativa de fornecer um diagnóstico de recompensas mais direcionado e intrincado, o quadro propõe a utilização de feedbacks automatizados para resumir a dinâmica de formação de políticas em textos. Além disso, no programa de recompensas, pede-se às funções de recompensa no quadro EUREKA que exponham os seus componentes individualmente, permitindo que o quadro rastreie os valores escalares de cada componente de recompensa único em pontos de verificação de políticas durante toda a fase de formação.

Embora o procedimento da função de recompensa seguido pela estrutura EUREKA seja simples de construir, é essencial graças à natureza algorítmica da otimização das recompensas. Isso significa que a eficácia de uma função de recompensa é diretamente influenciada pela escolha de um algoritmo de Aprendizado por Reforço e, com uma mudança nos hiperparâmetros, a recompensa pode ter um desempenho diferente, mesmo com o mesmo otimizador. Assim, a estrutura EUREKA é capaz de editar os registros de forma mais eficaz e seletiva, ao mesmo tempo que sintetiza funções de recompensa que estão em sinergia aprimorada com o algoritmo de Aprendizagem por Reforço.

Treinamento e linha de base

Existem dois componentes principais de formação no quadro EUREKA: Aprendizagem de políticas e Métricas de avaliação de recompensas.

Aprendizagem de políticas

As funções finais de recompensa para cada tarefa individual são otimizadas com a ajuda do mesmo algoritmo de aprendizado por reforço usando o mesmo conjunto de hiperparâmetros que são ajustados para fazer com que as recompensas projetadas por humanos funcionem bem.

Métricas de avaliação de recompensas

Como a métrica da tarefa varia em termos de escala e significado semântico com cada tarefa, a estrutura EUREKA relata a pontuação normalizada humana, uma métrica que fornece uma medida holística para a estrutura comparar seu desempenho com as recompensas geradas por especialistas humanos, de acordo com as métricas de verdade.

Seguindo em frente, existem três linhas de base principais: L2R, Humano, e Escasso.

L2R

L2R é um Modo de idioma grande de dois estágiosl solução imediata que ajuda na geração de recompensas modeladas. Primeiro, uma estrutura LLM preenche um modelo de linguagem natural para o ambiente e a tarefa especificados em linguagem natural e, em seguida, uma segunda estrutura LLM converte essa “descrição de movimento” em um código que escreve uma função de recompensa chamando um conjunto de primitivas de API de recompensa escritas manualmente .

Humano

A linha de base Humana são as funções de recompensa originais escritas por pesquisadores de aprendizagem por reforço, representando assim os resultados da engenharia de recompensa humana em um nível sem precedentes.

Escasso

A linha de base esparsa se assemelha às funções de fitness e é usada para avaliar a qualidade das recompensas geradas pela estrutura.

Resultados e Resultados

Para analisar o desempenho do quadro EUREKA, iremos avaliá-lo em diferentes parâmetros, incluindo a sua desempenho em relação às recompensas humanas, melhoria nos resultados ao longo do tempo, geração de novas recompensas, permitindo melhorias direcionadas, e trabalhando com feedback humano.

EUREKA supera recompensas humanas

A figura a seguir ilustra os resultados agregados em diferentes benchmarks e, como pode ser claramente observado, a estrutura EUREKA supera ou tem um desempenho equivalente às recompensas de nível humano nas tarefas de Destreza e Issac. Em comparação, a linha de base L2R oferece desempenho semelhante em tarefas de baixa dimensão, mas quando se trata de tarefas de alta dimensão, a lacuna no desempenho é bastante substancial.

Melhorando consistentemente ao longo do tempo

Um dos principais destaques da estrutura EUREKA é a sua capacidade de melhorar e melhorar constantemente o seu desempenho ao longo do tempo com cada iteração, e os resultados são demonstrados na figura abaixo.

Como pode ser visto claramente, a estrutura gera constantemente melhores recompensas a cada iteração, e também melhora e eventualmente supera o desempenho das recompensas humanas, graças ao uso da abordagem de busca evolutiva de recompensas no contexto.

Gerando novas recompensas

A novidade das recompensas da estrutura EUREKA pode ser avaliada calculando a correlação entre as recompensas humanas e EUREKA na totalidade das tarefas do Issac. Essas correlações são então plotadas em um gráfico de dispersão ou mapa em relação às pontuações normalizadas humanas, com cada ponto no gráfico representando uma recompensa EUREKA individual para cada tarefa individual. Como pode ser visto claramente, a estrutura EUREKA gera predominantemente funções de recompensa correlacionadas fracas, superando as funções de recompensa humanas.

Habilitando melhorias direcionadas

Para avaliar a importância de adicionar reflexão de recompensa no feedback de recompensa, os desenvolvedores avaliaram uma ablação, uma estrutura EUREKA sem reflexão de recompensa que reduz os prompts de feedback para consistirem apenas em valores instantâneos. Ao executar tarefas Issac, os desenvolvedores observaram que, sem reflexão de recompensa, a estrutura EUREKA testemunhou uma queda de cerca de 29% na pontuação média normalizada.

Trabalhando com Feedbacks Humanos

Para incorporar prontamente uma ampla gama de insumos para gerar funções de recompensa alinhadas ao humano e com melhor desempenho, a estrutura EUREKA, além de designs de recompensa automatizados, também introduz uma nova abordagem de aprendizagem em contexto livre de gradiente para Aprendizagem por Reforço a partir de Feedback Humano, e houve duas observações significativas.

EUREKA pode beneficiar e melhorar as funções de recompensa humana.
Usar feedback humano para reflexões de recompensa induz um comportamento alinhado.

A figura acima demonstra como a estrutura EUREKA demonstra um aumento substancial no desempenho e eficiência usando a inicialização de recompensa humana, independentemente da qualidade das recompensas humanas, sugerindo que a qualidade das recompensas básicas não tem um impacto significativo nas habilidades de melhoria de recompensa no contexto do quadro.

A figura acima ilustra como o quadro EUREKA pode não só induzir políticas mais alinhadas com o ser humano, mas também modificar as recompensas ao incorporar o feedback humano.

Considerações Finais

Neste artigo, falamos sobre EUREKA, um algoritmo de design de nível humano baseado em LLM, que tenta aproveitar vários recursos de estruturas LLM, incluindo escrita de código, recursos de melhoria no contexto e geração de conteúdo zero-shot para realizar uma otimização sem precedentes. de códigos de recompensa. O código de recompensa junto com o aprendizado por reforço pode então ser usado por essas estruturas para aprender habilidades complexas ou realizar tarefas de manipulação. Sem intervenção humana ou engenharia imediata para tarefas específicas, a estrutura oferece capacidades de geração de recompensas de nível humano em uma ampla gama de tarefas, e seu principal ponto forte reside no aprendizado de tarefas complexas com uma abordagem de aprendizagem curricular.

No geral, o desempenho substancial e a versatilidade da estrutura EUREKA indicam que o potencial de combinar algoritmos evolutivos com grandes modelos de linguagem pode resultar numa abordagem escalável e geral para projetar recompensas, e esta visão pode ser aplicável a outros problemas de pesquisa abertos.

Tópicos relacionados:eureka LLM RLHF

A seguir

Explorando o mundo das namoradas com IA: um vislumbre do futuro dos relacionamentos

Não Perca

Relatório O'Reilly “IA generativa na empresa” de 2023

Kunal Kejriwal

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.

Unir-se.AI

EUREKA: Design de recompensa em nível humano por meio da codificação de grandes modelos de linguagem

Inteligência artificial

EUREKA: Design de recompensa em nível humano por meio da codificação de grandes modelos de linguagem

Índice analítico

EUREKA: Uma Introdução