toco Geração de paráfrase usando aprendizado de reforço profundo - Líderes de pensamento - Unite.AI
Entre em contato

Inteligência artificial

Geração de paráfrase usando aprendizado de reforço profundo - líderes de pensamento

mm
Atualização do on

Ao escrever ou falar, todos nos perguntamos se existe uma maneira melhor de comunicar uma ideia aos outros. Que palavras devo usar? Como devo estruturar o pensamento? Como eles provavelmente responderão? No Phrasee, passamos muito tempo pensando sobre a linguagem – o que funciona e o que não funciona.

Imagine que você está escrevendo a linha de assunto para uma campanha de e-mail que irá para 10 milhões de pessoas em sua lista, promovendo 20% de desconto em um novo laptop sofisticado.

Qual linha você escolheria:

  • Agora você pode obter um desconto extra de 20% no seu próximo pedido
  • Prepare-se - um desconto extra de 20%

Enquanto eles transmitem as mesmas informações, um alcançou uma taxa de abertura quase 15% maior do que o outro (e aposto que você não pode vencer nosso modelo em prever qual deles?). Embora a linguagem muitas vezes possa ser testada por meio de Teste A / B Exemplo: crie XNUMX textos de email > XNUMX pessoas na sua lista, XNUMX receberao XNUMX email e XNUMX receberão outro e veja qual email converteu mais or bandidos multi-armados, a geração automática de paráfrases continua sendo um problema de pesquisa realmente desafiador.

Duas frases são consideradas paráfrases uma da outra se compartilharem o mesmo significado e puderem ser usadas de forma intercambiável. Outra coisa importante que muitas vezes é dada como certa é se uma frase gerada por máquina é fluente.

Ao contrário do aprendizado supervisionado, os agentes de Aprendizado por Reforço (RL) aprendem interagindo com seu ambiente e observando as recompensas que recebem como resultado. Essa diferença sutil tem implicações enormes sobre como os algoritmos funcionam e como os modelos são treinados. Aprendizagem por Reforço Profundo usa redes neurais como um aproximador de função para permitir que o agente aprenda como superar os humanos em ambientes complexos, como Go, Atari, e StarCraft II.

Apesar deste sucesso, a aprendizagem por reforço não tem sido amplamente aplicada a problemas do mundo real, incluindo o Processamento de Linguagem Natural (PNL).

Como parte do meu Dissertação de Mestrado em Ciência de Dados, demonstramos como o Deep RL pode ser usado para superar os métodos de aprendizado supervisionado na geração automática de paráfrases do texto de entrada. O problema de gerar a melhor paráfrase pode ser visto como encontrar a série de palavras que maximiza a semelhança semântica entre as sentenças enquanto mantém a fluência na saída. Os agentes RL são adequados para encontrar o melhor conjunto de ações para alcançar a recompensa máxima esperada em ambientes de controle.

Em contraste com a maioria dos problemas de aprendizado de máquina, o maior problema na maioria das aplicações de Geração de Linguagem Natural (NLG) não reside na modelagem, mas sim na avaliação. Embora a avaliação humana seja atualmente considerada o padrão ouro na avaliação NLG, ela sofre de desvantagens significativas, incluindo ser cara, demorada, difícil de ajustar e sem reprodutibilidade em experimentos e conjuntos de dados (Han, 2016). Como resultado, os pesquisadores há muito procuram métricas automáticas que sejam simples, generalizáveis ​​e que reflitam o julgamento humano. (Papineni e outros, 2002).

Os métodos de avaliação automática mais comuns na avaliação de legendas de imagens geradas por máquina são resumidos abaixo com seus prós e contras:

Geração de paráfrase usando o pipeline de aprendizado por reforço

Desenvolvemos um sistema chamado ParaPhrasee que gera paráfrases de alta qualidade. O sistema consiste em várias etapas para aplicar o aprendizado por reforço de maneira computacionalmente eficiente. Um breve resumo do pipeline de alto nível é mostrado abaixo com mais detalhes contidos no tese.

Conjunto de dados

Existem vários conjuntos de dados de paráfrase disponíveis que são usados ​​em pesquisas, incluindo: o Corpo de paráfrase da Microsoft, Competição de similaridade semântica de texto da ACL, Perguntas duplicadas do Quora e Links Compartilhados do Twitter. nós selecionamos MS-COCO devido ao seu tamanho, limpeza e uso como referência para dois artigos notáveis ​​de geração de paráfrases. MS-COCO contém 120k imagens de cenas comuns com 5 legendas de imagem por imagem fornecidas por 5 anotadores humanos diferentes.

Embora seja projetado principalmente para pesquisas de visão computacional, as legendas tendem a ter alta semelhança semântica e são paráfrases interessantes. Dado que as legendas das imagens são fornecidas por pessoas diferentes, elas tendem a ter pequenas variações nos detalhes fornecidos na cena, portanto as frases geradas tendem a alucinar detalhes.

Modelo Supervisionado

Embora o aprendizado por reforço tenha melhorado consideravelmente em termos de eficiência de amostragem, tempos de treinamento e melhores práticas gerais, o treinamento de modelos RL do zero ainda é comparativamente muito lento e instável (Arulkumaran et al., 2017). Portanto, em vez de treinar do zero, primeiro treinamos um modelo supervisionado e depois o ajustamos usando RL.

Nós usamos um Codificador-Decodificador estrutura do modelo e avaliar o desempenho de vários modelos supervisionados de linha de base. Ao ajustar o modelo usando RL, apenas ajustamos a rede do decodificador e tratamos a rede do codificador como estática. Como tal, consideramos dois frameworks principais:

  • Treinando o modelo supervisionado do zero usando um decodificador de codificador padrão/vanilla com GRUs
  • Usando modelos de incorporação de sentenças pré-treinados para o codificador, incluindo: incorporações de palavras agrupadas (GloVe), InferSent e BERT

Os modelos supervisionados tendem a ter um desempenho bastante semelhante entre os modelos, com o BERT e o codificador-decodificador vanilla alcançando o melhor desempenho.

Embora o desempenho tenda a ser razoável, existem três fontes comuns de erro: gagueira, geração de fragmentos de frases e alucinações. Estes são os principais problemas que o uso de RL visa resolver.

Modelo de Aprendizagem por Reforço

A implementação de algoritmos de RL é muito desafiadora, especialmente quando você não sabe se o problema pode ser resolvido. Pode haver problemas na implementação de seu ambiente, seus agentes, seus hiperparâmetros, sua função de recompensa ou uma combinação de todos os itens acima! Esses problemas são exacerbados ao fazer RL profundo, pois você se diverte com a complexidade adicional de depurando redes neurais.

Como em toda depuração, é crucial comece simples. Implementamos variações de dois ambientes de RL de brinquedo bem compreendidos (CartPole e FrozenLake) para testar algoritmos de RL e encontrar uma estratégia repetível para transferir conhecimento do modelo supervisionado.

Descobrimos que usando um Algoritmo ator-crítico superou o REINFORCE nesses ambientes. Em termos de transferência de conhecimento para o modelo ator-crítico, descobrimos que inicializar os pesos do ator com o modelo supervisionado treinado e pré-treinar o crítico obteve o melhor desempenho. Achamos desafiador generalizar abordagens sofisticadas de destilação de políticas para novos ambientes, pois elas introduzem muitos novos hiperparâmetros que exigem ajuste para funcionar.

Apoiados por esses insights, passamos a desenvolver uma abordagem para a tarefa de geração de paráfrases. Primeiro precisamos criar um ambiente.

O ambiente nos permite testar facilmente o impacto do uso de diferentes métricas de avaliação como funções de recompensa.

Em seguida, definimos o agente, dadas as suas muitas vantagens, usamos uma arquitetura ator-crítica. O ator é utilizado para selecionar a próxima palavra na sequência e tem seus pesos inicializados utilizando o modelo supervisionado. O crítico fornece uma estimativa da recompensa esperada que um estado provavelmente receberá para ajudar o ator a aprender.

Projetando a função de recompensa certa

O componente mais importante do projeto de um sistema RL é a função de recompensa, pois é isso que o agente RL está tentando otimizar. Se a função de recompensa estiver incorreta, os resultados serão prejudicados, mesmo que todas as outras partes do sistema funcionem!

Um exemplo clássico disso é CoastRunners onde os pesquisadores da OpenAI definiram a função de recompensa como maximizando a pontuação total em vez de vencer a corrida. O resultado disso é que o agente descobriu um loop onde poderia obter a maior pontuação ao acertar os turbos sem nunca completar a corrida.

Considerando que a avaliação da qualidade das paráfrases é em si um problema não resolvido, projetar uma função de recompensa que capture automaticamente esse objetivo é ainda mais difícil. A maioria dos aspectos da linguagem não se decompõe bem em métricas lineares e depende da tarefa (Novikova e outros, 2017).

O agente RL geralmente descobre uma estratégia interessante para maximizar as recompensas que explora os pontos fracos da métrica de avaliação em vez de gerar um texto de alta qualidade. Isso tende a resultar em baixo desempenho nas métricas que o agente não está otimizando diretamente.

Consideramos três abordagens principais:

  1. Métricas de sobreposição de palavras

Métricas comuns de avaliação de PNL consideram a proporção de sobreposição de palavras entre a paráfrase gerada e a sentença de avaliação. Quanto maior a sobreposição, maior a recompensa. O desafio com as abordagens em nível de palavra é que o agente inclui muitas palavras de conexão, como “a is on of” e não há medida de fluência. Isso resulta em paráfrases de qualidade muito baixa.

  1. Similaridade em nível de frase e métricas de fluência

As principais propriedades de uma paráfrase gerada são que ela deve ser fluente e semanticamente semelhante à frase de entrada. Portanto, tentamos explicitamente pontuar individualmente e depois combinar as métricas. Para similaridade semântica, usamos a similaridade de cosseno entre incorporações de sentenças de modelos pré-treinados, incluindo BERT. Para fluência, usamos uma pontuação baseada na perplexidade de uma frase do GPT-2. Quanto maior a similaridade do cosseno e as pontuações de fluência, maior a recompensa.

Tentamos muitas combinações diferentes de modelos de incorporação de sentenças e modelos de fluência e, embora o desempenho fosse razoável, o principal problema enfrentado pelo agente era não equilibrar suficientemente a similaridade semântica com a fluência. Para a maioria das configurações, o agente priorizou a fluência, resultando na remoção de detalhes e na maioria das entidades sendo colocadas “no meio” de algo ou sendo movidas “em uma mesa” ou “ao lado da estrada”.

A aprendizagem por reforço multiobjetivo é uma questão de pesquisa em aberto e é muito desafiadora neste caso.

  1. Usando um Modelo Adversarial como uma Função de Recompensa

Dado que os humanos são considerados o padrão-ouro na avaliação, treinamos um modelo separado chamado discriminador para prever se duas sentenças são ou não paráfrases uma da outra (semelhante à maneira como um humano avaliaria). O objetivo do modelo RL é então convencer esse modelo de que a sentença gerada é uma paráfrase da entrada. O discriminador gera uma pontuação de quão provável as duas sentenças são paráfrases uma da outra, que é usada como recompensa para treinar o agente.

A cada 5,000 suposições, o discriminador é informado sobre qual paráfrase veio do conjunto de dados e qual foi gerada para que ele possa melhorar suas suposições futuras. O processo continua por várias rodadas com o agente tentando enganar o discriminador e o discriminador tentando diferenciar entre as paráfrases geradas e as paráfrases de avaliação do conjunto de dados.

Após várias rodadas de treinamento, o agente gera paráfrases que superam os modelos supervisionados e outras funções de recompensa.

Conclusão e Limitações

Abordagens adversárias (incluindo autojogo para jogos) fornecem uma abordagem extremamente promissora para treinar algoritmos de RL para exceder o desempenho de nível humano em certas tarefas sem definir uma função de recompensa explícita.

Embora o RL tenha conseguido superar o aprendizado supervisionado nessa instância, a quantidade de sobrecarga extra em termos de código, computação e complexidade não compensa o ganho de desempenho para a maioria dos aplicativos. A RL é melhor deixada para situações em que o aprendizado supervisionado não pode ser facilmente aplicado e uma função de recompensa é fácil de definir (como jogos de Atari). As abordagens e algoritmos são muito mais maduros no aprendizado supervisionado e o sinal de erro é muito mais forte, o que resulta em um treinamento muito mais rápido e estável.

Outra consideração é, como em outras abordagens neurais, que o agente pode falhar drasticamente nos casos em que a entrada é diferente das entradas vistas anteriormente, exigindo uma camada adicional de verificações de sanidade para aplicativos de produção.

A explosão de interesse em abordagens de RL e avanços na infraestrutura computacional nos últimos anos abrirá grandes oportunidades para a aplicação de RL na indústria, especialmente dentro do NLP.

Andrew Gibbs-Bravo é Cientista de Dados da Phrasee focado em melhorar a tecnologia por trás da redação baseada em inteligência artificial líder mundial da Phrasee. Ele também é o co-organizador do London Reinforcement Learning Community Meetup e está interessado em tudo relacionado a RL, PNL e aprendizado de máquina.