talon Génération de paraphrases à l'aide de l'apprentissage par renforcement profond - Leaders d'opinion - Unite.AI
Suivez nous sur

Intelligence artificielle

Génération de paraphrases à l'aide de l'apprentissage par renforcement profond - Leaders d'opinion

mm
Le kit de préparation mis à jour on

En écrivant ou en parlant, nous nous sommes tous demandé s'il n'y avait pas une meilleure façon de communiquer une idée aux autres. Quels mots dois-je utiliser ? Comment dois-je structurer la pensée ? Comment sont-ils susceptibles de réagir ? À Phrasee, nous passons beaucoup de temps à réfléchir au langage – à ce qui fonctionne et à ce qui ne fonctionne pas.

Imaginez que vous écrivez la ligne d'objet d'une campagne par e-mail qui ira à 10 millions de personnes dans votre liste pour promouvoir 20% de réduction sur un nouvel ordinateur portable de fantaisie.

Quelle ligne choisiriez-vous :

  • Vous pouvez désormais profiter de 20% de réduction supplémentaire sur votre prochaine commande
  • Préparez-vous - 20% de réduction supplémentaire

Bien qu'ils véhiculent les mêmes informations, l'un a atteint un taux d'ouverture de près de 15 % supérieur à l'autre (et je parie que vous ne pouvez pas battre notre modèle pour prédire lequel ?). Alors que la langue peut souvent être testée par Le test A / B or bandits à plusieurs bras, la génération automatique de paraphrases reste un problème de recherche très difficile.

Deux phrases sont considérées comme des paraphrases l'une de l'autre si elles partagent le même sens et peuvent être utilisées de manière interchangeable. Une autre chose importante qui est souvent tenue pour acquise est de savoir si une phrase générée par une machine est fluide.

Contrairement à l'apprentissage supervisé, les agents d'apprentissage par renforcement (RL) apprennent en interagissant avec leur environnement et en observant les récompenses qu'ils reçoivent en conséquence. Cette différence quelque peu nuancée a des implications massives sur le fonctionnement des algorithmes et la formation des modèles. Apprentissage par renforcement profond utilise les réseaux de neurones comme approximateur de fonction pour permettre à l'agent d'apprendre à surpasser les humains dans des environnements complexes tels que Go, Atari et StarCraft II.

Malgré ce succès, l’apprentissage par renforcement n’a pas été largement appliqué aux problèmes du monde réel, notamment au traitement du langage naturel (NLP).

Dans le cadre de mon Mémoire de maîtrise en science des données, nous démontrons comment Deep RL peut être utilisé pour surpasser les méthodes d'apprentissage supervisé en générant automatiquement des paraphrases de texte d'entrée. Le problème de la génération de la meilleure paraphrase peut être considéré comme la recherche de la série de mots qui maximise la similitude sémantique entre les phrases tout en maintenant la fluidité dans la sortie. Les agents RL sont bien adaptés pour trouver le meilleur ensemble d'actions pour obtenir la récompense maximale attendue dans les environnements de contrôle.

Contrairement à la plupart des problèmes liés à l'apprentissage automatique, le problème le plus important dans la plupart des applications de génération de langage naturel (NLG) ne réside pas dans la modélisation mais plutôt dans l'évaluation. Bien que l'évaluation humaine soit actuellement considérée comme la référence en matière d'évaluation NLG, elle souffre d'inconvénients importants, notamment le fait d'être coûteuse, longue, difficile à régler et manque de reproductibilité entre les expériences et les ensembles de données. (Han, 2016). En conséquence, les chercheurs recherchent depuis longtemps des métriques automatiques simples, généralisables et reflétant le jugement humain. (Papineni et al., 2002).

Les méthodes d'évaluation automatique les plus courantes pour évaluer les légendes d'image générées par la machine sont résumées ci-dessous avec leurs avantages et leurs inconvénients :

Génération de paraphrases à l'aide du pipeline d'apprentissage par renforcement

Nous avons développé un système nommé ParaPhrasee qui génère des paraphrases de haute qualité. Le système se compose de plusieurs étapes afin d'appliquer l'apprentissage par renforcement de manière efficace sur le plan informatique. Un bref résumé du pipeline de haut niveau est présenté ci-dessous avec plus de détails contenus dans le thèse.

Ensemble de données

Il existe plusieurs ensembles de données de paraphrase disponibles qui sont utilisés dans la recherche, notamment : Corpus Microsoft Paraphrase, Concours de similarité sémantique de texte d'ACL, Questions en double sur Quoraet Liens partagés Twitter. Nous avons sélectionné MS-COCO compte tenu de sa taille, de sa propreté et de son utilisation comme référence pour deux articles de génération de paraphrase notables. MS-COCO contient 120 5 images de scènes courantes avec 5 légendes d'image par image fournies par XNUMX annotateurs humains différents.

Bien qu'il soit principalement conçu pour la recherche en vision par ordinateur, les légendes ont tendance à avoir une grande similitude sémantique et constituent des paraphrases intéressantes. Étant donné que les légendes des images sont fournies par différentes personnes, elles ont tendance à présenter de légères variations dans les détails fournis dans la scène, donc les phrases générées ont tendance à halluciner les détails.

Modèle supervisé

Alors que l'apprentissage par renforcement s'est considérablement amélioré en termes d'efficacité des échantillons, de temps de formation et de meilleures pratiques globales, la formation de modèles RL à partir de zéro est encore relativement très lente et instable. (Arulkumaran et al., 2017). Par conséquent, plutôt que de former à partir de zéro, nous formons d'abord un modèle supervisé, puis l'affinons à l'aide de RL.

Nous utilisons un Encodeur-Décodeur cadre du modèle et évaluer les performances de plusieurs modèles supervisés de référence. Lors du réglage fin du modèle à l'aide de RL, nous ajustons uniquement le réseau de décodeurs et traitons le réseau de codeurs comme statique. Ainsi, nous considérons deux cadres principaux :

  • Entraîner le modèle supervisé à partir de zéro à l'aide d'un décodeur d'encodeur standard/vanilla avec des GRU
  • Utilisation de modèles d'intégration de phrases pré-entraînés pour l'encodeur, notamment : intégrations de mots regroupés (GloVe), InferSent et BERT

Les modèles supervisés ont tendance à fonctionner de manière assez similaire d'un modèle à l'autre, le BERT et l'encodeur-décodeur vanille obtenant les meilleures performances.

Bien que les performances aient tendance à être raisonnables, il existe trois sources courantes d'erreur : le bégaiement, la génération de fragments de phrases et les hallucinations. Ce sont les principaux problèmes que l'utilisation de RL vise à résoudre.

Modèle d'apprentissage par renforcement

La mise en œuvre d'algorithmes RL est très difficile, surtout lorsque vous ne savez pas si le problème peut être résolu. Il peut y avoir des problèmes dans la mise en œuvre de votre environnement, de vos agents, de vos hyperparamètres, de votre fonction de récompense ou d'une combinaison de tout ce qui précède ! Ces problèmes sont exacerbés lorsque vous faites du RL profond car vous vous amusez de la complexité supplémentaire de débogage des réseaux de neurones.

Comme pour tout débogage, il est crucial de commencer simple. Nous avons implémenté des variantes de deux environnements RL jouets bien compris (CartPole et FrozenLake) pour tester les algorithmes RL et trouver une stratégie reproductible pour transférer les connaissances du modèle supervisé.

Nous avons constaté qu'en utilisant un Algorithme acteur-critique a surpassé REINFORCE dans ces environnements. En termes de transfert de connaissances vers le modèle acteur-critique, nous avons constaté que l'initialisation des poids de l'acteur avec le modèle supervisé formé et la préformation du critique obtenaient les meilleures performances. Nous avons trouvé difficile de généraliser les approches sophistiquées de distillation des politiques à de nouveaux environnements, car elles introduisent de nombreux nouveaux hyperparamètres qui nécessitent un réglage pour fonctionner.

Forts de ces connaissances, nous nous tournons ensuite vers le développement d'une approche pour la tâche de génération de paraphrase. Nous devons d'abord créer un environnement.

L'environnement nous permet de tester facilement l'impact de l'utilisation de différentes métriques d'évaluation comme fonctions de récompense.

Nous définissons ensuite l'agent, compte tenu de ses nombreux avantages nous utilisons une architecture acteur-critique. L'acteur est utilisé pour sélectionner le mot suivant dans la séquence et voit ses poids initialisés à l'aide du modèle supervisé. Le critique fournit une estimation de la récompense attendue qu'un État est susceptible de recevoir pour aider l'acteur à apprendre.

Concevoir la bonne fonction de récompense

Le composant le plus important de la conception d'un système RL est la fonction de récompense car c'est ce que l'agent RL essaie d'optimiser. Si la fonction de récompense est incorrecte, les résultats en souffriront même si toutes les autres parties du système fonctionnent !

Un exemple classique de ceci est Coureurs de la côte où les chercheurs d'OpenAI ont défini la fonction de récompense comme maximisant le score total plutôt que de gagner la course. Le résultat est que l'agent a découvert une boucle où il pouvait obtenir le meilleur score en frappant des turbos sans jamais terminer la course.

Étant donné que l'évaluation de la qualité des paraphrases est en soi un problème non résolu, concevoir une fonction de récompense qui capture automatiquement cet objectif est encore plus difficile. La plupart des aspects du langage ne se décomposent pas bien en métriques linéaires et dépendent de la tâche (Novikova et al., 2017).

L'agent RL découvre souvent une stratégie intéressante pour maximiser les récompenses qui exploite les faiblesses de la métrique d'évaluation plutôt que de générer un texte de haute qualité. Cela a tendance à entraîner de mauvaises performances sur les métriques que l'agent n'optimise pas directement.

Nous considérons trois approches principales :

  1. Métriques de chevauchement de mots

Les mesures d'évaluation courantes de la PNL tiennent compte de la proportion de chevauchement de mots entre la paraphrase générée et la phrase d'évaluation. Plus le chevauchement est important, plus la récompense est grande. Le défi avec les approches au niveau des mots est que l'agent inclut trop de mots de liaison tels que "un est sur" et qu'il n'y a aucune mesure de fluidité. Cela se traduit par des paraphrases de très mauvaise qualité.

  1. Métriques de similarité et de fluidité au niveau de la phrase

Les principales propriétés d'une paraphrase générée sont qu'elle doit être fluide et sémantiquement similaire à la phrase d'entrée. Par conséquent, nous essayons de les noter explicitement individuellement, puis de combiner les mesures. Pour la similarité sémantique, nous utilisons la similarité cosinus entre les incorporations de phrases à partir de modèles pré-entraînés, y compris BERT. Pour la fluidité, nous utilisons un score basé sur la perplexité d'une phrase de GPT-2. Plus la similarité cosinusoïdale et les scores de fluidité sont élevés, plus la récompense est grande.

Nous avons essayé de nombreuses combinaisons différentes de modèles d'intégration de phrases et de modèles de fluidité et bien que les performances aient été raisonnables, le principal problème rencontré par l'agent n'était pas suffisamment équilibré entre la similarité sémantique et la fluidité. Pour la plupart des configurations, l'agent a donné la priorité à la fluidité, ce qui a entraîné la suppression de détails et la plupart des entités étant placées « au milieu » de quelque chose ou déplacées « sur une table » ou « au bord de la route ».

L'apprentissage par renforcement multi-objectifs est une question de recherche ouverte et est très difficile dans ce cas.

  1. Utilisation d'un modèle contradictoire comme fonction de récompense

Étant donné que les humains sont considérés comme l'étalon-or de l'évaluation, nous formons un modèle distinct appelé le discriminateur pour prédire si oui ou non deux phrases sont des paraphrases l'une de l'autre (similaire à la façon dont un humain évaluerait). Le but du modèle RL est alors de convaincre ce modèle que la phrase générée est une paraphrase de l'entrée. Le discriminateur génère un score de la probabilité que les deux phrases soient des paraphrases l'une de l'autre qui est utilisé comme récompense pour former l'agent.

Toutes les 5,000 XNUMX suppositions, le discriminateur est informé de la paraphrase provenant de l'ensemble de données et de celle qui a été générée afin qu'il puisse améliorer ses suppositions futures. Le processus se poursuit pendant plusieurs tours, l'agent essayant de tromper le discriminateur et le discriminateur essayant de différencier les paraphrases générées et les paraphrases d'évaluation de l'ensemble de données.

Après plusieurs cycles de formation, l'agent génère des paraphrases qui surpassent les modèles supervisés et d'autres fonctions de récompense.

Conclusion et limites

Les approches contradictoires (y compris l'auto-jeu pour les jeux) offrent une approche extrêmement prometteuse pour la formation des algorithmes RL afin de dépasser les performances au niveau humain sur certaines tâches sans définir de fonction de récompense explicite.

Bien que RL ait pu surpasser l'apprentissage supervisé dans ce cas, la quantité de surcharge supplémentaire en termes de code, de calcul et de complexité ne vaut pas le gain de performances pour la plupart des applications. RL est mieux laissé aux situations où l'apprentissage supervisé ne peut pas être facilement appliqué, et une fonction de récompense est facile à définir (comme les jeux Atari). Les approches et les algorithmes sont beaucoup plus matures dans l'apprentissage supervisé et le signal d'erreur est beaucoup plus fort, ce qui se traduit par un apprentissage beaucoup plus rapide et plus stable.

Une autre considération est, comme avec d'autres approches neuronales, que l'agent peut échouer de manière très dramatique dans les cas où l'entrée est différente des entrées qu'il a vues précédemment, ce qui nécessite une couche supplémentaire de vérifications d'intégrité pour les applications de production.

L'explosion d'intérêt pour les approches RL et les progrès de l'infrastructure informatique au cours des dernières années ouvriront d'énormes opportunités pour l'application du RL dans l'industrie, en particulier au sein du NLP.

Andrew Gibbs-Bravo est Data Scientist chez Phrasee s'est concentré sur l'amélioration de la technologie derrière la rédaction de texte optimisée par l'IA de Phrasee. Il est également le co-organisateur du London Reinforcement Learning Community Meetup et s'intéresse à tout ce qui concerne la RL, la PNL et l'apprentissage automatique.