Intelligence artificielle
Faire de l’NLP pour remettre en question les questions mal informées

Certaines questions sont sans réponse parce qu’elles contiennent des informations incorrectes – des présupposés que la personne qui entend la question doit filtrer et renoncer. Cela suppose, bien sûr, que l’auditeur a suffisamment d’informations correctes pour remettre en question la question, plutôt que d’utiliser la question elle-même comme source d’informations (fausses).
C’est un défi pour les systèmes de traitement du langage naturel (NLP) tels que GPT-3, qui ont une tendance à ‘halluciner’ des informations afin de maintenir le dialogue.
Actuellement, demander à GPT-3 ‘Quand Marie Curie a-t-elle inventé l’uranium ?’ vous obtiendra probablement la réponse ‘Marie Curie a inventé l’uranium en 1898’.

Source : https://beta.openai.com/playground (Da Vinci instruct beta).
En fait, l’uranium a été découvert en 1789 par le chimiste allemand Martin Heinrich Klaproth, tandis que la révélation des Curies en 1898 était l’isolement du radium.
Le problème des systèmes NLP qui ignorent les présupposés incorrects est devenu un point de focalisation dans un certain nombre de campagnes de publicité cette année, notamment la façon dont les résultats de recherche assistés par l’IA de Google ignorent les informations incorrectes dans la question ‘Quand Neil Armstrong a-t-il posé le pied sur Mars ?’ – une erreur qui est toujours affichée au moment de la rédaction de cet article, et qui s’applique également à Toy Story‘s Buzz Lightyear, qui aurait atterri sur la Lune le 21 juillet 1969.
Tom Hanks, un autre Toy Story alumnus, est également crédité par Google pour avoir posé le pied sur la Lune en 1970, malgré le fait que son personnage Apollo 13, l’astronaute Jim Lovell, est le plus célèbre pour ne pas avoir accompli cela.

Remédier aux problèmes de présupposition dans les échanges NLP
Maintenant, Google Research, en collaboration avec des chercheurs de l’Université Johns Hopkins et de l’Université Brown, enquête sur de nouvelles méthodes d’apprentissage automatique qui permettront aux systèmes NLP de remettre en question les questions factuellement incorrectes de la même manière qu’il est essentiel pour les enseignants humains de le faire lors de conversations avec les élèves.
Le récent document Qui est le linguiste qui a inventé la lampe ? Vérification des présupposés pour la réponse aux questions décrit un effort concerté pour développer un système novateur pour identifier les présupposés et considérer leur véracité avant de poursuivre l’échange
Le nouvel algorithme prétraite efficacement les questions avant de revenir à la conversation, en décomposant l’ ‘authentification’ de la question en un processus en trois parties.

Cela ne fonctionne pas ! À gauche, le ‘blocage’ qui se produit même lorsque le système NLP avancé a pu identifier que la question n’a pas de sens. À droite, une décomposition de l’algorithme proposé qui tente de rectifier l’erreur de source. Source : https://arxiv.org/pdf/2101.00391.pdf
Bien qu’il s’agisse d’une simple routine de vérification qui aurait dû être intégrée dans les systèmes de connaissances dès le départ, la plupart des routines d’entraînement NLP basées sur l’apprentissage automatique apprennent les informations avec un niveau de confiance excessif pour les données source, y compris les discours (comme les fausses nouvelles) qui peuvent avoir été publiés sur des canaux précédemment ‘fiables’.
Par conséquent, un problème clé est d’identifier par consensus une source fiable d’informations dans un climat où la prolifération de fausses ‘nouvelles’ à travers les médias sociaux accorderait, par défaut, une autorité sous la logique de la généralisation de l’apprentissage automatique. Cette dernière a tendance à utiliser la quantité ou la répétition des données comme substitut à la précision, du moins jusqu’à ce que les phénomènes de fausses nouvelles soient devenus un domaine d’intérêt critique dans le domaine ces dernières années.
Déterminer la meilleure approche pour les questions sans réponse
Pour déterminer une approche appropriée pour résoudre une question qui contient des informations incorrectes, les chercheurs ont soumis 100 de ces questions à quatre différents modèles de questions-réponses, et ont demandé à des sujets humains de choisir la meilleure ou la moins problématique solution que les modèles ont générée.
Les quatre résultats architecturaux possibles pour la ‘mauvaise’ question étaient : ‘Inrépondable’ – où un système de questions-réponses fermé effectivement ferme l’enquête sans autre explication ; ‘Explication basée sur l’échec des présupposés’ – où le système ne parvient pas à vérifier la supposition incorrecte, effectivement une réponse ‘inrépondable’, avec une explication ajoutée ; ‘Explication extractive’ – où le système récupère une citation de Wikipédia liée au sujet et l’ajoute à la phrase introductive ‘Cette question est inrépondable car…’ ; et ‘Réécriture de domaine ouvert’ – où un système concurrent cherche des sources supplémentaires sur Wikipédia.

Cet exemple de quatre réponses possibles à une question apparemment ‘inrépondable’ illustre la complexité de la tentative d’une solution de domaine concurrent pour le problème.
Au cours des tests, les cinq participants (recrutés sur une plateforme de crowdsourcing interne de Google) ont préféré les réponses basées sur les présupposés, ce qui a conduit les chercheurs à développer un nouveau cadre pour décomposer et vérifier les questions.
Dans le nouveau système, les déclencheurs linguistiques sont obtenus à partir de la question par un générateur basé sur des règles qui déconstruit la phrase en énoncés de fait putatifs. Si plusieurs présupposés sont dérivés de la question, chacun est étudié, et contribuera à la réponse finale s’ils abordent des présupposés erronés de la question originale.
Jeux de données
Les présupposés générés dans la phase initiale ont été modifiés manuellement pour créer un jeu de données de vérification avec des ‘présupposés d’or’. Les présupposés qui ont émergé de la ramification de l’enquête, mais qui n’étaient pas présents dans les questions originales, ont été supprimés.
Deux des auteurs du document ont ensuite annoté manuellement 462 présupposés en termes de oui/non de vérifiabilité, sur la base d’une page Wikipédia pertinente associée à chaque question. Les cas de désaccord ont été résolus lors d’une discussion postérieure avant d’être consignés dans le jeu de données.
Les chercheurs ont utilisé zero-shot NLI, une tâche de classification de prémisse/hypothèse qui a nécessité la déconstruction d’articles de Wikipédia liés aux questions. Puisque ce processus donne lieu à beaucoup plus de paires que la question peut impliquer ou que le modèle supporte, les résultats filtrés ont ensuite été agrégés et étiquetés.
Résultats et formulation de réponse
Les résultats les plus efficaces ont été obtenus par la solution la plus fastidieuse : un hybride à règles/NLI affiné généré à partir de ALBERT QNLI avec des phrases et des présupposés de Wiki.

Les performances des modèles de vérification, où ‘Phrases de Wiki’ utilise des phrases obtenues à partir d’articles de Wikipédia liés aux questions, et ‘Présupposés de Wiki’ sont des présupposés générés à partir de ces phrases.
En utilisant cette formulation, les chercheurs ont développé un système de modèles où un fait négatif de Wikipédia était ajouté à ‘Cette question est inrépondable car…’ et des phrases similaires. Même si ce n’est pas une solution idéale, les auteurs suggèrent que les réponses basées sur l’invérifiabilité sont susceptibles de réduire l’incidence de faux négatifs.
Le système a finalement été mis en œuvre dans un Extended Transformer Construction (ETC) modèle.
Implications
Selon ses performances finales dans le monde réel, il pourrait être argumenté que cette approche globale pourrait conduire à la simple substitution de ‘non vérifiable’ pour ‘inrépondable’, dans les cas où le système de recherche ne peut pas évaluer une correction utile pour une question à présupposé erroné. Effectivement, il semble qu’il s’agisse de mettre en place les infrastructures pour de meilleurs systèmes de vérification à l’avenir.
Les chercheurs reconnaissent déjà que le coût des requêtes d’API basées sur les jetons est un facteur limitant lors de la formulation des réponses plus longues que ce système générera, et qu’il doit être supposé que le surcoût de la recherche ‘en direct’ dans une question soit susceptible d’ajouter de la latence, même pour les grands systèmes tels que GPT-3, puisque la réactivité de ces systèmes a jusqu’à présent dépendu de l’incorporation généralisée de la connaissance au moment de l’entraînement, plutôt que de routines de vérification extensives basées sur le réseau.
De plus, les chercheurs notent que le système actuel a des limites liées à l’analyse des aspects sémantiques du texte :
Par exemple, qui croit que la mère d’Estella est une possession sous un verbe non factif croire , mais notre générateur générerait néanmoins ‘Estella a ‘mère’.’
Néanmoins, l’équipe prévoit de nouveaux systèmes de questions-réponses plus robustes et plus coopératifs qui seront développés sur la base de cette recherche :
Dans le futur, nous prévoyons de nous appuyer sur ce travail en proposant des systèmes de questions-réponses plus robustes et plus coopératifs. Par exemple, différents types de défaillances de présupposés pourraient être abordés par des stratégies de réponses plus fluides – par exemple, la violation des présupposés d’unicité pourrait être mieux gérée en fournissant toutes les réponses possibles, plutôt que de déclarer que le présupposé d’unicité a été violé.












