Angle d’Anderson

La lutte pour empêcher l’IA de tricher lors des tests

Publié le 3 juin 2021

Mis à jour le 24 mai 2026

Par

Martin Anderson

De nouvelles recherches menées par une université chinoise offrent un aperçu de la raison pour laquelle les modèles de traitement du langage naturel génératif tels que GPT-3 ont tendance à « tricher » lorsqu’ils sont confrontés à une question difficile, en produisant des réponses qui peuvent être techniquement correctes, mais sans aucune compréhension réelle de pourquoi la réponse est correcte ; et pourquoi ils démontrent peu ou pas de capacité à expliquer la logique derrière leurs réponses « faciles ». Les chercheurs proposent également de nouvelles méthodes pour faire en sorte que les systèmes « étudient plus dur » pendant la phase de formation.

Le problème est double : premièrement, nous concevons des systèmes qui tentent d’obtenir des résultats rapidement et avec une utilisation optimale des ressources. Même lorsque, comme pour GPT-3, les ressources peuvent être considérablement plus importantes que celles que la plupart des projets de recherche en traitement du langage naturel peuvent mobiliser, cette culture d’optimisation axée sur les résultats domine toujours la méthodologie, car elle est devenue la convention académique.

En conséquence, nos architectures de formation récompensent les modèles qui convergent rapidement et produisent des réponses apparemment appropriées aux questions, même si le modèle de traitement du langage naturel est ensuite incapable de justifier sa réponse ou de démontrer comment il est arrivé à ses conclusions.

Une tendance précoce à tricher

Cela se produit parce que le modèle apprend des « réponses de raccourci » bien plus tôt pendant la formation qu’il n’apprend des types de connaissances plus compliqués. Puisque l’augmentation de la précision est souvent récompensée de manière indiscriminée tout au long de la formation, le modèle donne ensuite la priorité à toute approche qui lui permet de répondre à une question « avec facilité », et sans véritable perspicacité.

Puisque l’apprentissage de raccourci représentera inévitablement les premiers succès pendant la formation, la session s’éloignera naturellement de la tâche plus difficile d’acquérir une perspective épistémologique utile et plus complète, qui peut contenir des couches plus profondes et plus perspicaces d’attribution et de logique.

Alimenter l’IA avec les « réponses faciles »

Le deuxième problème est que même si des initiatives de recherche récentes ont étudié la tendance de l’IA à « tricher » de cette manière, et ont identifié le phénomène de « raccourcis », il n’y a pas eu jusqu’à présent d’effort pour classer les matériaux « facilitant les raccourcis » dans un jeu de données contributif, qui serait la première étape logique pour résoudre ce qui peut s’avérer être un défaut architectural fondamental dans les systèmes de compréhension de la lecture automatique (MRC).

Le nouvel article, une collaboration entre l’Institut de technologie informatique Wangxuan et le laboratoire clé MOE de linguistique computationnelle de l’Université de Pékin, teste divers modèles de langage contre un nouveau jeu de données annoté qui comprend des classifications pour des solutions « faciles » et « difficiles » à une question possible.

Source: https://arxiv.org/pdf/2106.01024.pdf

Le jeu de données utilise la paraphrase comme critère pour les réponses plus compliquées et plus profondes, car une compréhension sémantique est nécessaire pour reformuler les connaissances acquises. En revanche, les réponses de « raccourci » peuvent utiliser des jetons tels que des dates et d’autres mots clés encapsulés pour produire une réponse qui est factuellement exacte, mais sans aucun contexte ni raisonnement.

La composante de raccourci des annotations comporte la correspondance de mots de question (QWM) et la correspondance simple (SpM). Pour QWM, le modèle utilise des entités extraites des données textuelles fournies et élimine le contexte ; pour SpM, le modèle identifie les chevauchements entre les phrases de réponses et les questions, qui sont toutes deux fournies dans les données de formation.

Les données de raccourci presque « virales » dans leur influence sur un jeu de données

Les chercheurs affirment que les jeux de données ont tendance à contenir une proportion élevée de questions de raccourci, ce qui fait que les modèles formés s’appuient sur des astuces de raccourci.

Les deux modèles utilisés dans les expériences étaient BiDAF et Google’s BERT-base. Les chercheurs observent que même lorsqu’ils sont formés sur des variantes de jeux de données avec une proportion plus élevée de questions « difficiles », les deux modèles performent toujours mieux sur les questions de raccourci que sur les questions paraphrasées plus difficiles, malgré le petit nombre d’exemples dans les jeux de données.

Cela présente les « données de raccourci » presque dans le contexte d’un virus – il n’a besoin que d’être présent en petite quantité dans un jeu de données pour être adopté et priorisé dans la formation, selon les normes et les pratiques conventionnelles en traitement du langage naturel.

Prouver la tricherie

Une méthode que la recherche utilise pour prouver la fragilité d’une réponse de raccourci consiste à substituer un mot d’entité « facile » par un mot anormal. Lorsqu’une méthode de raccourci a été utilisée, la logique de la réponse « truquée » ne peut pas être fournie ; mais lorsque la réponse a été fournie à partir d’un contexte plus profond et d’une évaluation sémantique d’un plus large éventail de textes contributifs, il est possible pour le système de déconstruire l’erreur et de reconstruire une réponse correcte.

Remplacer ‘Beyoncé’ (une personne) par ‘Amérique’ (un lieu) révèle si le modèle a une logique de fond pour sa réponse.

Les raccourcis dus à une impérative économique

En ce qui concerne certaines des raisons architecturales pour lesquelles les raccourcis sont si priorisés dans les flux de travail de formation du traitement du langage naturel, les auteurs commentent ‘Les modèles de MRC peuvent apprendre les astuces de raccourci, comme QWM, avec moins de ressources computationnelles que les défis de compréhension, comme l’identification de la paraphrase’.

Ceci, alors, pourrait être un résultat involontaire des philosophies d’optimisation et de préservation des ressources standard dans les approches de la lecture automatique, et la pression pour obtenir des résultats avec des ressources limitées dans des délais serrés.

Les chercheurs notent également :

‘[Puisque] l’astuce de raccourci peut être utilisée pour répondre correctement à la plupart des questions de formation, les questions non résolues restantes peuvent ne pas motiver les modèles à explorer des solutions sophistiquées qui nécessitent des compétences difficiles.’

Si les résultats de l’article sont ultérieurement confirmés, il semblerait que le vaste et toujours croissant domaine du prétraitement des données devra considérer les « réponses de raccourci » dans les données comme un problème à résoudre à long terme, ou réviser les architectures de traitement du langage naturel pour donner la priorité à des routines de ingestion de données plus difficiles.