Intelligence artificielle
Baidu surpasse Google et Microsoft, crée une nouvelle technique pour la compréhension du langage

Baidu, l’une des plus grandes entreprises technologiques de Chine, a récemment développé une nouvelle méthode pour enseigner aux IA à comprendre le langage. Comme le rapporte TechnologyReview, l’entreprise a récemment devancé Microsoft et Google à la compétition General Language and Understanding Evaluation (GLUE), obtenant des résultats à la pointe de la technologie.
GLUE est composé de neuf tests différents, chacun mesurant une tâche différente importante pour la compréhension du langage, telle que discerner les noms d’entités dans une phrase et discerner dans quel contexte le pronom “it” est utilisé lorsqu’il y a de nombreux candidats potentiels. L’homme moyen obtient généralement un score d’environ 87 points sur GLUE, sur un total de 100 points possibles. Le nouveau modèle de Baidu, ERNIE, a franchi le seuil des 90 points.
Les chercheurs tentent toujours d’améliorer les performances de leurs modèles à GLUE, et donc la norme actuelle établie par Baidu sera probablement dépassée bientôt. Cependant, ce qui rend les réalisations de Baidu notables est que l’approche d’apprentissage qu’ils utilisent semble pouvoir être généralisée à d’autres langues. Même si le modèle a été développé pour interpréter le chinois, les mêmes principes le rendent meilleur pour interpréter la langue anglaise. ERNIE signifie “Enhanced Representation through knowledge Integration”, et il suit le développement du modèle de langage BERT (“Bidirectional Encoder Representations from Transformers”).
BERT a établi une nouvelle norme pour la compréhension du langage en raison du fait qu’il s’agit d’un modèle bidirectionnel. Les modèles de langage précédents ne pouvaient interpréter les données qui circulaient dans une seule “direction”, en regardant un mot qui venait soit avant, soit après le mot cible comme contexte. BERT a pu mettre en œuvre une approche bidirectionnelle qui pouvait utiliser à la fois les mots précédents et ultérieurs dans une phrase pour aider à déterminer le sens d’un mot cible. BERT utilise une technique appelée masquage pour rendre possible l’analyse bidirectionnelle, en choisissant un mot dans une phrase et en le cachant, ce qui divise les indices de contexte possibles pour ce mot en indices de contexte précédents et suivants.
En anglais, le mot est l’unité sémantique dominante, les gens regardent les mots entiers plutôt que les caractères individuels pour discerner le sens. Il est possible de supprimer un mot de son contexte et que le mot conserve encore son sens, et le sens des caractères individuels est presque toujours le même. En revanche, la langue chinoise repose beaucoup plus sur la façon dont les caractères sont associés à d’autres caractères pour discerner le sens. Les caractères peuvent signifier différentes choses en fonction des caractères qui les entourent.
L’équipe de recherche de Baidu a essentiellement pris le modèle utilisé par BERT et l’a étendu, en cachant des chaînes de caractères au lieu de mots entiers. Le système d’IA a également été formé pour différencier les chaînes aléatoires et les chaînes significatives afin que les bonnes chaînes de caractères puissent être masquées. Cela rend ERNIE compétent pour récupérer des informations à partir d’un document de texte et effectuer une traduction automatique. L’équipe de recherche a également constaté que leur méthode de formation a abouti à un modèle qui pouvait distinguer les phrases anglaises mieux que de nombreux autres modèles. C’est parce que l’anglais utilise parfois, bien que rarement, des combinaisons de mots qui expriment des sens différents lorsqu’ils sont joints ensemble par rapport à lorsqu’ils sont seuls. Les noms propres et les expressions idiomatiques ou les expressions colloquiales, tels que “chip off the old block”, sont des exemples de tels phénomènes linguistiques.
ERNIE utilise plusieurs autres techniques de formation pour optimiser les performances, notamment l’analyse de l’ordre des phrases et de la distance lors de l’interprétation des paragraphes. Une méthode de formation continue est également utilisée, qui permet à ERNIE de se former sur de nouvelles données et d’apprendre de nouveaux modèles sans oublier les connaissances acquises précédemment.
Baidu utilise actuellement ERNIE pour améliorer la qualité des résultats de recherche. L’architecture la plus récente d’ERNIE sera détaillée dans un article à paraître à la conférence 2020 de l’Association pour l’avancement de l’intelligence artificielle.




