Suivez nous sur

Facebook crée un modèle de traduction automatique capable de traduire directement entre 100 langues différentes

Intelligence Artificielle

Facebook crée un modèle de traduction automatique capable de traduire directement entre 100 langues différentes

mm

Facebook a rĂ©cemment dĂ©veloppĂ© un nouveau modèle de traduction automatique qui peut traduire du texte entre n'importe quelle paire de langues sur un ensemble de 100 langues. Bien qu'il existe d'autres systèmes de traduction automatique, la plupart des autres systèmes de traduction IA fonctionnent en traduisant d'abord le texte en anglais, puis en convertissant le texte Ă  partir de lĂ .  Comme l'a rapportĂ© Engadget, le traducteur IA de Facebook fonctionne sans utiliser la langue anglaise comme intermĂ©diaire et serait capable d'atteindre une prĂ©cision d'environ 90 %.

Les données d'entraînement de Facebook pour le modèle d'IA étaient composées d'environ 7.5 milliards de paires de phrases, réparties dans 100 langues différentes. Les données ont été compilées à partir du Web à l'aide d'une série de robots d'exploration Web, et les langues présentes dans les données collectées ont été identifiées à l'aide d'un modèle de langage appelé FastText. Une fois les données recueillies, il a été exécuté via un outil appelé LASER 2.0 pour extraire le sens des différents échantillons de phrases et faire correspondre des phrases dans différentes langues en fonction de leur signification. LASER 2.0 a été développé par Facebook et utilise des algorithmes d'apprentissage non supervisé pour créer des intégrations. Les incorporations de phrases contiennent des informations sur les relations entre les différentes phrases en fonction de caractéristiques telles que la fréquence d'utilisation et la proximité des phrases les unes par rapport aux autres. LASER 2.0 est alors capable de créer des séries de phrases ayant des significations très similaires.

Les données de formation n'étaient pas seulement appariées en fonction du sens des phrases. Les langues elles-mêmes étaient regroupées. L'objectif était de concevoir un système qui n'exigeait pas que l'anglais soit utilisé comme moyen entre deux langues, avec Angela Fan de Facebook, qui a dirigé le projet, notant que de nombreuses régions du monde parlent deux langues qui ne sont pas l'anglais. Les ingénieurs de Facebook ont ​​effectué une formation en se concentrant sur l'appariement des langues qui sont couramment traduites entre elles. Quatorze groupes linguistiques différents ont été créés, basés sur des variables telles que la culture, les similitudes linguistiques et la géographie. À titre d'exemple, l'un des groupes linguistiques créés par les chercheurs contenait les langues les plus courantes dans toute l'Inde, notamment les langues ourdou, tamoul, hindi et bengali. Cela a été fait pour que les langues couramment appariées reçoivent des traductions de haute qualité.

La méthode de formation axée sur le groupe linguistique a donné des résultats intéressants. Il a été constaté que le modèle de traduction résultant avait une plus grande précision que les modèles actuellement existants pour certaines paires de langues. Lors de la traduction entre l'anglais et le biélorusse, par exemple, l'IA a pu appliquer certains schémas qu'elle avait appris lors de la traduction du russe, car le biélorusse présente des similitudes linguistiques avec le russe. De même, les efforts de traduction entre l'espagnol et le portugais se sont améliorés puisque l'espagnol est la deuxième langue la plus parlée et qu'il y avait un volume substantiel de données de formation pour cette tâche.

Il y a environ soixante langues que le système de traduction ne couvre pas encore, et la précision du modèle sur les langues sans beaucoup de données de formation doit être améliorée avant qu'il ne soit prêt à l'emploi. De nombreuses langues en Asie du Sud-Est et en Afrique manquent du volume de données nécessaires pour former un modèle fiable. L'équipe de recherche devra trouver un moyen de compenser ce manque de données. L'équipe de recherche doit également déterminer comment contrôler tout schéma raciste, sexiste ou autrement profane que le modèle aurait pu apprendre. Bien que l'équipe de recherche ait utilisé un filtre de blasphème, le filtre fonctionne principalement sur les données en anglais.

Le système de traduction automatique n'a pas encore été utilisé sur la plate-forme de médias sociaux de Facebook. Le modèle actuel est à des fins de recherche uniquement. Cependant, Facebook se prépare à concevoir des modèles similaires et à leur faire gérer les quelque 20 milliards de demandes de traduction que le site reçoit chaque jour.

Blogueur et programmeur spécialisé dans Machine Learning et L'apprentissage en profondeur les sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.