Suivez nous sur

Comment le traitement du langage est amélioré grâce au modèle BERT Open Source de Google

Intelligence Artificielle

Comment le traitement du langage est amélioré grâce au modèle BERT Open Source de Google

mm
Améliorations de la recherche BERT

Les reprĂ©sentations d'encodeurs bidirectionnels de Transformers, Ă©galement connues sous le nom de BERT, sont un modèle d'entraĂ®nement qui a considĂ©rablement amĂ©liorĂ© l'efficacitĂ© et l'efficacitĂ© des modèles de traitement du langage naturel (TALN). La mise en open source des modèles BERT par Google permet dĂ©sormais d'amĂ©liorer les modèles de TALN dans tous les secteurs. Dans cet article, nous examinons comment BERT fait du TALN l'une des solutions d'IA les plus puissantes et les plus utiles du monde actuel. 

Application de modèles BERT à la recherche

Le moteur de recherche de Google est mondialement connu pour sa capacité à présenter un contenu pertinent et a rendu ce programme de traitement du langage naturel open source dans le monde entier.

La capacitĂ© d’un système Ă  lire et Ă  interprĂ©ter le langage naturel devient de plus en plus vitale Ă  mesure que le monde produit de nouvelles donnĂ©es de manière exponentielle. La bibliothèque Google de significations de mots, d'expressions et de capacitĂ© gĂ©nĂ©rale Ă  prĂ©senter du contenu pertinent est OPEN SOURCE. Au-delĂ  du traitement du langage naturel, leur modèle BERT a la capacitĂ© d'extraire des informations Ă  partir de grandes quantitĂ©s de donnĂ©es non structurĂ©es et peut ĂŞtre appliquĂ© pour crĂ©er des interfaces de recherche pour n'importe quelle bibliothèque. Dans cet article, nous verrons comment cette technologie peut ĂŞtre appliquĂ©e dans le secteur de l’énergie. 

BERT (Bidirectional Encoder Representations from Transformers) est une approche de prĂ©-formation proposĂ©e par le Langue de l'IA de Google groupe, dĂ©veloppĂ© pour surmonter un problème commun des premiers modèles de PNL : le manque de donnĂ©es de formation suffisantes.

Détaillons, sans entrer dans trop de détails :

Modèles de formation

Les tâches NLP de bas niveau (par exemple, la reconnaissance d'entités nommées, la segmentation de sujets) et de haut niveau (par exemple, l'analyse des sentiments, la reconnaissance vocale) nécessitent des ensembles de données annotés spécifiques à la tâche. Bien qu'ils soient difficiles à trouver et coûteux à assembler, les ensembles de données étiquetés jouent un rôle crucial dans les performances des modèles de réseaux neuronaux superficiels et profonds. Des résultats d'inférence de haute qualité ne pouvaient être obtenus que lorsque des millions, voire des milliards d'exemples de formation annotés étaient disponibles. Et c'était un problème qui rendait de nombreuses tâches PNL inaccessibles. C'est jusqu'à ce que BERT soit développé.

BERT est un modèle de représentation de langage à usage général, formé sur de grands corpus de texte non annoté. Lorsque le modèle est exposé à de grandes quantités de contenu textuel, il apprend comprendre le contexte et les relations entre les mots d'une phrase. Contrairement aux modèles d'apprentissage précédents qui ne représentaient que le sens au niveau des mots (banque signifierait la même chose dans "compte bancaire" et "banque herbeuse"), BERT se soucie en fait du contexte. C'est-à-dire ce qui vient avant et après le mot dans une phrase. Le contexte s'est avéré être une capacité manquante majeure des modèles NLP, avec un impact direct sur les performances du modèle. La conception d'un modèle sensible au contexte tel que BERT est connue par beaucoup comme le début d'une nouvelle ère en NLP.

La formation BERT sur de grandes quantités de contenu textuel est une technique connue sous le nom de pré-formation. Cela signifie que les poids du modèle sont ajustés pour les tâches générales de compréhension de texte et que des modèles plus fins peuvent être construits par-dessus. Les auteurs ont prouvé la supériorité d'une telle technique lorsqu'ils ont utilisé des modèles basés sur BERT sur 11 tâches NLP et ont obtenu des résultats de pointe.

Modèles pré-entraînés

La meilleure chose est que les modèles BERT pré-formés sont open source et accessibles au public. Cela signifie que n'importe qui peut s'attaquer aux tâches NLP et construire ses modèles au-dessus de BERT. Rien ne peut battre ça, n'est-ce pas? Oh, attendez : cela signifie également que les modèles NLP peuvent désormais être formés (affinés) sur des ensembles de données plus petits, sans avoir besoin de former à partir de zéro. Le début d'une nouvelle ère, en effet.

Ces modèles prĂ©formĂ©s aident les entreprises Ă  rĂ©duire le coĂ»t et le temps de dĂ©ploiement des modèles NLP Ă  utiliser en interne ou en externe. L'efficacitĂ© des modèles de PNL bien entraĂ®nĂ©s est soulignĂ©e par Michael Alexis, PDG de la sociĂ©tĂ© de construction de culture d'Ă©quipe virtuelle, teambuilding.com. 

"Le plus grand avantage de la PNL est l'inférence et le traitement évolutifs et cohérents de l'information." – Michel Alexis PDG de teambuilding.com

Michael explique comment la PNL peut ĂŞtre appliquĂ©e aux programmes de promotion de la culture tels que les brise-glace ou les enquĂŞtes. Une entreprise peut obtenir des informations prĂ©cieuses sur l'Ă©tat de la culture d'entreprise en analysant les rĂ©ponses des employĂ©s. Ceci est rĂ©alisĂ© non seulement en analysant simplement le texte, mais en analysant l'annotation du texte. Essentiellement, le modèle "lit Ă©galement entre les lignes" pour tirer des conclusions sur l'Ă©motion, la sensation et la perspective globale. Le BERT peut aider dans des situations comme celle-ci en prĂ©formant des modèles avec une base d'indicateurs qu'il peut utiliser pour dĂ©couvrir les nuances du langage et fournir des informations plus prĂ©cises.  

Améliorer les requêtes

La capacité de modéliser le contexte a fait de BERT un héros du NLP et a révolutionné la recherche Google elle-même. Vous trouverez ci-dessous une citation de l'équipe produit de Google Search et de leurs expériences de test, alors qu'ils ajustaient BERT pour comprendre l'intention derrière une requête.

Voici quelques exemples qui dĂ©montrent la capacitĂ© de BERT Ă  comprendre l'intention de votre recherche. Voici une recherche pour « 2019 brazil traveler to USA needs a visa Â». Le mot « to Â» et son lien avec les autres mots de la requĂŞte sont particulièrement importants pour en comprendre le sens. Il s'agit d'un BrĂ©silien voyageant aux États-Unis, et non l'inverse. Auparavant, nos algorithmes ne comprenaient pas l'importance de ce lien, et nous renvoyions des rĂ©sultats concernant des citoyens amĂ©ricains voyageant au BrĂ©sil. Grâce Ă  BERT, la recherche est capable de saisir cette nuance et de savoir que le mot très courant « to Â» a une importance capitale ici, ce qui nous permet de fournir un rĂ©sultat beaucoup plus pertinent pour cette requĂŞte.
- Comprendre les recherches mieux que jamais, par Pandu Nayak, Google Fellow et vice-président de la recherche.

Exemple de recherche BERT

Exemple de recherche BERT, avant et après. Source blog

Dans notre dernier article sur PNL et OCR, nous avons illustrĂ© quelques usages du NLP dans le secteur immobilier. Nous avons Ă©galement mentionnĂ© comment "les outils NLP sont des outils d'extraction d'informations idĂ©aux". Examinons le secteur de l'Ă©nergie et voyons comment les technologies NLP perturbatrices telles que BERT permettent de nouveaux cas d'utilisation d'applications. 

Les modèles NLP peuvent extraire des informations à partir de grandes quantités de données non structurées

L'extraction d'informations critiques Ă  partir de donnĂ©es textuelles non structurĂ©es est une manière d'utiliser les modèles NLP. Les e-mails, les journaux, les notes, les journaux et les rapports sont tous des exemples de sources de donnĂ©es textuelles qui font partie des opĂ©rations quotidiennes des entreprises. Certains de ces documents peuvent s'avĂ©rer cruciaux dans les efforts organisationnels visant Ă  accroĂ®tre l'efficacitĂ© opĂ©rationnelle et Ă  rĂ©duire les coĂ»ts. 

Lorsqu'il s'agit de mettre en œuvre maintenance prédictive des éoliennes, rapports d'échec peut contenir des informations critiques sur le comportement des différents composants. Mais étant donné que différents fabricants d'éoliennes ont des normes de collecte de données différentes (c'est-à-dire que les rapports de maintenance sont disponibles dans différents formats et même dans différentes langues), l'identification manuelle des éléments de données pertinents pourrait rapidement devenir coûteuse pour le propriétaire de la centrale. Les outils NLP peuvent extraire des concepts, des attributs et des événements pertinents à partir de contenu non structuré. L'analyse de texte peut ensuite être utilisée pour trouver des corrélations et des modèles dans différentes sources de données. Cela donne aux propriétaires de centrales la possibilité de mettre en œuvre une maintenance prédictive basée sur des mesures quantitatives identifiées dans leurs rapports de défaillance.

Les modèles NLP peuvent fournir des interfaces de recherche en langage naturel

De mĂŞme, les gĂ©oscientifiques travaillant pour des sociĂ©tĂ©s pĂ©trolières et gazières doivent gĂ©nĂ©ralement examiner de nombreux documents liĂ©s aux opĂ©rations de forage passĂ©es, aux journaux de puits et aux donnĂ©es sismiques. Étant donnĂ© que ces documents se prĂ©sentent Ă©galement sous diffĂ©rents formats et sont gĂ©nĂ©ralement rĂ©partis sur un certain nombre d'emplacements (Ă  la fois physiques et numĂ©riques), ils perdent beaucoup de temps Ă  rechercher les informations aux mauvais endroits. Une solution viable dans un tel cas serait une Interface de recherche alimentĂ©e par NLP, qui permettrait aux utilisateurs de rechercher des donnĂ©es en langage naturel. Ensuite, un modèle NLP pourrait corrĂ©ler les donnĂ©es de centaines de documents et renvoyer un ensemble de rĂ©ponses Ă  la requĂŞte. Les travailleurs peuvent ensuite valider la sortie en fonction de leurs propres connaissances d'expert et les commentaires amĂ©lioreraient encore le modèle. 

Cependant, il existe également des considérations techniques pour déployer de tels modèles. Un aspect serait que le jargon spécifique à l'industrie peut confondre les modèles d'apprentissage traditionnels qui n'ont pas la compréhension sémantique appropriée. Deuxièmement, les performances des modèles peuvent être affectées par la taille de l'ensemble de données d'apprentissage. C'est à ce moment que des modèles pré-formés tels que BERT peuvent s'avérer bénéfiques. Les représentations contextuelles peuvent modéliser la signification appropriée des mots et éliminer toute confusion causée par des termes spécifiques à l'industrie. En utilisant des modèles pré-formés, il est possible de former le réseau sur des ensembles de données plus petits. Cela permet d'économiser du temps, de l'énergie et des ressources qui auraient autrement été nécessaires pour une formation à partir de zéro.

Qu'en est-il de votre propre entreprise ? 

Pouvez-vous penser Ă  des tâches NLP qui pourraient vous aider Ă  rĂ©duire les coĂ»ts et Ă  augmenter l'efficacitĂ© opĂ©rationnelle ?

Bleu Orange NumĂ©rique L'Ă©quipe de science des donnĂ©es est heureuse de peaufiner le BERT Ă  votre avantage Ă©galement !

Josh Miramant est le PDG et fondateur de Bleu Orange Numérique, une agence de science des données et d'apprentissage automatique de premier plan avec des bureaux à New York et à Washington DC. Miramant est un conférencier populaire, un futuriste et un conseiller stratégique en affaires et en technologie pour les entreprises et les startups. Il aide les organisations à optimiser et à automatiser leurs activités, à mettre en œuvre des techniques d'analyse basées sur les données et à comprendre les implications des nouvelles technologies telles que l'intelligence artificielle, le big data et l'Internet des objets.