Intelligence artificielle

Comment le traitement du langage est amélioré grâce au modèle BERT Open Source de Google

Le kit de préparation mis à jour on 9 décembre 2022

Représentations d'encodeurs bidirectionnels à partir de transformateurs, autrement connus sous le nom de BERT ; est un modèle de formation qui a considérablement amélioré l'efficacité et l'effet des modèles NLP. Maintenant que Google a rendu les modèles BERT open source, cela permet d'améliorer les modèles NLP dans tous les secteurs. Dans l'article, nous examinons comment BERT fait de la PNL l'une des solutions d'IA les plus puissantes et les plus utiles dans le monde d'aujourd'hui.

Application de modèles BERT à la recherche

Le moteur de recherche de Google est mondialement connu pour sa capacité à présenter un contenu pertinent et a rendu ce programme de traitement du langage naturel open source dans le monde entier.

La capacité d’un système à lire et à interpréter le langage naturel devient de plus en plus vitale à mesure que le monde produit de nouvelles données de manière exponentielle. La bibliothèque Google de significations de mots, d'expressions et de capacité générale à présenter du contenu pertinent est OPEN SOURCE. Au-delà du traitement du langage naturel, leur modèle BERT a la capacité d'extraire des informations à partir de grandes quantités de données non structurées et peut être appliqué pour créer des interfaces de recherche pour n'importe quelle bibliothèque. Dans cet article, nous verrons comment cette technologie peut être appliquée dans le secteur de l’énergie.

BERT (Bidirectional Encoder Representations from Transformers) est une approche de pré-formation proposée par le Langue de l'IA de Google groupe, développé pour surmonter un problème commun des premiers modèles de PNL : le manque de données de formation suffisantes.

Détaillons, sans entrer dans trop de détails :

Modèles de formation

Les tâches NLP de bas niveau (par exemple, la reconnaissance d'entités nommées, la segmentation de sujets) et de haut niveau (par exemple, l'analyse des sentiments, la reconnaissance vocale) nécessitent des ensembles de données annotés spécifiques à la tâche. Bien qu'ils soient difficiles à trouver et coûteux à assembler, les ensembles de données étiquetés jouent un rôle crucial dans les performances des modèles de réseaux neuronaux superficiels et profonds. Des résultats d'inférence de haute qualité ne pouvaient être obtenus que lorsque des millions, voire des milliards d'exemples de formation annotés étaient disponibles. Et c'était un problème qui rendait de nombreuses tâches PNL inaccessibles. C'est jusqu'à ce que BERT soit développé.

BERT est un modèle de représentation de langage à usage général, formé sur de grands corpus de texte non annoté. Lorsque le modèle est exposé à de grandes quantités de contenu textuel, il apprend comprendre le contexte et les relations entre les mots d'une phrase. Contrairement aux modèles d'apprentissage précédents qui ne représentaient que le sens au niveau des mots (banque signifierait la même chose dans "compte bancaire" et "banque herbeuse"), BERT se soucie en fait du contexte. C'est-à-dire ce qui vient avant et après le mot dans une phrase. Le contexte s'est avéré être une capacité manquante majeure des modèles NLP, avec un impact direct sur les performances du modèle. La conception d'un modèle sensible au contexte tel que BERT est connue par beaucoup comme le début d'une nouvelle ère en NLP.

La formation BERT sur de grandes quantités de contenu textuel est une technique connue sous le nom de pré-formation. Cela signifie que les poids du modèle sont ajustés pour les tâches générales de compréhension de texte et que des modèles plus fins peuvent être construits par-dessus. Les auteurs ont prouvé la supériorité d'une telle technique lorsqu'ils ont utilisé des modèles basés sur BERT sur 11 tâches NLP et ont obtenu des résultats de pointe.

Modèles pré-entraînés

La meilleure chose est que les modèles BERT pré-formés sont open source et accessibles au public. Cela signifie que n'importe qui peut s'attaquer aux tâches NLP et construire ses modèles au-dessus de BERT. Rien ne peut battre ça, n'est-ce pas? Oh, attendez : cela signifie également que les modèles NLP peuvent désormais être formés (affinés) sur des ensembles de données plus petits, sans avoir besoin de former à partir de zéro. Le début d'une nouvelle ère, en effet.

Ces modèles préformés aident les entreprises à réduire le coût et le temps de déploiement des modèles NLP à utiliser en interne ou en externe. L'efficacité des modèles de PNL bien entraînés est soulignée par Michael Alexis, PDG de la société de construction de culture d'équipe virtuelle, teambuilding.com.

"Le plus grand avantage de la PNL est l'inférence et le traitement évolutifs et cohérents de l'information." – Michel Alexis PDG de teambuilding.com

Michael explique comment la PNL peut être appliquée aux programmes de promotion de la culture tels que les brise-glace ou les enquêtes. Une entreprise peut obtenir des informations précieuses sur l'état de la culture d'entreprise en analysant les réponses des employés. Ceci est réalisé non seulement en analysant simplement le texte, mais en analysant l'annotation du texte. Essentiellement, le modèle "lit également entre les lignes" pour tirer des conclusions sur l'émotion, la sensation et la perspective globale. Le BERT peut aider dans des situations comme celle-ci en préformant des modèles avec une base d'indicateurs qu'il peut utiliser pour découvrir les nuances du langage et fournir des informations plus précises.

Améliorer les requêtes

La capacité de modéliser le contexte a fait de BERT un héros du NLP et a révolutionné la recherche Google elle-même. Vous trouverez ci-dessous une citation de l'équipe produit de Google Search et de leurs expériences de test, alors qu'ils ajustaient BERT pour comprendre l'intention derrière une requête.

"Voici quelques exemples qui démontrent la capacité de BERT à comprendre l'intention derrière votre recherche. Voici une recherche pour "le voyageur brésilien 2019 aux États-Unis a besoin d'un visa". Le mot « à » et sa relation avec les autres mots de la requête sont particulièrement importants pour en comprendre le sens. Il s'agit d'un Brésilien voyageant aux États-Unis et non l'inverse. Auparavant, nos algorithmes ne comprenaient pas l'importance de cette connexion, et nous avons renvoyé des résultats sur les citoyens américains voyageant au Brésil. Avec BERT, Search est capable de saisir cette nuance et de savoir que le mot très courant "à" compte beaucoup ici, et nous pouvons fournir un résultat beaucoup plus pertinent pour cette requête.
- Comprendre les recherches mieux que jamais, par Pandu Nayak, Google Fellow et vice-président de la recherche.

Exemple de recherche BERT, avant et après. Source blogue

Dans notre dernier article sur PNL et OCR, nous avons illustré quelques usages du NLP dans le secteur immobilier. Nous avons également mentionné comment "les outils NLP sont des outils d'extraction d'informations idéaux". Examinons le secteur de l'énergie et voyons comment les technologies NLP perturbatrices telles que BERT permettent de nouveaux cas d'utilisation d'applications.

Les modèles NLP peuvent extraire des informations à partir de grandes quantités de données non structurées

L'extraction d'informations critiques à partir de données textuelles non structurées est une manière d'utiliser les modèles NLP. Les e-mails, les journaux, les notes, les journaux et les rapports sont tous des exemples de sources de données textuelles qui font partie des opérations quotidiennes des entreprises. Certains de ces documents peuvent s'avérer cruciaux dans les efforts organisationnels visant à accroître l'efficacité opérationnelle et à réduire les coûts.

Lorsqu'il s'agit de mettre en œuvre maintenance prédictive des éoliennes, rapports d'échec peut contenir des informations critiques sur le comportement des différents composants. Mais étant donné que différents fabricants d'éoliennes ont des normes de collecte de données différentes (c'est-à-dire que les rapports de maintenance sont disponibles dans différents formats et même dans différentes langues), l'identification manuelle des éléments de données pertinents pourrait rapidement devenir coûteuse pour le propriétaire de la centrale. Les outils NLP peuvent extraire des concepts, des attributs et des événements pertinents à partir de contenu non structuré. L'analyse de texte peut ensuite être utilisée pour trouver des corrélations et des modèles dans différentes sources de données. Cela donne aux propriétaires de centrales la possibilité de mettre en œuvre une maintenance prédictive basée sur des mesures quantitatives identifiées dans leurs rapports de défaillance.

Les modèles NLP peuvent fournir des interfaces de recherche en langage naturel

De même, les géoscientifiques travaillant pour des sociétés pétrolières et gazières doivent généralement examiner de nombreux documents liés aux opérations de forage passées, aux journaux de puits et aux données sismiques. Étant donné que ces documents se présentent également sous différents formats et sont généralement répartis sur un certain nombre d'emplacements (à la fois physiques et numériques), ils perdent beaucoup de temps à rechercher les informations aux mauvais endroits. Une solution viable dans un tel cas serait une Interface de recherche alimentée par NLP, qui permettrait aux utilisateurs de rechercher des données en langage naturel. Ensuite, un modèle NLP pourrait corréler les données de centaines de documents et renvoyer un ensemble de réponses à la requête. Les travailleurs peuvent ensuite valider la sortie en fonction de leurs propres connaissances d'expert et les commentaires amélioreraient encore le modèle.

Cependant, il existe également des considérations techniques pour déployer de tels modèles. Un aspect serait que le jargon spécifique à l'industrie peut confondre les modèles d'apprentissage traditionnels qui n'ont pas la compréhension sémantique appropriée. Deuxièmement, les performances des modèles peuvent être affectées par la taille de l'ensemble de données d'apprentissage. C'est à ce moment que des modèles pré-formés tels que BERT peuvent s'avérer bénéfiques. Les représentations contextuelles peuvent modéliser la signification appropriée des mots et éliminer toute confusion causée par des termes spécifiques à l'industrie. En utilisant des modèles pré-formés, il est possible de former le réseau sur des ensembles de données plus petits. Cela permet d'économiser du temps, de l'énergie et des ressources qui auraient autrement été nécessaires pour une formation à partir de zéro.

Qu'en est-il de votre propre entreprise ?

Pouvez-vous penser à des tâches NLP qui pourraient vous aider à réduire les coûts et à augmenter l'efficacité opérationnelle ?

Les Bleu Orange Numérique L'équipe de science des données est heureuse de peaufiner le BERT à votre avantage également !

L'armée américaine se rapproche des véhicules de combat tout-terrain autonomes

Ne manquez pas

La toute dernière création de Quantum Stat est la forge de modèles PNL

Josh Miramant

Josh Miramant est le PDG et fondateur de Bleu Orange Numérique, une agence de science des données et d'apprentissage automatique de premier plan avec des bureaux à New York et à Washington DC. Miramant est un conférencier populaire, un futuriste et un conseiller stratégique en affaires et en technologie pour les entreprises et les startups. Il aide les organisations à optimiser et à automatiser leurs activités, à mettre en œuvre des techniques d'analyse basées sur les données et à comprendre les implications des nouvelles technologies telles que l'intelligence artificielle, le big data et l'Internet des objets.