Intelligence Artificielle
Qu'est-ce que le NLP (Natural Language Processing) ?

Traitement du langage naturel (PNL) est l'étude et l'application de techniques et d'outils qui permettent aux ordinateurs de traiter, d'analyser, d'interpréter et de raisonner sur le langage humain. La PNL est un domaine interdisciplinaire et combine des techniques établies dans des domaines comme la linguistique et l'informatique. Ces techniques sont utilisées de concert avec l'IA pour créer des chatbots et des assistants numériques comme Google Assistant et Alexa d'Amazon.
Prenons le temps d'explorer la justification du traitement du langage naturel, certaines des techniques utilisées en PNL et quelques cas d'utilisation courants de la PNL.
Pourquoi le traitement du langage naturel (TAL) est important
Pour que les ordinateurs interprĂštent le langage humain, ils doivent ĂȘtre convertis en une forme qu'un ordinateur peut manipuler. Cependant, ce n'est pas aussi simple que de convertir des donnĂ©es textuelles en nombres. Afin de tirer un sens du langage humain, des modĂšles doivent ĂȘtre extraits des centaines ou des milliers de mots qui composent un document texte. Ce n'est pas une tache facile. Il existe peu de rĂšgles strictes et rapides qui peuvent ĂȘtre appliquĂ©es Ă l'interprĂ©tation du langage humain. Par exemple, exactement le mĂȘme ensemble de mots peut signifier diffĂ©rentes choses selon le contexte. Le langage humain est une chose complexe et souvent ambiguĂ«, et une dĂ©claration peut ĂȘtre prononcĂ©e avec sincĂ©ritĂ© ou sarcasme.
MalgrĂ© cela, certaines directives gĂ©nĂ©rales peuvent ĂȘtre utilisĂ©es lors de lâinterprĂ©tation des mots et des caractĂšres, comme le caractĂšre « s » utilisĂ© pour indiquer quâun Ă©lĂ©ment est au pluriel. Ces directives gĂ©nĂ©rales doivent ĂȘtre utilisĂ©es de concert les unes avec les autres pour extraire le sens du texte et crĂ©er des fonctionnalitĂ©s qu'un algorithme d'apprentissage automatique peut interprĂ©ter.
Le traitement du langage naturel implique l'application de divers algorithmes capables de prendre des donnĂ©es non structurĂ©es et de les convertir en donnĂ©es structurĂ©es. Si ces algorithmes sont mal appliquĂ©s, lâordinateur ne parviendra souvent pas Ă dĂ©duire le sens correct du texte. Cela se voit souvent dans la traduction de textes entre langues, oĂč le sens prĂ©cis de la phrase est souvent perdu. Bien que la traduction automatique se soit considĂ©rablement amĂ©liorĂ©e au cours des derniĂšres annĂ©es, des erreurs de traduction automatique surviennent encore frĂ©quemment.
Techniques de traitement du langage naturel (TLN)

Photo : Tamur via WikiMedia Commons, domaine public (https://commons.wikimedia.org/wiki/File:ParseTree.svg)
La plupart des techniques utilisĂ©es en traitement du langage naturel peuvent ĂȘtre classĂ©es en deux catĂ©gories : syntaxique et sĂ©mantique. Les techniques syntaxiques traitent de l'ordre des mots, tandis que les techniques sĂ©mantiques concernent le sens des mots.
Syntaxe Techniques PNL
Voici des exemples de syntaxe :
- Lemmatisation
- Segmentation morphologique
- Marquage des parties du discours
- Analyse
- Rupture de phrase
- Stemming
- Segmentation des mots
La lemmatisation consiste à distiller les différentes inflexions d'un mot en une seule forme. La lemmatisation prend des choses comme les temps et les pluriels et les simplifie, par exemple, "pieds" peut devenir "pied" et "rayures" peuvent devenir "rayure". Cette forme de mot simplifiée permet à un algorithme d'interpréter plus facilement les mots d'un document.
La segmentation morphologique est le processus de division des mots en morphĂšmes ou les unitĂ©s de base d'un mot. Ces unitĂ©s sont des choses comme gratuites morphĂšmes (qui peuvent ĂȘtre des mots seuls) et des prĂ©fixes ou suffixes.
Marquage des parties du discours est simplement le processus d'identification de la partie du discours de chaque mot dans un document d'entrée.
Analyse fait référence à l'analyse de tous les mots d'une phrase et à leur corrélation avec leurs étiquettes grammaticales formelles ou à l'analyse grammaticale de tous les mots.
Briser une phrase, ou segmentation des limites de la phrase, se rĂ©fĂšre Ă dĂ©cider oĂč une phrase commence et se termine.
Stemming est le processus de réduction des mots jusqu'à la forme racine du mot. Par exemple, connecté, connexion et connexions seraient tous issus de "connecter".
Segmentation des mots est le processus de division de gros morceaux de texte en petites unitĂ©s, qui peuvent ĂȘtre des mots ou des unitĂ©s radicales/lemmatisĂ©es.
Techniques de PNL sémantique
Les techniques de PNL sémantique incluent des techniques telles que :
- Reconnaissance d'entité nommée
- Génération de Langage Naturel
- Désambiguïsation du sens des mots
La reconnaissance d'entitĂ©s nommĂ©es consiste Ă baliser certaines portions de texte, qui peuvent ĂȘtre classĂ©es dans diffĂ©rents groupes prĂ©dĂ©finis. Ces catĂ©gories incluent des Ă©lĂ©ments tels que les dates, les villes, les lieux, les entreprises et les individus.
GĂ©nĂ©ration de langage naturel est le processus d'utilisation de bases de donnĂ©es pour transformer des donnĂ©es structurĂ©es en langage naturel. Par exemple, les statistiques sur la mĂ©tĂ©o, comme la tempĂ©rature et la vitesse du vent, pourraient ĂȘtre rĂ©sumĂ©es en langage naturel.
La désambiguïsation du sens des mots est le processus d'attribution de sens aux mots dans un texte en fonction du contexte dans lequel les mots apparaissent.
ModĂšles d'apprentissage en profondeur pour la PNL
Les perceptrons multicouches rĂ©guliers sont incapables de gĂ©rer l'interprĂ©tation de donnĂ©es sĂ©quentielles, oĂč l'ordre des informations est important. Afin de faire face Ă l'importance de l'ordre dans les donnĂ©es sĂ©quentielles, un type de rĂ©seau neuronal est utilisĂ© qui prĂ©serve les informations des pas de temps prĂ©cĂ©dents dans la formation.
RĂ©seaux neuronaux rĂ©currents sont des types de rĂ©seaux de neurones qui boucle sur les donnĂ©es des pas de temps prĂ©cĂ©dents, en les prenant en compte lors du calcul des poids du pas de temps actuel. Essentiellement, les RNN ont trois paramĂštres qui sont utilisĂ©s lors de la passe de formation avancĂ©e : une matrice basĂ©e sur l'Ă©tat cachĂ© prĂ©cĂ©dent, une matrice basĂ©e sur l'entrĂ©e actuelle et une matrice situĂ©e entre l'Ă©tat cachĂ© et la sortie. Ătant donnĂ© que les RNN peuvent prendre en compte les informations des pas de temps prĂ©cĂ©dents, ils peuvent extraire des modĂšles pertinents des donnĂ©es textuelles en prenant en compte les mots antĂ©rieurs de la phrase lors de l'interprĂ©tation de la signification d'un mot.
Un autre type d'architecture d'apprentissage en profondeur utilisĂ© pour traiter les donnĂ©es textuelles est un rĂ©seau Long Short-Term Memory (LSTM). Les rĂ©seaux LSTM ont une structure similaire aux RNN, mais en raison de certaines diffĂ©rences dans leur architecture, ils ont tendance Ă ĂȘtre plus performants que les RNN. Ils Ă©vitent un problĂšme spĂ©cifique qui se produit souvent lors de l'utilisation de RNN appelĂ© le problĂšme de gradient explosif.
Ces rĂ©seaux de neurones profonds peuvent ĂȘtre unidirectionnels ou bidirectionnels. Les rĂ©seaux bidirectionnels sont capables de prendre en compte non seulement les mots qui prĂ©cĂšdent le mot courant, mais aussi les mots qui le suivent. Bien que cela conduise Ă une plus grande prĂ©cision, cela coĂ»te plus cher en calcul.
Cas d'utilisation du traitement du langage naturel (TAL)

Photo : mohammed_hassan via Pixabay, licence Pixabay (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)
Parce que le traitement du langage naturel implique l'analyse et la manipulation des langues humaines, il a une gamme d'applications incroyablement large. Les applications possibles du NLP incluent les chatbots, les assistants numériques, l'analyse des sentiments, l'organisation de documents, le recrutement de talents et les soins de santé.
Les chatbots et les assistants numériques comme Alexa d'Amazon et Google Assistant sont des exemples de plateformes de reconnaissance et de synthÚse vocales qui utilisent la PNL pour interpréter et répondre aux commandes vocales. Ces assistants numériques aident les gens avec une grande variété de tùches, leur permettant de décharger certaines de leurs tùches cognitives sur un autre appareil et de libérer une partie de leur cerveau pour d'autres choses plus importantes. Au lieu de rechercher le meilleur itinéraire vers la banque un matin chargé, nous pouvons simplement demander à notre assistant numérique de le faire.
L'analyse des sentiments consiste à utiliser des techniques de PNL pour étudier les réactions et les sentiments des individus face à un phénomÚne, tels qu'ils sont exprimés par leur langage. Capturer le sentiment d'une déclaration, comme interpréter la qualité d'un avis sur un produit, peut fournir aux entreprises des informations précieuses sur l'accueil réservé à leur produit.
L'organisation automatique des documents texte est une autre application du TALN. Des entreprises comme Google et Yahoo utilisent des algorithmes de TALN pour classer les documents Ă©lectroniques et les placer dans les catĂ©gories appropriĂ©es, comme « rĂ©seaux sociaux » ou « promotions ». Elles utilisent Ă©galement ces techniques pour identifier les spams et les empĂȘcher d'atteindre votre boĂźte de rĂ©ception.
Des groupes ont également développé des techniques de PNL qui sont utilisées pour identifier les embauches potentielles, en les trouvant en fonction des compétences pertinentes. Les responsables du recrutement utilisent également des techniques NLP pour les aider à trier les listes de candidats.
Les techniques de PNL sont Ă©galement utilisĂ©es pour amĂ©liorer les soins de santĂ©. La PNL peut ĂȘtre utilisĂ©e pour amĂ©liorer la dĂ©tection des maladies. Les dossiers de santĂ© peuvent ĂȘtre analysĂ©s et les symptĂŽmes extraits par des algorithmes NLP, qui peuvent ensuite ĂȘtre utilisĂ©s pour suggĂ©rer des diagnostics possibles. Un exemple en est la plateforme Comprehend Medical d'Amazon, qui analyse les dossiers de santĂ© et extrait les maladies et les traitements. Les applications mĂ©dicales de la PNL s'Ă©tendent Ă©galement Ă la santĂ© mentale. Il y a des applications comme WoeBot, qui explique aux utilisateurs une variĂ©tĂ© de techniques de gestion de l'anxiĂ©tĂ© basĂ©es sur la thĂ©rapie cognitivo-comportementale.