Intelligence artificielle

Qu'est-ce que le NLP (Natural Language Processing) ?

Le kit de préparation mis à jour on 20 mars 2024

Traitement du langage naturel (PNL) est l'étude et l'application de techniques et d'outils qui permettent aux ordinateurs de traiter, d'analyser, d'interpréter et de raisonner sur le langage humain. La PNL est un domaine interdisciplinaire et combine des techniques établies dans des domaines comme la linguistique et l'informatique. Ces techniques sont utilisées de concert avec l'IA pour créer des chatbots et des assistants numériques comme Google Assistant et Alexa d'Amazon.

Prenons le temps d'explorer la justification du traitement du langage naturel, certaines des techniques utilisées en PNL et quelques cas d'utilisation courants de la PNL.

Pourquoi le traitement du langage naturel (TAL) est important

Pour que les ordinateurs interprètent le langage humain, ils doivent être convertis en une forme qu'un ordinateur peut manipuler. Cependant, ce n'est pas aussi simple que de convertir des données textuelles en nombres. Afin de tirer un sens du langage humain, des modèles doivent être extraits des centaines ou des milliers de mots qui composent un document texte. Ce n'est pas une tache facile. Il existe peu de règles strictes et rapides qui peuvent être appliquées à l'interprétation du langage humain. Par exemple, exactement le même ensemble de mots peut signifier différentes choses selon le contexte. Le langage humain est une chose complexe et souvent ambiguë, et une déclaration peut être prononcée avec sincérité ou sarcasme.

Malgré cela, certaines directives générales peuvent être utilisées lors de l’interprétation des mots et des caractères, comme le caractère « s » utilisé pour indiquer qu’un élément est au pluriel. Ces directives générales doivent être utilisées de concert les unes avec les autres pour extraire le sens du texte et créer des fonctionnalités qu'un algorithme d'apprentissage automatique peut interpréter.

Le traitement du langage naturel implique l'application de divers algorithmes capables de prendre des données non structurées et de les convertir en données structurées. Si ces algorithmes sont mal appliqués, l’ordinateur ne parviendra souvent pas à déduire le sens correct du texte. Cela se voit souvent dans la traduction de textes entre langues, où le sens précis de la phrase est souvent perdu. Bien que la traduction automatique se soit considérablement améliorée au cours des dernières années, des erreurs de traduction automatique surviennent encore fréquemment.

Techniques de traitement du langage naturel (TLN)

Photo : Tamur via WikiMedia Commons, domaine public (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Beaucoup de techniques qui sont utilisés dans le traitement du langage naturel peuvent être classés dans l'une des deux catégories suivantes : syntaxe ou sémantique. Les techniques syntaxiques sont celles qui traitent de l'ordre des mots, tandis que les techniques sémantiques sont les techniques qui impliquent le sens des mots.

Syntaxe Techniques PNL

Voici des exemples de syntaxe :

Lemmatisation
Segmentation morphologique
Marquage des parties du discours
Analyse
Rupture de phrase
Stemming
Segmentation des mots

La lemmatisation consiste à distiller les différentes inflexions d'un mot en une seule forme. La lemmatisation prend des choses comme les temps et les pluriels et les simplifie, par exemple, "pieds" peut devenir "pied" et "rayures" peuvent devenir "rayure". Cette forme de mot simplifiée permet à un algorithme d'interpréter plus facilement les mots d'un document.

La segmentation morphologique est le processus de division des mots en morphèmes ou les unités de base d'un mot. Ces unités sont des choses comme gratuites morphèmes (qui peuvent être des mots seuls) et des préfixes ou suffixes.

Marquage des parties du discours est simplement le processus d'identification de la partie du discours de chaque mot dans un document d'entrée.

Analyse fait référence à l'analyse de tous les mots d'une phrase et à leur corrélation avec leurs étiquettes grammaticales formelles ou à l'analyse grammaticale de tous les mots.

Briser une phrase, ou segmentation des limites de la phrase, se réfère à décider où une phrase commence et se termine.

Stemming est le processus de réduction des mots jusqu'à la forme racine du mot. Par exemple, connecté, connexion et connexions seraient tous issus de "connecter".

Segmentation des mots est le processus de division de gros morceaux de texte en petites unités, qui peuvent être des mots ou des unités radicales/lemmatisées.

Techniques de PNL sémantique

Les techniques de PNL sémantique incluent des techniques telles que :

Reconnaissance d'entité nommée
Génération de Langage Naturel
Désambiguïsation du sens des mots

Reconnaissance des entités nommées implique le balisage de certaines portions de texte qui peuvent être placées dans l'un des nombreux groupes prédéfinis. Les catégories prédéfinies incluent des éléments tels que des dates, des villes, des lieux, des entreprises et des individus.

Génération de langage naturel est le processus d'utilisation de bases de données pour transformer des données structurées en langage naturel. Par exemple, les statistiques sur la météo, comme la température et la vitesse du vent, pourraient être résumées en langage naturel.

La désambiguïsation du sens des mots est le processus d'attribution de sens aux mots dans un texte en fonction du contexte dans lequel les mots apparaissent.

Modèles d'apprentissage en profondeur pour la PNL

Les perceptrons multicouches réguliers sont incapables de gérer l'interprétation de données séquentielles, où l'ordre des informations est important. Afin de faire face à l'importance de l'ordre dans les données séquentielles, un type de réseau neuronal est utilisé qui préserve les informations des pas de temps précédents dans la formation.

Réseaux neuronaux récurrents sont des types de réseaux de neurones qui boucle sur les données des pas de temps précédents, en les prenant en compte lors du calcul des poids du pas de temps actuel. Essentiellement, les RNN ont trois paramètres qui sont utilisés lors de la passe de formation avancée : une matrice basée sur l'état caché précédent, une matrice basée sur l'entrée actuelle et une matrice située entre l'état caché et la sortie. Étant donné que les RNN peuvent prendre en compte les informations des pas de temps précédents, ils peuvent extraire des modèles pertinents des données textuelles en prenant en compte les mots antérieurs de la phrase lors de l'interprétation de la signification d'un mot.

Un autre type d'architecture d'apprentissage en profondeur utilisé pour traiter les données textuelles est un réseau Long Short-Term Memory (LSTM). Les réseaux LSTM ont une structure similaire aux RNN, mais en raison de certaines différences dans leur architecture, ils ont tendance à être plus performants que les RNN. Ils évitent un problème spécifique qui se produit souvent lors de l'utilisation de RNN appelé le problème de gradient explosif.

Ces réseaux de neurones profonds peuvent être unidirectionnels ou bidirectionnels. Les réseaux bidirectionnels sont capables de prendre en compte non seulement les mots qui précèdent le mot courant, mais aussi les mots qui le suivent. Bien que cela conduise à une plus grande précision, cela coûte plus cher en calcul.

Cas d'utilisation du traitement du langage naturel (TAL)

Photo : mohammed_hassan via Pixabay, licence Pixabay (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Parce que le traitement du langage naturel implique l'analyse et la manipulation des langues humaines, il a une gamme d'applications incroyablement large. Les applications possibles du NLP incluent les chatbots, les assistants numériques, l'analyse des sentiments, l'organisation de documents, le recrutement de talents et les soins de santé.

Les chatbots et les assistants numériques comme Alexa d'Amazon et Google Assistant sont des exemples de plateformes de reconnaissance et de synthèse vocales qui utilisent la PNL pour interpréter et répondre aux commandes vocales. Ces assistants numériques aident les gens avec une grande variété de tâches, leur permettant de décharger certaines de leurs tâches cognitives sur un autre appareil et de libérer une partie de leur cerveau pour d'autres choses plus importantes. Au lieu de rechercher le meilleur itinéraire vers la banque un matin chargé, nous pouvons simplement demander à notre assistant numérique de le faire.

Analyse des sentiments est l'utilisation des techniques de la PNL pour étudier les réactions et les sentiments des gens face à un phénomène, tels qu'ils sont communiqués par leur utilisation du langage. Capturer le sentiment d'une déclaration, comme interpréter si une critique d'un produit est bonne ou mauvaise, peut fournir aux entreprises des informations substantielles sur la façon dont leur produit est reçu.

L'organisation automatique de documents texte est une autre application de la PNL. Des entreprises comme Google et Yahoo utilisent des algorithmes NLP pour classer les documents de courrier électronique, en les plaçant dans les bacs appropriés tels que "social" ou "promotions". Ils utilisent également ces techniques pour identifier les spams et l'empêcher d'atteindre votre boîte de réception.

Des groupes ont également développé des techniques de PNL qui sont utilisées pour identifier les embauches potentielles, en les trouvant en fonction des compétences pertinentes. Les responsables du recrutement utilisent également des techniques NLP pour les aider à trier les listes de candidats.

Les techniques de PNL sont également utilisées pour améliorer les soins de santé. La PNL peut être utilisée pour améliorer la détection des maladies. Les dossiers de santé peuvent être analysés et les symptômes extraits par des algorithmes NLP, qui peuvent ensuite être utilisés pour suggérer des diagnostics possibles. Un exemple en est la plateforme Comprehend Medical d'Amazon, qui analyse les dossiers de santé et extrait les maladies et les traitements. Les applications médicales de la PNL s'étendent également à la santé mentale. Il y a des applications comme WoeBot, qui explique aux utilisateurs une variété de techniques de gestion de l'anxiété basées sur la thérapie cognitivo-comportementale.

Rubriques connexes:traitement du langage naturel nlp

D'anciens professionnels du renseignement utilisent l'IA pour découvrir la traite des êtres humains

Ne manquez pas

GPT-2, le générateur de texte d'intelligence artificielle est publié dans son intégralité

Daniel Nelson

Blogueur et programmeur spécialisé dans Machine Learning ainsi que les L'apprentissage en profondeur les sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.