Intelligenza Artificiale

Che cos'è la PNL (elaborazione del linguaggio naturale)?

aggiornato on 20 Marzo 2024

Natural Language Processing (NLP) è lo studio e l'applicazione di tecniche e strumenti che consentono ai computer di elaborare, analizzare, interpretare e ragionare sul linguaggio umano. La PNL è un campo interdisciplinare e combina tecniche consolidate in campi come la linguistica e l'informatica. Queste tecniche vengono utilizzate insieme all'intelligenza artificiale per creare chatbot e assistenti digitali come Google Assistant e Alexa di Amazon.

Prendiamoci un po' di tempo per esplorare la logica alla base dell'elaborazione del linguaggio naturale, alcune delle tecniche utilizzate nella PNL e alcuni casi d'uso comuni della PNL.

Perché l'elaborazione del linguaggio naturale (PNL) è importante

Affinché i computer possano interpretare il linguaggio umano, devono essere convertiti in una forma che un computer possa manipolare. Tuttavia, questo non è semplice come convertire i dati di testo in numeri. Per ricavare un significato dal linguaggio umano, i modelli devono essere estratti dalle centinaia o migliaia di parole che compongono un documento di testo. Non è un compito facile. Ci sono poche regole ferree che possono essere applicate all'interpretazione del linguaggio umano. Ad esempio, lo stesso identico insieme di parole può significare cose diverse a seconda del contesto. Il linguaggio umano è una cosa complessa e spesso ambigua, e un'affermazione può essere pronunciata con sincerità o sarcasmo.

Nonostante ciò, esistono alcune linee guida generali che possono essere utilizzate quando si interpretano parole e caratteri, come ad esempio il carattere “s” utilizzato per denotare che un elemento è plurale. Queste linee guida generali devono essere utilizzate insieme per estrarre significato dal testo e creare funzionalità che un algoritmo di apprendimento automatico possa interpretare.

L'elaborazione del linguaggio naturale prevede l'applicazione di vari algoritmi in grado di prendere dati non strutturati e convertirli in dati strutturati. Se questi algoritmi vengono applicati nel modo sbagliato, spesso il computer non riuscirà a ricavare il significato corretto dal testo. Ciò è spesso riscontrabile nella traduzione di testi tra lingue, dove spesso si perde il significato preciso della frase. Sebbene la traduzione automatica sia migliorata sostanzialmente negli ultimi anni, gli errori di traduzione automatica si verificano ancora frequentemente.

Tecniche di elaborazione del linguaggio naturale (PNL).

Foto: Tamur tramite WikiMedia Commons, dominio pubblico (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Molti dei tecniche che vengono utilizzati nell'elaborazione del linguaggio naturale possono essere collocati in una delle due categorie: sintassi o semantica. Le tecniche di sintassi sono quelle che si occupano dell'ordinamento delle parole, mentre le tecniche semantiche sono quelle che coinvolgono il significato delle parole.

Sintassi Tecniche di PNL

Esempi di sintassi includono:

lemmatizzazione
Segmentazione morfologica
Tagging parte del discorso
parsing
Frase di rottura
Stemming
Segmentazione delle parole

La lemmatizzazione si riferisce alla distillazione delle diverse inflessioni di una parola fino a un'unica forma. La lemmatizzazione prende cose come tempi e plurali e le semplifica, per esempio, "piedi" potrebbe diventare "piede" e "strisce" potrebbero diventare "striscia". Questa forma di parola semplificata rende più facile per un algoritmo interpretare le parole in un documento.

La segmentazione morfologica è il processo di divisione delle parole in morfemi o unità di base di una parola. Queste unità sono cose come gratis morfemi (che possono stare da soli come parole) e prefissi o suffissi.

Tagging di parti del discorso è semplicemente il processo di identificazione di quale parte del discorso è ogni parola in un documento di input.

parsing si riferisce all'analisi di tutte le parole in una frase e alla loro correlazione con le loro etichette grammaticali formali o all'analisi grammaticale di tutte le parole.

Rottura della frase, o segmentazione del confine della frase, si riferisce a decidere dove inizia e finisce una frase.

Stemming è il processo di riduzione delle parole fino alla forma radice della parola. Ad esempio, connesso, connessione e connessioni verrebbero tutti derivati da "connettere".

Segmentazione delle parole è il processo di divisione di grandi porzioni di testo in piccole unità, che possono essere parole o unità con radice/lemmatizzata.

Tecniche di PNL semantica

Le tecniche di PNL semantica includono tecniche come:

Riconoscimento di entità nominate
Generazione del linguaggio naturale
Disambiguazione senso-parola

Riconoscimento dell'entità denominata comporta l'etichettatura di determinate porzioni di testo che possono essere inserite in uno di diversi gruppi preimpostati. Le categorie predefinite includono cose come date, città, luoghi, aziende e individui.

Generazione del linguaggio naturale è il processo di utilizzo dei database per trasformare i dati strutturati in linguaggio naturale. Ad esempio, le statistiche sul tempo, come la temperatura e la velocità del vento, potrebbero essere riassunte con un linguaggio naturale.

La disambiguazione del senso delle parole è il processo di assegnazione del significato alle parole all'interno di un testo in base al contesto in cui appaiono le parole.

Modelli di deep learning per la PNL

I normali percettroni multistrato non sono in grado di gestire l'interpretazione di dati sequenziali, dove l'ordine delle informazioni è importante. Per far fronte all'importanza dell'ordine nei dati sequenziali, viene utilizzato un tipo di rete neurale che preserva le informazioni dai passaggi temporali precedenti nell'addestramento.

Reti neurali ricorrenti sono tipi di reti neurali che eseguire il looping dei dati delle fasi temporali precedenti, tenendone conto nel calcolo dei pesi del passo temporale corrente. Essenzialmente, gli RNN hanno tre parametri che vengono utilizzati durante il passaggio di addestramento in avanti: una matrice basata sullo stato nascosto precedente, una matrice basata sull'input corrente e una matrice che si trova tra lo stato nascosto e l'output. Poiché le RNN possono tenere conto delle informazioni dei passaggi temporali precedenti, possono estrarre modelli rilevanti dai dati di testo prendendo in considerazione le parole precedenti nella frase quando interpretano il significato di una parola.

Un altro tipo di architettura di deep learning utilizzata per elaborare i dati di testo è una rete LSTM (Long Short-Term Memory).. Le reti LSTM sono simili alle RNN nella struttura, ma a causa di alcune differenze nella loro architettura tendono a funzionare meglio delle RNN. Evitano un problema specifico che spesso si verifica quando si utilizzano RNN chiamati the problema del gradiente esplosivo.

Queste reti neurali profonde possono essere unidirezionali o bidirezionali. Le reti bidirezionali sono in grado di prendere in considerazione non solo le parole che precedono la parola corrente, ma anche quelle che la seguono. Sebbene ciò porti a una maggiore precisione, è più costoso dal punto di vista computazionale.

Casi d'uso per l'elaborazione del linguaggio naturale (PNL)

Foto: mohammed_hassan tramite Pixabay, licenza Pixabay (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Poiché l'elaborazione del linguaggio naturale comporta l'analisi e la manipolazione dei linguaggi umani, ha una gamma incredibilmente ampia di applicazioni. Le possibili applicazioni per la PNL includono chatbot, assistenti digitali, analisi del sentiment, organizzazione dei documenti, reclutamento di talenti e assistenza sanitaria.

I chatbot e gli assistenti digitali come Alexa e Google Assistant di Amazon sono esempi di piattaforme di riconoscimento e sintesi vocale che utilizzano la PNL per interpretare e rispondere ai comandi vocali. Questi assistenti digitali aiutano le persone con un'ampia varietà di compiti, consentendo loro di scaricare alcuni dei loro compiti cognitivi su un altro dispositivo e liberare parte delle loro capacità intellettuali per altre cose più importanti. Invece di cercare il percorso migliore per raggiungere la banca in una mattinata intensa, possiamo farlo fare al nostro assistente digitale.

Analisi del sentimento è l'uso delle tecniche di PNL per studiare le reazioni e i sentimenti delle persone a un fenomeno, come comunicato dal loro uso del linguaggio. Catturare il sentimento di una dichiarazione, come interpretare se una recensione di un prodotto è buona o cattiva, può fornire alle aziende informazioni sostanziali su come il loro prodotto viene ricevuto.

L'organizzazione automatica dei documenti di testo è un'altra applicazione della PNL. Aziende come Google e Yahoo utilizzano algoritmi NLP per classificare i documenti email, inserendoli negli appositi raccoglitori come “social” o “promozioni”. Usano anche queste tecniche per identificare lo spam e impedire che raggiunga la tua casella di posta.

I gruppi hanno anche sviluppato tecniche di PNL che vengono utilizzate per identificare potenziali assunzioni di lavoro, trovandole in base alle competenze pertinenti. I responsabili delle assunzioni utilizzano anche tecniche di PNL per aiutarli a selezionare gli elenchi di candidati.

Le tecniche di PNL vengono utilizzate anche per migliorare l'assistenza sanitaria. La PNL può essere utilizzata per migliorare il rilevamento delle malattie. Le cartelle cliniche possono essere analizzate e i sintomi estratti dagli algoritmi della PNL, che possono quindi essere utilizzati per suggerire possibili diagnosi. Un esempio di ciò è la piattaforma Comprehend Medical di Amazon, che analizza le cartelle cliniche ed estrae malattie e cure. Le applicazioni sanitarie della PNL si estendono anche alla salute mentale. Ci sono app come WoeBot, che parla agli utenti attraverso una varietà di tecniche di gestione dell'ansia basate sulla terapia cognitivo comportamentale.

Argomenti correlati:elaborazione del linguaggio naturale nlp

Avanti il prossimo

Ex professionisti dell'intelligence usano l'intelligenza artificiale per scoprire il traffico di esseri umani

Da non perdere

GPT-2, generatore di testo di intelligenza artificiale viene rilasciato per intero

Daniele Nelson

Blogger e programmatore con specialità in machine Learning ed Deep Learning temi. Daniel spera di aiutare gli altri a usare il potere dell'intelligenza artificiale per il bene sociale.