Inteligência artificial

O que é PNL (Processamento de Linguagem Natural)?

Atualização do on 20 de março de 2024

Processamento de Linguagem Natural (PNL) é o estudo e a aplicação de técnicas e ferramentas que permitem aos computadores processar, analisar, interpretar e raciocinar sobre a linguagem humana. A PNL é um campo interdisciplinar e combina técnicas estabelecidas em áreas como linguística e ciência da computação. Essas técnicas são usadas em conjunto com a IA para criar chatbots e assistentes digitais como o Google Assistant e o Alexa da Amazon.

Vamos explorar a lógica por trás do Processamento de Linguagem Natural, algumas das técnicas usadas na PNL e alguns casos de uso comuns da PNL.

Por que o processamento de linguagem natural (PLN) é importante

Para que os computadores interpretem a linguagem humana, eles devem ser convertidos em uma forma que um computador possa manipular. No entanto, isso não é tão simples quanto converter dados de texto em números. Para extrair significado da linguagem humana, os padrões devem ser extraídos das centenas ou milhares de palavras que compõem um documento de texto. Esta não é uma tarefa fácil. Existem poucas regras rígidas e rápidas que podem ser aplicadas à interpretação da linguagem humana. Por exemplo, exatamente o mesmo conjunto de palavras pode significar coisas diferentes dependendo do contexto. A linguagem humana é uma coisa complexa e muitas vezes ambígua, e uma declaração pode ser proferida com sinceridade ou sarcasmo.

Apesar disso, existem algumas diretrizes gerais que podem ser usadas na interpretação de palavras e caracteres, como o uso do caractere “s” para denotar que um item está no plural. Essas diretrizes gerais devem ser usadas em conjunto para extrair significado do texto e criar recursos que um algoritmo de aprendizado de máquina possa interpretar.

O Processamento de Linguagem Natural envolve a aplicação de vários algoritmos capazes de pegar dados não estruturados e convertê-los em dados estruturados. Se esses algoritmos forem aplicados de maneira errada, o computador muitas vezes não conseguirá derivar o significado correto do texto. Isto pode muitas vezes ser visto na tradução de texto entre línguas, onde o significado preciso da frase é muitas vezes perdido. Embora a tradução automática tenha melhorado substancialmente nos últimos anos, erros de tradução automática ainda ocorrem com frequência.

Técnicas de Processamento de Linguagem Natural (PNL)

Foto: Tamur via WikiMedia Commons, Domínio público (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Muitos dos técnicas que são usados no processamento de linguagem natural podem ser colocados em uma das duas categorias: sintaxe ou semântica. As técnicas de sintaxe são aquelas que tratam da ordenação das palavras, enquanto as técnicas semânticas são as técnicas que envolvem o significado das palavras.

Sintaxe Técnicas de PNL

Exemplos de sintaxe incluem:

Lemmatização
Segmentação morfológica
Marcação de parte do discurso
Análise
Quebra de sentença
Stemming
Segmentação de Palavras

Lematização refere-se a destilar as diferentes inflexões de uma palavra em uma única forma. A lematização pega coisas como tempos e plurais e os simplifica, por exemplo, “pés” pode se tornar “pé” e “listras” pode se tornar “listra”. Essa forma de palavra simplificada torna mais fácil para um algoritmo interpretar as palavras em um documento.

A segmentação morfológica é o processo de dividir palavras em morfemas ou as unidades básicas de uma palavra. Essas unidades são coisas como grátis morfemas (que podem ficar sozinhos como palavras) e prefixos ou sufixos.

Marcação de parte da fala é simplesmente o processo de identificar qual classe gramatical é cada palavra em um documento de entrada.

Análise refere-se a analisar todas as palavras em uma frase e correlacioná-las com seus rótulos gramaticais formais ou fazer análise gramatical para todas as palavras.

Quebra de sentença ou segmentação de limite de frase, refere-se a decidir onde uma frase começa e termina.

Stemming é o processo de reduzir palavras até a forma raiz da palavra. Por exemplo, conectado, conexão e conexões seriam todos derivados de “conectar”.

Segmentação de Palavras é o processo de dividir grandes pedaços de texto em pequenas unidades, que podem ser palavras ou unidades lematizadas/lematizadas.

Técnicas de PNL Semântica

As técnicas de PNL semântica incluem técnicas como:

Reconhecimento de entidade nomeada
Geração de linguagem natural
Desambiguação do Word-Sense

Reconhecimento de entidade nomeada envolve marcar certas partes de texto que podem ser colocadas em um dos vários grupos predefinidos diferentes. As categorias predefinidas incluem coisas como datas, cidades, lugares, empresas e indivíduos.

Geração de linguagem natural é o processo de usar bancos de dados para transformar dados estruturados em linguagem natural. Por exemplo, estatísticas sobre o clima, como temperatura e velocidade do vento, podem ser resumidas com linguagem natural.

A desambiguação do sentido da palavra é o processo de atribuir significado às palavras dentro de um texto com base no contexto em que as palavras aparecem.

Modelos de Deep Learning para PNL

Perceptrons multicamadas regulares são incapazes de lidar com a interpretação de dados sequenciais, onde a ordem das informações é importante. Para lidar com a importância da ordem nos dados sequenciais, é utilizado um tipo de rede neural que preserva informações de timesteps anteriores no treinamento.

Redes Neurais Recorrentes são tipos de redes neurais que loop sobre dados de timesteps anteriores, levando-os em consideração no cálculo dos pesos do timestep atual. Essencialmente, os RNNs possuem três parâmetros que são usados durante a passagem de treinamento direto: uma matriz baseada no estado oculto anterior, uma matriz baseada na entrada atual e uma matriz que está entre o estado oculto e a saída. Como os RNNs podem levar em consideração informações de intervalos de tempo anteriores, eles podem extrair padrões relevantes de dados de texto, levando em consideração palavras anteriores na frase ao interpretar o significado de uma palavra.

Outro tipo de arquitetura de aprendizagem profunda usada para processar dados de texto é uma rede de memória de longo prazo (LSTM). As redes LSTM são semelhantes às RNNs em estrutura, mas devido a algumas diferenças em sua arquitetura, elas tendem a ter um desempenho melhor do que as RNNs. Eles evitam um problema específico que geralmente ocorre ao usar RNNs chamado Problema de gradiente explosivo.

Essas redes neurais profundas podem ser unidirecionais ou bidirecionais. As redes bidirecionais são capazes de levar em consideração não apenas as palavras que vêm antes da palavra atual, mas também as palavras que vêm depois dela. Embora isso leve a uma maior precisão, é mais caro computacionalmente.

Casos de uso para processamento de linguagem natural (PLN)

Foto: mohammed_hassan via Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Como o Processamento de Linguagem Natural envolve a análise e manipulação de idiomas humanos, ele possui uma gama incrivelmente ampla de aplicações. Possíveis aplicações para PNL incluem chatbots, assistentes digitais, análise de sentimentos, organização de documentos, recrutamento de talentos e assistência médica.

Chatbots e assistentes digitais como Alexa da Amazon e Google Assistant são exemplos de plataformas de reconhecimento e síntese de voz que usam NLP para interpretar e responder a comandos vocais. Esses assistentes digitais ajudam as pessoas com uma ampla variedade de tarefas, deixando-as transferir algumas de suas tarefas cognitivas para outro dispositivo e liberar parte de sua inteligência para outras coisas mais importantes. Em vez de procurar o melhor caminho para o banco em uma manhã movimentada, podemos simplesmente deixar nosso assistente digital fazer isso.

Análise de sentimentos é o uso de técnicas de PNL para estudar as reações e sentimentos das pessoas a um fenômeno, conforme comunicado pelo uso da linguagem. Capturar o sentimento de uma declaração, como interpretar se uma avaliação de um produto é boa ou ruim, pode fornecer às empresas informações substanciais sobre como seu produto está sendo recebido.

A organização automática de documentos de texto é outra aplicação da PNL. Empresas como Google e Yahoo usam algoritmos NLP para classificar documentos de e-mail, colocando-os nas caixas apropriadas, como “social” ou “promoções”. Eles também usam essas técnicas para identificar spam e evitar que chegue à sua caixa de entrada.

Os grupos também desenvolveram técnicas de PNL que estão sendo usadas para identificar possíveis contratações de empregos, encontrando-as com base em habilidades relevantes. Os gerentes de contratação também estão usando técnicas de PNL para ajudá-los a classificar as listas de candidatos.

Técnicas de PNL também estão sendo usadas para melhorar a saúde. A PNL pode ser usada para melhorar a detecção de doenças. Os registros de saúde podem ser analisados e os sintomas extraídos por algoritmos de PNL, que podem ser usados para sugerir possíveis diagnósticos. Um exemplo disso é a plataforma Comprehend Medical da Amazon, que analisa registros de saúde e extrai doenças e tratamentos. As aplicações de saúde da PNL também se estendem à saúde mental. existem aplicativos como WoeBot, que orienta os usuários por meio de uma variedade de técnicas de gerenciamento de ansiedade baseadas na terapia cognitivo-comportamental.

Tópicos relacionados:processamento de linguagem natural PNL

A seguir

Ex-profissionais de inteligência usam IA para descobrir o tráfico humano

Não Perca

GPT-2, gerador de texto de inteligência artificial está sendo lançado na íntegra

Daniel Nelson

Blogueiro e programador com especialidades em Machine Learning e Aprendizagem profunda tópicos. Daniel espera ajudar outras pessoas a usar o poder da IA para o bem social.