Artificial Intelligence

Что такое НЛП (обработка естественного языка)?

обновленный on 20 марта 2024

Обработка естественного языка (НЛП) это изучение и применение методов и инструментов, которые позволяют компьютерам обрабатывать, анализировать, интерпретировать и рассуждать о человеческом языке. НЛП является междисциплинарной областью и сочетает в себе методы, установленные в таких областях, как лингвистика и информатика. Эти методы используются вместе с искусственным интеллектом для создания чат-ботов и цифровых помощников, таких как Google Assistant и Amazon Alexa.

Давайте потратим некоторое время на изучение обоснования обработки естественного языка, некоторых методов, используемых в НЛП, и некоторых распространенных случаев использования НЛП.

Почему важна обработка естественного языка (NLP)

Чтобы компьютеры могли интерпретировать человеческий язык, они должны быть преобразованы в форму, которой может манипулировать компьютер. Однако это не так просто, как преобразование текстовых данных в числа. Чтобы извлечь смысл из человеческого языка, шаблоны должны быть извлечены из сотен или тысяч слов, составляющих текстовый документ. Это непростая задача. Существует несколько жестких правил, которые можно применить к интерпретации человеческого языка. Например, один и тот же набор слов может означать разные вещи в зависимости от контекста. Человеческий язык — вещь сложная и часто неоднозначная, и высказывание может быть произнесено с искренностью или с сарказмом.

Несмотря на это, существуют некоторые общие рекомендации, которые можно использовать при интерпретации слов и символов, например, использование символа «s» для обозначения того, что элемент стоит во множественном числе. Эти общие рекомендации необходимо использовать вместе друг с другом, чтобы извлечь смысл из текста и создать функции, которые может интерпретировать алгоритм машинного обучения.

Обработка естественного языка предполагает применение различных алгоритмов, способных брать неструктурированные данные и преобразовывать их в структурированные. Если эти алгоритмы применяются неправильно, компьютеру часто не удастся извлечь из текста правильное значение. Это часто можно увидеть при переводе текста между языками, где часто теряется точное значение предложения. Несмотря на то, что за последние несколько лет машинный перевод существенно улучшился, ошибки машинного перевода по-прежнему случаются часто.

Методы обработки естественного языка (NLP)

Фото: Тамур через WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Многие из этих снижения вреда которые используются в обработке естественного языка, могут быть помещены в одну из двух категорий: синтаксис или семантика. Синтаксические методы — это те, которые имеют дело с порядком слов, а семантические методы — это методы, которые включают в себя значение слов.

Синтаксические техники НЛП

Примеры синтаксиса включают:

лемматизации
Морфологическая сегментация
Маркировка части речи
анализ
Нарушение приговора
Морфологический
Сегментация слов

Лемматизация относится к сведению различных вариантов слова к единой форме. Лемматизация берет такие вещи, как времена и множественное число, и упрощает их, например, «ноги» могут стать «ступнями», а «полосы» могут стать «полосами». Эта упрощенная форма слова облегчает алгоритму интерпретацию слов в документе.

Морфологическая сегментация — это процесс разделения слов на морфемы или основные единицы слова. Эти единицы такие вещи, как бесплатные морфемы (которые могут стоять отдельно как слова) и префиксы или суффиксы.

Часть речи это просто процесс определения того, какой частью речи является каждое слово во входном документе.

анализ относится к анализу всех слов в предложении и сопоставлению их с их формальными грамматическими метками или к проведению грамматического анализа для всех слов.

Нарушение предложения или сегментация границы предложения, относится к решению, где предложение начинается и заканчивается.

Морфологический это процесс приведения слов к корневой форме слова. Например, «подключено», «подключение» и «подключения» будут объединены в «подключение».

Сегментация слов это процесс разделения больших фрагментов текста на более мелкие единицы, которые могут быть словами или структурированными/лемматизированными единицами.

Семантические техники НЛП

Методы семантического НЛП включают в себя такие методы, как:

Признание названного лица
Генерация естественного языка
Многозначность словесного смысла

Распознавание именованных объектов включает в себя пометку определенных частей текста, которые могут быть помещены в одну из множества различных предустановленных групп. Предопределенные категории включают такие вещи, как даты, города, места, компании и отдельные лица.

Генерация естественного языка это процесс использования баз данных для преобразования структурированных данных в естественный язык. Например, статистические данные о погоде, такие как температура и скорость ветра, могут быть обобщены с помощью естественного языка.

Устранение неоднозначности словесного смысла - это процесс присвоения значения словам в тексте на основе контекста, в котором они появляются.

Модели глубокого обучения для НЛП

Обычные многослойные персептроны не могут обрабатывать последовательные данные, где важен порядок информации. Чтобы справиться с важностью порядка в последовательных данных, используется тип нейронной сети, который сохраняет информацию из предыдущих временных шагов в обучении.

Рекуррентные нейронные сети представляют собой типы нейронных сетей, которые цикл по данным из предыдущих временных шагов, учитывая их при вычислении весов текущего временного шага. По сути, RNN имеет три параметра, которые используются во время прямого обучающего прохода: матрица, основанная на предыдущем скрытом состоянии, матрица, основанная на текущем входе, и матрица, которая находится между скрытым состоянием и выходом. Поскольку RNN могут учитывать информацию из предыдущих временных шагов, они могут извлекать соответствующие шаблоны из текстовых данных, принимая во внимание более ранние слова в предложении при интерпретации значения слова.

Другой тип архитектуры глубокого обучения, используемый для обработки текстовых данных, — это сеть с долговременной кратковременной памятью (LSTM). Сети LSTM похожи на RNN по структуре, но из-за некоторых различий в их архитектуре они, как правило, работают лучше, чем RNN. Они позволяют избежать конкретной проблемы, которая часто возникает при использовании RNN, называемой проблема взрывающегося градиента.

Эти глубокие нейронные сети могут быть как однонаправленными, так и двунаправленными. Двунаправленные сети способны принимать во внимание не только слова, идущие до текущего слова, но и слова, идущие после него. Хотя это приводит к более высокой точности, это требует больших вычислительных затрат.

Варианты использования для обработки естественного языка (NLP)

Фото: mohammed_hassan через Pixabay, лицензия Pixabay (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Поскольку обработка естественного языка включает в себя анализ и манипулирование человеческими языками, у нее невероятно широкий спектр приложений. Возможные приложения для НЛП включают чат-ботов, цифровых помощников, анализ настроений, организацию документов, набор талантов и здравоохранение.

Чат-боты и цифровые помощники, такие как Amazon Alexa и Google Assistant, являются примерами платформ распознавания и синтеза голоса, которые используют НЛП для интерпретации голосовых команд и реагирования на них. Эти цифровые помощники помогают людям с широким спектром задач, позволяя им переложить часть своих когнитивных задач на другое устройство и высвободить часть своих умственных способностей для других, более важных вещей. Вместо того, чтобы искать лучший маршрут до банка в напряженное утро, мы можем просто попросить сделать это нашего цифрового помощника.

Анализ настроений это использование техник НЛП для изучения реакций и чувств людей на явление, которое они передают с помощью языка. Учет настроения заявления, например интерпретация того, является ли обзор продукта хорошим или плохим, может предоставить компаниям существенную информацию о том, как воспринимается их продукт.

Автоматическая организация текстовых документов — еще одно применение НЛП. Такие компании, как Google и Yahoo, используют алгоритмы NLP для классификации документов электронной почты, помещая их в соответствующие корзины, такие как «социальные» или «рекламные акции». Они также используют эти методы для определять спам и предотвратить его попадание в ваш почтовый ящик.

Группы также разработали методы НЛП, которые используются для выявления потенциальных кандидатов на работу, находя их на основе соответствующих навыков. Менеджеры по найму также используют техники НЛП, помогающие им сортировать списки соискателей.

Методы НЛП также используются для улучшения здравоохранения. НЛП можно использовать для улучшения обнаружения болезней. Записи о состоянии здоровья можно анализировать, а симптомы извлекать с помощью алгоритмов НЛП, которые затем можно использовать для предположения возможных диагнозов. Одним из примеров этого является платформа Amazon Comprehend Medical, которая анализирует медицинские записи и извлекает информацию о заболеваниях и методах лечения. Медицинские применения НЛП также распространяются на психическое здоровье. Есть приложения такие как WoeBot, который рассказывает пользователям о различных методах управления тревогой, основанных на когнитивно-поведенческой терапии.

Бывшие специалисты разведки используют ИИ для раскрытия фактов торговли людьми

Не пропустите

GPT-2, текстовый генератор искусственного интеллекта, выпускается в полном объеме

Дэниэл Нельсон

Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.