заглушки Що таке NLP (обробка природної мови)? - Об'єднуйтесь.AI
Зв'язатися з нами

Штучний Інтелект

Що таке NLP (обробка природної мови)?

mm
оновлений on

Обробка природних мов (НЛП) це вивчення та застосування методів та інструментів, які дозволяють комп’ютерам обробляти, аналізувати, інтерпретувати та міркувати про людську мову. НЛП є міждисциплінарною сферою, яка поєднує в собі методи, розроблені в таких галузях, як лінгвістика та інформатика. Ці методи використовуються спільно з ШІ для створення чат-ботів і цифрових помічників, таких як Google Assistant і Alexa від Amazon.

Давайте витратимо трохи часу, щоб дослідити обґрунтування обробки природної мови, деякі техніки, що використовуються в НЛП, і деякі типові випадки використання НЛП.

Чому обробка природної мови (NLP) має значення

Для того, щоб комп’ютери могли інтерпретувати людську мову, вони повинні бути перетворені у форму, якою комп’ютер може маніпулювати. Однак це не так просто, як перетворити текстові дані в числа. Для того, щоб отримати сенс із людської мови, потрібно витягнути шаблони із сотень чи тисяч слів, які складають текстовий документ. Це непросте завдання. Є кілька жорстких правил, які можна застосувати до тлумачення людської мови. Наприклад, той самий набір слів може означати різні речі залежно від контексту. Людська мова є складною і часто неоднозначною річчю, і твердження можна вимовити як щиро, так і з сарказмом.

Незважаючи на це, є деякі загальні вказівки, які можна використовувати під час інтерпретації слів і символів, наприклад, символ «s», який використовується для позначення того, що елемент є множиною. Ці загальні вказівки потрібно використовувати узгоджено, щоб витягти значення з тексту, щоб створити функції, які алгоритм машинного навчання зможе інтерпретувати.

Обробка природної мови передбачає застосування різноманітних алгоритмів, здатних отримувати неструктуровані дані та перетворювати їх у структуровані дані. Якщо ці алгоритми застосовані неправильно, комп’ютер часто не зможе отримати правильне значення з тексту. Це часто можна побачити під час перекладу тексту між мовами, де часто втрачається точне значення речення. Хоча машинний переклад суттєво покращився за останні кілька років, помилки машинного перекладу все ще трапляються часто.

Методи обробки природної мови (NLP).

Фото: Tamur через WikiMedia Commons, громадське надбання (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Багато з цих методи які використовуються в обробці природної мови, можна помістити в одну з двох категорій: синтаксис або семантика. Синтаксичні методи – це ті, які стосуються впорядкування слів, а семантичні – це методи, які включають значення слів.

Техніки синтаксису НЛП

Приклади синтаксису:

  • Лематизація
  • Морфологічна сегментація
  • Позначення частин мови
  • Parsing
  • Порушення речення
  • Стерління
  • Сегментація слів

Лематизація означає зведення різних флексій слова до однієї форми. Лематизація бере такі речі, як часи та множини, і спрощує їх, наприклад, «стопи» можуть перетворитися на «ноги», а «смуги» можуть перетворитися на «смуги». Ця спрощена форма слова полегшує алгоритму інтерпретацію слів у документі.

Морфологічна сегментація — це процес поділу слів на морфеми або базові одиниці слова. Ці одиниці є безкоштовними морфеми (які можуть стояти окремо як слова) і префікси чи суфікси.

Позначення частини мови це просто процес визначення частини мови кожного слова у вхідному документі.

Parsing означає аналіз усіх слів у реченні та співвіднесення їх із формальними граматичними мітками або виконання граматичного аналізу всіх слів.

Порушення речень, або сегментація межі речення, стосується визначення того, де починається і де закінчується речення.

Стерління це процес скорочення слів до кореневої форми слова. Наприклад, зв’язок, зв’язок і зв’язки означатимуть «з’єднання».

Сегментація слів це процес поділу великих фрагментів тексту на невеликі одиниці, які можуть бути словами або основними/лематизованими одиницями.

Техніки семантичного НЛП

Техніки семантичного НЛП включають такі техніки, як:

  • Визнання іменованої сутності
  • Природне покоління мови
  • Словосмислова неоднозначність

Розпізнавання іменованих об’єктів передбачає позначення тегами певних частин тексту, які можна помістити в одну з кількох різних попередньо встановлених груп. Попередньо визначені категорії включають такі речі, як дати, міста, місця, компанії та особи.

Природне покоління мови це процес використання баз даних для перетворення структурованих даних на природну мову. Наприклад, статистичні дані про погоду, такі як температура та швидкість вітру, можна узагальнити природною мовою.

Усунення неоднозначності за змістом слова — це процес визначення значення слів у тексті на основі контексту, у якому вони з’являються.

Моделі глибокого навчання для НЛП

Звичайні багатошарові перцептрони не в змозі впоратися з інтерпретацією послідовних даних, де важливий порядок інформації. Щоб мати на увазі важливість порядку в послідовних даних, використовується тип нейронної мережі, яка зберігає інформацію з попередніх часових кроків у навчанні.

Повторювані нейронні мережі це типи нейронних мереж, які циклювати дані з попередніх часових кроків, враховуючи їх при розрахунку ваг поточного часового кроку. По суті, RNN мають три параметри, які використовуються під час прямого проходу навчання: матриця, заснована на попередньому прихованому стані, матриця, заснована на поточному вході, і матриця, яка знаходиться між прихованим станом і виходом. Оскільки RNN можуть враховувати інформацію з попередніх часових кроків, вони можуть витягувати відповідні шаблони з текстових даних, беручи до уваги попередні слова в реченні під час інтерпретації значення слова.

Ще один тип архітектури глибокого навчання, який використовується для обробки текстових даних мережа довгострокової короткочасної пам'яті (LSTM).. Мережі LSTM подібні до RNN за структурою, але через деякі відмінності в їхній архітектурі вони, як правило, працюють краще, ніж RNN. Вони уникають специфічної проблеми, яка часто виникає під час використання RNN, яка називається проблема вибухового градієнта.

Ці глибокі нейронні мережі можуть бути як однонаправленими, так і двонаправленими. Двонаправлені мережі здатні враховувати не лише слова, які передують поточному слову, а й слова, що йдуть після нього. Хоча це забезпечує більшу точність, це дорожче з точки зору обчислень.

Випадки використання для обробки природної мови (NLP)

Фото: mohammed_hassan через Pixabay, ліцензія Pixabay (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Оскільки обробка природної мови передбачає аналіз і маніпулювання людськими мовами, вона має неймовірно широкий спектр застосувань. Серед можливих застосувань НЛП – чат-боти, цифрові помічники, аналіз настроїв, організація документів, найм талантів і охорона здоров’я.

Чат-боти та цифрові помічники, такі як Alexa від Amazon і Google Assistant, є прикладами платформ розпізнавання голосу та синтезу, які використовують NLP для інтерпретації та відповіді на голосові команди. Ці цифрові помічники допомагають людям виконувати різноманітні завдання, дозволяючи їм перекласти частину своїх когнітивних завдань на інший пристрій і звільнити частину свого мозку для інших, більш важливих справ. Замість того, щоб шукати найкращий маршрут до банку зайнятим ранком, ми можемо просто зробити це нашим цифровим помічником.

Аналіз почуттів це використання методів НЛП для вивчення реакції та почуттів людей на явище, як вони передають за допомогою їхньої мови. Врахування настрою висловлювання, як і тлумачення того, хороший чи поганий відгук про продукт, може надати компаніям суттєву інформацію про те, як сприйняли їхній продукт.

Автоматична організація текстових документів є ще одним застосуванням НЛП. Такі компанії, як Google і Yahoo, використовують алгоритми NLP для класифікації документів електронної пошти, поміщаючи їх у відповідні кошики, наприклад «соціальний» або «рекламний». Вони також використовують ці техніки, щоб ідентифікувати спам і запобігти потраплянню його до папки "Вхідні".

Групи також розробили методи НЛП, які використовуються для виявлення потенційних найманців на роботу, знаходячи їх на основі відповідних навичок. Менеджери з найму також використовують методи НЛП, щоб допомогти їм сортувати списки претендентів.

Техніки НЛП також використовуються для покращення охорони здоров’я. НЛП можна використовувати для покращення виявлення захворювань. Записи про здоров’я можна проаналізувати та виділити симптоми за допомогою алгоритмів НЛП, які потім можна використати для пропонування можливих діагнозів. Одним із прикладів цього є платформа Amazon Comprehend Medical, яка аналізує медичні записи та витягує хвороби та методи лікування. Застосування НЛП у сфері охорони здоров’я також поширюється на психічне здоров’я. Є програми наприклад WoeBot, який розповідає користувачам про різноманітні методи керування тривогою, засновані на когнітивно-поведінковій терапії.

Останні повідомлення