Connect with us

인공지능

NLP(자연어 처리)란 무엇인가?

mm

자연어 처리 (NLP)는 컴퓨터가 인간의 언어를 처리, 분석, 해석, 및 추론할 수 있도록 하는 기술과 도구의 연구 및 적용입니다. NLP는 언어학 및 컴퓨터 과학 gibi 분야에서 확립된 기술을 결합한 상호학문적 분야입니다. 이러한 기술은 AI와 결합하여 Google Assistant 및 Amazon의 Alexa와 같은 채팅봇 및 디지털 어시스턴트를 생성하는 데 사용됩니다.

자연어 처리의背後에 있는 이유, NLP에서 사용되는 일부 기술, 및 NLP의 일반적인 사용 사례를 탐색해 보겠습니다.

자연어 처리 (NLP)가 중요한 이유

컴퓨터가 인간의 언어를 해석하려면 컴퓨터가 조작할 수 있는 형식으로 변환되어야 합니다. 그러나 텍스트 데이터를 숫자로 변환하는 것만큼 간단하지 않습니다. 인간의 언어에서 의미를 도출하려면 텍스트 문서를 구성하는 수백 또는 수천 개의 단어에서 패턴을 추출해야 합니다. 이것은 쉽지 않은 작업입니다. 인간 언어의 해석에 적용할 수 있는 硬하고 빠른 규칙은 거의 없습니다. 예를 들어, 동일한 단어 집합은 컨텍스트에 따라 다른 것을 의미할 수 있습니다. 인간 언어는 복잡하고 종종 모호하며, 진실성 또는 비꼬림으로 말할 수 있습니다.

尽管如此, 단어와 문자를 해석할 때 사용할 수 있는 일부 일반적인 지침이 있습니다. 예를 들어, 문자 “s”는 항목이 복수임을 나타내는 데 사용됩니다. 이러한 일반적인 지침은 함께 사용되어 텍스트에서 의미를 추출하고 기계 학습 알고리즘이 해석할 수 있는 기능을 생성해야 합니다.

자연어 처리에는 구조화되지 않은 데이터를 구조화된 데이터로 변환하는能力을 가진 다양한 알고리즘의 적용이 포함됩니다. 이러한 알고리즘이 잘못 적용되면 컴퓨터는 일반적으로 텍스트에서 올바른 의미를 도출하지 못합니다. 이것은 종종 언어 간 텍스트 번역에서 볼 수 있습니다. 여기서 문장의 정확한 의미가 종종 손실됩니다. 기계 번역은 지난 몇 년 동안 크게 개선되었지만 기계 번역 오류는 여전히 자주 발생합니다.

자연어 처리 (NLP) 기술

Photo: Tamur via WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

자연어 처리에서 사용되는 많은 기술은 두 가지 범주 중 하나에 속할 수 있습니다. 구문 또는 의미론입니다. 구문 기술은 단어의 순서를 다루는 기술이며, 의미론 기술은 단어의 의미를 다루는 기술입니다.

구문 NLP 기술

구문의 예로는 다음이 있습니다:

  • lemmatization
  • 형태론적 구분
  • 품사 태깅
  • 파싱
  • 문장 분리
  • stemming
  • 단어 분리

lemmatization은 단어의 다양한 변형을 단일 형태로 추출하는 것을 의미합니다. lemmatization은 시제 및 복수 형태를 단순화하여, 예를 들어, “feet”은 “foot”으로, “stripes”는 “stripe”으로 바뀝니다. 이러한 단순화된 단어 형태는 알고리즘이 문서의 단어를 해석하기 쉽게 만듭니다.

형태론적 구분은 단어를 형태소 또는 단어의 기본 단위로 나누는 과정입니다. 이러한 단위는 독립적으로 단어로 사용할 수 있는 형태소(자유 형태소)와 접두사 또는 접미사입니다.

품사 태깅은 단순히 입력 문서의 각 단어가 어떤 품사를 나타내는지 식별하는 과정입니다.

파싱은 문장의 모든 단어를 분석하고 형식적인 문법 레이블 또는 모든 단어의 문법 분석을 수행하는 것을 의미합니다.

문장 분리 또는 문장 경계 구분은 문장이 시작되고 끝나는 위치를 결정하는 것을 의미합니다.

stemming은 단어를 단어의 根形으로 줄이는 과정입니다. 예를 들어, “connected”, “connection”, 및 “connections”는 모두 “connect”로 줄어듭니다.

단어 분리 là 대규모 텍스트를 작은 단위로 나누는 과정으로, 단어 또는 줄어든/lemmatized 단위일 수 있습니다.

의미론 NLP 기술

의미론 NLP 기술에는 다음이 포함됩니다:

  • 명명된 实体 인식
  • 자연어 생성
  • 단어 의미 구분

명명된 实体 인식은 특정 텍스트 부분을 미리 정의된 여러 그룹 중 하나로 태깅하는 것을 포함합니다. 미리 정의된 범주에는 날짜, 도시, 장소, 회사 및 개인과 같은 것이 포함됩니다.

자연어 생성은 데이터베이스를 사용하여 구조화된 데이터를 자연어로 변환하는 과정입니다. 예를 들어, 기상 통계(온도 및 풍속과 같은)는 자연어로 요약할 수 있습니다.

단어 의미 구분은 단어가 나타나는 컨텍스트에 따라 단어에 의미를 할당하는 과정입니다.

자연어 처리를 위한 딥 러닝 모델

정규 다층 퍼셉트론은 순차적 데이터의 해석을 처리할 수 없습니다. 여기서 정보의 순서는 중요합니다. 순차적 데이터의 순서의 중요성을 다루기 위해 이전 시간 단계의 정보를 보존하는 신경망 유형을 사용합니다.

순환 신경망은 이전 시간 단계의 데이터를 루핑하여 현재 시간 단계의 가중치를 계산할 때 이를 고려하는 신경망 유형입니다. 본질적으로, RNN에는 전진 훈련 패스 중에 사용되는 세 가지 매개변수가 있습니다. 이전 숨겨진 상태를 기반으로 하는 매트릭스, 현재 입력을 기반으로 하는 매트릭스, 및 숨겨진 상태와 출력 사이의 매트릭스입니다. RNN은 이전 시간 단계의 정보를 고려할 수 있으므로 이전에 있는 단어를 고려하여 단어의 의미를 해석하여 텍스트 데이터에서 관련 패턴을 추출할 수 있습니다.

텍스트 데이터를 처리하는 또 다른 유형의 딥 러닝 아키텍처는 장기 단기 메모리 (LSTM) 네트워크입니다. LSTM 네트워크는 구조적으로 RNN과 유사하지만 아키텍처의 차이로 인해 RNN보다 성능이 좋습니다.它们은 RNN을 사용할 때 종종 발생하는 특정 문제인 폭발하는 그래디언트 문제를 피합니다.

이러한 딥 신경망은 단방향 또는 양방향일 수 있습니다. 양방향 네트워크는 현재 단어 이전의 단어뿐만 아니라 이후의 단어도 고려할 수 있습니다. 이것은 더 높은 정확도로 이어지지만 더 계산적으로 비용이 많이 듭니다.

자연어 처리 (NLP)의 사용 사례

Photo: mohammed_hassan via Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

자연어 처리는 인간 언어의 분석 및 조작을 포함하므로 놀라울 정도로 넓은 범위의 응용 프로그램을 가지고 있습니다. NLP의 가능한 응용 프로그램에는 채팅봇, 디지털 어시스턴트, 감성 분석, 문서 조직, 인재 채용, 및 헬스케어가 포함됩니다.

Amazon의 Alexa 및 Google Assistant와 같은 채팅봇 및 디지털 어시스턴트는 음성 인식 및 합성 플랫폼의 예입니다. 이러한 디지털 어시스턴트는 음성 명령을 해석 및 응답하는 데 NLP를 사용합니다. 이러한 디지털 어시스턴트는 다양한 작업을 수행하도록 사람들을 도와줍니다. 사람들은 일부 인지 작업을 다른 장치로 오프로드하여 일부 뇌 파워를 더 중요한 것에 사용할 수 있습니다. 예를 들어, 아침에 은행으로 가는 최상의 경로를 찾는 대신 디지털 어시스턴트가 이를 수행할 수 있습니다.

감성 분석은 언어의 사용을 통해 사람들의 반응 및 감정을 연구하는 데 NLP 기술을 사용하는 것입니다. 문장의 감성을 捕获하는 것, 예를 들어, 제품 리뷰가 좋거나 나쁨인지 해석하는 것은 회사에 제품이 어떻게 받아들여지고 있는지에 대한 상당한 정보를 제공할 수 있습니다.

자동으로 텍스트 문서를 조직하는 또 다른 NLP 응용 프로그램입니다. Google 및 Yahoo와 같은 회사들은 이메일 문서를 분류하는 데 NLP 알고리즘을 사용하여 적절한 bin에 넣습니다(예: “사회” 또는 “프로모션”). 또한 스팸을 식별하고 받은 편지함에 도달하지 못하도록 방지하는 데 이러한 기술을 사용합니다.

그룹은 또한 관련 기술을 기반으로 잠재적인 직업을 찾는 데 NLP 기술을 개발했습니다. 채용 관리자는 또한 지원자 목록을 정리하는 데 NLP 기술을 사용합니다.

NLP 기술은 또한 헬스케어를 개선하는 데 사용됩니다. NLP는 질병의 감지를 개선하는 데 사용될 수 있습니다. 건강 기록을 분석하고 NLP 알고리즘으로 증상을 추출하여 가능한 진단을 제안할 수 있습니다. 예를 들어, Amazon의 Comprehend Medical 플랫폼은 건강 기록을 분석하고 질병 및 치료를 추출합니다. NLP의 헬스케어 응용 프로그램은 정신 건강에도 확장됩니다. 예를 들어, 사용자에게 다양한 불안 관리 기술을 기반으로 하는 인지 행동 치료를 통해 사용자를 안내하는 WoeBot과 같은 앱이 있습니다.

블로거이자 프로그래머로 Machine Learning Deep Learning 주제에 전문가입니다. 다니엘은 다른 사람들이 AI의 힘을 사회적善으로 사용하는 것을 돕기를 희망합니다.