인공 지능

Google의 오픈 소스 BERT 모델을 통해 언어 처리가 향상되는 방식

업데이트 on 2022 년 12 월 9 일

트랜스포머의 양방향 인코더 표현(BERT라고도 함) NLP 모델의 효율성과 효과를 획기적으로 개선한 학습 모델입니다. 이제 Google은 BERT 모델을 오픈 소스로 만들었으므로 모든 산업에서 NLP 모델을 개선할 수 있습니다. 이 기사에서는 BERT가 NLP를 오늘날 세계에서 가장 강력하고 유용한 AI 솔루션 중 하나로 만드는 방법을 살펴봅니다.

검색에 BERT 모델 적용

Google의 검색 엔진은 관련 콘텐츠를 제공하는 능력으로 세계적으로 유명하며 이 자연어 처리 프로그램을 전 세계에 공개 소스로 만들었습니다.

세계가 기하급수적으로 새로운 데이터를 생성함에 따라 자연어를 읽고 해석하는 시스템의 능력이 점점 더 중요해지고 있습니다. 단어 의미, 구문 및 관련 콘텐츠를 표시하는 일반적인 능력을 갖춘 Google의 라이브러리는 오픈 소스입니다. 자연어 처리 외에도 BERT 모델은 대량의 비정형 데이터에서 정보를 추출하는 기능을 갖추고 있으며 모든 라이브러리에 대한 검색 인터페이스를 만드는 데 적용할 수 있습니다. 이번 글에서는 이 기술이 에너지 분야에 어떻게 적용될 수 있는지 살펴보겠습니다.

BERT(Bidirectional Encoder Representations from Transformers)는 구글 AI 언어 그룹은 초기 NLP 모델의 일반적인 문제인 충분한 교육 데이터 부족을 극복하기 위해 개발되었습니다.

너무 자세히 설명하지 않고 자세히 설명하겠습니다.

훈련 모델

낮은 수준(예: 명명된 엔터티 인식, 주제 세분화) 및 높은 수준(예: 감정 분석, 음성 인식) NLP 작업에는 작업별 주석이 달린 데이터 세트가 필요합니다. 수집하기 어렵고 조립하는 데 비용이 많이 들지만 레이블이 지정된 데이터 세트는 얕은 신경망 모델과 심층 신경망 모델 모두의 성능에 중요한 역할을 합니다. 고품질 추론 결과는 수백만 또는 수십억 개의 주석이 달린 교육 예제를 사용할 수 있을 때만 달성할 수 있습니다. 그리고 그것은 많은 NLP 작업을 접근할 수 없게 만드는 문제였습니다. 그것은 BERT가 개발되기 전까지입니다.

BERT는 주석이 없는 대규모 말뭉치에서 훈련된 범용 언어 표현 모델입니다. 모델이 많은 양의 텍스트 콘텐츠에 노출되면 배우다 문장에서 단어 사이의 문맥과 관계를 이해합니다. 단어 수준에서만 의미를 나타내는 이전 학습 모델과 달리(은행 "bank account"와 "grassy bank"에서 같은 의미), BERT는 실제로 컨텍스트에 관심이 있습니다. 즉, 문장에서 단어 앞과 뒤에 오는 것입니다. 컨텍스트는 모델 성능에 직접적인 영향을 미치는 NLP 모델의 주요 누락 기능으로 밝혀졌습니다. BERT와 같은 컨텍스트 인식 모델을 설계하는 것은 많은 사람들에게 NLP의 새로운 시대의 시작으로 알려져 있습니다.

많은 양의 텍스트 콘텐츠에 대한 BERT 교육은 사전 훈련. 이는 일반적인 텍스트 이해 작업에 맞게 모델의 가중치가 조정되고 그 위에 더 세분화된 모델을 구축할 수 있음을 의미합니다. 저자는 11개의 NLP 작업에 BERT 기반 모델을 적용하여 이러한 기술의 우수성을 입증하고 최신 결과를 달성했습니다.

사전 훈련된 모델

가장 좋은 점은 사전 학습된 BERT 모델이 오픈 소스이며 공개적으로 사용할 수 있다는 것입니다. 이는 누구나 NLP 작업을 처리하고 BERT 위에 모델을 구축할 수 있음을 의미합니다. 아무것도 그것을 이길 수 없습니다, 그렇죠? 아, 잠깐만요. 이것은 또한 NLP 모델을 처음부터 훈련할 필요 없이 더 작은 데이터 세트에서 훈련(미세 조정)할 수 있음을 의미합니다. 그야말로 새로운 시대의 시작.

이러한 사전 훈련된 모델은 회사가 내부 또는 외부에서 사용할 NLP 모델을 배포하는 비용과 시간을 줄이는 데 도움이 됩니다. 가상 팀 문화 구축 회사인 teambuilding.com의 CEO인 Michael Alexis는 잘 훈련된 NLP 모델의 효과를 강조합니다.

"NLP의 가장 큰 이점은 확장 가능하고 일관된 정보 추론 및 처리입니다." – 마이클 알렉시스 CEO teambuilding.com

Michael은 쇄빙선이나 설문 조사와 같은 문화 육성 프로그램에 NLP를 어떻게 적용할 수 있는지 설명합니다. 회사는 직원의 반응을 분석하여 회사 문화가 어떻게 작동하는지에 대한 귀중한 통찰력을 얻을 수 있습니다. 이것은 단순히 텍스트를 분석하는 것이 아니라 텍스트의 주석을 분석함으로써 달성됩니다. 본질적으로 모델은 감정, 느낌 및 전반적인 전망에 대한 추론을 도출하기 위해 "선 사이를 읽습니다". BERT는 언어의 뉘앙스를 밝히고 보다 정확한 통찰력을 제공할 수 있는 지표를 기반으로 모델을 사전 훈련함으로써 이와 같은 상황에서 도움을 줄 수 있습니다.

쿼리 개선

컨텍스트를 모델링하는 기능은 BERT를 NLP의 영웅으로 만들었고 Google 검색 자체에 혁명을 일으켰습니다. 아래는 쿼리 이면의 의도를 이해하기 위해 BERT를 조정하는 동안 Google 검색 제품 팀과 그들의 테스트 경험에서 인용한 것입니다.

“다음은 검색 이면의 의도를 이해하는 BERT의 능력을 보여주는 몇 가지 예입니다. 다음은 "2019년 브라질 여행자는 비자가 필요합니다."를 검색한 것입니다. "to"라는 단어와 쿼리의 다른 단어와의 관계는 의미를 이해하는 데 특히 중요합니다. 그것은 미국으로 여행하는 브라질 사람에 관한 것이지 그 반대가 아닙니다. 이전에는 알고리즘이 이 연결의 중요성을 이해하지 못했고 브라질로 여행하는 미국 시민에 대한 결과를 반환했습니다. BERT를 사용하면 검색에서 이러한 뉘앙스를 파악할 수 있고 매우 일반적인 단어인 "to"가 여기에서 실제로 매우 중요하다는 것을 알 수 있으며 이 쿼리에 대해 훨씬 더 관련성 높은 결과를 제공할 수 있습니다."
- 그 어느 때보다 더 나은 검색 이해, Pandu Nayak, Google 연구원 겸 검색 부사장.

BERT 검색 예, 전후. 원천 블로그

우리의 마지막 작품에서 NLP 및 OCR, 우리는 부동산 부문에서 일부 NLP 사용을 설명했습니다. 또한 “NLP 도구가 이상적인 정보 추출 도구”라는 점에 대해서도 언급했습니다. 에너지 부문을 살펴보고 BERT와 같은 혁신적인 NLP 기술이 어떻게 새로운 애플리케이션 사용 사례를 가능하게 하는지 살펴보겠습니다.

NLP 모델은 대량의 비정형 데이터에서 정보를 추출할 수 있습니다.

NLP 모델을 사용할 수 있는 한 가지 방법은 구조화되지 않은 텍스트 데이터에서 중요한 정보를 추출하는 것입니다. 이메일, 저널, 메모, 로그 및 보고서는 모두 기업의 일상 업무에 포함되는 텍스트 데이터 소스의 예입니다. 이러한 문서 중 일부는 운영 효율성을 높이고 비용을 절감하려는 조직의 노력에 중요할 수 있습니다.

구현을 목표로 할 때 풍력 터빈 예측 유지 보수, 실패 보고서 포함하고있을 것이다 다른 구성 요소의 동작에 대한 중요한 정보. 그러나 풍력 터빈 제조업체마다 데이터 수집 기준이 다르기 때문에(예: 유지보수 보고서는 서로 다른 형식과 언어로 제공됨) 관련 데이터 항목을 수동으로 식별하는 것은 플랜트 소유자에게 금세 비용이 많이 들 수 있습니다. NLP 도구는 구조화되지 않은 콘텐츠에서 관련 개념, 특성 및 이벤트를 추출할 수 있습니다. 그런 다음 텍스트 분석을 사용하여 다양한 데이터 소스에서 상관관계와 패턴을 찾을 수 있습니다. 이를 통해 플랜트 소유자는 고장 보고서에서 식별된 정량적 측정을 기반으로 예측 유지 보수를 구현할 수 있습니다.

NLP 모델은 자연어 검색 인터페이스를 제공할 수 있습니다.

마찬가지로 석유 및 가스 회사에서 근무하는 지구과학자는 일반적으로 과거 시추 작업, 유정 기록 및 지진 데이터와 관련된 많은 문서를 검토해야 합니다. 이러한 문서는 다양한 형식으로 제공되고 일반적으로 여러 위치(물리적 및 디지털 모두)에 분산되어 있기 때문에 잘못된 위치에서 정보를 찾는 데 많은 시간을 낭비합니다. 이러한 경우 실행 가능한 솔루션은 NLP 기반 검색 인터페이스, 사용자가 자연어로 데이터를 조회할 수 있습니다. 그런 다음 NLP 모델은 수백 개의 문서에 걸쳐 데이터를 연관시키고 쿼리에 대한 일련의 답변을 반환할 수 있습니다. 그런 다음 작업자는 자신의 전문 지식을 기반으로 출력을 검증할 수 있으며 피드백은 모델을 더욱 개선합니다.

그러나 이러한 모델을 배포하기 위한 기술적 고려 사항도 있습니다. 한 가지 측면은 산업별 전문 용어가 적절한 의미론적 이해가 없는 기존 학습 모델을 혼동할 수 있다는 것입니다. 둘째, 모델의 성능은 훈련 데이터 세트의 크기에 영향을 받을 수 있습니다. 이때 BERT와 같은 사전 훈련된 모델이 도움이 될 수 있습니다. 문맥 표현은 적절한 단어 의미를 모델링하고 산업별 용어로 인한 혼동을 제거할 수 있습니다. 사전 훈련된 모델을 사용하면 더 작은 데이터 세트에서 네트워크를 훈련할 수 있습니다. 이렇게 하면 처음부터 교육에 필요했을 시간, 에너지 및 리소스가 절약됩니다.

자신의 사업은 어떻습니까?

비용을 절감하고 운영 효율성을 높이는 데 도움이 될 수 있는 NLP 작업이 있습니까?

XNUMXD덴탈의 블루 오렌지 디지털 데이터 과학 팀도 귀하의 이익을 위해 BERT를 조정하게 되어 기쁩니다!

다음 위로

자율 오프로드 전투 차량에 가까워지는 미군

놓치지 마세요.

Quantum Stat의 최신 작품은 NLP Model Forge입니다.

조쉬 미라만트

Josh Miramant는 CEO이자 창립자입니다. 블루 오렌지 디지털, 뉴욕시와 워싱턴 DC에 지사를 두고 있는 최고의 데이터 과학 및 기계 학습 에이전시입니다. Miramant는 인기 있는 연사이자 미래학자이며 엔터프라이즈 기업과 신생 기업을 위한 전략적 비즈니스 및 기술 고문입니다. 그는 조직이 비즈니스를 최적화 및 자동화하고, 데이터 기반 분석 기술을 구현하고, 인공 지능, 빅 데이터 및 사물 인터넷과 같은 신기술의 의미를 이해하도록 돕습니다.