Штучний інтелект

Як обробка мови покращується завдяки відкритій моделі BERT від Google

mm
BERT Search Enhancements

Бідирекціональні кодування представлень від трансформерів, також відомі як BERT; це модель навчання, яка суттєво покращила ефективність та вплив моделей NLP. Тепер, коли Google зробила моделі BERT відкритими, це дозволяє покращувати моделі NLP у всіх галузях. У статті ми розглядаємо, як BERT перетворює NLP на одну з найпотужніших та найкорисніших рішень штучного інтелекту у світі сьогодні. 

Застосування моделей BERT до пошуку

Пошуковий двигун Google світовідомий своєю здатністю надавати релевантний контент, і вони зробили цю програму обробки природної мови відкритою для всього світу.

Здатність системи читати та інтерпретувати природну мову стає дедалі важливішою, оскільки світ експоненційно виробляє нові дані. Бібліотека значень слів, фраз та загальна здатність надавати релевантний контент Google відкрита. Окрім обробки природної мови, їхня модель BERT має здатність витягувати інформацію з великих обсягів неструктурованих даних і може бути застосована для створення інтерфейсів пошуку для будь-якої бібліотеки. У цій статті ми побачимо, як цю технологію можна застосувати в енергетичному секторі. 

BERT (Бідирекціональні кодування представлень від трансформерів) – це підхід до попереднього навчання, запропонований групою Google AI Language, розроблений для подолання спільної проблеми ранніх моделей NLP: відсутності достатніх даних для навчання.

Давайте роз’яснимо, не вдавшись у надмірні деталі:

Навчання моделей

Низькорівневі (наприклад, розпізнавання іменованих сутностей, сегментація тем) та високорівневі (наприклад, аналіз настрою, розпізнавання мови) завдання NLP вимагають наборів даних, анотованих для конкретних завдань. Хоча вони важко доступні та дорогі у складанні, анотовані набори даних відіграють важливу роль у продуктивності як неглибоких, так і глибоких нейронних мережевих моделей. Якісні результати висновків могли бути досягнуті лише тоді, коли були доступні мільйони або навіть мільярди анотованих прикладів навчання. І це була проблема, яка зробила багато завдань NLP недосяжними. До тих пір, поки не була розроблена BERT.

BERT – це загальна модель представлень мови, навчена на великих корпусах неанотованого тексту. Коли модель піддається впливу великих обсягів текстового контенту, вона навчиться розуміти контекст та відносини між словами у реченні. На відміну від попередніх моделей навчання, які представляли значення лише на рівні слів (банк мав би те саме значення в „банківському рахунку“ та „грязному березі“), BERT дійсно звертає увагу на контекст. Тобто, що передує та йде після слова в реченні. Контекст виявився суттєвою відсутньою можливістю моделей NLP, з прямим впливом на продуктивність моделі. Розробка контекстно-чутливої моделі, такої як BERT, вважається багатьма початком нової ери в NLP.

Навчання BERT на великих обсягах текстового контенту – це техніка, відома як попереднє навчання. Це означає, що ваги моделі регулюються для загальних завдань розуміння тексту, і що більш тонкі моделі можуть бути побудовані на її основі. Автори довели перевагу такого підходу, коли вони застосували моделі на основі BERT до 11 завдань NLP та досягли результатів державного рівня.

Моделі попереднього навчання

Краще з усіх: моделі попереднього навчання BERT відкриті та публічно доступні. Це означає, що будь-хто може займатися завданнями NLP та будувати свої моделі на основі BERT. Що може бути кращим за це? О, підіть: це також означає, що моделі NLP тепер можуть бути навчені (тонко налаштовані) на менших наборах даних, без потреби навчання з нуля. Початок нової ери, дійсно.

Ці моделі попереднього навчання допомагають компаніям скоротити витрати та час на розгортання моделей NLP для використання всередині чи зовні. Ефективність добре навчених моделей NLP підкреслюється Майклом Алексісом, генеральним директором компанії з будівництва віртуальної команди, teambuilding.com. 

“Найбільша вигода від NLP – це масштабоване та послідовне висновок та обробка інформації.”   – Майкл Алексіс, генеральний директор teambuilding.com

Майкл зазначає, як NLP може бути застосована до програм з розвитку культури, таких як іскри або опитування. Компанія може отримати цінну інформацію про те, як справи з компанією, аналізуючи відповіді працівників. Це досягається не лише шляхом аналізу тексту, але й аналізу анотації тексту. По суті, модель також „читає між рядками“, щоб зробити висновки про емоції, відчуття та загальний настрій. BERT може допомогти в таких ситуаціях, попередньо навчаючи моделі з основою індикаторів, яких вона може використовувати для розкриття нюансів мови та надання більш точних висновків.  

Покращення запитів

Здатність моделювати контекст перетворила BERT на героя NLP та революціонізувала сам пошук Google. Нижче наведено цитату з команди продукту Google Search та їхнього досвіду тестування, коли вони налаштовували BERT для розуміння намірів за запитом.

“Ось кілька прикладів, які демонструють здатність BERT розуміти наміри за вашим пошуком. Ось пошук за „2019 бразилець мандрівник до США потребує візу“. Слово „до“ та його відносини з іншими словами у запиті особливо важливі для розуміння значення. Це про бразильця, який мандрівник до США, а не навпаки. Раніше наші алгоритми не розуміли важливості цієї зв’язку, і ми повертали результати про громадян США, які мандрівник до Бразилії. З BERT пошук може схопити цю нюанс та знати, що дуже загальне слово „до“ дійсно має велике значення тут, і ми можемо надати набагато більш релевантний результат для цього запиту.”Понимание пошуку краще, ніж будь-коли раніше, від Панду Наяка, фелло Google та віце-президента з пошуку.

Приклад пошуку BERT

Приклад пошуку BERT, до та після. Джерело блог

У нашій попередній статті про NLP і OCR, ми проілюстрували деякі випадки використання NLP у сфері нерухомості. Ми також згадали, як „інструменти NLP є ідеальними інструментами для витягання інформації“. Давайте розглянемо енергетичний сектор та побачимо, як деструктивні технології NLP, такі як BERT, дозволяють створювати нові випадки застосування. 

Моделі NLP можуть витягувати інформацію з великих обсягів неструктурованих даних

Одним із способів застосування моделей NLP є витягання критичної інформації з неструктурованих текстових даних. Електронні листи, журнали, нотатки, журнали та звіти – все це приклади джерел текстових даних, які є частиною щоденної діяльності підприємств. Деякі з цих документів можуть виявитися важливими для зусиль компанії з підвищення ефективності операцій та скорочення витрат. 

При реалізації передбачувального технічного обслуговування вітрових турбін, звіти про несправності можуть містити критичну інформацію про поведінку різних компонентів. Але оскільки різні виробники вітрових турбін мають різні норми збору даних (тобто звіти про технічне обслуговування надходять у різних форматах та навіть мовах), ручне визначення релевантних даних могло б швидко стати дорогим для власника підприємства. Інструменти NLP можуть витягувати релевантні концепції, атрибути та події з неструктурованого контенту. Текстовий аналіз потім може бути застосований для знаходження кореляцій та закономірностей у різних джерелах даних. Це дає власникам підприємств можливість реалізувати передбачувальне технічне обслуговування на основі кількісних мір, визначених у їхніх звітах про несправності.

Моделі NLP можуть забезпечувати інтерфейси природної мови для пошуку

Аналогічно, геонаукові, які працюють у нафтових та газових компаніях, зазвичай повинні переглянути багато документів, пов’язаних з попередніми операціями з буріння, журналами свердловин та сейсмічними даними. Оскільки такі документи також надходять у різних форматах та зазвичай розкидані по багатьох місцях (як фізичних, так і цифрових), вони витрачають багато часу на пошук інформації у неправильних місцях. Виправданим рішенням у такому випадку була б інтерфейс пошуку на основі NLP, який дозволив би користувачам шукати дані природною мовою. Тоді модель NLP могла б корелювати дані по сотням документів та повернути набір відповідей на запит. Працівники потім можуть підтвердити висновок на основі свого власного експертного знання, а зворотний зв’язок ще більше покращить модель. 

Однак існують також технічні міркування щодо розгортання таких моделей. Одним із аспектів було б те, що галузеві жаргоні можуть плутати традиційні моделі навчання, які не мають належного семантичного розуміння. Другим аспектом було б те, що продуктивність моделей може бути впливає на розмір тренувального набору даних. Це саме той випадок, коли попередньо навченні моделі, такі як BERT, можуть бути корисними. Контекстні представлення можуть моделювати належне значення слова та усунути будь-яку плутанину, спричинену галузевими термінами. Використовуючи попередньо навченні моделі, можна навчити мережу на менших наборах даних. Це економить час, енергію та ресурси, які інакше були б необхідні для навчання з нуля.

А що з вашим власним бізнесом? 

Чи можете ви подумати про будь-які завдання NLP, які могли б допомогти вам скоротити витрати та підвищити ефективність операцій?Команда з науки про дані Blue Orange Digital щаслива налаштувати BERT для вашої користі!

Джош Мірамант є CEO та засновником Blue Orange Digital, топ-рейтингового агентства з науки про дані та машинного навчання з офісами в Нью-Йорку та Вашингтоні. Мірамант є популярним спікером, футурологом та стратегічним бізнес- та технологічним радником для підприємств та стартапів. Він допомагає організаціям оптимізувати та автоматизувати свій бізнес, реалізовувати техніки аналізу, засновані на даних, та розуміти наслідки нових технологій, таких як штучний інтелект, великі дані та Інтернет речей.