Искусственный интеллект
Baidu Обгоняет Google И Microsoft, Создаёт Новую Технику Для Понимания Языка

Baidu, одна из крупнейших технологических компаний в Китае, недавно разработала новый метод обучения ИИ для понимания языка. Как сообщает TechnologyReview, компания最近 обогнала Microsoft и Google в конкурсе General Language and Understanding Evaluation (GLUE), достигнув результатов на уровне искусства.
GLUE состоит из девяти различных тестов, каждый из которых измеряет разную задачу, важную для понимания языка, такую как определение имен сущностей в предложении и определение контекста, в котором используется местоимение “ит”, когда есть много потенциальных кандидатов. Средний человек обычно набирает около 87 баллов в GLUE из 100 возможных. Новая модель Baidu, ERNIE, преодолела порог в 90 баллов.
Исследователи всегда пытаются улучшить результаты своих моделей в GLUE, поэтому текущий стандарт, установленный Baidu, вероятно, скоро будет превзойдён. Однако то, что делает достижения Baidu заметными, заключается в том, что их подход к обучению似乎 может обобщаться на другие языки. Хотя модель была разработана для интерпретации китайского языка, те же принципы делают ее лучше в интерпретации английского языка. ERNIE означает “Улучшенное представление через интеграцию знаний”, и оно следует разработке языковой модели BERT (“Бидирекциональные представления из трансформеров”).
BERT установил новый стандарт для понимания языка благодаря тому, что это была бидирекциональная модель. Предыдущие языковые модели могли интерпретировать данные только в одном “направлении”, рассматривая слово, которое находилось до или после целевого слова, как контекст. BERT смог реализовать бидирекциональный подход, который мог использовать как предыдущие, так и последующие слова в предложении, чтобы помочь определить значение целевого слова. BERT использует технику маскирования, чтобы сделать бидирекциональный анализ возможным, выбирая слово в предложении и скрывая его, что разделяет возможный контекст для этого слова на предшествующий и последующий контекстные подсказки.
В английском языке слово является доминирующей семантической единицей, люди смотрят на целые слова, а не на отдельные символы, чтобы определить значение. Возможно удалить слово из контекста и все равно сохранить его значение, и значение отдельных символов почти всегда одинаково. Напротив, китайский язык сильно зависит от того, как символы сочетаются с другими символами при определении значения. Символы могут иметь разные значения в зависимости от символов вокруг них.
Исследовательская команда Baidu по сути взяла модель, использованную BERT, и расширила ее, скрывая строки символов вместо целых слов. Система ИИ также была обучена различать случайные строки и осмысленные строки, чтобы можно было маскировать правильные строки символов. Это делает ERNIE профессиональным в извлечении информации из текстового документа и выполнении машинного перевода. Исследовательская команда также обнаружила, что их метод обучения также привел к модели, которая может различать английские фразы лучше, чем многие другие модели. Это связано с тем, что английский язык иногда, хотя и редко, использует комбинации слов, которые выражают разные значения, когда они объединены, а не когда они находятся отдельно. Собственные имена и идиомы или разговорные выражения, такие как “chip off the old block”, являются примерами таких лингвистических явлений.
ERNIE использует несколько других методов обучения, чтобы оптимизировать производительность, включая анализ порядка предложений и расстояния при интерпретации абзацев. Также используется непрерывный метод обучения, который позволяет ERNIE обучаться на новых данных и учиться новым закономерностям, не забывая ранее приобретенные знания.
Baidu в настоящее время использует ERNIE для улучшения качества результатов поиска. Последняя архитектура ERNIE будет подробно описана в предстоящей статье, которая будет представлена на конференции Association for the Advancement of Artificial Intelligence в 2020 году.




