Свяжитесь с нами:

Facebook создает модель машинного перевода, которая может напрямую переводить между 100 различными языками

Искусственный интеллект

Facebook создает модель машинного перевода, которая может напрямую переводить между 100 различными языками

mm

Facebook недавно разработал новая модель машинного перевода который может переводить текст между любой заданной парой языков из набора 100 языков. В то время как существуют другие системы машинного перевода, большинство других систем перевода ИИ сначала переводят текст на английский язык, а затем преобразуют текст оттуда.  Как сообщает Engadget, ИИ-переводчик Facebook работает без использования английского языка в качестве посредника и, как сообщается, может достичь точности примерно 90%.

Обучающие данные Facebook для модели искусственного интеллекта состояли из примерно 7.5 миллиардов пар предложений, распределенных по 100 различным языкам. Данные были собраны из Интернета с помощью ряда поисковых роботов, а языки, представленные в собранных данных, были определены с помощью языковой модели, называемой FastText. Как только данные были собраны, это было запущено через инструмент под названием LASER 2.0 извлечь значение различных образцов предложений и сопоставить предложения на разных языках на основе их значения. LASER 2.0 был разработан Facebook и использует алгоритмы обучения без учителя для создания вложений. Вложения предложений содержат информацию об отношениях между различными предложениями на основе таких характеристик, как частота использования и то, насколько близки предложения друг к другу. LASER 2.0 сможет создавать группы предложений, имеющих очень похожее значение.

Данные обучения были не просто объединены в пары на основе значений предложений. Сами языки были сгруппированы вместе. Цель состояла в том, чтобы разработать систему, которая не требовала бы использования английского языка в качестве среды между двумя языками. Анджела Фан из Facebook, которая руководила проектом, отметила, что во многих регионах мира говорят на двух языках, кроме английского. Инженеры Facebook проводили обучение, сосредоточив внимание на сочетании языков, которые обычно переводятся друг в друга и друг с друга. Было создано четырнадцать различных языковых групп на основе таких переменных, как культура, языковое сходство и география. Например, одна из лингвистических групп, созданных исследователями, содержала наиболее распространенные языки всей Индии, в том числе языки урду, тамильский, хинди и бенгали. Это было сделано для того, чтобы обычно парные языки получали качественные переводы.

Метод обучения, ориентированный на языковую группу, привел к некоторым интересным результатам. Было обнаружено, что полученная модель перевода имеет большую точность, чем существующие в настоящее время модели для определенных языковых пар. Например, при переводе с английского на белорусский ИИ смог применить определенные шаблоны, которые он изучил при переводе с русского, потому что у белорусского языка есть языковое сходство с русским. Точно так же улучшились усилия по переводу между испанским и португальским языками, поскольку испанский язык является вторым по распространенности языком, и для этой задачи был получен значительный объем обучающих данных.

Существует примерно шестьдесят языков, которые система перевода еще не охватывает, и точность модели для языков без большого количества обучающих данных необходимо улучшить, прежде чем она будет готова к использованию. Многим языкам в Юго-Восточной Азии и Африке не хватает данных, необходимых для обучения надежной модели. Исследовательской группе необходимо будет определить способ компенсации этого недостатка данных. Исследовательской группе также необходимо определить, как контролировать любые расистские, сексистские или иные оскорбительные паттерны, которые модель могла усвоить. Хотя исследовательская группа использовала фильтр ненормативной лексики, фильтр работает в основном с данными на английском языке.

Система машинного перевода еще не использовалась на платформе социальных сетей Facebook. Текущая модель предназначена только для исследовательских целей. Тем не менее, Facebook готовится разработать аналогичные модели и заставить их обрабатывать около 20 миллиардов запросов на перевод, которые сайт получает каждый день.