Connect with us

Facebook Создает Модель МашиNNого Перевода, Которая Может Прямо Переводить Между 100 Различными Языками

Искусственный интеллект

Facebook Создает Модель МашиNNого Перевода, Которая Может Прямо Переводить Между 100 Различными Языками

mm

Facebook недавно разработал новую модель машинного перевода, которая может переводить текст между любой заданной парой языков из набора из 100 языков. Хотя существуют другие системы машинного перевода, большинство других систем перевода ИИ работают, переводя текст сначала на английский, а затем преобразуя текст оттуда. Как сообщает Engadget, переводчик ИИ Facebook работает без использования английского языка в качестве посредника и, по сообщениям, может достигать примерно 90% точности.

Тренировочные данные ИИ-модели Facebook состояли из примерно 7,5 миллиардов пар предложений, распределенных по 100 различным языкам. Данные были собраны из интернета с помощью серии веб-краулеров, и языки, присутствующие в собранных данных, были идентифицированы с помощью языковой модели под названием FastText. После сбора данных их запустили через инструмент под названием LASER 2.0, чтобы извлечь смысл различных образцов предложений и сопоставить предложения на разных языках на основе их смысла. LASER 2.0 был разработан Facebook и использует алгоритмы самообучения для создания вложений. Вложения предложений содержат информацию о отношениях между различными предложениями на основе функций, таких как частота использования и близость предложений друг к другу. LASER 2.0 может создавать пары предложений, имеющих очень похожие значения.

Тренировочные данные не были просто сгруппированы на основе значений предложений. Сами языки были сгруппированы вместе. Целью было создание системы, не требующей использования английского языка в качестве посредника между двумя языками, с учетом того, что многие регионы по всему миру говорят на двух языках, которые не являются английским. Инженеры Facebook провели обучение, сосредоточившись на сопоставлении языков, которые обычно переводятся друг на друга. Были созданы четырнадцать различных языковых групп, основанных на таких переменных, как культура, лингвистические сходства и география. Например, одна из лингвистических групп, созданных исследователями, содержала наиболее распространенные языки по всей Индии, включая языки урду, тамильский, хинди и бенгали. Это было сделано для того, чтобы обычно сопоставляемые языки получали качественные переводы.

Метод обучения, ориентированный на языковые группы, привел к некоторым интересным результатам. Было обнаружено, что полученная модель перевода имела большую точность, чем существующие модели для определенных пар языков. Например, при переводе с английского на белорусский ИИ смог применить определенные закономерности, которые он выучил при переводе с русского, поскольку белорусский имеет лингвистические сходства с русским. Аналогично, усилия по переводу между испанским и португальским улучшились, поскольку испанский является вторым по распространению языком, и было большое количество тренировочных данных для этой задачи.

Примерно шестьдесят языков еще не покрыты системой перевода, и точность модели на языках без большого количества тренировочных данных необходимо улучшить, прежде чем она будет готова к использованию. Многие языки в Юго-Восточной Азии и Африке не имеют необходимого объема данных для обучения надежной модели. Команда исследователей должна найти способ компенсировать этот недостаток данных. Команда исследователей также должна определить, как контролировать любые расистские, сексистские или другие непристойные закономерности, которые модель могла выучить. Хотя команда исследователей использовала фильтр непристойностей, фильтр работает в основном на английских данных.

Система машинного перевода еще не используется на социальной платформе Facebook. Текущая модель предназначена только для исследовательских целей. Однако Facebook готовится разработать аналогичные модели и использовать их для обработки примерно 20 миллиардов запросов на перевод, которые сайт получает каждый день.

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.