Лидеры мнений

Влияние трансформеров: решена ли задача машинного перевода?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google недавно объявила о выпуске 110 новых языков на Google Translate в рамках своей инициативы по поддержке 1000 языков, запущенной в 2022 году. В 2022 году, в начале, добавили 24 языка. С последними 110 языками их общее количество теперь составляет 243 языка. Такое быстрое расширение стало возможным благодаря Zero-Shot Machine Translation, технологии, в которой модели машинного обучения учатся переводить на другой язык без предварительных примеров. Но в будущем мы вместе увидим, может ли это достижение стать окончательным решением проблемы машинного перевода, и пока мы можем изучать способы, которыми это может произойти. Но сначала история.

Как все было раньше?

Статистический машинный перевод (SMT)

Это был исходный метод, который использовал Google Translate. Он основывался на статистических моделях. Они анализировали большие параллельные корпуса, коллекции выровненных переводов предложений, чтобы определить наиболее вероятные переводы. Сначала система переводила текст на английский как промежуточный шаг, прежде чем преобразовывать его в целевой язык, и ей необходимо было скрестно ссылаться фразы с обширными наборами данных из транскриптов Организации Объединенных Наций и Европейского парламента. Это отличается от традиционных подходов, которые требовали компиляции исчерпывающих грамматических правил. И его статистический подход позволял ему адаптироваться и учиться на данных без опоры на статические лингвистические рамки, которые могли быстро стать совершенно ненужными.

Но есть некоторые недостатки этого подхода. Сначала Google Translate использовал перевод на основе фраз, где система разбивала предложения на фразы и переводила их индивидуально. Это было улучшением над переводом слово за словом, но все же имело ограничения, такие как неуклюжая фразировка и ошибки контекста. Он просто не полностью понимал нюансы, как мы. Кроме того, SMT сильно зависит от наличия параллельных корпусов, и любой относительно редкий язык будет трудно переводить, поскольку у него нет достаточно параллельных данных.

Нейронный машинный перевод (NMT)

В 2016 году Google перешел на Нейронный машинный перевод. Он использует модели глубокого обучения для перевода целых предложений целиком и сразу, обеспечивая более плавный и точный перевод. NMT работает аналогично наличию изощренного многоязычного помощника внутри вашего компьютера. Используя архитектуру последовательность-к-последовательности (seq2seq), NMT обрабатывает предложение на одном языке, чтобы понять его смысл. Затем – генерирует соответствующее предложение на другом языке. Этот метод использует огромные наборы данных для обучения, в отличие от статистического машинного перевода, который опирается на статистические модели, анализирующие большие параллельные корпуса, чтобы определить наиболее вероятные переводы. В отличие от SMT, который фокусировался на переводе на основе фраз и требовал много ручных усилий для разработки и поддержки лингвистических правил и словарей, сила NMT обрабатывать целые последовательности слов позволяет ему более эффективно захватывать нюансы контекста языка. Итак, он улучшил качество перевода на различных языковых парах, часто достигая уровней плавности и точности, сравнимых с человеческими переводчиками.

На самом деле, традиционные модели NMT использовали рекуррентные нейронные сети – RNN – в качестве основной архитектуры, поскольку они предназначены для обработки последовательных данных, сохраняя скрытое состояние, которое эволюционирует с каждым новым входом (слово или токен). Это скрытое состояние служит своего рода памятью, которая захватывает контекст предыдущих входов, позволяя модели учиться зависимостям во времени. Но RNN были вычислительно дорогими и трудными для эффективной параллелизации, что ограничивало их масштабируемость.

Введение трансформеров

В 2017 году Google Research опубликовал статью под названием “Внимание – это все, что вам нужно,” представив трансформеры миру и отметив поворотный сдвиг от RNN в архитектуре нейронной сети.

Трансформеры полагаются только на механизм внимания, – само-внимание, который позволяет моделям нейронного машинного перевода выбирать наиболее важные части входных последовательностей. В отличие от RNN, которые обрабатывают слова в последовательности внутри предложений, само-внимание оценивает каждый токен во всем тексте, определяя, какие из них важны для понимания его контекста. Это одновременное вычисление всех слов позволяет трансформерам эффективно захватывать как короткие, так и длинные зависимости без опоры на рекуррентные соединения или свертки.

Итак, исключая рекурренцию, трансформеры предлагают несколько ключевых преимуществ:

Параллелизация: Механизмы внимания могут вычисляться параллельно на разных сегментах последовательности, что ускоряет обучение на современном оборудовании, таком как GPU.
Эффективность обучения: Они также требуют значительно меньше времени обучения по сравнению с традиционными моделями на основе RNN или CNN, обеспечивая лучшую производительность в задачах, таких как машинный перевод.

Zero-Shot Machine Translation и PaLM 2

В 2022 году Google выпустила поддержку 24 новых языков, используя Zero-Shot Machine Translation, отметив значительный рубеж в технологии машинного перевода. Они также объявили о 1000-языковой инициативе, направленной на поддержку 1000 наиболее распространенных языков мира. Теперь они выпустили 110 новых языков. Zero-Shot машинный перевод позволяет переводить без параллельных данных между исходным и целевым языками, исключая необходимость создания обучающих данных для каждой языковой пары – процесса, ранее дорогого и трудоемкого, и для некоторых языков также невозможного.

Это достижение стало возможным благодаря архитектуре и механизмам само-внимания трансформеров. Способность модели трансформера учиться контекстным отношениям между языками, в сочетании с ее масштабируемостью для обработки нескольких языков одновременно, позволила разработать более эффективные и эффективные многоязычные системы перевода. Однако модели Zero-Shot обычно показывают более низкое качество, чем модели, обученные на параллельных данных.

Затем, развивая прогресс трансформеров, Google представил PaLM 2 в 2023 году, который открыл путь для выпуска 110 новых языков в 2024 году. PaLM 2 значительно повысил способность Translate учиться тесно связанным языкам, таким как Авадхи и Марвади (связанные с хинди) и французским креольским языкам, таким как сейшельский и маврикийский креольский. Улучшения в PaLM 2, такие как оптимальное масштабирование, улучшенные наборы данных и усовершенствованный дизайн, позволили более эффективно учиться языкам и поддерживали продолжающиеся усилия Google по улучшению и расширению поддержки языков и учету разнообразных лингвистических нюансов.

Можно ли утверждать, что проблема машинного перевода полностью решена с помощью трансформеров?

Эволюция, о которой мы говорим, заняла 18 лет с момента принятия Google SMT до недавних 110 дополнительных языков, используя Zero-Shot Machine Translation. Это представляет собой огромный скачок, который потенциально может уменьшить необходимость в обширном сборе параллельных корпусов – исторически и очень трудоемкой задаче, которую отрасль преследовала более двух десятилетий. Но утверждать, что машинный перевод полностью решен, было бы преждевременным, учитывая как технические, так и этические соображения.

Текущие модели все еще борются с контекстом и связностью и совершают тонкие ошибки, которые могут изменить смысл, который вы намеревались передать в тексте. Эти проблемы очень присутствуют в более длинных и сложных предложениях, где поддержание логического потока и понимание нюансов необходимо для результатов. Кроме того, культурные нюансы и идиоматические выражения часто теряются или теряют смысл, вызывая переводы, которые могут быть грамматически правильными, но не имеют желаемого воздействия или звучат неестественно.

Данные для предварительного обучения: PaLM 2 и подобные модели предварительно обучены на разнообразном многоязычном текстовом корпусе, превосходящем своего предшественника PaLM. Это улучшение позволяет PaLM 2 excelling в многоязычных задачах, подчеркивая продолжающуюся важность традиционных наборов данных для улучшения качества перевода.

Домен-специфические или редкие языки: В специализированных областях, таких как юридическая, медицинская или техническая, параллельные корпуса гарантируют, что модели встречаются с конкретной терминологией и языковыми нюансами. Продвинутые модели могут бороться с домен-специфическим жаргоном или эволюционирующими языковыми тенденциями, что представляет проблемы для Zero-Shot Machine Translation. Кроме того, языки с низкими ресурсами все еще переводятся плохо, поскольку у них нет данных, необходимых для обучения точных моделей

Бенчмаркинг: Параллельные корпуса остаются важными для оценки и бенчмаркинга производительности моделей перевода, особенно сложной для языков, не имеющих достаточного количества параллельных корпусных данных. Автоматические метрики, такие как BLEU, BLERT и METEOR, имеют ограничения в оценке нюансов качества перевода, помимо грамматики. Но затем мы, люди, ограничены нашими предубеждениями. Кроме того, не так много квалифицированных оценщиков, и найти идеального двуязычного оценщика для каждой пары языков, чтобы поймать тонкие ошибки, не так просто.

Интенсивность ресурсов: Ресурсоемкая природа обучения и развертывания больших языковых моделей остается барьером, ограничивающим доступность для некоторых приложений или организаций.

Сохранение культуры. Этический аспект глубок. Как описывает Исак Касвелл, исследователь Google Translate: “Вы можете думать об этом как о полиглоте, который знает много языков. Но затем, кроме того, он получает возможность читать текст на 1000 языках, которые не переведены. Вы можете представить, если вы большой полиглот, и затем вы просто начинаете читать романы на другом языке, вы можете начать понимать, что это может значить, основываясь на вашем знании языка в целом”. Однако важно учитывать долгосрочное влияние на малые языки, не имеющие параллельных корпусов, потенциально влияя на сохранение культуры, когда зависимость смещается от самих языков.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Ирина Барская, PhD, - известный ученый в области данных с более чем десятилетним опытом, охватывающим как анализ продукции, так и анализ для передовых технологий. Она возглавляла создание и анализ для Yasmina, первого полностью функционального локализованного AI-ассистента голоса для Саудовской Аравии, обрабатывая сложную локализацию данных и маркировку для современного стандартного арабского и саудовских диалектов. В настоящее время Ирина возглавляет аналитику качества в Yandex, стимулируя развитие технологий ИИ.