ソートリーダー

Transformer Impact: Has Machine Translation Been Solved?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Googleは最近、2022年に開始された1000言語イニシアチブの一環として、Google Translateに110の新しい言語を追加することを発表しました。2022年、開始時に24言語を追加しました。最新の110言語を追加すると、合計243言語になります。この急速な拡張は、Zero-Shot Machine Translationという技術により可能になりました。これは、機械学習モデルが事前に例を見ないで別の言語に翻訳することを学習する技術です。しかし、将来、この進歩が機械翻訳の課題に対する最終的な解決策となるかどうかを見てみましょう。一方で、それがどのように機能するかを探究しましょう。但し、その前にその物語から始めましょう。

どうだったのか？

統計的機械翻訳（SMT）

これは、Google Translateが最初に使用していた方法です。統計モデルに依存していました。並列コーパス、つまり整列された文の翻訳のコレクションを分析して、最も可能性の高い翻訳を決定しました。まず、システムはテキストを英語に翻訳し、中間ステップとして英語をターゲット言語に変換し、国連と欧州議会の議事録からの広範なデータセットとフレーズを相互参照する必要がありました。これは、すぐに完全に不要になる可能性のある静的な言語フレームワークに依存しない、伝統的なアプローチとは異なります。その統計的アプローチにより、静的な言語フレームワークに依存せずにデータから学習し、適応することができました。
しかし、このアプローチにもいくつかの欠点があります。まず、Google Translateはフレーズベースの翻訳を使用していました。システムは文をフレーズに分割し、個別に翻訳していました。これは、単語ごとの翻訳よりも改善されましたが、不自然なフレーズやコンテキストのエラーなどの限界がありました。完全にニュアンスを理解していませんでした。また、SMTは並列コーパスに大きく依存しており、並列データが不足している比較的珍しい言語の翻訳は困難でした。

ニューラル機械翻訳（NMT）

2016年、Googleはニューラル機械翻訳に切り替えました。これは、深層学習モデルを使用して、1つの文を全体として一度に翻訳し、より流暢で正確な翻訳を提供します。NMTは、コンピュータ内に高度な多言語アシスタントを持っているのと同様に動作します。シーケンスツーシーケンス（seq2seq）アーキテクチャを使用して、NMTは1つの言語の文を処理してその意味を理解し、次に別の言語の対応する文を生成します。この方法は、統計的機械翻訳とは異なり、並列コーパスを分析して最も可能性の高い翻訳を決定するのではなく、巨大なデータセットを使用して学習します。SMTとは異なり、フレーズベースの翻訳に焦点を当て、言語と辞書のルールを開発および維持するために多くの手作業が必要でしたが、NMTはシーケンス全体を処理する能力により、言語のニュアンスなコンテキストをより効果的に捉えることができます。したがって、さまざまな言語ペア間で翻訳の品質を向上させ、人間の翻訳者に匹敵するレベルの流暢さと正確さに達しました。
実際、伝統的なNMTモデルは、シーケンスデータを処理するように設計されているため、再帰型ニューラルネットワーク（RNNs）をコアアーキテクチャとして使用していました。各入力（単語またはトークン）が処理されるにつれて、隠れた状態が進化するように設計されており、これは前の入力のコンテキストを捉える「メモリ」のようなものであり、モデルが時間の経過に伴う依存関係を学習することを可能にします。しかし、RNNは計算コストが高く、効果的に並列化するのが難しかったため、スケーラビリティが制限されていました。

Transformerの導入

2017年、Google Researchは「Attention is All You Need」というタイトルの論文を発表し、Transformerを導入し、ニューラルネットワークアーキテクチャにおけるRNNからの重要な転換点を示しました。
Transformerは、自己注意メカニズムのみに依存しており、ニューラル機械翻訳モデルが入力シーケンスの最も重要な部分に選択的に焦点を当てることを可能にします。RNNとは異なり、シーケンス内の単語を処理するのではなく、自己注意はテキスト全体で各トークンを評価し、コンテキストを理解するためにどれが重要かを決定します。この同時計算により、Transformerは、再帰接続や畳み込みフィルタに依存せずに、短距離と長距離の依存関係の両方を効果的に捉えることができます。
したがって、再帰を排除することで、Transformerは以下のような重要な利点を提供します：

並列性: 注意メカニズムは、シーケンスのさまざまなセグメントで並列に計算できます。これにより、モダンなハードウェア（GPUなど）でのトレーニングが高速化されます。
トレーニング効率: 伝統的なRNNベースまたはCNNベースのモデルと比較して、トレーニング時間が大幅に短縮され、機械翻訳などのタスクで性能が向上します。

Zero-Shot Machine TranslationとPaLM 2

2022年、GoogleはZero-Shot Machine Translationを使用して24の新しい言語をサポートし、機械翻訳技術における重要な里程標を達成しました。また、世界で最も話されている1000の言語をサポートすることを目的とした1000言語イニシアチブを発表しました。現在、110の言語を追加しました。Zero-Shot Machine Translationは、ソース言語とターゲット言語の間に並列データがなくても翻訳を可能にします。以前はコストがかかり、時間がかかるプロセスであり、一部の言語ペアでは不可能でした。
この進歩は、Transformerのアーキテクチャと自己注意メカニズムのため可能になりました。Transformerモデルの言語間のコンテキスト関係を学習する能力と、同時に複数の言語を処理するスケーラビリティにより、より効率的で効果的な多言語翻訳システムの開発が可能になりました。しかし、ゼロショットモデルは一般的に、並列データでトレーニングされたモデルよりも品質が低いです。
その後、Transformerの進歩を基に、Googleは2023年にPaLM 2を導入し、2024年に110の新しい言語をリリースする道を開きました。PaLM 2は、ヒンディー語に関連するアワディー語やマールワーリー語、セーシェル語やモーリシャス・クレオール語などのフランス語クレオール語などの密接に関連する言語を学習するTranslateの能力を大幅に強化しました。PaLM 2の改善点、たとえば計算最適化、データセットの強化、設計の洗練により、言語の学習がより効率的になり、Googleの言語サポートを拡大し、多様な言語のニュアンスをよりよく捉えることが可能になりました。

Transformerで機械翻訳の課題は完全に解決されたのか？

私たちが話している進化は、GoogleのSMTの採用から最近のZero-Shot Machine Translationを使用した110の言語追加まで、18年かかりました。これは、並列コーパスの収集を大幅に減らす可能性のある、大きな飛躍です。並列コーパスの収集は、業界が20年以上追求してきた、歴史的に劳力的なタスクです。しかし、機械翻訳は完全に解決されたと主張することは、技術的および倫理的な考慮からして、時期尚早です。
現在のモデルはまだコンテキストと一貫性に苦労しており、意図した意味を変える可能性のある微妙なミスを犯します。これらの問題は、論理的な流れとニュアンスの理解が必要な、より長く複雑な文で顕著です。また、文化的なニュアンスや慣用表現もよく失われ、意味が失われたり、不自然に聞こえたりします。
事前トレーニング用データ: PaLM 2や同様のモデルは、多言語テキストコーパスで事前トレーニングされており、その前身のPaLMを上回っています。この強化により、PaLM 2は多言語タスクで優れた性能を発揮し、翻訳品質を向上させるために従来のデータセットの重要性を強調しています。
ドメイン固有の言語または希少言語: 法律、医療、技術などの専門分野では、並列コーパスは、モデルが特定の用語や言語のニュアンスに遭遇することを保証します。高度なモデルは、ドメイン固有の用語や言語のトレンドに対応するのに苦労する可能性があり、Zero-Shot Machine Translationに課題をもたらします。また、低リソース言語は、正確なモデルをトレーニングするために必要なデータが不足しているため、まだ不完全に翻訳されています。
ベンチマーク: 並列コーパスは、特に並列コーパスデータが不足している言語の翻訳モデルの性能を評価およびベンチマークするために不可欠です。BLEU、BLERT、METEORなどの自動メトリックは、文法以外の翻訳品質のニュアンスを評価することに限界があります。しかし、人間も偏見によって妨げられます。また、各言語ペアの微妙なエラーを捉えるために、完璧な二言語話者評価者を見つけることは容易ではありません。
リソースの集中度: LLMのトレーニングと展開のリソース集中度は、障壁であり、一部のアプリケーションまたは組織のアクセスを制限します。
文化の保存: 倫理的な側面は深刻です。Google Translateの研究科学者であるIsaac Caswellは、Zero-Shot Machine Translationについて次のように説明しています。「多言語話者が何百もの言語を知っているようなものです。しかし、さらに1000以上の言語のテキストを読むことで、翻訳されていないテキストの意味を理解することができます。」しかし、並列コーパスが不足している少数言語の文化的保存への長期的な影響を考慮することが重要です。言語そのものから離れて、言語への依存が減少する可能性があります。

Irina Barskaya, PhD, Head Data Scientist at Yandex

イリーナ・バルスカヤ（Irina Barskaya）、PhDは、10年以上の経験を持つ著名なデータサイエンティストで、製品分析と最先端テクノロジーの分析の両方を網羅しています。彼女は、サウジアラビアの最初の完全に機能するローカライズされたAIベースの音声アシスタントであるYasminaの作成と分析を主導し、現代標準アラビア語とサウジアラビア方言のための複雑なデータローカライズとラベル付けを担当しました。現在、イリーナはYandexの品質分析を担当し、AIテクノロジーの進歩を推進しています。