Лідери думок

Вплив трансформерів: чи вирішена проблема машинного перекладу?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google最近宣佈了釋出110種新的語言在Google Translate作為他們的1000語言倡議發起於2022年。在2022年，在開始時添加了24種語言。隨著最新的110種語言，它現在有243種語言。這種快速擴張是可能的，感謝零次機器翻譯，一種技術，其中機器學習模型學習翻譯成另一種語言而不需要先前的例子。但是在未來，我們將共同看到這種進步是否能夠成為解決機器翻譯挑戰的最終解決方案，同時我們可以探索它可以發生的方式。但首先是它的故事。

它以前是怎樣的？

統計機器翻譯（SMT）

這是Google Translate使用的原始方法。它依賴於統計模型。它們分析了大量的平行語料庫，對齊的句子翻譯集合，以確定最可能的翻譯。首先，系統將文本翻譯成英語作為中間步驟，然後將其轉換成目標語言，並需要與大量的聯合國和歐洲議會的文檔進行交叉引用。它與傳統方法不同，傳統方法需要編譯詳盡的語法規則。而其統計方法使其能夠適應和從數據中學習，而不依賴於靜態的語言框架，這些框架可能很快就會完全過時。
但是，這種方法也有缺點。首先，Google Translate使用了基於短語的翻譯，系統將句子分解成短語並個別翻譯。這比逐字翻譯有所改善，但仍然存在局限性，例如笨拙的短語和上下文錯誤。它只是沒有完全理解細微差別，像我們一樣。另外，SMT嚴重依賴於平行語料庫，任何相對罕見的語言都很難翻譯，因為它沒有足夠的平行數據。

神經機器翻譯（NMT）

2016年，Google轉向神經機器翻譯。它使用深度學習模型翻譯整個句子作為一個整體，給出更流暢和準確的翻譯。 NMT的運作方式類似於在計算機中有一個複雜的多語言助手。使用序列到序列（seq2seq）的架構，NMT處理一種語言的句子以了解其含義。然後–生成另一種語言的句子。這種方法使用巨大的數據集進行學習，相比之下，統計機器翻譯依賴於統計模型分析大量的平行語料庫以確定最可能的翻譯。與SMT不同，SMT注重於基於短語的翻譯，需要大量的手工努力來開發和維護語言規則和詞典，NMT的能力處理整個詞序列使其更有效地捕捉語言的細微上下文。因此，它改善了各種語言對的翻譯質量，往往達到與人類翻譯者相似的流暢度和準確度。
事實上，傳統的NMT模型使用循環神經網路（RNNs）作為核心架構，因為它們被設計用於處理序列數據，通過維護一個隱藏狀態，當每個新輸入（詞或令牌）被處理時，它就會演變。這個隱藏狀態充當了一種記憶，捕捉了先前輸入的上下文，使模型能夠學習隨時間的依賴關係。但是，RNNs計算成本高，難以有效地並行化，這限制了它們的可擴展性。

引入變壓器

2017年，Google Research發佈了一篇題為“注意力就是你需要的全部”的論文，向世界介紹了變壓器，並標誌著神經網路架構從RNNs向變壓器的轉變。
變壓器僅依賴於注意力機制–自注意力，使神經機器翻譯模型能夠選擇性地關注輸入序列中最關鍵的部分。與RNNs不同，RNNs在句子中處理詞序列，自注意力評估整個文本中的每個令牌，確定哪些其他令牌對於了解其上下文至關重要。這種對所有詞的同時計算使變壓器能夠有效地捕捉短距離和長距離的依賴關係，而不依賴於循環連接或卷積濾波器。
因此，通過消除循環，變壓器提供了幾個關鍵的優點：

並行化: 注意力機制可以在序列的不同部分之間並行計算，這加速了在現代硬件（如GPU）上的訓練。
訓練效率: 它們還需要相比傳統的基於RNN或CNN的模型少得多的訓練時間，從而在機器翻譯等任務中提供更好的性能。

零次機器翻譯和PaLM 2

2022年，Google使用零次機器翻譯支持24種新語言，標誌著機器翻譯技術的一個重要里程碑。它們還宣佈了1000語言倡議，旨在支持世界上1000種最常用的語言。它們現在已經推出了110種語言。零次機器翻譯可以在沒有源語言和目標語言之間的平行數據的情況下實現翻譯，消除了為每個語言對創建訓練數據的需要–這是一個以前成本高昂且耗時的過程，對於一些語言對來說也是不可能的。
這種進步之所以成為可能，是因為變壓器的架構和自注意力機制。變壓器模型的能力學習語言之間的上下文關係，以及其可擴展性以同時處理多種語言，使得更高效和有效的多語言翻譯系統的開發成為可能。然而，零次模型通常比那些在平行數據上訓練的模型具有較低的質量。
然後，基於變壓器的進展，Google於2023年推出了PaLM 2，為2024年推出110種新語言鋪平了道路。 PaLM 2顯著增強了Translate學習密切相關語言（如阿瓦德語和馬爾瓦里語（與印地語相關））和法語克里奧爾語（如塞舌爾克里奧爾語和毛里求斯克里奧爾語）的能力。 PaLM 2的改進，例如計算最佳擴展、增強的數據集和精煉的設計–使語言學習更加高效，並支持Google持續努力改善和擴大語言支持，以適應多樣的語言細微差別。

我們可以聲稱機器翻譯的挑戰已經完全解決了嗎？

我們所討論的演變過程花了18年時間，從Google採用SMT到最近使用零次機器翻譯的110種語言。這代表著一個巨大的飛躍，可能會減少對廣泛的平行語料庫收集的需求–這是一個歷史上和非常耗時的任務，該行業已經追求了二十多年。但是，聲稱機器翻譯完全解決了這個問題將為時過早，考慮到技術和倫理方面的考量。
當前的模型仍然難以處理上下文和連貫性，會犯一些微妙的錯誤，從而改變文本的含義。這些問題在更長、更複雜的句子中尤為明顯，在這些句子中，維持邏輯流程和理解細微差別對於結果至關重要。此外，文化細微差別和習語表達式往往會丟失或失去意義，導致翻譯雖然在語法上是正確的，但沒有預期的影響或聽起來不自然。
預訓練數據：PaLM 2和類似的模型是在一個多語言文本數據集上預訓練的，超越了其前身PaLM。這種增強使PaLM 2在多語言任務中出色，強調了傳統數據集在改善翻譯質量方面的持續重要性。
領域特定或罕見語言：在法律、醫學或技術等領域中，平行語料庫確保模型遇到特定的術語和語言細微差別。先進的模型可能難以處理領域特定的術語或語言趨勢，對於零次機器翻譯提出挑戰。另外，低資源語言仍然翻譯得很差，因為它們沒有足夠的數據來訓練準確的模型
基準測試：平行語料庫仍然是評估和基準測試翻譯模型性能的必要條件，特別是對於缺乏足夠的平行語料庫數據的語言。自動化指標，如BLEU、BLERT和METEOR，在評估翻譯質量的細微差別方面存在局限性，除了語法之外。但是，我們人類受到自己的偏見的限制。另外，合格的評估員不多，為每對語言找到完美的雙語評估員來捕捉微妙的錯誤是很困難的。
資源強度：訓練和部署LLM的資源強度仍然是一個障礙，限制了一些應用或組織的可訪問性。
文化保護。倫理層面的影響是深遠的。正如Google Translate研究科學家Isaac Caswell所描述的零次機器翻譯：“你可以把它想象成一個多語者，知道很多語言。但是，另外，它還可以看到1000種語言的文本，這些文本沒有被翻譯。你可以想象，如果你是一個大多語者，然後你開始閱讀另一種語言的書，你可以開始根據你對語言的一般知識來拼湊出它的含義。 ”然而，考慮長期影響對於那些沒有平行語料庫的少數語言至關重要，可能會影響文化保護，當對語言本身的依賴轉移到語言之外的時候。

Irina Barskaya, PhD, Head Data Scientist at Yandex

Ірина Барська, PhD, - відомий вчений-даніст з понад десятирічним досвідом, що охоплює як аналіз продукції, так і аналіз для передових технологій. Вона очолила створення та аналіз для Ясміни, першого повністю функціонального локалізованого AI-основаного голосового помічника для Саудівської Аравії, обробляючи складну локалізацію даних та маркування для сучасної стандартної арабської та саудівських діалектів. Наразі Ірина очолює аналіз якості в Yandex, сприяючи вдосконаленню технологій штучного інтелекту.