Lãnh đạo tư tưởng

Tác động của Transformer: Liệu Máy dịch đã được Giải quyết?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google gần đây đã công bố việc phát hành 110 ngôn ngữ mới trên Google Translate như một phần của sáng kiến 1000 ngôn ngữ được ra mắt vào năm 2022. Vào năm 2022, tại thời điểm bắt đầu, họ đã thêm 24 ngôn ngữ. Với 110 ngôn ngữ mới nhất, hiện tại đã có 243 ngôn ngữ. Sự mở rộng nhanh chóng này có thể thực hiện được nhờ vào Dịch máy Zero-Shot, một công nghệ nơi các mô hình học máy học để dịch sang ngôn ngữ khác mà không cần ví dụ trước. Nhưng trong tương lai, chúng ta sẽ cùng nhau xem liệu sự tiến bộ này có thể là giải pháp cuối cùng cho thách thức của dịch máy, và trong khi đó, chúng ta có thể khám phá các cách nó có thể xảy ra. Nhưng trước hết, hãy cùng nhau tìm hiểu câu chuyện của nó.

Làm thế nào là trước đây?

Dịch máy Thống kê (SMT)

Đây là phương pháp ban đầu mà Google Translate sử dụng. Nó dựa trên các mô hình thống kê. Họ phân tích các tập dữ liệu song song lớn, các bộ sưu tập các bản dịch câu được căn chỉnh, để xác định các bản dịch có khả năng nhất. Đầu tiên, hệ thống dịch văn bản sang tiếng Anh như một bước trung gian trước khi chuyển đổi nó sang ngôn ngữ đích, và nó cần phải tham khảo chéo các cụm từ với các tập dữ liệu rộng lớn từ các bản ghi của Liên Hợp Quốc và Nghị viện Châu Âu. Nó khác với các phương pháp truyền thống đòi hỏi phải biên soạn các quy tắc ngữ pháp đầy đủ. Và cách tiếp cận thống kê của nó cho phép nó thích nghi và học hỏi từ dữ liệu mà không phụ thuộc vào các khuôn khổ ngôn ngữ tĩnh có thể nhanh chóng trở nên hoàn toàn không cần thiết.

Nhưng cũng có một số nhược điểm của phương pháp này. Đầu tiên, Google Translate sử dụng dịch dựa trên cụm từ, nơi hệ thống chia nhỏ các câu thành các cụm từ và dịch chúng riêng lẻ. Đây là một cải tiến so với dịch từ word-to-word nhưng vẫn có những hạn chế như cụm từ khó hiểu và lỗi ngữ cảnh. Nó chỉ không hiểu hoàn toàn các sắc thái như chúng ta làm. Ngoài ra, SMT phụ thuộc nặng vào việc có các tập dữ liệu song song, và bất kỳ ngôn ngữ nào tương đối hiếm sẽ khó dịch vì nó không có đủ dữ liệu song song.

Dịch máy Neuron (NMT)

Vào năm 2016, Google đã chuyển sang Dịch máy Neuron. Nó sử dụng các mô hình học sâu để dịch toàn bộ câu một lần, mang lại bản dịch trôi chảy và chính xác hơn. NMT hoạt động tương tự như có một trợ lý đa ngôn ngữ tinh vi trong máy tính của bạn. Sử dụng kiến trúc tuần tự-sang-tuần tự (seq2seq), NMT xử lý một câu trong một ngôn ngữ để hiểu ý nghĩa của nó. Sau đó – tạo ra một câu tương ứng trong ngôn ngữ khác. Phương pháp này sử dụng các tập dữ liệu lớn để học, trái ngược với Dịch máy Thống kê, phụ thuộc vào các mô hình thống kê phân tích các tập dữ liệu song song lớn để xác định các bản dịch có khả năng nhất. Không giống như SMT, tập trung vào dịch dựa trên cụm từ và cần nhiều nỗ lực thủ công để phát triển và duy trì các quy tắc và từ điển ngôn ngữ, sức mạnh của NMT để xử lý toàn bộ chuỗi từ cho phép nó nắm bắt ngữ cảnh tinh vi của ngôn ngữ hiệu quả hơn. Vì vậy, nó đã cải thiện chất lượng dịch trên các cặp ngôn ngữ khác nhau, thường đạt đến mức độ trôi chảy và chính xác tương đương với các dịch giả con người.

Trên thực tế, các mô hình NMT truyền thống sử dụng Mạng nơ-ron hồi quy – RNN – làm kiến trúc lõi, vì chúng được thiết kế để xử lý dữ liệu tuần tự bằng cách duy trì một trạng thái ẩn phát triển khi mỗi đầu vào mới (từ hoặc token) được xử lý. Trạng thái ẩn này đóng vai trò như một loại bộ nhớ nắm bắt ngữ cảnh của các đầu vào trước đó, cho phép mô hình học hỏi các mối quan hệ theo thời gian. Nhưng, RNN tốn kém về mặt tính toán và khó song song hóa hiệu quả, điều này hạn chế khả năng mở rộng của chúng.

Giới thiệu Transformer

Vào năm 2017, Google Research đã xuất bản một bài báo có tiêu đề “Chú ý là tất cả những gì bạn cần,” giới thiệu Transformer đến thế giới và đánh dấu một bước ngoặt quan trọng rời khỏi RNN trong kiến trúc mạng nơ-ron.

Transformer chỉ dựa trên cơ chế chú ý, – tự chú ý, cho phép các mô hình dịch máy neuron tập trung chọn lọc vào các phần quan trọng nhất của các chuỗi đầu vào. Không giống như RNN, xử lý từ trong một chuỗi trong câu, tự chú ý đánh giá mỗi token trên toàn bộ văn bản, xác định những token nào quan trọng để hiểu ngữ cảnh của nó. Việc tính toán đồng thời tất cả các từ cho phép Transformer nắm bắt hiệu quả cả các mối quan hệ ngắn và dài hạn mà không phụ thuộc vào các kết nối hồi quy hoặc bộ lọc convolutional.

Vì vậy, bằng cách loại bỏ sự hồi quy, Transformer cung cấp một số lợi ích chính:

Song song hóa: Các cơ chế chú ý có thể tính toán song song trên các đoạn khác nhau của chuỗi, điều này tăng tốc quá trình đào tạo trên phần cứng hiện đại như GPU.
Hiệu quả đào tạo: Chúng cũng yêu cầu thời gian đào tạo ít hơn đáng kể so với các mô hình dựa trên RNN hoặc CNN truyền thống, mang lại hiệu suất tốt hơn trong các nhiệm vụ như dịch máy.

Dịch máy Zero-Shot và PaLM 2

Vào năm 2022, Google đã phát hành hỗ trợ cho 24 ngôn ngữ mới bằng cách sử dụng Dịch máy Zero-Shot, đánh dấu một cột mốc quan trọng trong công nghệ dịch máy. Họ cũng đã công bố Sáng kiến 1.000 Ngôn ngữ, nhằm hỗ trợ 1.000 ngôn ngữ phổ biến nhất trên thế giới. Họ đã triển khai 110 ngôn ngữ mới. Dịch máy Zero-Shot cho phép dịch mà không cần dữ liệu song song giữa ngôn ngữ nguồn và đích, loại bỏ nhu cầu tạo dữ liệu đào tạo cho từng cặp ngôn ngữ – một quy trình trước đây tốn kém và tốn thời gian, và đối với một số cặp ngôn ngữ cũng không thể.

Sự tiến bộ này đã trở nên có thể vì kiến trúc và cơ chế tự chú ý của Transformer. Khả năng của mô hình Transformer để học các mối quan hệ ngữ cảnh trên các ngôn ngữ, kết hợp với khả năng mở rộng của nó để xử lý nhiều ngôn ngữ đồng thời, đã cho phép phát triển các hệ thống dịch đa ngôn ngữ hiệu quả và hiệu quả hơn. Tuy nhiên, các mô hình Zero-Shot thường cho thấy chất lượng thấp hơn so với các mô hình được đào tạo trên dữ liệu song song.

Sau đó, xây dựng trên tiến bộ của Transformer, Google đã giới thiệu PaLM 2 vào năm 2023, điều này đã mở đường cho việc phát hành 110 ngôn ngữ mới vào năm 2024. PaLM 2 đã nâng cao đáng kể khả năng của Translate để học các ngôn ngữ liên quan chặt chẽ như Awadhi và Marwadi (liên quan đến Hindi) và các tiếng Creole của Pháp như Seychellois và Mauritian Creole. Các cải tiến trong PaLM 2, chẳng hạn như mở rộng tính toán tối ưu, tập dữ liệu được cải thiện và thiết kế tinh chỉnh, đã cho phép học ngôn ngữ hiệu quả hơn và hỗ trợ các nỗ lực liên tục của Google để làm cho hỗ trợ ngôn ngữ tốt hơn và lớn hơn và phù hợp với các sắc thái ngôn ngữ đa dạng.

Liệu chúng ta có thể tuyên bố rằng thách thức của dịch máy đã được giải quyết hoàn toàn với Transformer?

Sự tiến hóa mà chúng ta đang nói đến đã mất 18 năm từ khi Google áp dụng SMT cho 110 ngôn ngữ mới sử dụng Dịch máy Zero-Shot gần đây. Điều này đại diện cho một bước nhảy vĩ đại có thể giảm thiểu nhu cầu thu thập dữ liệu song song rộng lớn – một nhiệm vụ truyền thống và rất tốn công mà ngành công nghiệp đã theo đuổi trong hơn hai thập kỷ. Nhưng, tuyên bố rằng dịch máy đã được giải quyết hoàn toàn sẽ là quá sớm, xem xét cả các khía cạnh kỹ thuật và đạo đức.

Các mô hình hiện tại vẫn gặp khó khăn với ngữ cảnh và tính nhất quán và thực hiện các lỗi tinh vi có thể thay đổi ý nghĩa bạn dự định cho một văn bản. Những vấn đề này rất hiện diện trong các câu dài, phức tạp hơn, nơi việc duy trì dòng chảy logic và hiểu các sắc thái là cần thiết cho kết quả. Ngoài ra, các sắc thái văn hóa và các biểu thức thành ngữ thường bị mất hoặc mất đi ý nghĩa, gây ra các bản dịch có thể đúng về mặt ngữ pháp nhưng không có tác động dự định hoặc nghe không tự nhiên.

Dữ liệu tiền đào tạo: PaLM 2 và các mô hình tương tự được đào tạo trước trên một tập dữ liệu văn bản đa ngôn ngữ đa dạng, vượt qua người tiền nhiệm PaLM. Sự cải tiến này trang bị cho PaLM 2 để xuất sắc trong các nhiệm vụ đa ngôn ngữ, nhấn mạnh tầm quan trọng liên tục của các tập dữ liệu truyền thống để cải thiện chất lượng dịch.

Ngôn ngữ chuyên ngành hoặc Ngôn ngữ hiếm: Trong các lĩnh vực chuyên ngành như pháp lý, y tế hoặc kỹ thuật, các tập dữ liệu song song đảm bảo các mô hình gặp phải các thuật ngữ và sắc thái ngôn ngữ cụ thể. Các mô hình tiên tiến có thể gặp khó khăn với các thuật ngữ chuyên ngành hoặc xu hướng ngôn ngữ đang phát triển, tạo ra thách thức cho Dịch máy Zero-Shot. Ngoài ra, các ngôn ngữ có ít tài nguyên vẫn được dịch không tốt, vì chúng không có đủ dữ liệu để đào tạo các mô hình chính xác

Đánh giá hiệu suất: Các tập dữ liệu song song vẫn còn cần thiết để đánh giá và đánh giá hiệu suất của mô hình dịch, đặc biệt là thách thức đối với các ngôn ngữ thiếu đủ dữ liệu song song. Các chỉ số tự động như BLEU, BLERT và METEOR có những hạn chế khi đánh giá tính tinh vi trong chất lượng dịch ngoài ngữ pháp. Nhưng sau đó, chúng ta con người bị hạn chế bởi các thành kiến của mình. Ngoài ra, không có nhiều người đánh giá đủ tiêu chuẩn cho mỗi cặp ngôn ngữ để bắt các lỗi tinh vi.

Tính chất tốn tài nguyên: Tính chất tốn tài nguyên của việc đào tạo và triển khai các mô hình ngôn ngữ lớn vẫn là một rào cản, hạn chế khả năng tiếp cận cho một số ứng dụng hoặc tổ chức.

Bảo tồn văn hóa. Khía cạnh đạo đức là sâu sắc. Như Isaac Caswell, một nhà khoa học nghiên cứu của Google Translate, mô tả Dịch máy Zero-Shot: “Bạn có thể nghĩ về nó như một người nói nhiều ngôn ngữ. Nhưng sau đó, ngoài ra, nó còn được xem xét văn bản trong 1.000 ngôn ngữ khác mà không được dịch. Bạn có thể tưởng tượng nếu bạn là một người nói nhiều ngôn ngữ và sau đó bạn chỉ bắt đầu đọc tiểu thuyết trong một ngôn ngữ khác, bạn có thể bắt đầu ráp lại những gì nó có thể có nghĩa dựa trên kiến thức ngôn ngữ chung của bạn.” Tuy nhiên, điều quan trọng là phải xem xét tác động lâu dài đối với các ngôn ngữ thiểu số thiếu dữ liệu song song, có thể ảnh hưởng đến việc bảo tồn văn hóa khi sự phụ thuộc chuyển sang các ngôn ngữ chính.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, là một nhà khoa học dữ liệu nổi bật với hơn một thập kỷ kinh nghiệm, bao gồm cả phân tích sản phẩm và phân tích cho các công nghệ tiên tiến. Bà đã dẫn đầu việc tạo ra và phân tích cho Yasmina, trợ lý giọng nói dựa trên AI đầu tiên được định vị hoàn chỉnh cho Ả Rập Xê Út, xử lý định vị và gắn nhãn dữ liệu phức tạp cho tiếng Ả Rập tiêu chuẩn hiện đại và các phương ngữ Ả Rập Xê Út. Hiện tại, Irina đứng đầu phân tích chất lượng tại Yandex, thúc đẩy sự phát triển của các công nghệ AI.