Lãnh đạo tư tưởng

Tác động của Transformer: Liệu Máy dịch đã được Giải quyết?

mm

Google gần đây đã công bố việc phát hành 110 ngôn ngữ mới trên Google Translate như một phần của sáng kiến 1000 ngôn ngữ được khởi xướng vào năm 2022. Vào năm 2022, tại thời điểm bắt đầu, họ đã thêm 24 ngôn ngữ. Với 110 ngôn ngữ mới nhất, hiện tại đã có 243 ngôn ngữ. Sự mở rộng nhanh chóng này đã trở nên khả thi nhờ vào Dịch máy Zero-Shot, một công nghệ mà các mô hình học máy học cách dịch sang một ngôn ngữ khác mà không cần các ví dụ trước. Nhưng trong tương lai, chúng ta sẽ cùng nhau xem liệu sự tiến bộ này có thể là giải pháp cuối cùng cho thách thức của máy dịch hay không, và trong khi đó, chúng ta có thể khám phá các cách nó có thể xảy ra. Nhưng trước hết, hãy cùng nhau tìm hiểu câu chuyện của nó.

Vậy Trước đây thì sao?

Dịch máy Thống kê (SMT)

Đây là phương pháp ban đầu mà Google Translate sử dụng. Nó dựa trên các mô hình thống kê. Chúng phân tích các tập dữ liệu song song lớn, các bộ sưu tập các bản dịch câu được căn chỉnh, để xác định các bản dịch có khả năng nhất. Đầu tiên, hệ thống dịch văn bản sang tiếng Anh như một bước trung gian trước khi chuyển đổi nó sang ngôn ngữ đích, và nó cần phải tham khảo chéo các cụm từ với các tập dữ liệu rộng lớn từ các bản ghi của Liên Hợp Quốc và Nghị viện châu Âu. Nó khác với các phương pháp truyền thống đòi hỏi phải biên soạn các quy tắc ngữ pháp đầy đủ. Và phương pháp thống kê của nó cho phép nó thích nghi và học hỏi từ dữ liệu mà không dựa vào các khuôn khổ ngôn ngữ tĩnh mà có thể nhanh chóng trở nên hoàn toàn không cần thiết.

Nhưng cũng có một số nhược điểm của phương pháp này. Đầu tiên, Google Translate sử dụng dịch dựa trên cụm từ, nơi hệ thống chia nhỏ câu thành các cụm từ và dịch chúng riêng biệt. Đây là một cải tiến so với dịch từ vựng, nhưng vẫn còn những hạn chế như cách diễn đạt khó xử và lỗi ngữ cảnh. Nó không hiểu hoàn toàn các sắc thái như chúng ta làm. Ngoài ra, SMT phụ thuộc nặng vào việc có các tập dữ liệu song song, và bất kỳ ngôn ngữ nào tương đối hiếm sẽ khó dịch vì nó không có đủ dữ liệu song song.

Dịch máy Neuron (NMT)

Vào năm 2016, Google đã chuyển sang Dịch máy Neuron. Nó sử dụng các mô hình học sâu để dịch toàn bộ câu một lần, mang lại các bản dịch trơn tru và chính xác hơn. NMT hoạt động tương tự như có một trợ lý đa ngôn ngữ tinh vi trong máy tính của bạn. Sử dụng kiến trúc tuần tự-sang-tuần tự (seq2seq), NMT xử lý một câu trong một ngôn ngữ để hiểu ý nghĩa của nó. Sau đó – tạo ra một câu tương ứng trong một ngôn ngữ khác. Phương pháp này sử dụng các tập dữ liệu lớn để học hỏi, trái ngược với Dịch máy Thống kê, phụ thuộc vào các mô hình thống kê phân tích các tập dữ liệu song song lớn để xác định các bản dịch có khả năng nhất. Không giống như SMT, tập trung vào dịch dựa trên cụm từ và cần nhiều công sức thủ công để phát triển và duy trì các quy tắc và từ điển ngôn ngữ, sức mạnh của NMT trong việc xử lý toàn bộ chuỗi từ cho phép nó nắm bắt được ngữ cảnh tinh vi của ngôn ngữ một cách hiệu quả hơn. Vì vậy, nó đã cải thiện chất lượng dịch trên các cặp ngôn ngữ khác nhau, thường đạt được mức độ trơn tru và chính xác tương đương với các dịch giả con người.

Trên thực tế, các mô hình NMT truyền thống sử dụng Mạng nơ-ron hồi quy – RNN – làm kiến trúc cốt lõi, vì chúng được thiết kế để xử lý dữ liệu tuần tự bằng cách duy trì một trạng thái ẩn phát triển khi mỗi đầu vào mới (từ hoặc token) được xử lý. Trạng thái ẩn này đóng vai trò như một loại bộ nhớ ghi lại ngữ cảnh của các đầu vào trước đó, cho phép mô hình học hỏi các phụ thuộc theo thời gian. Nhưng, RNN tốn kém về mặt tính toán và khó khăn để song song hóa hiệu quả, điều này hạn chế khả năng mở rộng của chúng.

Giới thiệu về Transformer

Vào năm 2017, Google Research đã xuất bản một bài báo có tiêu đề “Chú ý là tất cả những gì bạn cần,” giới thiệu Transformer đến thế giới và đánh dấu một bước ngoặt quan trọng rời xa RNN trong kiến trúc mạng nơ-ron.

Transformer chỉ dựa trên cơ chế chú ý, – tự chú ý, cho phép các mô hình dịch máy neuron học cách tập trung có chọn lọc vào các phần quan trọng nhất của các chuỗi đầu vào. Không giống như RNN, xử lý các từ trong một chuỗi trong câu, tự chú ý đánh giá mỗi token trên toàn bộ văn bản, xác định những token nào quan trọng để hiểu ngữ cảnh của nó. Việc tính toán đồng thời tất cả các từ cho phép Transformer nắm bắt hiệu quả cả phụ thuộc ngắn và dài hạn mà không dựa vào các kết nối hồi quy hoặc bộ lọc convolutional.

Vì vậy, bằng cách loại bỏ sự hồi quy, Transformer mang lại một số lợi ích chính:

  • Song song hóa: Các cơ chế chú ý có thể tính toán song song trên các đoạn khác nhau của chuỗi, điều này tăng tốc quá trình đào tạo trên phần cứng hiện đại như GPU.
  • Hiệu suất đào tạo: Chúng cũng yêu cầu thời gian đào tạo ít hơn đáng kể so với các mô hình dựa trên RNN hoặc CNN truyền thống, mang lại hiệu suất tốt hơn trong các nhiệm vụ như dịch máy.

Dịch máy Zero-Shot và PaLM 2

Vào năm 2022, Google đã phát hành hỗ trợ cho 24 ngôn ngữ mới bằng cách sử dụng Dịch máy Zero-Shot, đánh dấu một cột mốc quan trọng trong công nghệ dịch máy. Họ cũng đã công bố Sáng kiến 1.000 Ngôn ngữ, nhằm hỗ trợ 1.000 ngôn ngữ được nói nhiều nhất trên thế giới. Hiện tại, họ đã triển khai 110 ngôn ngữ mới. Dịch máy Zero-Shot cho phép dịch mà không cần dữ liệu song song giữa ngôn ngữ nguồn và đích, loại bỏ nhu cầu tạo dữ liệu đào tạo cho từng cặp ngôn ngữ – một quá trình trước đây tốn kém và mất thời gian, và đối với một số cặp ngôn ngữ cũng không thể.

Sự tiến bộ này đã trở nên khả thi vì kiến trúc và cơ chế tự chú ý của Transformer. Khả năng của mô hình Transformer trong việc học các mối quan hệ ngữ cảnh trên các ngôn ngữ, kết hợp với khả năng mở rộng của nó để xử lý nhiều ngôn ngữ đồng thời, đã cho phép phát triển các hệ thống dịch đa ngôn ngữ hiệu quả hơn. Tuy nhiên, các mô hình Zero-Shot thường cho thấy chất lượng thấp hơn so với những mô hình được đào tạo trên dữ liệu song song.

Sau đó, dựa trên tiến bộ của Transformer, Google đã giới thiệu PaLM 2 vào năm 2023, tạo điều kiện cho việc phát hành 110 ngôn ngữ mới vào năm 2024. PaLM 2 đã cải thiện đáng kể khả năng của Translate trong việc học các ngôn ngữ liên quan chặt chẽ như Awadhi và Marwadi (liên quan đến Hindi) và các tiếng Creole của Pháp như Seychellois và Mauritian Creole. Các cải tiến trong PaLM 2, chẳng hạn như khả năng mở rộng tối ưu hóa, tập dữ liệu được cải thiện và thiết kế tinh chỉnh, đã cho phép học ngôn ngữ hiệu quả hơn và hỗ trợ nỗ lực liên tục của Google trong việc cải thiện hỗ trợ ngôn ngữ và đáp ứng các sắc thái ngôn ngữ đa dạng.

Liệu chúng ta có thể khẳng định rằng thách thức của máy dịch đã được giải quyết hoàn toàn với Transformer?

Sự tiến hóa mà chúng ta đang nói đến đã mất 18 năm từ khi Google áp dụng SMT cho đến 110 ngôn ngữ mới sử dụng Dịch máy Zero-Shot. Đây là một bước nhảy vĩ đại có thể giảm thiểu nhu cầu thu thập dữ liệu song song – một nhiệm vụ lịch sử và rất tốn công mà ngành đã theo đuổi trong hơn hai thập kỷ. Nhưng, việc khẳng định rằng máy dịch đã được giải quyết hoàn toàn sẽ là quá sớm, xem xét cả các khía cạnh kỹ thuật và đạo đức.

Các mô hình hiện tại vẫn gặp khó khăn với ngữ cảnh và tính nhất quán, và thực hiện các lỗi tinh vi có thể thay đổi ý nghĩa bạn muốn truyền tải trong một văn bản. Những vấn đề này rất hiện diện trong các câu dài và phức tạp hơn, nơi việc duy trì dòng chảy logic và hiểu các sắc thái là cần thiết để đạt được kết quả. Ngoài ra, các sắc thái văn hóa và biểu thức thành ngữ thường bị mất đi hoặc mất đi ý nghĩa, gây ra các bản dịch có thể đúng về mặt ngữ pháp nhưng không có tác động hoặc âm thanh tự nhiên.

Dữ liệu để tiền đào tạo: PaLM 2 và các mô hình tương tự được tiền đào tạo trên một tập dữ liệu văn bản đa ngôn ngữ đa dạng, vượt qua người tiền nhiệm PaLM. Sự cải tiến này cho phép PaLM 2 vượt trội trong các nhiệm vụ đa ngôn ngữ, nhấn mạnh tầm quan trọng liên tục của các tập dữ liệu truyền thống để cải thiện chất lượng dịch.

Ngôn ngữ chuyên ngành hoặc Hiếm: Trong các lĩnh vực chuyên ngành như pháp lý, y tế hoặc kỹ thuật, các tập dữ liệu song song đảm bảo các mô hình gặp phải các thuật ngữ và sắc thái ngôn ngữ cụ thể. Các mô hình tiên tiến có thể gặp khó khăn với các thuật ngữ chuyên ngành hoặc xu hướng ngôn ngữ đang phát triển, tạo ra thách thức cho Dịch máy Zero-Shot. Ngoài ra, các ngôn ngữ có tài nguyên thấp vẫn được dịch kém, vì chúng không có đủ dữ liệu để đào tạo các mô hình chính xác.

Đánh giá hiệu suất: Các tập dữ liệu song song vẫn là điều cần thiết để đánh giá và kiểm tra hiệu suất của mô hình dịch, đặc biệt là thách thức đối với các ngôn ngữ thiếu đủ dữ liệu song song. Các chỉ số tự động như BLEU, BLERT và METEOR có hạn chế trong việc đánh giá sắc thái trong chất lượng dịch ngoài ngữ pháp. Nhưng sau đó, chúng ta bị hạn chế bởi các偏见 của mình. Ngoài ra, không có nhiều người đánh giá đủ tiêu chuẩn cho mỗi cặp ngôn ngữ để bắt lỗi tinh vi.

Tính chất tốn tài nguyên: Bản chất tốn tài nguyên của việc đào tạo và triển khai các mô hình ngôn ngữ lớn vẫn là một rào cản, hạn chế khả năng tiếp cận cho một số ứng dụng hoặc tổ chức.

Bảo tồn văn hóa. Khía cạnh đạo đức là sâu sắc. Như Isaac Caswell, một nhà khoa học nghiên cứu của Google Translate, mô tả Dịch máy Zero-Shot: “Bạn có thể nghĩ về nó như một người đa ngôn ngữ biết nhiều ngôn ngữ. Nhưng sau đó, ngoài ra, nó còn được xem xét văn bản trong 1.000 ngôn ngữ khác mà không được dịch. Bạn có thể tưởng tượng nếu bạn là một người đa ngôn ngữ lớn, và sau đó bạn bắt đầu đọc tiểu thuyết trong một ngôn ngữ khác, bạn có thể bắt đầu ghép lại những gì nó có thể có nghĩa dựa trên kiến thức ngôn ngữ chung của bạn.” Tuy nhiên, điều quan trọng là phải xem xét tác động lâu dài đối với các ngôn ngữ thiểu số thiếu dữ liệu song song, có thể ảnh hưởng đến việc bảo tồn văn hóa khi sự phụ thuộc chuyển khỏi chính các ngôn ngữ.

Irina Barskaya, PhD, là một nhà khoa học dữ liệu nổi tiếng với hơn một thập kỷ kinh nghiệm, bao gồm cả phân tích sản phẩm và phân tích cho các công nghệ tiên tiến. Bà đã đứng đầu việc tạo ra và phân tích cho Yasmina, trợ lý giọng nói dựa trên AI đầu tiên được bản địa hóa hoàn toàn cho Ả Rập Xê Út, xử lý việc định vị và gắn nhãn dữ liệu phức tạp cho tiếng Ả Rập tiêu chuẩn và các phương ngữ Ả Rập Xê Út. Hiện tại, Irina đứng đầu phân tích chất lượng tại Yandex, thúc đẩy sự phát triển của các công nghệ AI.