Trí tuệ nhân tạo
Facebook tạo ra mô hình dịch máy có thể dịch trực tiếp giữa 100 ngôn ngữ khác nhau

Facebook gần đây đã phát triển một mô hình dịch máy mới có thể dịch văn bản giữa bất kỳ cặp ngôn ngữ cụ thể nào trong số 100 ngôn ngữ. Trong khi các hệ thống dịch máy khác tồn tại, hầu hết các hệ thống dịch AI khác hoạt động bằng cách dịch văn bản sang tiếng Anh trước rồi chuyển đổi văn bản từ đó. Như Engadget đã đưa tin, trình dịch AI của Facebook hoạt động mà không sử dụng ngôn ngữ tiếng Anh làm người trung gian và được cho là có thể đạt được độ chính xác xấp xỉ 90%.
Dữ liệu đào tạo của Facebook cho mô hình AI bao gồm khoảng 7.5 tỷ cặp câu, được phân phối trên 100 ngôn ngữ khác nhau. Dữ liệu được tổng hợp từ web bằng cách sử dụng một loạt trình thu thập dữ liệu web và các ngôn ngữ có trong dữ liệu đã thu thập được xác định bằng mô hình ngôn ngữ có tên là FastText. Sau khi dữ liệu được thu thập, nó được chạy qua một công cụ gọi là LASER 2.0 để trích xuất ý nghĩa của các mẫu câu khác nhau và ghép các câu trong các ngôn ngữ khác nhau với nhau dựa trên ý nghĩa của chúng. LASER 2.0 do Facebook phát triển và sử dụng các thuật toán học không giám sát để tạo các phần nhúng. Phần nhúng câu chứa thông tin về mối quan hệ giữa các câu khác nhau dựa trên các đặc điểm như tần suất sử dụng và mức độ các câu gần nhau xuất hiện với nhau. LASER 2.0 sau đó có thể tạo ra các câu có ý nghĩa rất giống nhau.
Dữ liệu đào tạo không chỉ được ghép nối dựa trên ý nghĩa của câu. Bản thân các ngôn ngữ đã được nhóm lại với nhau. Mục tiêu là thiết kế một hệ thống không yêu cầu sử dụng tiếng Anh làm phương tiện giữa hai ngôn ngữ, với Angela Fan của Facebook, người đứng đầu dự án, lưu ý rằng nhiều khu vực trên toàn cầu nói hai ngôn ngữ không phải là tiếng Anh. Các kỹ sư của Facebook đã tiến hành đào tạo bằng cách tập trung vào việc ghép nối các ngôn ngữ thường được dịch sang và dịch từ nhau. Mười bốn nhóm ngôn ngữ khác nhau đã được tạo ra, dựa trên các yếu tố như văn hóa, sự tương đồng về ngôn ngữ và địa lý. Ví dụ: một trong những nhóm ngôn ngữ do các nhà nghiên cứu tạo ra chứa các ngôn ngữ phổ biến nhất trên khắp Ấn Độ, bao gồm các ngôn ngữ tiếng Urdu, Tamil, Hindi và Bengali. Điều này được thực hiện để các ngôn ngữ thường được ghép nối sẽ nhận được bản dịch chất lượng cao.
Phương pháp đào tạo tập trung vào nhóm ngôn ngữ dẫn đến một số kết quả thú vị. Người ta nhận thấy rằng mô hình dịch kết quả có độ chính xác cao hơn so với các mô hình hiện có đối với các cặp ngôn ngữ nhất định. Ví dụ: khi dịch giữa tiếng Anh và tiếng Belarus, AI có thể áp dụng một số mẫu nhất định mà nó đã học được khi dịch tiếng Nga vì tiếng Belarus có những điểm tương đồng về ngôn ngữ với tiếng Nga. Tương tự như vậy, các nỗ lực dịch thuật giữa tiếng Tây Ban Nha và tiếng Bồ Đào Nha đã được cải thiện vì tiếng Tây Ban Nha là ngôn ngữ được sử dụng rộng rãi thứ hai và có một lượng lớn dữ liệu đào tạo cho nhiệm vụ này.
Có khoảng XNUMX ngôn ngữ mà hệ thống dịch thuật chưa bao gồm và độ chính xác của mô hình đối với các ngôn ngữ không có nhiều dữ liệu đào tạo cần phải được cải thiện trước khi sẵn sàng sử dụng. Nhiều ngôn ngữ trên khắp Đông Nam Á và Châu Phi thiếu khối lượng dữ liệu cần thiết để đào tạo một mô hình đáng tin cậy. Nhóm nghiên cứu sẽ cần xác định một số cách bù đắp cho việc thiếu dữ liệu này. Nhóm nghiên cứu cũng cần xác định cách kiểm soát bất kỳ hình thức phân biệt chủng tộc, phân biệt giới tính hoặc tục tĩu nào mà mô hình có thể đã học được. Mặc dù nhóm nghiên cứu đã sử dụng bộ lọc thô tục, bộ lọc này hoạt động chủ yếu trên dữ liệu tiếng Anh.
Hệ thống dịch máy chưa được sử dụng trên nền tảng truyền thông xã hội của Facebook. Mô hình hiện tại chỉ dành cho mục đích nghiên cứu. Tuy nhiên, Facebook đang chuẩn bị thiết kế các mô hình tương tự và để chúng xử lý khoảng 20 tỷ yêu cầu dịch thuật mà trang web nhận được mỗi ngày.