Connect with us

Trí tuệ nhân tạo

Facebook Tạo Mô Hình Dịch Máy Có Thể Dịch Trực Tiếp Giữa 100 Ngôn Ngữ Khác Nhau

mm

Facebook gần đây đã phát triển một mô hình dịch máy mới có thể dịch văn bản giữa bất kỳ cặp ngôn ngữ nào trong tập hợp 100 ngôn ngữ. Trong khi các hệ thống dịch máy khác tồn tại, hầu hết các hệ thống dịch máy AI khác hoạt động bằng cách dịch văn bản sang tiếng Anh và sau đó chuyển đổi văn bản từ đó. Như Engadget đã báo cáo , bộ dịch AI của Facebook hoạt động mà không sử dụng tiếng Anh làm trung gian và được báo cáo là có thể đạt được độ chính xác khoảng 90%.

Dữ liệu đào tạo cho mô hình AI của Facebook bao gồm khoảng 7,5 tỷ cặp câu, phân bố trên 100 ngôn ngữ khác nhau. Dữ liệu được thu thập từ web bằng một loạt các trình thu thập web và các ngôn ngữ có trong dữ liệu thu thập được xác định bằng một mô hình ngôn ngữ gọi là FastText. Khi dữ liệu được thu thập, nó được chạy qua một công cụ gọi là LASER 2.0 để trích xuất ý nghĩa của các mẫu câu khác nhau và ghép các câu trong các ngôn ngữ khác nhau lại với nhau dựa trên ý nghĩa của chúng. LASER 2.0 được phát triển bởi Facebook và nó sử dụng các thuật toán học không giám sát để tạo các bản nhúng. Các bản nhúng câu chứa thông tin về mối quan hệ giữa các câu khác nhau dựa trên các tính năng như tần suất sử dụng và cách gần các câu xuất hiện với nhau. LASER 2.0 sau đó có thể tạo ra các cặp câu có ý nghĩa rất giống nhau.

Dữ liệu đào tạo không chỉ được ghép dựa trên ý nghĩa của câu. Các ngôn ngữ bản thân cũng được nhóm lại với nhau. Mục tiêu là thiết kế một hệ thống không yêu cầu tiếng Anh được sử dụng làm trung gian giữa hai ngôn ngữ, với Angela Fan của Facebook, người dẫn đầu dự án, lưu ý rằng nhiều khu vực trên toàn cầu nói hai ngôn ngữ không phải là tiếng Anh. Các kỹ sư của Facebook đã thực hiện đào tạo bằng cách tập trung vào việc ghép các ngôn ngữ thường được dịch sang và từ nhau. Mười bốn nhóm ngôn ngữ khác nhau đã được tạo ra, dựa trên các biến như văn hóa, tương đồng ngôn ngữ và địa lý. Ví dụ, một trong những nhóm ngôn ngữ được tạo ra bởi các nhà nghiên cứu chứa các ngôn ngữ phổ biến nhất trên toàn Ấn Độ, bao gồm các ngôn ngữ Urdu, Tamil, Hindi và Bengali. Điều này được thực hiện để các ngôn ngữ thường được ghép sẽ nhận được bản dịch chất lượng cao.

Phương pháp đào tạo tập trung vào nhóm ngôn ngữ đã dẫn đến một số kết quả thú vị. Người ta đã phát hiện ra rằng mô hình dịch thuật kết quả có độ chính xác cao hơn so với các mô hình hiện có cho một số cặp ngôn ngữ nhất định. Ví dụ, khi dịch từ tiếng Anh sang tiếng Belarus, AI đã có thể áp dụng một số mẫu nó đã học được khi dịch tiếng Nga vì tiếng Belarus có sự tương đồng ngôn ngữ với tiếng Nga. Tương tự, nỗ lực dịch giữa tiếng Tây Ban Nha và tiếng Bồ Đào Nha đã được cải thiện vì tiếng Tây Ban Nha là ngôn ngữ được nói nhiều thứ hai và có một lượng lớn dữ liệu đào tạo cho nhiệm vụ.

Có khoảng sáu mươi ngôn ngữ mà hệ thống dịch không bao gồm, và độ chính xác của mô hình trên các ngôn ngữ không có nhiều dữ liệu đào tạo cần được cải thiện trước khi nó sẵn sàng để sử dụng. Nhiều ngôn ngữ trên khắp Đông Nam Á và châu Phi thiếu lượng dữ liệu cần thiết để đào tạo một mô hình đáng tin cậy. Đội ngũ nghiên cứu sẽ cần phải xác định một số cách để bù đắp cho sự thiếu hụt dữ liệu này. Đội ngũ nghiên cứu cũng cần phải xác định cách kiểm soát các mẫu phân biệt chủng tộc, phân biệt giới tính hoặc tục tĩu mà mô hình có thể đã học được. Mặc dù đội ngũ nghiên cứu đã sử dụng một bộ lọc tục tĩu, bộ lọc này chủ yếu hoạt động trên dữ liệu tiếng Anh.

Hệ thống dịch máy chưa được sử dụng trên nền tảng truyền thông xã hội của Facebook. Mô hình hiện tại chỉ dành cho mục đích nghiên cứu. Tuy nhiên, Facebook đang chuẩn bị thiết kế các mô hình tương tự và xử lý khoảng 20 tỷ yêu cầu dịch mà trang web nhận được mỗi ngày.

Blogger và lập trình viên với chuyên môn về Machine Learning Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.