Góc nhìn Anderson
Giải Pháp Của Apple Cho Việc Dịch Ngôn Ngữ Có Giới Tính

Apple vừa xuất bản một bài báo, hợp tác với USC, khám phá các phương pháp học máy được sử dụng để cung cấp cho người dùng hệ điều hành iOS18 nhiều lựa chọn hơn về giới tính khi dịch.

Trong iOS18, người dùng có thể chọn gợi ý giới tính thay thế cho một từ được dịch trong ứng dụng Dịch bản địa. Nguồn: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios
Mặc dù các vấn đề được giải quyết trong công việc (đã được Apple công bố tại đây) tham gia vào các cuộc tranh luận hiện tại về định nghĩa giới tính, nó tập trung vào một vấn đề cũ hơn nhiều: thực tế là 84 trong số 229 ngôn ngữ được biết đến trên thế giới sử dụng hệ thống giới tính dựa trên giới tính.

Các chấm đỏ chỉ ngôn ngữ sử dụng hệ thống giới tính dựa trên giới tính. Nguồn: https://wals.info/feature/31A#map
Điều đáng ngạc nhiên là ngôn ngữ tiếng Anh thuộc vào thể loại dựa trên giới tính, vì nó gán các đại từ số ít nam hoặc nữ.
Ngược lại, tất cả ngôn ngữ Romance (bao gồm hơn nửa tỷ người nói tiếng Tây Ban Nha) – và nhiều ngôn ngữ phổ biến khác, như tiếng Nga – yêu cầu sự đồng ý về giới tính theo cách buộc các hệ thống dịch phải giải quyết việc gán giới tính trong ngôn ngữ.
Bài báo mới minh họa điều này bằng cách quan sát tất cả các bản dịch tiếng Tây Ban Nha có thể của câu Bí thư đã tức giận với ông chủ:

Từ bài báo mới, một ví dụ về các gán giới tính có thể trong câu ‘Bí thư đã tức giận với ông chủ’, dịch từ tiếng Anh sang tiếng Tây Ban Nha.
Dịch trực tiếp là không đủ cho các văn bản dài hơn, có thể thiết lập giới tính ở đầu (‘Anh’, ‘Cô’, v.v.) và sau đó không đề cập đến giới tính lại. Tuy nhiên, bản dịch phải nhớ gán giới tính của người tham gia trong suốt văn bản.
Điều này có thể thách thức cho các phương pháp dựa trên token, giải quyết các bản dịch trong các khối rời rạc, và có nguy cơ mất ngữ cảnh gán giới tính trong suốt thời gian của nội dung.
Tệ hơn, các hệ thống cung cấp bản dịch thay thế cho gán giới tính có偏见 không thể làm điều này một cách vô tội vạ, tức là bằng cách chỉ thay thế danh từ giới tính, nhưng phải đảm bảo rằng tất cả các phần khác của ngôn ngữ đồng ý với danh từ giới tính đã thay đổi.
Trong ví dụ này từ bài báo Apple/USC, chúng ta thấy rằng mặc dù Bí thư đã được gán giới tính nam, thì động từ đã đã được để lại như một động từ nữ (estaba):

Thay thế giới tính thô thiển có thể bỏ qua sự đồng ý về giới tính cần thiết. Trong ví dụ này, từ ‘enojada’ nên là ‘enojado’, để đồng ý với ‘El secretario’ nam.
Một hệ thống dịch cũng phải đối mặt với các đặc điểm riêng của từng ngôn ngữ liên quan đến giới tính. Như bài báo chỉ ra, đại từ Tôi có giới tính trong tiếng Hindi, cung cấp một gợi ý không phổ biến về giới tính.
Vấn Đề Giới Tính
Trong bài báo mới, có tiêu đề Generating Gender Alternatives in Machine Translation, các nhà nghiên cứu của Apple và USC đề xuất một phương pháp bán giám sát để chuyển đổi các thực thể mơ hồ về giới tính thành một mảng các lựa chọn thực thể cấp.
Hệ thống, được sử dụng để thông báo bản dịch từ ứng dụng Dịch của Apple trong iOS18, xây dựng một lược đồ ngôn ngữ bằng cách sử dụng cả mô hình ngôn ngữ lớn (LLM) và tinh chỉnh các mô hình dịch máy tiền huấn luyện.
Kết quả từ các bản dịch của các hệ thống này đã được đào tạo vào một kiến trúc chứa các cấu trúc giới tính – các nhóm cụm từ chứa các dạng khác nhau về giới tính của cùng một thực thể.
Bài báo tuyên bố*:
‘Các thiên vị giới tính hiện diện trong dữ liệu đào tạo được biết đến là sẽ lan truyền vào các hệ thống xử lý ngôn ngữ tự nhiên (NLP), dẫn đến việc lan truyền và có thể khuếch đại các thiên vị đó. Các thiên vị này thường cũng là nguyên nhân gốc rễ của các lỗi.
‘Một hệ thống dịch máy (MT) có thể, ví dụ, dịch bác sĩ thành thuật ngữ tiếng Tây Ban Nha (nam) thay vì bác sĩ (nữ), cho đầu vào “Bác sĩ đã yêu cầu y tá giúp cô ấy trong thủ tục”.
‘Để tránh gán giới tính sai, các hệ thống dịch máy cần phải làm rõ giới tính thông qua ngữ cảnh. Khi giới tính chính xác không thể được xác định thông qua ngữ cảnh, việc cung cấp nhiều lựa chọn bản dịch thay thế bao gồm tất cả các lựa chọn giới tính hợp lệ là một cách tiếp cận hợp lý.’
Phương pháp mà các nhà nghiên cứu đến là một phương pháp hiệu quả chuyển đổi một bản dịch từ một token duy nhất thành một mảng các lựa chọn do người dùng kiểm soát.
(Mặc dù bài báo không đề cập đến điều này, nhưng nó mở ra khả năng, либо trong Apple Translate, либо trong các cổng dịch vụ tương tự, cho phép người dùng đưa ra các lựa chọn để đưa vào các phiên bản sau của mô hình)
Mô hình mà Apple và USC phát triển đã được đánh giá trên GATE và MT-GenEval test sets. GATE chứa các câu nguồn có tối đa 3 thực thể mơ hồ về giới tính, trong khi MT-GenEval chứa tài liệu mà giới tính không thể suy ra, điều mà các tác giả cho rằng giúp hiểu khi nào nên cung cấp các lựa chọn giới tính thay thế cho người dùng.
Cả hai bộ dữ liệu thử nghiệm đều phải được chú thích lại để phù hợp với mục tiêu của dự án.
Để đào tạo hệ thống, các nhà nghiên cứu đã dựa vào một thuật toán tăng cường dữ liệu mới, trái ngược với các bộ dữ liệu thử nghiệm được đề cập trước đó, được chú thích bởi con người.
Các tập dữ liệu đóng góp cho việc thu thập dữ liệu của Apple bao gồm Europarl; WikiTitles; và WikiMatrix. Các tập dữ liệu này được chia thành G-Tag (với 12.000 câu) bao gồm các câu có từ đầu cho tất cả các thực thể, cùng với chú thích mơ hồ về giới tính; và G-Trans (với 50.000 câu), chứa các thực thể mơ hồ về giới tính và sự đồng ý về giới tính.
Các tác giả khẳng định:
‘Theo kiến thức của chúng tôi, đây là tập dữ liệu lớn đầu tiên chứa các mơ hồ về giới tính và cách chúng ảnh hưởng đến các hình thức có giới tính trong bản dịch.’
Các tập dữ liệu và dữ liệu đa dạng cho dự án đã được đăng tải trên GitHub. Dữ liệu này bao gồm năm cặp ngôn ngữ, đặt tiếng Anh đối đầu với tiếng Nga, tiếng Đức, tiếng Pháp, tiếng Bồ Đào Nha và tiếng Tây Ban Nha.
Các tác giả đã tận dụng một phương pháp trước đó từ năm 2019 để trao cho mô hình khả năng đầu ra sự đồng ý về giới tính, đào tạo với cross entropy loss và một loss alignment bổ sung.
Đối với quy trình tăng cường dữ liệu, các tác giả đã từ bỏ các phương pháp dựa trên quy tắc truyền thống để ủng hộ một phương pháp dựa trên dữ liệu, tinh chỉnh một mô hình ngôn ngữ BERT tiền huấn luyện trên tập dữ liệu G-Tag.
Sự Quan Sát Kép
Đối với các trường hợp thực thể mơ hồ về giới tính được phát hiện, Apple và USC đã khám phá hai phương pháp – tinh chỉnh các mô hình ngôn ngữ tiền huấn luyện và sử dụng các mô hình ngôn ngữ lớn (LLM).
Về phương pháp đầu tiên, bài báo tuyên bố:
‘Chúng tôi tinh chỉnh một mô hình dịch máy tiền huấn luyện M trên một tập dữ liệu song ngữ được trích xuất từ tập dữ liệu G-Trans. Các câu nguồn của tập dữ liệu song ngữ này chứa các thực thể mơ hồ được gắn thẻ là nam hoặc nữ bằng cách sử dụng thẻ <M>/<F>, và bản dịch đích có các inflection giới tính chính xác cho các thẻ giới tính.’

Một hình minh họa về lược đồ trích xuất dữ liệu song ngữ từ tập dữ liệu G-Trans.
Trong hình ảnh trên, chúng ta thấy văn bản tinh chỉnh ở cột giữa và đầu ra mong muốn ở cột phải, với lý do cơ bản được minh họa ở trên.
Đối với phương pháp này, các tác giả đã sử dụng một phương pháp lattice rescoring từ một công việc trước đó vào năm 2020. Để đảm bảo rằng chỉ miền đích (giới tính) được giải quyết, một tìm kiếm chùm bị giới hạn đã được sử dụng như một bộ lọc.
Đối với phương pháp LLM, các tác giả đã nghĩ ra một chiến lược sử dụng LLM như một biên tập viên, bằng cách viết lại các bản dịch được cung cấp để cung cấp gán giới tính.

LLM được kích hoạt bằng một ví dụ trong ngữ cảnh để gán giới tính.
Với kết quả từ cả hai phương pháp được kết hợp, mô hình sau đó đã được tinh chỉnh để phân loại các token nguồn thành đồng bộ (được chỉ định bởi ‘1’ trong lược đồ dưới đây) hoặc không đồng bộ (được chỉ định bởi ‘2’ dưới đây).

Một lược đồ cho việc kết hợp kết quả từ cả hai phương pháp.
Dữ Liệu và Kiểm Tra
Bộ phát hiện thực thể mơ hồ về giới tính được sử dụng cho dự án này đã được phát triển bằng cách tinh chỉnh mô hình xlm-roberta-large của Facebook AI, sử dụng transformers. Đối với điều này, tập dữ liệu G-Tag kết hợp đã được sử dụng trên tất cả năm cặp ngôn ngữ.
Trong phương pháp đầu tiên, mô hình M2M 1.2B đã được đào tạo trên Fairseq, cùng với dữ liệu song ngữ từ tập dữ liệu G-Trans, với inflection giới tính được cung cấp bởi Wiktionary.
Đối với phương pháp LLM, các tác giả đã sử dụng GPT-3.5-turbo. Đối với việc đồng bộ hóa cấu trúc giới tính, xlm-roberta-large đã được sử dụng lại, lần này với sự đồng bộ hóa giới tính được trích xuất từ G-Trans.
Các chỉ số để đánh giá các lựa chọn thay thế, cấu trúc (với độ chính xác và độ hồi tưởng), và độ chính xác của sự đồng bộ.
Mặc dù hai chỉ số đầu tiên là tự giải thích, độ chính xác của sự đồng bộ đo lường phần trăm của các cấu trúc giới tính đầu ra phù hợp với danh tính nguồn chính xác, và sử dụng phương pháp δ-BLEU, phù hợp với phương pháp cho MT-GenEval.
Dưới đây là kết quả cho đường ống tăng cường dữ liệu:

Kết quả từ các thử nghiệm tăng cường dữ liệu. Các mũi tên hướng lên chỉ ‘càng cao càng tốt’, hướng xuống chỉ ‘càng thấp càng tốt’.
Tại đây, các tác giả bình luận*:
‘Cả M2M và GPT đều hoạt động hầu như tương đương, ngoại trừ tiếng Anh-Nga, nơi GPT đạt được độ hồi tưởng của các lựa chọn thay thế thấp hơn nhiều (58,7 so với 89,3). Chất lượng của các cấu trúc giới tính được tạo ra tốt hơn cho GPT trên tiếng Anh-Đức và tiếng Anh-Bồ Đào Nha và tốt hơn cho M2M trên tiếng Anh-Tây Ban Nha và tiếng Anh-Nga, như có thể thấy từ các chỉ số cấu trúc.
‘Lưu ý rằng chúng tôi không có dữ liệu G-Trans cho tiếng Anh-Italy, vì vậy kết quả của mô hình M2M và độ chính xác của sự đồng bộ trên tiếng Anh-Italy hoàn toàn là do sự khái quát hóa không có giám sát của M2M và XLM.’
Các nhà nghiên cứu cũng so sánh hiệu suất của hệ thống tăng cường dữ liệu, thông qua M2M, với phương pháp viết lại cấp câu của GATE, trên các điều khoản của GATE.

Đường ống tăng cường dữ liệu của Apple/USC được so sánh với phương pháp cấp câu của GATE.
Tại đây, bài báo tuyên bố:
‘Chúng tôi thấy sự cải thiện đáng kể về độ hồi tưởng với chi phí là sự suy giảm nhỏ về độ chính xác (ngoại trừ tiếng Anh-Italy). Hệ thống của chúng tôi có thể vượt qua GATE trên chỉ số F.5 được đề xuất của họ trên tất cả 3 cặp ngôn ngữ.’
Cuối cùng, các tác giả đã đào tạo các mô hình đa ngôn ngữ ‘vanilla’ vào vanilla song ngữ. Các tập dữ liệu đóng góp bao gồm WikiMatrix, WikiTitles, Multi-UN, NewsCommentary, và Tilde.
Hai mô hình ‘vanilla’ bổ sung đã được đào tạo, một mô hình kết hợp tập dữ liệu G-Trans với thẻ <giới tính> được thêm vào, được sử dụng làm baseline được giám sát; và một mô hình thứ ba, kết hợp cấu trúc giới tính và sự đồng bộ (trên mô hình địa phương nhỏ hơn, vì sử dụng dịch vụ API của GPT sẽ rất tốn kém cho mục đích này).
Các mô hình đã được thử nghiệm trên tập dữ liệu FloRes năm 2022.

Các mô hình dịch máy ‘vanilla’ từ đầu đến cuối được thử nghiệm (P = độ chính xác, R = độ hồi tưởng).
Bài báo tóm tắt những kết quả này:
‘Mô hình ‘vanilla’ không thể tạo ra các lựa chọn thay thế và thể hiện sự thiên vị lớn về việc tạo ra các hình thức nam (δ-BLEU dao động từ 5,3 đến 12,5 điểm).
‘Thiên vị này được giảm đáng kể bởi baseline được giám sát. Mô hình được đào tạo trên dữ liệu tăng cường giảm thêm thiên vị và đạt được hiệu suất tốt nhất về các chỉ số thay thế, độ chính xác của sự đồng bộ và δ-BLEU.
‘Điều này cho thấy hiệu quả của đường ống tăng cường dữ liệu. Dữ liệu tăng cường cũng cho phép chúng tôi đào tạo một hệ thống cạnh tranh cho tiếng Anh-Italy, ngôn ngữ thiếu dữ liệu được giám sát.’
Các tác giả kết luận bằng cách lưu ý rằng thành công của mô hình phải được xem xét trong bối cảnh rộng lớn hơn của NLP trong việc hợp lý hóa việc gán giới tính trong một phương pháp dịch; và họ lưu ý rằng đây vẫn là một vấn đề mở.
Mặc dù các nhà nghiên cứu cho rằng kết quả đạt được không hoàn toàn đạt được mục tiêu của việc tạo ra các bản dịch và/hoặc làm rõ giới tính ở cấp độ thực thể, họ tin rằng công việc này là một ‘công cụ mạnh mẽ’ cho các cuộc điều tra trong tương lai về một trong những lĩnh vực khó khăn nhất của dịch máy.
* Chuyển đổi của tôi từ các trích dẫn nội tuyến của tác giả sang các liên kết siêu văn bản
Được xuất bản lần đầu vào thứ ba, ngày 8 tháng 10 năm 2024












