Trí tuệ nhân tạo
Giải Pháp Của Apple Đối Với Ngôn Ngữ Có Giới Tính

Apple vừa xuất bản một bài báo, hợp tác với USC, khám phá các phương pháp học máy được sử dụng để cung cấp cho người dùng của hệ điều hành iOS18 nhiều lựa chọn hơn về giới tính khi nói đến dịch thuật.

Trong iOS18, người dùng có thể chọn các gợi ý giới tính thay thế cho một từ đã dịch trong ứng dụng Dịch bản địa. Nguồn: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios
Mặc dù các vấn đề được giải quyết trong công việc (đã được Apple công bố ở đây) tham gia, đến một mức độ nhất định, vào các cuộc tranh luận hiện tại về định nghĩa giới tính, nhưng nó tập trung vào một vấn đề cũ hơn: thực tế là 84 trong số 229 ngôn ngữ được biết đến trên thế giới sử dụng hệ thống giới tính dựa trên giới tính.

Các chấm đỏ chỉ ngôn ngữ sử dụng hệ thống giới tính dựa trên giới tính. Nguồn: https://wals.info/feature/31A#map
Đáng ngạc nhiên, ngôn ngữ tiếng Anh thuộc vào thể loại dựa trên giới tính, vì nó gán các đại từ số ít là nam hoặc nữ.
Ngược lại, tất cả ngôn ngữ Romance (bao gồm hơn nửa tỷ người nói tiếng Tây Ban Nha) – và nhiều ngôn ngữ phổ biến khác, như tiếng Nga – yêu cầu sự đồng ý về giới tính theo cách buộc các hệ thống dịch phải giải quyết việc gán giới tính trong ngôn ngữ.
Bài báo mới này minh họa điều này bằng cách quan sát tất cả các bản dịch tiếng Tây Ban Nha có thể của câu Bí thư đã giận dữ với ông chủ:

Từ bài báo mới, một ví dụ về các nhiệm vụ gán giới tính có thể trong câu ‘Bí thư đã giận dữ với ông chủ’, dịch từ tiếng Anh sang tiếng Tây Ban Nha. Nguồn: https://arxiv.org/pdf/2407.20438
Dịch thuần túy là không đủ cho các văn bản dài hơn, có thể thiết lập giới tính ở đầu (‘Anh’, ‘Cô’, v.v.) và sau đó không đề cập đến giới tính lại. Tuy nhiên, dịch phải nhớ gán giới tính của người tham gia trong suốt văn bản.
Điều này có thể là thách thức cho các phương pháp dựa trên token, giải quyết các bản dịch trong các khối rời rạc, và có nguy cơ mất ngữ cảnh gán giới tính trong suốt quá trình nội dung.
Tệ hơn, các hệ thống cung cấp các bản dịch thay thế cho các nhiệm vụ gán giới tính có偏见 không thể làm điều này một cách vô tội vạ, tức là bằng cách chỉ thay thế danh từ giới tính, nhưng phải đảm bảo rằng tất cả các phần khác của ngôn ngữ đồng ý với danh từ giới tính đã thay đổi.
Trong ví dụ này từ bài báo Apple/USC, chúng ta thấy rằng mặc dù Bí thư đã được gán giới tính nam, thì động từ quá khứ đơn đã vẫn được giữ là nữ (estaba):

Thay thế giới tính thô thiển có thể bỏ qua sự đồng ý về giới tính cần thiết. Trong ví dụ này, từ ‘enojada’ nên là ‘enojado’, để đồng ý với giới tính nam ‘El secretario’.
Một hệ thống dịch cũng phải đối phó với các đặc điểm của từng ngôn ngữ về giới tính. Như bài báo chỉ ra, đại từ Tôi có giới tính trong tiếng Hindi, cung cấp một gợi ý không phổ biến về giới tính.
Vấn Đề Giới Tính
Trong bài báo mới, có tiêu đề Generating Gender Alternatives in Machine Translation, các nhà nghiên cứu của Apple và USC đề xuất một phương pháp bán giám sát để chuyển đổi các thực thể模糊 giới tính thành một mảng các lựa chọn cấp thực thể.
Hệ thống, được sử dụng để thông báo dịch từ ứng dụng Dịch của Apple trong iOS18, xây dựng một lược đồ ngôn ngữ bằng cách sử dụng cả mô hình ngôn ngữ lớn (LLM) và tinh chỉnh các mô hình dịch máy mở nguồn pre-trained.
Kết quả từ các bản dịch của các hệ thống này đã được đào tạo vào một kiến trúc chứa các cấu trúc giới tính – các nhóm cụm từ chứa các hình thức đa dạng của các danh từ có giới tính đại diện cho cùng một thực thể.
Bài báo tuyên bố*:
‘Các thiên vị giới tính hiện diện trong dữ liệu đào tạo được biết là chảy vào các hệ thống xử lý ngôn ngữ tự nhiên (NLP), dẫn đến sự phổ biến và khả năng khuếch đại các thiên vị đó. Các thiên vị này thường cũng là nguyên nhân gốc rễ của các lỗi.
‘Một hệ thống dịch máy (MT) có thể, ví dụ, dịch bác sĩ thành thuật ngữ tiếng Tây Ban Nha (nam) thay vì médica (nữ), cho đầu vào “Bác sĩ đã hỏi y tá giúp cô ấy trong thủ tục”.
‘Để tránh gán giới tính sai, các hệ thống MT cần làm rõ giới tính thông qua ngữ cảnh. Khi giới tính chính xác không thể được xác định thông qua ngữ cảnh, cung cấp nhiều bản dịch thay thế bao gồm tất cả các lựa chọn giới tính hợp lệ là một cách tiếp cận hợp lý.’
Phương pháp mà các nhà nghiên cứu đến là hiệu quả chuyển đổi một bản dịch từ một token duy nhất thành một mảng được người dùng kiểm soát.
(Mặc dù bài báo không đề cập đến điều này, nhưng nó mở ra khả năng, либо trong Apple Translate hoặc trong các cổng dịch vụ tương tự, cho các lựa chọn của người dùng được đưa vào các phiên bản sau của mô hình)
Mô hình mà Apple và USC đã phát triển được đánh giá trên GATE và MT-GenEval test sets. GATE chứa các câu nguồn có tới 3 thực thể模糊 giới tính, trong khi MT-GenEval chứa tài liệu mà giới tính không thể suy luận, điều mà các tác giả cho rằng giúp hiểu khi nào không nên cung cấp các lựa chọn giới tính thay thế cho người dùng.
Trong cả hai trường hợp, các tập dữ liệu thử nghiệm phải được chú thích lại, để phù hợp với mục tiêu của dự án.
Để đào tạo hệ thống, các nhà nghiên cứu dựa vào một thuật toán tự động tăng cường dữ liệu mới, trái ngược với các tập dữ liệu thử nghiệm được đề cập trước đó, được chú thích bởi con người.
Các tập dữ liệu đóng góp cho việc thu thập dữ liệu của Apple bao gồm Europarl; WikiTitles; và WikiMatrix. Cơ sở dữ liệu được chia thành G-Tag (với 12.000 câu), bao gồm các câu có từ đầu cho tất cả các thực thể, cùng với chú thích模糊 giới tính; và G-Trans (với 50.000 câu), chứa các thực thể模糊 giới tính và các sắp xếp giới tính.
Các tác giả khẳng định:
‘Theo kiến thức của chúng tôi, đây là cơ sở dữ liệu lớn đầu tiên chứa các模糊 giới tính và cách chúng ảnh hưởng đến các hình thức có giới tính trong bản dịch.’
Dữ liệu và dữ liệu đa dạng cho dự án đã được đăng tải trên GitHub. Dữ liệu này có năm cặp ngôn ngữ, đặt tiếng Anh đối đầu với tiếng Nga, tiếng Đức, tiếng Pháp, tiếng Bồ Đào Nha và tiếng Tây Ban Nha.
Các tác giả đã tận dụng một phương pháp trước đó từ năm 2019 để trao cho mô hình khả năng đầu ra các sắp xếp giới tính, đào tạo với cross entropy loss và một alignment loss bổ sung.
Đối với quy trình tăng cường dữ liệu, các tác giả đã từ bỏ các phương pháp dựa trên quy tắc truyền thống để ủng hộ một phương pháp dựa trên dữ liệu, tinh chỉnh một mô hình ngôn ngữ pre-trained BERT trên tập dữ liệu G-Tag.
Đánh Giá Lại
Đối với các trường hợp phát hiện thực thể模糊 giới tính, Apple và USC đã khám phá hai phương pháp – tinh chỉnh các mô hình ngôn ngữ pre-trained và sử dụng các mô hình ngôn ngữ lớn.
Về phương pháp đầu tiên, bài báo tuyên bố:
‘Chúng tôi tinh chỉnh một mô hình MT pre-trained M trên một bitext được trích xuất từ tập dữ liệu G-Trans. Các câu nguồn của bitext này chứa các thực thể模糊 được gắn thẻ là nam hoặc nữ bằng cách sử dụng <M>/<F> thẻ, và bản dịch mục tiêu có các inflections giới tính chính xác cho các thẻ giới tính.’

Một minh họa của lược đồ trích xuất bitext từ tập dữ liệu G-Trans.
Trong hình ảnh trên, chúng ta thấy văn bản tinh chỉnh trong cột giữa dưới, và đầu ra mong muốn trong cột phải, với lý do cơ bản được minh họa ở trên.
Đối với phương pháp này, các tác giả đã sử dụng một phương pháp lattice rescoring từ một công việc trước đó vào năm 2020. Để đảm bảo rằng chỉ miền đích (giới tính) được giải quyết, một constrained beam search đã được sử dụng như một bộ lọc.
Đối với phương pháp mô hình ngôn ngữ lớn, các tác giả đã tạo ra một chiến lược sử dụng mô hình ngôn ngữ lớn như một biên tập viên, bằng cách viết lại các bản dịch được cung cấp để cung cấp các gán giới tính.

Mô hình ngôn ngữ lớn được kích hoạt bằng cách sử dụng một ví dụ trong ngữ cảnh để gán giới tính.
Với kết quả từ cả hai phương pháp được kết hợp, mô hình sau đó được tinh chỉnh để phân loại các token nguồn là đồng bộ (được chỉ định bởi ‘1’ trong lược đồ dưới đây) hoặc không đồng bộ (được chỉ định bởi ‘2’ dưới đây).

Một lược đồ cho việc kết hợp kết quả từ cả hai phương pháp.
Dữ Liệu và Kiểm Tra
Bộ phát hiện thực thể模糊 giới tính được sử dụng cho dự án này đã được phát triển bằng cách tinh chỉnh mô hình xlm-roberta-large của Facebook AI, sử dụng transformers. Đối với điều này, tập dữ liệu G-Tag kết hợp đã được sử dụng trên tất cả năm cặp ngôn ngữ.
Trong phương pháp đầu tiên, mô hình M2M 1.2B đã được đào tạo trên Fairseq, cùng với dữ liệu bitext từ tập dữ liệu G-Trans, với các inflections giới tính được cung cấp bởi Wiktionary.
Đối với phương pháp mô hình ngôn ngữ lớn, các tác giả đã sử dụng GPT-3.5-turbo. Đối với việc sắp xếp các cấu trúc giới tính, xlm-roberta-large đã được sử dụng lại, lần này với các sắp xếp giới tính được trích xuất từ G-Trans.
Các chỉ số đo lường cho việc đánh giá các lựa chọn thay thế, cấu trúc (với độ chính xác và độ nhớ), và độ chính xác sắp xếp.
Mặc dù hai chỉ số đầu tiên là dễ hiểu, độ chính xác sắp xếp đo lường phần trăm của các cấu trúc giới tính đầu ra phù hợp với danh tính nguồn chính xác, và sử dụng phương pháp δ-BLEU, theo phương pháp cho MT-GenEval.
Dưới đây là kết quả cho đường ống tăng cường dữ liệu:

Kết quả từ các thử nghiệm tăng cường dữ liệu. Các mũi tên hướng lên chỉ ‘cao hơn-là-tốt hơn’, hướng xuống ‘thấp hơn-là-tốt hơn’.
Tại đây, các tác giả bình luận*:
‘Cả M2M và GPT đều hoạt động hầu như tương đương, ngoại trừ tiếng Anh-Nga, nơi GPT đạt được độ nhớ thấp hơn nhiều (58,7 so với 89,3). Chất lượng của các cấu trúc giới tính được tạo ra tốt hơn cho GPT trên tiếng Anh-Đức và tiếng Anh-Bồ Đào Nha và tốt hơn cho M2M trên tiếng Anh-Tây Ban Nha và tiếng Anh-Nga, như có thể thấy từ các chỉ số cấu trúc.
‘Lưu ý rằng chúng tôi không có bất kỳ dữ liệu G-Trans nào cho tiếng Anh-Ý, vì vậy kết quả của mô hình M2M và độ chính xác sắp xếp trên tiếng Anh-Ý hoàn toàn do sự khái quát hóa zero-shot của M2M và XLM.’
Các nhà nghiên cứu cũng so sánh hiệu suất của hệ thống tăng cường dữ liệu, thông qua M2M, với phương pháp viết lại cấp câu của GATE, trên các điều khoản của GATE.

Đường ống tăng cường dữ liệu của Apple/USC được so sánh với phương pháp viết lại cấp câu của GATE.
Tại đây, bài báo tuyên bố:
‘Chúng tôi thấy sự cải thiện đáng kể về độ nhớ tại chi phí của sự suy giảm nhỏ về độ chính xác (ngoại trừ tiếng Anh-Ý). Hệ thống của chúng tôi có thể vượt qua GATE trên chỉ số F.5 được đề xuất trên tất cả 3 cặp ngôn ngữ.’
Cuối cùng, các tác giả đã đào tạo các mô hình đa ngôn ngữ ‘vanilla’ khác nhau thành vanilla bi-text. Các tập dữ liệu đóng góp cho dự án bao gồm WikiMatrix, WikiTitles, Multi-UN, NewsCommentary, và Tilde.
Hai mô hình ‘vanilla’ bổ sung đã được đào tạo, một mô hình kết hợp tập dữ liệu G-Trans với thẻ <giới tính> được sử dụng làm baseline được giám sát; và một mô hình thứ ba, kết hợp cấu trúc giới tính và sắp xếp (trên mô hình địa phương nhỏ hơn, vì sử dụng dịch vụ dựa trên API của GPT sẽ rất tốn kém cho mục đích này).
Các mô hình đã được kiểm tra trên tập dữ liệu FloRes năm 2022.

Các mô hình dịch máy ‘vanilla’ được kiểm tra (P = độ chính xác, R = độ nhớ).
Bài báo tóm tắt các kết quả này:
‘Mô hình ‘vanilla’ không thể tạo ra các lựa chọn thay thế và thể hiện sự thiên vị lớn về việc tạo ra các hình thức nam (δ-BLEU dao động từ 5,3 đến 12,5 điểm).
‘Thiên vị này được giảm đáng kể bởi baseline được giám sát. Mô hình được đào tạo trên dữ liệu tăng cường giảm thêm thiên vị và đạt được hiệu suất tốt nhất về các chỉ số thay thế, độ chính xác sắp xếp và δ-BLEU.
‘Điều này cho thấy hiệu quả của đường ống tăng cường dữ liệu. Dữ liệu tăng cường cũng cho phép chúng tôi đào tạo một hệ thống cạnh tranh cho tiếng Anh-Ý, ngôn ngữ thiếu dữ liệu được giám sát.’
Các tác giả kết luận bằng cách lưu ý rằng thành công của mô hình phải được xem xét trong bối cảnh rộng lớn hơn của NLP trong việc hợp lý hóa gán giới tính trong một phương pháp dịch; và họ lưu ý rằng đây vẫn là một vấn đề mở.
Mặc dù các nhà nghiên cứu coi rằng kết quả đạt được không hoàn toàn đạt được mục tiêu của việc tạo ra các bản dịch trung lập về giới tính và/hoặc làm rõ về giới tính, họ tin rằng công việc này là một ‘công cụ mạnh mẽ’ cho các cuộc khám phá trong tương lai về một trong những lĩnh vực dịch máy thách thức nhất.
* Sự chuyển đổi của tôi từ các trích dẫn nội tuyến của tác giả thành các liên kết
Được xuất bản lần đầu vào Thứ Ba, ngày 8 tháng 10 năm 2024












