Trí tuệ nhân tạo
Giải pháp của Apple để dịch các ngôn ngữ có giới tính

Apple vừa công bố một bài báo hợp tác với USC, khám phá các phương pháp học máy được sử dụng để cung cấp cho người dùng hệ điều hành iOS18 nhiều lựa chọn hơn về giới tính khi dịch thuật.

Trong iOS18, người dùng có thể chọn các gợi ý về giới tính thay thế cho từ đã dịch trong ứng dụng Dịch gốc. Nguồn: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios
Mặc dù các vấn đề được giải quyết trong công việc (mà Apple đã công bố đây) tham gia, ở một mức độ nào đó, vào các cuộc tranh luận hiện tại về định nghĩa giới tính, nó tập trung vào một vấn đề cũ hơn nhiều: thực tế là 84 trong số 229 ngôn ngữ được biết đến trên thế giới sử dụng hệ thống giới tính dựa trên giới tính.

Các chấm đỏ biểu thị những ngôn ngữ sử dụng hệ thống phân loại giới tính. Nguồn: https://wals.info/feature/31A#map
Thật ngạc nhiên, tiếng Anh rơi vào danh mục dựa trên giới tính, vì nó chỉ định đại từ số ít giống đực hoặc giống cái.
Ngược lại, tất cả Ngôn ngữ lãng mạn (bao gồm hơn nửa tỷ Người nói tiếng Tây Ban Nha) – và nhiều ngôn ngữ phổ biến khác, chẳng hạn như tiếng Nga – yêu cầu phải có sự đồng ý về giới tính theo cách buộc hệ thống dịch thuật phải giải quyết vấn đề chuyển đổi giới tính trong ngôn ngữ.
Bài báo mới minh họa điều này bằng cách quan sát tất cả các bản dịch tiếng Tây Ban Nha có thể có của câu Cô thư ký tức giận với ông chủ:

Từ bài báo mới, một ví dụ về cách phân chia giới tính tiềm ẩn trong câu 'Cô thư ký tức giận với ông chủ', được dịch từ tiếng Anh sang tiếng Tây Ban Nha. Nguồn: https://arxiv.org/pdf/2407.20438
Bản dịch ngây thơ không đủ cho các văn bản dài hơn, có thể thiết lập giới tính ngay từ đầu ('Anh ta', 'Cô ấy', v.v.) và sau đó không đề cập đến giới tính nữa. Tuy nhiên, bản dịch phải nhớ giới tính được chỉ định của người tham gia trong suốt văn bản.
Điều này có thể là thách thức đối với các phương pháp dựa trên mã thông báo xử lý bản dịch thành từng phần riêng biệt và có nguy cơ mất ngữ cảnh giới tính đã chỉ định trong suốt thời lượng của nội dung.
Tệ hơn nữa, các hệ thống cung cấp bản dịch thay thế cho các phép gán giới tính thiên vị không thể thực hiện điều này một cách bừa bãi, tức là chỉ thay thế danh từ giới tính, mà phải đảm bảo rằng tất cả các phần khác của ngôn ngữ đều đồng ý với danh từ giới tính đã thay đổi.
Trong ví dụ này từ bài báo của Apple/USC, chúng ta thấy rằng mặc dù Thư ký đã được chỉ định là giới tính nam, quá khứ đơn lẻ là đã được để lại như nữ tính (estaba):

Việc thay thế giới tính một cách thô bạo có thể bỏ qua sự đồng thuận cần thiết về giới tính. Trong ví dụ này, từ 'enojada' nên là 'enojado', để phù hợp với từ giống đực 'El secretario'.
Một hệ thống dịch thuật cũng phải đối phó với sự lập dị của các ngôn ngữ cụ thể liên quan đến giới tính. Như bài báo chỉ ra, đại từ I được phân biệt theo giới tính trong tiếng Hindi, cung cấp một manh mối không phổ biến về giới tính.
Vấn đề giới tính
Trong tạp chí giấy mới, có tiêu đề Tạo ra các lựa chọn thay thế giới tính trong dịch máy, các nhà nghiên cứu của Apple và USC đề xuất một bán giám sát phương pháp chuyển đổi các thực thể không rõ ràng về giới tính thành một mảng các lựa chọn thay thế ở cấp độ thực thể.
Hệ thống, được sử dụng để thông báo bản dịch từ ứng dụng Apple Translate trong iOS18, xây dựng lược đồ ngôn ngữ bằng cách sử dụng cả mô hình ngôn ngữ lớn (LLM) và tinh chỉnh mô hình dịch máy nguồn mở được đào tạo trước.
Kết quả từ các bản dịch từ các hệ thống này sau đó được đào tạo thành một kiến trúc có chứa cấu trúc giới tính – nhóm cụm từ chứa nhiều dạng danh từ khác nhau biểu thị cùng một thực thể.
Bài báo nêu rõ *:
'Những thành kiến về giới tính hiện diện trong dữ liệu đào tạo được biết là sẽ xâm nhập vào các hệ thống xử lý ngôn ngữ tự nhiên (NLP), dẫn đến việc phát tán và khuếch đại tiềm năng của những thành kiến đó. Những thành kiến như vậy thường cũng là nguyên nhân gốc rễ của lỗi.
'Một hệ thống dịch máy (MT) có thể, ví dụ, dịch bác sĩ sang thuật ngữ tiếng Tây Ban Nha médico (nam tính) thay vì médica (nữ tính), với nội dung “Bác sĩ đã yêu cầu y tá giúp cô ấy trong quá trình thực hiện”.
'Để tránh việc chỉ định sai giới tính, các hệ thống dịch máy (MT) cần phân biệt giới tính thông qua ngữ cảnh. Khi không thể xác định được giới tính chính xác thông qua ngữ cảnh, việc cung cấp nhiều phương án dịch thuật bao gồm tất cả các lựa chọn giới tính hợp lệ là một cách tiếp cận hợp lý.'
Phương pháp mà các nhà nghiên cứu đưa ra có hiệu quả là chuyển đổi bản dịch từ một mã thông báo duy nhất thành một mảng do người dùng kiểm soát.
(Mặc dù bài báo không đề cập đến điều này, nhưng điều này mở ra khả năng, trong Apple Translate hoặc các cổng thông tin tương tự cung cấp dịch vụ dịch thuật, để các lựa chọn của người dùng được đưa trở lại vào các lần lặp lại sau của mô hình)
Mô hình mà Apple và USC phát triển đã được đánh giá trên GATE và MT-GenEval bộ kiểm tra. GATE chứa các câu nguồn có tối đa 3 thực thể không rõ ràng về giới tính, trong khi MT-GenEval chứa tài liệu không thể suy ra giới tính, điều mà theo tác giả, giúp hiểu được khi nào thì không nên cung cấp các tùy chọn giới tính thay thế cho người dùng.
Trong cả hai trường hợp, bộ kiểm tra đều phải được chú thích lại để phù hợp với mục tiêu của dự án.
Để đào tạo hệ thống, các nhà nghiên cứu đã dựa vào một hệ thống tự động mới tăng dữ liệu thuật toán, trái ngược với các bộ kiểm tra đã đề cập ở trên, được chú thích bởi con người.
Các tập dữ liệu đóng góp cho việc quản lý của Apple là Châu Âu; Tiêu đề Wiki; Và WikiMa trận. Các tập đoàn được chia thành Thẻ G (với 12,000 câu), bao gồm các câu có từ đầu cho tất cả các thực thể, cùng với chú thích không rõ ràng về giới tính; và G-Trans (với 50,000 câu), chứa các thực thể không rõ ràng về giới tính và sự phân biệt giới tính.
Các tác giả khẳng định:
'Theo hiểu biết của chúng tôi, đây là kho dữ liệu quy mô lớn đầu tiên chứa đựng sự mơ hồ về giới tính và cách chúng ảnh hưởng đến các dạng giới tính trong bản dịch.'
Các tập dữ liệu và dữ liệu đa dạng cho dự án đã được được cung cấp trên GitHubDữ liệu có năm cặp ngôn ngữ, so sánh tiếng Anh với tiếng Nga, tiếng Đức, tiếng Pháp, tiếng Bồ Đào Nha và tiếng Tây Ban Nha.
Các tác giả đã tận dụng một cách tiếp cận trước từ năm 2019 để cung cấp cho mô hình khả năng đưa ra sự liên kết giới tính, đào tạo với entropy chéo sự mất và thêm mất căn chỉnh.
Đối với thói quen tăng cường dữ liệu, các tác giả đã tránh xa phương pháp truyền thống phương pháp dựa trên quy tắcs ủng hộ cách tiếp cận lấy dữ liệu làm trung tâm, tinh chỉnh một Chứng nhận mô hình ngôn ngữ được đào tạo trước trên tập dữ liệu G-Tag.
Nhìn lại hai lần
Đối với những trường hợp phát hiện ra các thực thể giới tính không rõ ràng, Apple và USC đã khám phá hai phương pháp – tinh chỉnh các mô hình ngôn ngữ được đào tạo trước và sử dụng LLM.
Về phương pháp đầu tiên, bài báo nêu rõ:
'Chúng tôi tinh chỉnh mô hình MT được đào tạo trước M trên một văn bản đôi được trích xuất từ tập dữ liệu G-Trans. Các câu nguồn của văn bản đôi này chứa các thực thể mơ hồ được gắn thẻ là nam tính hoặc nữ tính bằng cách sử dụng / thẻ và bản dịch đích có biến thể giới tính chính xác dựa trên thẻ giới tính.'

Minh họa về lược đồ trích xuất song văn bản từ tập dữ liệu G-Trans.
Trong hình ảnh trên, chúng ta thấy văn bản được tinh chỉnh ở cột giữa phía dưới và kết quả mong muốn ở cột bên phải, với lý do cơ bản được minh họa ở trên.
Đối với cách tiếp cận này, các tác giả đã sử dụng một lưới đánh dấu lại phương pháp từ một công việc đầu năm 2020. Để đảm bảo rằng chỉ có miền mục tiêu (giới tính) được giải quyết, một tìm kiếm chùm tia bị ràng buộc được sử dụng như một bộ lọc.
Đối với phương pháp LLM, các tác giả đã đưa ra một chiến lược sử dụng LLM làm biên tập viên, bằng cách viết lại các bản dịch được cung cấp để chỉ định giới tính.

LLM được nhắc sử dụng ví dụ trong ngữ cảnh để chỉ định giới tính.
Với kết quả từ cả hai phương pháp được nối tiếp, mô hình sau đó được tinh chỉnh để phân loại mã thông báo nguồn thành căn chỉnh (được biểu thị bằng '1' trong sơ đồ bên dưới) hoặc không việc sắp xếp (được biểu thị bằng '2' bên dưới).

Sơ đồ kết nối các kết quả từ cả hai phương pháp.
Dữ liệu và Kiểm tra
thực thể mơ hồ máy dò được sử dụng cho dự án được phát triển bằng cách tinh chỉnh AI của Facebook xlm-roberta-lớn mô hình, sử dụng máy biến áp. Đối với mục đích này, G-Tag kết hợp đã được sử dụng trên tất cả năm cặp ngôn ngữ.
Trong cách tiếp cận đầu tiên trong hai cách tiếp cận đã đề cập ở trên, M2M 1.2B mô hình đã được đào tạo trên công bằng, kết hợp với dữ liệu hai văn bản từ tập dữ liệu G-Trans, với sự biến đổi giới tính do Wiktionary cung cấp.
Đối với phương pháp LLM, các tác giả đã sử dụng GPT-3.5-tăng áp. Để căn chỉnh cấu trúc giới tính, xlm-roberta-large một lần nữa được sử dụng, lần này với các căn chỉnh giới tính được trích xuất từ G-Trans.
Các số liệu để đánh giá các giải pháp thay thế, cấu trúc (với chính xác và nhớ lại), Và độ chính xác căn chỉnh.
Mặc dù hai điều đầu tiên trong số này là tự giải thích, độ chính xác của sự liên kết đo lường tỷ lệ phần trăm các cấu trúc giới tính đầu ra phù hợp với danh tính nguồn chính xác đã biết và sử dụng Phương pháp δ-BLEU, theo phương pháp luận của MT-GenEval.
Dưới đây là kết quả của quy trình tăng cường dữ liệu:

Kết quả từ các bài kiểm tra tăng cường dữ liệu. Mũi tên hướng lên biểu thị "càng cao càng tốt", mũi tên hướng xuống "càng thấp càng tốt".
Dưới đây là bình luận của tác giả*:
'Cả M2M và GPT đều hoạt động gần như ngang bằng, ngoại trừ tiếng Anh-Nga, trong đó GPT đạt được khả năng nhớ lại các lựa chọn thay thế thấp hơn nhiều (58.7 so với 89.3). Chất lượng của các cấu trúc giới tính được tạo ra tốt hơn đối với GPT trên tiếng Anh-Đức và tiếng Anh-Bồ Đào Nha và tốt hơn đối với M2M trên tiếng Anh-Tây Ban Nha và tiếng Anh-Nga, như có thể thấy từ các số liệu về cấu trúc.
'Lưu ý rằng chúng tôi không có bất kỳ dữ liệu G-Trans nào cho tiếng Anh-Ý, vì vậy kết quả của mô hình M2M và độ chính xác căn chỉnh trên tiếng Anh-Ý hoàn toàn là do khái quát hóa zero-shot của Mô hình M2M và XLM".
Các nhà nghiên cứu cũng so sánh hiệu suất của hệ thống tăng cường dữ liệu, thông qua M2M, với công cụ viết lại giới tính ở cấp độ câu của GATE, theo các điều khoản do GATE nêu ra.

Quy trình tăng cường dữ liệu của Apple/USC đối đầu với phương pháp cấp câu GATE.
Bài báo nêu rõ:
'Chúng tôi thấy sự cải thiện đáng kể về khả năng nhớ lại với chi phí giảm độ chính xác tương đối nhỏ (trừ tiếng Anh-Ý). Hệ thống của chúng tôi có thể vượt trội hơn GATE về chỉ số F.5 mà họ đề xuất trên cả 3 cặp ngôn ngữ.'
Cuối cùng, các tác giả đã đào tạo các mô hình đa ngôn ngữ 'vanilla' đa dạng thành vanilla song văn bản. Các tập dữ liệu đóng góp là WikiMatrix, Tiêu đề Wiki, Liên Hợp Quốc đa phương, Tin tứcBình luậnvà dấu ngã.
Hai mô hình vanilla bổ sung đã được đào tạo, một mô hình kết hợp tập dữ liệu G-Trans với thẻ tiền tố , được sử dụng làm đường cơ sở có giám sát; và thứ ba, kết hợp cấu trúc và sự sắp xếp giới tính (trên mô hình địa phương nhỏ hơn, vì sử dụng các dịch vụ dựa trên API của GPT sẽ rất tốn kém cho mục đích này).
Các mô hình đã được thử nghiệm so với năm 2022 FloRes tập dữ liệu.

Các mô hình dịch máy chuẩn mực đã được thử nghiệm (P = độ chính xác, R = khả năng thu hồi).
Bài báo tóm tắt những kết quả sau:
'Mô hình vani không thể tạo ra các lựa chọn thay thế và cho thấy sự thiên vị lớn về việc tạo ra các dạng nam tính (δ-BLEU dao động từ 5.3 đến 12.5 điểm).
'Độ lệch này được giảm đáng kể nhờ đường cơ sở được giám sát. Mô hình được đào tạo trên dữ liệu tăng cường tiếp tục giảm độ lệch và đạt được hiệu suất tốt nhất về số liệu thay thế, độ chính xác căn chỉnh và δ-BLEU.
'Điều này cho thấy hiệu quả của quy trình tăng cường dữ liệu. Dữ liệu tăng cường cũng cho phép chúng tôi đào tạo một hệ thống cạnh tranh cho tiếng Anh-Ý vốn thiếu dữ liệu được giám sát.'
Các tác giả kết luận bằng cách lưu ý rằng sự thành công của mô hình phải được xem xét trong bối cảnh rộng hơn của cuộc đấu tranh của NLP nhằm hợp lý hóa việc chỉ định giới tính trong phương pháp dịch thuật; và họ lưu ý rằng đây vẫn là một vấn đề chưa có lời giải.
Mặc dù các nhà nghiên cứu cho rằng kết quả thu được không đạt được hoàn toàn mục tiêu tạo ra bản dịch trung lập về giới tính ở cấp độ thực thể và/hoặc giải thích rõ ràng về giới tính, họ tin rằng công trình này là một "công cụ mạnh mẽ" cho các cuộc khám phá trong tương lai vào một trong những lĩnh vực đầy thách thức nhất của dịch máy.
* Việc chuyển đổi các trích dẫn nội tuyến của tác giả thành siêu liên kết của tôi
Lần đầu tiên xuất bản vào Thứ Ba, ngày 8 tháng 2024 năm XNUMX