人工知能

Appleのジェンダー言語翻訳の解決策

Published October 8, 2024

Updated April 3, 2026

Martin Anderson

A photo of the Rosetta Stone, with a woman out of focus in the background, looking at the stone. Source: https://smarthistory.org/the-rosetta-stone/

Appleは、USCとの共同研究で、iOS18オペレーティングシステムのユーザーが翻訳時にジェンダーを選択するためのマシンラーニング方法を探求した論文を発表しました。

iOS18では、ネイティブのTranslateアプリで翻訳された単語の代替ジェンダーを選択できます。 ソース: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

この研究では、現在のジェンダーに関する議論に触れていますが、84の言語がセックスベースのジェンダーシステムを使用しているという、より古い問題に焦点を当てています。

赤い点は、セックスベースのジェンダーシステムを使用する言語を示しています。 ソース: https://wals.info/feature/31A#map

驚くことに、英語もセックスベースの言語であることがわかりました。なぜなら、英語は単数の代名詞に男性または女性の性を割り当てるからです。

一方、すべてのロマンス言語（スペイン語を含む）と、ロシア語を含む他の多くの言語は、翻訳システムが性別の割り当てを扱う必要がある方法で性別の一致を必要とします。

新しい論文では、英語の文「The secretary was angry with the boss」のすべての可能なスペイン語翻訳を観察することで、これを示しています。

新しい論文から、英語からスペイン語への翻訳文「The secretary was angry with the boss」の潜在的なジェンダー割り当ての例。 ソース: https://arxiv.org/pdf/2407.20438

単純な翻訳は、長いテキストには不十分です。なぜなら、テキストの最初に性別が確立され、以降は性別について言及されないからです。ただし、翻訳では、参加者の割り当てられた性別をテキスト全体で覚えておく必要があります。

これは、トークンベースのアプローチでは、離散的なチャンクで翻訳を処理し、コンテンツの期間中の割り当てられた性別のコンテキストを失うリスクがあります。

さらに悪いことに、偏った性別の割り当てのための代替翻訳を提供するシステムは、単に性別の名詞を置き換えるのではなく、他の言語の部分が変更された性別の名詞と一致するようにする必要があります。

この例から、Apple/USC論文では、Secretaryに男性の性別が割り当てられているのに対し、単数の過去のwasは女性のestabaのまま残っていることがわかります。

無理矢理な性別の置き換えは、必要な性別の一致を怠る可能性があります。この例では、単語「enojada」は「enojado」に同意する必要があります。

翻訳システムは、特定の言語の性別に関する特異性にも対処する必要があります。論文では、ヒンディー語の代名詞Iは性別を持っていることを指摘しています。

ジェンダーの問題

新しい論文「マシン翻訳におけるジェンダーの代替の生成」では、AppleとUSCの研究者は、ジェンダー曖昧なエンティティをエンティティレベルの代替の配列に変換するための半教師付きアプローチを提案しています。

システムは、Apple TranslateアプリのiOS18での翻訳に情報を提供するために使用され、LLMと事前トレーニング済みのオープンソースマシン翻訳モデルのファインチューニングの両方を使用して言語スキーマを構築します。

結果は、次のアーキテクチャにトレーニングされました。

論文では、次のことが述べられています：

‘トレーニングデータに含まれるジェンダーの偏見は、自然言語処理（NLP）システムに影響を及ぼし、偏見の拡散と潜在的な増幅につながることが知られています。これらの偏見は、しばしばエラーの根本原因でもあります。 ‘

‘マシン翻訳（MT）システムは、たとえば、入力「The doctor asked the nurse to help her in the procedure」の場合、医者をスペイン語の「médico」（男性）ではなく「médica」（女性）に翻訳する可能性があります。 ‘

‘誤った性別の割り当てを避けるために、MTシステムはコンテキストを通じて性別を明確にする必要があります。正しい性別がコンテキストを通じて決定できない場合、すべての有効な性別選択肢をカバーする複数の翻訳の代替案を提供することは妥当なアプローチです。 ‘

研究者が到達したアプローチは、実質的に、翻訳を単一のトークンからユーザー制御の配列に変換します。

（論文では言及されていませんが、これは、Apple Translateまたは同様の翻訳サービスを提供するポータルで、ユーザーの選択を後続のモデルのイテレーションにフィードバックする可能性を開きます）

AppleとUSCが開発したモデルは、GATEとMT-GenEvalテストセットで評価されました。

データとテスト

プロジェクトで使用された曖昧なエンティティの検出器は、Facebook AIのxlm-roberta-largeモデルをファインチューニングすることで開発され、すべての5つの言語ペアでG-Tagを使用しました。

最初のアプローチでは、M2M 1.2BモデルがFairseqでG-Transデータセットのバイテキストデータとともにトレーニングされ、ウィクショナリーから性別の曲がり角が提供されました。

LLMアプローチでは、GPT-3.5-turboが使用されました。

メトリックは、代替案、構造（精度とリコール）、および整列精度の評価に使用されました。

以下は、データ増強パイプラインの結果です。

データ増強テストの結果。上向きの矢印は「高いほど良い」、下向きの矢印は「低いほど良い」を示します。

ここで、著者は次のように述べています：

‘M2MとGPTは、英語ロシア語の代替リコール（58.7対89.3）でGPTが大幅に低い結果を示したことを除いて、ほぼ同等の結果を示しています。生成されたジェンダー構造の品質は、英語ドイツ語と英語ポルトガル語のGPTが優れており、英語スペイン語と英語ロシア語のM2Mが優れています。 ‘

‘注意してください。英語イタリア語のG-Transデータがないため、M2Mモデルと整列精度の結果は、M2MモデルとXLMモデルのゼロショット一般化のみによるものです。 ‘

研究者はまた、データ増強システムのパフォーマンスを、GATEの文レベルのジェンダーリライターと比較しました。

Apple/USCのデータ増強パイプラインとGATEの文レベルの方法の比較。

ここで、論文では次のことが述べられています：

‘精度のある程度の低下（英語イタリア語を除く）代わりにリコールの改善が見られます。私たちのシステムは、すべての3つの言語ペアでGATEの提案されたF.5メトリックを上回っています。 ‘

最後に、著者は、さまざまな「バニラ」マルチリンガルモデルを「バニラバイテキスト」にトレーニングしました。

結果は次のとおりです。

エンドツーエンドのバニラマシン翻訳モデルをテストしました（P = 精度、R = リコール）。

論文では、これらの結果を要約しています：

‘バニラモデルは代替案を生成できず、男性の形式を生成することに大きな偏見を示しています（δ-BLEUは5.3から12.5ポイントの範囲）。 ‘

‘この偏見は、監視対象のベースラインによって大幅に軽減されます。増強データでトレーニングされたモデルはさらに偏見を軽減し、代替メトリック、整列精度、δ-BLEUで最良のパフォーマンスを達成します。 ‘

‘これは、データ増強パイプラインの有効性を示しています。増強データを使用すると、監視データがない英語イタリア語の競合システムをトレーニングできます。 ‘

著者は、NLPが翻訳方法で性別の割り当てを合理化するのに苦労していること、そしてこれが未解決の問題であることを認めています。

研究者は、得られた結果が、ジェンダー中立の翻訳と/orジェンダーの曖昧さの生成の目標を完全に達成していないと考えていますが、この研究は、この分野の最も課題的な分野の1つへの将来の探究のための強力なツールであると考えています。

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。

Unite.AI

Appleのジェンダー言語翻訳の解決策

ジェンダーの問題

データとテスト

You may like