人工知能

CLIPベースの画像合成システムにおける「人種分類」の課題

Published May 24, 2022

Updated April 5, 2026

Martin Anderson

米国の新しい研究によると、DALL-Eシリーズの背後にある人気のあるコンピュータビジョンモデルや、他の多くの画像生成および分類モデルは、低下（人種分類規則、別名「1滴の規則」）という傾向を示すことが証明されています。つまり、少しだけ「混血」（非カウカジア系の）遺伝的血統を持つ人を、完全に「少数派」人種分類に分類する規則です。

低下は、歴史上の最も醜い章を特徴づけてきたため、研究論文の著者は、コンピュータビジョン研究および実装におけるこのような傾向がより多くの注意を受けるべきであると示唆しています。なぜなら、約100万回/月ダウンロードされている関連フレームワークは、下流のフレームワークで人種的偏見をさらに広め、普及させる可能性があるからです。

研究対象のアーキテクチャは、対比的言語画像事前学習(CLIP)です。これは、画像/キャプションのペアから学習する多モーダルマシーンラーニングモデルで、インターネットから半教師ありアプローチで学習します。このアプローチは、ラベリングのコストを削減しますが、キャプションを作成した人の偏見を反映する可能性があります。

論文から：

‘私たちの結果は、CLIPの埋め込み空間における低下の証拠を示し、特に女性の画像に対して強く適用される偏見を示しています。結果はさらに、CLIPが画像を白人からの偏差に基づいて人種または民族のラベルに関連付けることを示しています。 ‘

論文ではまた、画像の価値関連（「良い」または「悪い」ものに関連する傾向）は、カウカジア系ラベルよりも「少数派」人種ラベルに対してはるかに高いことが示されています。CLIPの偏見は、英語ウィキペディア（英語）などの米国中心の文献コーパスで訓練されたためであると示唆しています。

CLIPの明らかな低下の支持の影響についてコメントする著者は：

‘CLIPの最初の使用例の1つは、DALL-Eのゼロショット画像生成モデルを訓練することでした。CLIPアーキテクチャの大規模版は、DALL-E 2の訓練に使用されました。現在の研究の結果と一致して、DALL-E 2モデルカードの「リスクと制限」に記載されている注意事項は、モデルが「白人に近い人々の画像を過剰に生成する」ことを示しています。 ‘

‘そのような使用は、CLIPによって学習された偏見がモデルの埋め込み空間を超えて広がる可能性を示しています。CLIPの機能は、他の最先端のAIモデルでセマンティクスの形成を導くために使用されるからです。 ‘

‘さらに、CLIPや同様のモデルによるゼロショット設定での画像とテキストの関連付けの進歩により、多モーダルアーキテクチャは、検索エンジンを含む、幅広いインターネットアプリケーションの将来の基礎として説明されています。 ‘

‘私たちの結果は、自然言語の監視から学ぶものに対して、さらなる注意が必要であることを示しています。 ‘

論文は、「視覚セマンティックAIにおける低下の証拠」と題され、ワシントン大学とハーバード大学の3人の研究者によるものです。

CLIPと悪影響

研究者は、CLIPにおける低下の分析は初めてであると述べていますが、以前の研究では、CLIPワークフローは、主に未監視のウェブ由来のデータに依存しており、未監視のデータセットから学習するため、女性を低表現し、不快なコンテンツを生成し、セマンティック偏見（反イスラム感情など）を画像エンコーダーで示すことができます。

CLIPを最初に提示した論文では、ゼロショット設定では、CLIPはFairFaceデータセットの白人ラベルを58.3%の人物にのみ関連付けることを認めました。FairFaceはAmazon Mechanical Turkのワーカーによって偏ったラベルが付けられている可能性があると観察した著者は、「人間によって白人と認識される多くの人が、CLIPによって白人以外の人種と関連付けられる」と述べています。

彼らは続けています：

‘その逆は真実ではないようです。FairFaceデータセットで他の人種または民族のラベルと認識される個人は、CLIPによってそのラベルと関連付けられます。この結果は、CLIPが社会科学者によって説明された「低下」の規則を学習した可能性を示唆しています。つまり、多人種の祖先を持つ個人は、少数派または劣位の親グループよりも多数派または優位の親グループに属する可能性が高くなります。 ‘

‘言い換えると、黒人と白人の両親の子は、白人よりも黒人と見なされます。アジア人と白人の両親の子は、白人よりもアジア人と見なされます。 ‘

論文の3つの中心的な発見は、CLIPが低下を示すこと、CLIPが「白人」をデフォルトの人種として扱うこと、および競合する人種が白人からの偏差によって定義されることです。また、価値偏見（「悪い」概念との関連）が、個人が人種的少数派に分類される程度と相関することも示しています。

方法とデータ

CLIPが多人種の主体をどのように扱うかを判断するために、研究者は、以前に採用されたモーフィング技術を使用して、個人の画像の人種を変更しました。写真は、シカゴフェイスデータベースから取られました。これは、人種を含む心理学的研究用に開発されたデータセットです。

新しい論文の補足資料に含まれる人種的に変形したCFD画像の例。 ソース: https://arxiv.org/pdf/2205.10764.pdf

研究者は、以前の研究と一致するために、データセットから「中立的な表情」の画像のみを選択しました。彼らは、StyleGAN2-ADA（FFHQで訓練）を使用して、顔画像の人種を変更しました。さらに、一連の画像が一つの人種から別の人種に変化する過程を示す中間画像を作成しました（上の例画像を参照）。

一貫して以前の研究と同じように、研究者は、データセットで黒人、亞洲人、ラティーノと自己認識している人の顔画像を、白人とラベル付けされた人の顔画像に変形させました。モーフィングプロセスで19の中間ステージが生成され、合計21,000枚の1024x1024pxの画像がプロジェクトで作成されました。

研究者は、モーフィングセットの各画像に対して、CLIPの投影画像埋め込みを取得しました。その後、CLIPから各画像のラベルを取得しました:「多人種」、「二人種」、「混血」、「人物」（最終的なラベルは人種を省略）。

使用されたCLIPのバージョンは、CLIP-ViT-Base-Patch32実装でした。著者は、このモデルは、研究をまとめる前の1ヶ月間に100万回以上ダウンロードされ、TransformersライブラリからのCLIPモデルのダウンロードの98%を占めていることを指摘しています。

テスト

CLIPの潜在的な低下の傾向をテストするために、研究者は、各個人のグラデーションの変形画像の各画像にCLIPによって割り当てられた人種ラベルを記録しました。

結果によると、CLIPは約50%の移行点で「少数派」カテゴリに人々を分類する傾向があります。

50%の混合比率で、CLIPは1000枚のモーフィングされた女性画像をアジア人（89.1%）、ラティーナ（75.8%）、黒人（69.7%）のラベルと関連付けることが多いのに対し、同等の白人ラベルと関連付けることは少ない。

結果は、女性被験者が男性よりもCLIPの低下の影響を受けやすいことを示していますが、著者は、これは女性画像のウェブ由来の未監視ラベルが、外見を男性よりも強調する傾向があるためである可能性があると推測しています。

50%の人種移行点での低下は、アジア人-白人男性またはラティーノ-白人男性のモーフィングシリーズでは観察されませんでしたが、CLIPは55%の混合比率で67.5%のケースで黒人ラベルに高いコサイン類似性を割り当てました。

多人種、混血、混血ラベルの平均コサイン類似性。結果は、CLIPがさまざまな人種混合の「分水嶺」分類を実行していることを示しています。画像で認識される人種よりも白人ラベルに少なくとも同じ人種混合を関連付けることは少ない。

理想的な目標は、CLIPが中間の人種混合を「混血」として正確に分類することですが、CLIPは中間のモーフィングステップを「混血」として割り当てますが、最終的には、主に少数派寄与人種として主体を分類する中間的な傾向を示します。

価値について、著者はCLIPの歪んだ判断を指摘しています：

‘黒人-白人男性モーフィングシリーズの混合比率に応じて、平均価値関連（悪いまたは不快なものとの関連 vs. 良いまたは愉快なものとの関連）が変化するため、CLIPは黒人と自己認識するCFDボランティアに最も似ている顔に対して、不快なものとの関連をエンコードします。 ‘

価値関連の結果 – テストでは、CLIPは白人ラベル付けされた主体よりも、少数派グループをより多く悪い概念と関連付けていることを示しています。著者は、画像の不快な関連付けは、モデルが画像を黒人ラベルと関連付ける可能性が高くなるにつれて増加することを主張しています。

論文は次のように述べています：

‘証拠は、画像の価値が人種的関連と相関することを示しています。より具体的には、私たちの結果は、モデルが画像を黒人個人の反映であると確信するほど、画像は不快な埋め込み空間に関連付けられることを示しています。 ‘

しかし、結果はまた、アジア人の顔の場合は逆の相関関係を示しています。著者は、これは、ウェブソースのデータを介したアメリカの文化的認識の「模範的少数派」ステレオタイプの通過によって、アジア人に対する肯定的認識が反映されている可能性があると示唆しています。著者は次のように述べています：

‘アジアのテキストラベルへの確率と快適さの間の相関関係を観察することは、アジア人の祖先を持つ人々がアメリカの文化への同化と向上の可能性のために称賛され、さらには「良い行動」と関連付けられる「模範的少数派」ステレオタイプに対応する可能性があります。 ‘

最終的な目標について、CLIPの観点から「白人」が「デフォルトのアイデンティティ」であるかどうかを調べる結果は、埋め込み空間に内在する極性を示唆しています。つまり、このアーキテクチャでは、「少し白人」であることは難しいということです。

21,000枚の画像のコサイン類似性。

著者は次のように述べています：

‘証拠は、CLIPが白人をデフォルトの人種としてエンコードしていることを示しています。これは、白人と人物のコサイン類似性の間の相関が、他のどの人種または民族グループよりも強いことによって裏付けられます。 ‘

Related Topics:AI bias Bias image synthesis research

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。

Unite.AI

CLIPベースの画像合成システムにおける「人種分類」の課題

CLIPと悪影響

方法とデータ

テスト

You may like