人工知能

‘見えない’、しばしば不幸な労働者がAIの未来を決定している

Published December 13, 2021

Updated April 28, 2026

Martin Anderson

Google Researchが主導する2つの新しい報告書は、機械学習システムの基礎となる真実を創造するために、安価でしばしば無力なグローバルなギグワーカーのプールに頼る現在の傾向は、AIにとって重大な下流の影響をもたらす可能性があることを示唆している。

さまざまな結論の中で、Googleの研究は、クラウドワーカーの自身の偏見が、AIシステムの真実の基礎となるものに埋め込まれる可能性が高いことを発見した。さらに、クラウドワーキングプラットフォームでの広範な不公平な労働慣行（アメリカを含む）は、応答の質を低下させる可能性があり、現在のコンセンサスシステム（実質的にAIシステムに影響を与えるある真実の「ミニ選挙」）が、最も適切な、または最も情報のある応答を「捨てる」可能性があることを示している。

それが悪いニュースである。さらに悪いニュースは、ほぼすべての対策が高価である、または時間がかかる、またはその両方であることである。

不安全性、ランダムな拒否、怒り

最初の論文は、5人のGoogle研究者によって書かれ、Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotationと呼ばれている。2番目の論文は、ニューヨークのシラキュース大学の2人の研究者によって書かれ、The Origin and Value of Disagreement Among Data Labelers: A Case Study of Individual Differences in Hate Speech Annotationと呼ばれている。

Googleの論文は、機械学習システムの基礎となる評価を形成するクラウドワーカーは、しばしば、応答の方法に影響を与える可能性のあるさまざまな制約の下で作業していることを示している。

たとえば、Amazon Mechanical Turkの現在のポリシーでは、依頼者（課題を出す人）は、責任を問われないでクラウドワーカーの作業を拒否できる。

‘クラウドワーカーの大多数（94%）は、拒否された作業、または支払われなかった作業を持っている。ただし、依頼者は、受け取ったデータに対する完全な権利を保持することができ、Roberts (2016)は、このシステムを「賃金盗用を可能にする」と説明している。 ‘

‘さらに、作業の拒否と賃金の不払いは痛みを与えるものである。拒否は、しばしば、不明確な指示と、有意義なフィードバックチャネルの欠如によって引き起こされる。多くのクラウドワーカーは、不十分なコミュニケーションが仕事に悪影響を与えることを報告している。 ‘

著者は、クラウドワーカーを使用してデータセットを開発する研究者は、クラウドワーキングプラットフォームがそのワーカーをどのように扱っているかを考慮するべきであると推奨している。さらに、アメリカ合衆国では、クラウドワーカーは「独立契約者」として分類されており、その仕事は規制されておらず、公正労働基準法によって義務付けられている最低賃金の対象外であることを指摘している。

コンテキストは重要

この論文はまた、コンテキストを考慮せずに、グローバルな労働力をアノテーションタスクに使用することを批判している。

予算が許す場合、AMTや同様のクラウドワークプラットフォームを使用する研究者は、同じタスクを4人のアノテーターに与え、結果について「多数決」で決定することが多い。
コンテキストの経験は、論文によれば、特に軽視されている。たとえば、セクシズムに関する質問が、3人の同意する男性（18-57歳）と1人の反対する女性（29歳）にランダムに配布された場合、男性の判断が勝つことになるが、研究者がアノテーターの資格に注意を払う場合には、まれにのみである。

同様に、シカゴのギャング行為に関する質問が、36歳のアメリカの女性、42歳のシカゴ在住の男性、およびそれぞれバンガロールとデンマークからの2人のアノテーターに配布された場合、問題に最も影響を受ける可能性のある人（シカゴの男性）は、標準的なアウトソーシング構成では、結果に1/4のシェアしか持たないことになる。

研究者は次のように述べている：

‘クラウドソーシングの応答における「一つの真実」の概念は、神話である。アノテーターの間の意見の不一致は、しばしば否定的に見なされるが、実際には貴重な信号を提供する可能性がある。さらに、多くのクラウドソーシングアノテータープールは、社会人口統計的に偏っているため、どの集団がデータセットに表現されているか、またどの集団がクラウドワークの課題に直面しているかには、重大な影響がある。 ‘

‘アノテーターの人口統計的偏りを考慮することは、データセットを文脈化し、責任ある下流の使用を保証するために重要である。簡単に言えば、ワーカーの社会文化的背景を認識し、考慮することは、データの品質と社会的影響の両方の観点から価値がある。 ‘

ホットトピックに関する『中立的な』意見は存在しない

4人のアノテーターの意見が、人口統計学的に、またはその他の尺度で偏っていない場合でも、Googleの論文は、研究者がアノテーターの生活の経験や哲学的立場を考慮していないことを示唆している：

‘一部のタスクは、正解のある客観的な質問を提起する（画像に人間の顔があるか？）が、多くの場合、データセットは、普遍的に正解のない、比較的主観的なタスクの判断を捉えることを目的としている（このテキストは攻撃的か？）。アノテーターの主観的な判断に頼るかどうかを意図的にすることが重要である。 ‘

シラキュース大学の論文は、ヘイトスピーチのラベリングの問題に特有の範囲で、よりカテゴリ的な質問（この写真に猫はいますか？）が、クラウドワーカーに「有毒」であるかどうかを尋ねることとは異なることを指摘している：

‘社会的現実の複雑さを考慮して、人の毒性に対する認識は大きく異なる。彼らの毒性コンテンツのラベルは、彼らの自身の認識に基づいている。 ‘

ヘイトスピーチの次元的なラベリングに、個性と年齢が「重大な影響」を与えることを発見したシラキュース大学の研究者は、次のように結論付けた：

‘これらの結果は、ヘイトスピーチに対する異なる背景と個性を持つラベラー間のアノテーションの一貫性を得るための努力が、完全には成功しない可能性があることを示唆している。 ‘

判事も偏っている可能性がある

この主観性の欠如は、シラキュース大学の論文によれば、上位にもイテレートする可能性がある。コンセンサス投票の「勝者」を決定する手動介入（または人間によって決定された自動ポリシー）は、調査の対象となるべきであると主張している。

フォーラムモデレーションのプロセスに似ていると述べている：

‘コミュニティのモデレーターは、投稿やユーザーの運命を、投稿の公開または非公開、またはユーザーの称賛、恥辱、または禁止によって決定することができる。モデレーターの決定は、コミュニティメンバーとオーディエンスに配信されるコンテンツと、コミュニティの議論の経験に影響を与える。 ‘

‘人間のモデレーターがコミュニティメンバーであり、他のコミュニティメンバーと人口統計的に同質であると仮定すると、コンテンツを評価するために使用する精神的スキーマは、他のコミュニティメンバーのものと一致する可能性がある。 ‘

これは、シラキュース大学の研究者がヘイトスピーチのアノテーションの未来についてあまりにも悲観的な結論に達した理由を示唆している。つまり、クラウドワークの意見の不一致に対するポリシーと判断は、どこにも定められていない「受け入れ可能な」原則に従ってランダムに適用されるべきではない。

決定を下す人（クラウドワーカー）は偏っており、価値判断を提供するタスクであるため、偏っていない場合は役に立たない。クラウドワークの結果の不一致について判断を下す人も、ポリシーの設定において価値判断を下している。

ヘイトスピーチ検出フレームワークには、数百のポリシーがあるかもしれないが、各ポリシーを最高裁判所まで遡及的に適用する以外に、「権威ある」コンセンサスはどこから生まれることができるだろうか？

Googleの研究者は、‘アノテーターの間の意見の不一致には、タスクに関する貴重なニュアンスが埋め込まれている可能性がある。 ‘と示唆している。この論文は、データセットに反映し、紛争を文脈化するメタデータの使用を提案している。

しかし、コンテキスト固有のデータ層が、標準テストの要求に適応したり、決定的な結果をサポートしたりすることは、同じグループの研究者を後の研究に採用する非現実的なシナリオを除いて、見て取ることが難しい。

アノテータープールのキュレーション

すべてのこれらは、コンセンサス投票に至る複数のアノテーションを可能にする研究プロジェクトの予算があることを前提としている。多くの場合、研究者は、地理的位置、性別、またはその他の文化的要因などの特性を指定することで、アウトソーシングされたアノテータープールをより安価に「キュレーション」しようとする。

Googleの論文は、これらの課題に対処するための前進の道は、アノテーターとの拡張されたコミュニケーションフレームワークを確立することであると主張している。たとえば、Uberアプリがドライバーと乗客の間で提供する最小限のコミュニケーションに似ている。

アノテーターの慎重な考慮は、当然、ハイパースケールのアノテーションのアウトソーシングの障害となるだろう。これにより、より限定されたボリュームのデータセットが生まれ、結果の理由付けが改善されるか、またはアノテーターの評価が急いで行われ、情報が不足している。

アノテーターが正直であることを仮定して。

アウトソーシングされたデータラベリングの『人を喜ばせる人』

アノテーターは、低賃金、激しい競争、および限られたキャリアの見通しのために、動機付けられている。アノテーターは、「正しい」答えを迅速に提供し、次のミニアサインメントに進む動機がある。

「正しい答え」が「猫/猫なし」よりも複雑な場合、シラキュース大学の論文は、ワーカーは、質問の内容とコンテキストに基づいて、「受け入れ可能な」答えを推測しようとするだろうと主張している：

‘代替的な概念化の普及と、単純なアノテーション方法の広範な使用は、オンラインヘイトスピーチに関する研究の進歩を妨げている。たとえば、Ross et al. は発見した、Twitterのヘイト行為の定義をアノテーターに示すと、彼らは自分の意見を定義と部分的に一致させた。この再配置により、アノテーションの間の信頼性は非常に低かった。 ‘

* 論文のインライン引用をハイパーリンクに変換したもの。

2021年12月13日公開 – 2021年12月18日更新: タグを追加