人工知能

機械学習研究を支配する影響力のあるデータセットのカートель、新しい研究が示唆する

Published December 6, 2021

Updated April 28, 2026

Martin Anderson

カリフォルニア大学とGoogle Researchからの新しい論文は、機械学習の「ベンチマーク」データセットの小さな数が、主に西洋の影響力のある機関から、そして頻繁に政府機関から、AI研究セクターを支配していることを発見しました。

研究者は、このような人気のあるオープンソースデータセット（例：ImageNet）に「デフォルト」する傾向は、実用的、倫理的、そして政治的な懸念を引き起こすと結論付けています。

彼らの発見（Facebookが主導するコミュニティプロジェクトPapers With Code（PWC）からのコアデータに基づく）によると、著者は「広く使用されるデータセットは、わずかなエリート機関によって導入される」と主張し、この「統合」は最近80％に増加したと述べています。

‘我々は、データセットの使用における世界的な不平等が増加しており、43,140のサンプルのうち50％以上のデータセット使用は、主に西洋の十二のエリート機関によって導入されたデータセットに対応していることを発見した.’

過去10年間のタスク非特有のデータセット使用の地図。含める基準は、機関または会社が既知の使用の50％以上を占める場合です。右側には、機関とデータセットの両方に対する時間のデータセット集中度のジニ係数が表示されています。

過去10年間のタスク非特有のデータセット使用の地図。含める基準は、機関または会社が既知の使用の50％以上を占める場合です。右側には、ジニ係数が表示されています。ソース: https://arxiv.org/pdf/2112.01716.pdf

優勢な機関には、スタンフォード大学、Microsoft、プリンストン大学、Facebook、Google、Max Planck研究所、AT&Tが含まれます。上位10位の中に4つの企業機関が含まれています。

論文では、エリートデータセットの使用の増加を「科学における不平等の手段」と表現しています。これは、研究チームが既存のデータセットに対する最先端の結果を達成することに比べて、独自のデータセットを生成することよりも、既存のデータセットに対する最先端の結果を達成することに動機付けられるからです。

とりあえず、論文では、独自のデータセットを作成することは、資源に乏しい機関やチームにとっては、非常に高額な追求であると認めています。

‘最先端のベンチマークによる prima facie の科学的妥当性は、研究者が広く認知されたデータセットで競争できることを示すことによる社会的信頼性と混同されることが多い。’

‘我々は、これらのダイナミクスが「マシュー効果」（「富める者はより富み、貧しい者はより貧しくなる」）を生み出し、成功したベンチマークとそれらを導入するエリート機関が、この分野で過大な地位を獲得するのではないかと推測しています。’

論文は、Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Researchと題されており、UCLAのBernard KochとJacob G. Foster、Google ResearchのEmily DentonとAlex Hannaによって書かれています。

この研究は、ドキュメント化された統合の増加に関する問題を提起しており、Open Reviewでは一般的な承認を受けています。NeurIPS 2021のレビュアーは、この研究は「機械学習研究に関与する誰にとっても非常に関連性が高く」と述べており、大学のコースで必読書として取り上げられることを予測しています。

必要性から腐敗へ

著者は、現在の「ベンチマークを超える」文化が、AIに対する新しい研究へのビジネスの熱意の低下の後、30年以上前に「AIの冬」後に機械学習研究に導入されたことを指摘しています。

‘ベンチマークは、通常、特定のタスクをデータセットと関連する評価の量的尺度を通じて形式化します。この慣行は、政府の資金提供者によって、機械学習研究に「AIの冬」後の1980年代に導入されました。彼らは、助成金に対する価値をより正確に評価しようとしたからです。’

論文では、標準化の非公式文化の初期の利点（参加の障壁の削減、一貫したメトリクス、よりアジャイルな開発の機会）が、データがその「使用条件」と影響の範囲を定義するのに十分な力を持つようになったときに自然に発生する欠点によって上回られるようになっていることを示唆しています。

著者は、最近の業界や学術界の多くの考えと同様に、研究コミュニティは既存のベンチマークデータセットで対処できない新しい問題を提起しないと主張しています。

彼らはまた、既存の「金準」データセットへの盲目的な従属が、研究者に、実世界のデータ、または新しい学術的または独自のデータセット、または他のデータセットでさえも必ずしも機能しない、データセット特有の結果を達成するよう促すと指摘しています。

‘観察されたベンチマークデータセットへの研究の高い集中度を考えると、評価の形式を多様化することは、既存のデータセットへの過剰適合を避け、分野の進歩を誤って表現しないようにするために、特に重要であると信じています。’

コンピュータビジョン研究における政府の影響

論文によると、コンピュータビジョン研究は、他のセクターよりもこの症状に影響を受けています。著者は、自然言語処理（NLP）研究は、NLPコミュニティが「よりまとまりがあり」、大きく、NLPデータセットがよりアクセスしやすく、より小さく、リソースの集めに際して費用対効果が高いという理由で、他のセクターよりも影響を受けにくいと示唆しています。

コンピュータビジョン、特に顔認識（FR）データセットでは、著者は、企業、国家、プライベートの利益がしばしば衝突することを主張しています：

‘企業や政府機関には、プライバシー（例：監視）と衝突する可能性のある目標があり、その優先順位の重み付けは、学者やAIのより広範な利害関係者によって持たれるものと異なる可能性があります。’

顔認識タスクの場合、研究者は、純粋に学術的なデータセットの発生が平均よりも劇的に低下することを発見しました：

‘8つのデータセット（33.69％の総使用）のうち4つは、企業、米軍、または中国政府（MS-Celeb-1M、CASIA-Webface、IJB-A、VggFace2）によって独占的に資金提供されました。MS-Celeb-1Mは、さまざまな利害関係者にとってのプライバシーの価値に関する論争のため、最終的に撤回されました。’

画像生成と顔認識研究コミュニティで使用されるトップデータセット。

上のグラフでは、著者は、画像生成（または画像合成）の比較的新しい分野が、元の目的ではなかった既存の古いデータセットに大きく依存していることも示しています。

実際、論文では、データセットが目的から「移行」する傾向が増加しており、それらの適切性と、研究の野心の範囲が利用可能な材料とベンチマーク評価の文化によって狭められる可能性について疑問を提起しています。

‘我々の発見はまた、データセットがさまざまなタスクコミュニティ間で移動することを示しています。最も極端な場合、タスクコミュニティのベンチマークデータセットの多数は、他のタスクのために作成されました。’

最近、機械学習の有名人（Andrew Ngを含む）が、データセットの多様性とキュレーションを求めていますが、著者は、既存のデータセットへの依存とSOTA結果への依存の文化によって、これらの努力が損なわれる可能性があると主張しています：

‘我々の研究は、単に機械学習研究者にデータセットの開発を呼びかけ、インセンティブ構造を変更してデータセットの開発が評価され報奨されるようにするだけでは、データセットの使用を多様化し、最終的に機械学習研究のアジェンダを形作る視点を多様化するのに十分ではないと示唆しています。 ‘

‘データセットの開発を奨励することに加えて、我々は、社会的および文化的観点からベンチマークデータセットの多様性を優先する、高品質のデータセットを作成するために資源に乏しい機関の人々に大量の資金を提供する、公平性志向の政策介入を主張しています。 ‘

2021年12月6日、午後4時49分GMT+2 – 見出しに所有格を修正しました。 – MA

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。

Unite.AI

機械学習研究を支配する影響力のあるデータセットのカートель、新しい研究が示唆する

必要性から腐敗へ

コンピュータビジョン研究における政府の影響

You may like