スタブ 影響力のあるデータセットのカルテルが機械学習研究を支配している、新たな研究が示唆 - Unite.AI
私達と接続

Artificial Intelligence

影響力のあるデータセットのカルテルが機械学習研究を支配している、と新たな研究が示唆

mm
更新中 on

カリフォルニア大学と Google Research が発表した新しい論文では、主に西側の影響力のある機関から、また多くの場合政府機関から提供された少数の「ベンチマーク」機械学習データセットが AI 研究分野をますます支配しつつあることが判明しました。

研究者らは、この傾向は、次のような非常に人気のあるオープンソース データセットに「デフォルト」されると結論付けています。 ImageNet、多くの実際的、倫理的、さらには政治的な懸念原因を提起しています。

彼らの調査結果の中には、Facebook 主導のコミュニティ プロジェクトからのコア データに基づくものもあります。 コード付きの論文 (PWC) – 著者らは次のように主張する。 「広く使用されているデータセットは、少数のエリート機関によってのみ導入されています」、そしてこの「統合」は近年80%に増加しているとのこと。

「世界中でデータセットの使用における不平等が増大しており、50 のサンプルにおける全データセットの使用の 43,140% 以上が、主に西側の XNUMX のエリート機関によって導入されたデータセットに相当することがわかりました。」

過去 50 年間のタスク固有ではないデータセットの使用状況のマップ。 含める基準は、その機関または企業が既知の使用量の 2112.01716% 以上を占めている場合です。 右に示されているのは、機関とデータセットの両方について、時間の経過に伴うデータセットの集中のジニ係数です。 出典: https://arxiv.org/pdf/XNUMX.pdf

過去 50 年間のタスク固有ではないデータセットの使用状況のマップ。 含める基準は、その機関または企業が既知の使用量の XNUMX% 以上を占めている場合です。 右に示されているのは、 ジニ係数 機関とデータセットの両方について、時間の経過とともにデータセットが集中するため。 出典:https://arxiv.org/pdf/2112.01716.pdf

主要な機関には、スタンフォード大学、マイクロソフト、プリンストン、フェイスブック、グーグル、マックス プランク研究所、AT&T が含まれます。 データセット ソースのトップ XNUMX のうち XNUMX つは企業機関です。

この論文はまた、これらのエリート データセットの利用が増加していることを次のように特徴付けています。 「科学における不平等の媒介」。 これは、コミュニティからの承認を求める研究チームは、そのような地位を持たず、同僚が新しいデータセットに適応する必要があるオリジナルのデータセットを生成することよりも、一貫したデータセットに対して最先端 (SOTA) の結果を達成することへの意欲が高いためです。標準インデックスの代わりにメトリクスを使用します。

いずれにしても、論文でも認められているように、リソースが十分にない機関やチームにとって、独自のデータセットを作成することは法外に費用がかかる作業です。

' 最初の派閥 SOTA ベンチマークによって付与される科学的妥当性は、たとえよりコンテキストに特化したベンチマークが技術的により適切であるとしても、研究者が広く認識されたデータセットで競争できることを示すことで得られる社会的信頼性と一般的に混同されます。

「私たちは、こうした力学が「マシュー効果」(つまり、「金持ちはさらに金持ちになり、貧乏人はさらに貧乏になる」)を生み出し、成功したベンチマークとそれを導入するエリート機関がその分野で特大の地位を獲得すると仮定します。

  というタイトルです 削減、再利用、リサイクル: 機械学習研究におけるデータセットの寿命、UCLA の Bernard Koch と Jacob G. Foster、Google Research の Emily Denton と Alex Hanna によるものです。

この研究は、統合に向けた増大する傾向を記録しており、多くの問題を提起しています。 一般的な承認 オープンレビューにて。 NeurIPS 2021 の査読者の XNUMX 人は、この作品は次のようにコメントしました。 「機械学習の研究に携わるすべての人にとって非常に重要です。」 そして、大学のコースで課題図書として組み込まれることを予見しました。

必要から腐敗へ

著者らは、「ベンチマークに勝つ」という現在の文化は、AIへの関心と投資が再び崩壊する原因となった客観的な評価ツールの欠如に対する救済策として出現したと指摘している。 XNUMX年以上前、「エキスパート システム」の新しい研究に対する企業の熱意が低下した後、次のようになります。

「ベンチマークは通常、データセットとそれに関連する定量的な評価指標を通じて特定のタスクを形式化します。 この慣行はもともと、1980 年代の「AI 冬」の後、政府の資金提供者によって助成金から受け取った価値をより正確に評価しようとして [機械学習研究] に導入されました。」

この論文は、この非公式な標準化文化の初期の利点(参加障壁の軽減、一貫した指標、より機敏な開発の機会)が、データ本体が効果的に定義できるほど強力になったときに自然に発生する欠点のほうが上回り始めていると主張しています。 「利用規約」と影響範囲。

著者らは、この問題に関する最近の業界および学術的な考えに沿って、研究コミュニティは次のように述べています。 新たな問題を引き起こすことはなくなりました 既存のベンチマーク データセットを通じてこれらに対処できない場合。

彼らはさらに、この少数の「ゴールド」データセットに盲目的に従うと、研究者が次のような結果を達成することを奨励すると指摘しています。 過剰適合 (つまり、これらはデータセット固有であり、現実世界のデータ、新しい学術データセットまたはオリジナルのデータセット、または必ずしも「ゴールドスタンダード」の異なるデータセットでさえも同様にパフォーマンスを発揮する可能性は低いです)。

「少数のベンチマーク データセットに研究が集中していることが観察されたことを考慮すると、既存のデータセットへの過剰適合やこの分野の進歩の偽りを避けるために、評価形式を多様化することが特に重要であると考えています。」

コンピュータビジョン研究における政府の影響

この論文によると、コンピュータ ビジョンの研究は他の分野に比べて、論文で概説されている症候群の影響を顕著に受けており、著者らは自然言語処理 (NLP) 研究の影響ははるかに少ないと指摘しています。著者らは、これは NLP コミュニティが 「より一貫性のある」 NLP データセットは、よりアクセスしやすく、キュレーションが容易であるだけでなく、データ収集の点でより小さく、リソースの消費が少ないためです。

コンピュータ ビジョン、特に顔認識 (FR) データセットに関して、著者らは企業、国家、個人の利益が衝突することが多いと主張しています。

「企業や政府機関には、プライバシーと衝突する可能性のある目的(監視など)があり、これらの優先順位の重み付けは、学者やAIのより広範な社会的利害関係者が抱くものとは異なる可能性が高い。」

研究者らは、顔認識タスクの場合、純粋に学術的なデータセットの発生率が平均に比べて劇的に低下することを発見しました。

「33.69 つのデータセットのうち [1] (総使用量の 2%) は、企業、米軍、または中国政府 (MS-Celeb-1M、CASIA-Webface、IJB-A、VggFaceXNUMX) によって独占的に資金提供されました。 MS-Celeb-XNUMXM は、さまざまな関係者にとってのプライバシーの価値をめぐる論争のため、最終的に撤回されました。」

画像生成と顔認識の研究コミュニティで使用されるトップのデータセット。

画像生成と顔認識の研究コミュニティで使用されるトップのデータセット。

著者らが指摘しているように、上のグラフでは、比較的最近の画像生成 (または画像合成) 分野が、この用途を目的としていないはるかに古い既存のデータセットに大きく依存していることもわかります。

実際、この論文は、データセットが本来の目的から離れて「移行」する傾向が高まっていることを観察しており、新しい研究分野や辺境の研究分野のニーズへの適合性、そして予算上の制約がデータセットを「一般化」している可能性の程度に疑問を投げかけています。利用可能な資料と、年々のベンチマーク評価に執着しすぎて新しいデータセットが注目を集めることが難しい文化の両方によって、研究者の野望が狭い枠組みに収まってしまっています。

「私たちの調査結果は、データセットが異なるタスク コミュニティ間で定期的に転送されることも示しています。 最も極端な場合、一部のタスク コミュニティで流通しているベンチマーク データセットの大部分は、他のタスク用に作成されたものです。

機械学習の著名人について(アンドリュー・ンを含む) 近年、データセットの多様性とキュレーションの強化をますます求める声が高まっており、著者らはその意見を支持していますが、この種の取り組みは、たとえ成功したとしても、SOTA の結果や確立されたデータセットへの現在の文化の依存によって潜在的に損なわれる可能性があると考えています。 :

「私たちの研究は、ML 研究者にさらに多くのデータセットを開発するよう呼びかけるだけではなく、データセットの開発が評価され報われるようにインセンティブ構造を変えるだけでは、データセットの利用や最終的に MLR 研究課題を形成し設定する視点を多様化するには十分ではない可能性があることを示唆しています。」

「データセットの開発を奨励することに加えて、私たちは、高品質のデータセットを作成するためにリソースの少ない機関の人々に多額の資金を優先的に提供する、株式指向の政策介入を主張します。 これにより、社会的および文化的な観点から、最新の ML 手法を評価するために使用されるベンチマーク データセットが多様化するでしょう。」

 

 6 年 2021 月 4 日、午後 49 時 2 分 GMT+XNUMX – 見出しの所有格を修正しました。 – MA