人工知能

ImageNetの歴史的正確性の評価

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

Google ResearchとUC Berkeleyからの新しい研究は、コンピュータビジョン（CV）研究分野がImageNetデータセットとその多くの派生データセットに依存していることに関する長年の批判に追加しています。大量の手作業による評価の後、著者は、ImageNetのマルチラベルサブセット評価（現在のトップパフォーマンスモデルで97％以上のトップ1精度を達成）で最も優れたモデルが犯すとされる約50％のミスは、実際にはミスではないと結論付けています。

この研究では、ImageNetの歴史的エラー記録を手作業で評価した結果、エラー判定の多くが実際にはエラーではないことが発覚しました。この発見は、ImageNetベンチマークでこれまでに得られた低いスコアを修正する可能性があります。

研究者は、ImageNet-Major（ImageNet-M）という新しいサブデータセットを開発しました。これは、現在のトップモデルがほぼ完全な精度を達成すべき68の「重大なエラー」のスライスです。

この研究の重要性は、ImageNetの残りのエラー（または誤ったエラー）が、16年間で発生したものであり、デプロイ可能なモデルとエラーが多すぎて実際のデータで使用できないモデルの違いを表す可能性があることです。

研究者は、ViT-3Bモデル（89.5％の精度）とGreedy Soupsモデルを使用して、ImageNet2012_multilabelデータセットで初期のマルチラベル精度（MLA）を96.3％と記録しました。モデルは676個の明らかなミスを犯しました。これらのミスを調査するために、研究者は5人の専門家パネルを集め、専用ツールを作成しました。

専門家パネルは、ミスを評価し、298個のミスが正しいか、または不明確である、または元のグラウンドトゥルースが不正または問題があると判断しました。研究者は、2つのモデルが従来の手法ではミスとして扱われていたミスの半分について正しいと判断されたと結論付けました。

研究では、ImageNetのマルチラベル検証セットでViT-3BモデルとGreedy Soupsモデルが犯す残りのミスを分析しました。研究者は、次のことを発見しました。

1. 大規模で高精度のモデルが他のモデルでは予測されていない新しい予測を行う場合、ほぼ半分の場合に新しい正しいマルチラベルになります。
2. 高精度モデルは、ミスのカテゴリや重大性のパターンを示しません。
3. 現在のSOTAモデルは、人間が評価したマルチラベルサブセットで人間の専門家のパフォーマンスを上回っています。
4. ノイズの多いトレーニングデータと不十分なクラス指定が、画像分類の改善の効果的な測定を制限する要因である可能性があります。

この研究は、ImageNetの歴史的正確性を評価し、コンピュータビジョン研究分野の進歩を促進するために重要なステップです。