Andersonの視点

AI研究における「もっとラベルをダウンロード！」の幻想

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

現在の機械学習研究では、機械学習自体が、特にビジョン言語モデル（VLMs）で使用される画像キャプションなどのAIデータセットの注釈の品質を向上させるために使用できるという見方が一般的です。この考え方は、人間の注釈の高コストと、注釈者のパフォーマンスを監督する追加の負担によって推進されています。

これは、2000年代初頭の「RAMをダウンロード」というメモに似ています。これは、ハードウェアの制限がソフトウェアベースの修正で解決できるという考えを風刺したものです。

これは、注目されていない問題でもあります。新しいAIモデルは、公共の場や商業的な場で広く注目を集めていますが、注釈は、機械学習パイプラインで、より広範なフレームワークの興奮によって陰に隠れています。

実際、機械学習システムがパターンを認識して再現する能力（ほぼすべてのAIシステムの中心的なユースケース）は、現実世界の注釈の品質と一貫性に依存しています。つまり、人間によって作成されたり判断されたりするラベルやフレーズであり、多くの場合、個々のデータポイントについて主観的な判断を下します。

必然的に、人間の注釈者の行動を観察して再現することを目指すシステム（そして人間の注釈者を置き換えて、正確なラベリングを可能にする）は、人間の観察者から取られた例に含まれないデータでうまく機能することはできません。何か「似ている」ものは完全に同じではありません。ドメイン間の等価性は、コンピュータビジョンで問題となるものです。

「上流のデータの責任」はどこかで止まる必要があります。この場合は、人間の小脳がデータを人工システムに符号化するために主観的な区別をするところで止まります。

ラグトレード

最近まで、データセットの注釈が十分でないことによる不正確さは、生成的なAIシステムから得られる不完全だがまだ販売可能な結果の文脈で、ある程度の「被害」であると見なされていました。

実際、今年、シンガポールでの研究では、結論が導き出されました。つまり、ハルシネーション（AIシステムが私たちの意図を損なうものを発明するとき）が、システムの概念的なアーキテクチャに内在するものであり、避けられないものであるということです。

これに対抗するために、RAGベースのエージェント（インターネット検索を介して「事実」を検証できるもの）が、研究と商業的な解決策で人気を博しています。ただし、これらはリソースコストとクエリの待ち時間を増加させます。さらに、トレーニング済みモデルに適用される新しい情報は、ネイティブレイヤーに特徴的なより複雑で深く絡み合った接続には対抗できないものです。

したがって、これらのモデルを情報とする注釈データが最初から大幅に欠陥が少ない方が良いでしょう。少なくとも、それは完璧でないこと（主観的な活動に侵入するため）です。

RePOPE

ドイツからの新しい論文は、特に画像キャプションの精度と信頼性に焦点を当てて、古い広く使用されているデータセットに依存することによる問題を強調しています。研究者の発見は、ベンチマークのラベルエラーが、ビジョン言語モデルにおけるハルシネーションを隠したり歪曲したりする可能性があることを示しています。

新しい論文から、元のキャプションが画像内のオブジェクトを正しく識別できなかった例。研究者のPOPEベンチマークデータセットの手動改訂は、これらの短所を解決し、注釈のキュレーションに費やすお金のコストを示しています。ソース: https://arxiv.org/pdf/2504.15707

モデルがストリートシーンの画像を見せられ、そこに自転車があるかどうかを尋ねられたとします。モデルは「はい」と答えます。ベンチマークデータセットが自転車がないと言っている場合、モデルは「誤り」とマークされます。しかし、画像に自転車が明らかに見えていて、注釈の際に見逃された場合、モデルは正しく答えていました。ベンチマークが失敗しました。こうしたエラーは、データセット全体に蓄積し、どのモデルが正確で、どのモデルがハルシネーションに陥りやすいかという、歪んだ図を与えます。

したがって、不正確または曖昧な注釈が真実として扱われると、モデルは正しいときにハルシネーションを起こしているように見え、または正しくないときに正確であるように見え、ハルシネーションの測定とモデルのパフォーマンスのランキングを歪め、問題を確実に診断または解決することを困難にします。

新しい論文では、結論が導き出されました。つまり、ハルシネーション（AIシステムが私たちの意図を損なうものを発明するとき）が、システムの概念的なアーキテクチャに内在するものであり、避けられないものであるということです。

新しい論文は、Polling-based Object Probing Evaluation（POPE）と呼ばれる広く使用されているベンチマークに再び取り組みます。POPEは、ビジョン言語モデルが画像内のオブジェクトの存在または不存在を正しく識別できるかどうかをテストします。

POPEは、Microsoft COCO: Common Objects in Context（MSCOCO）データセットからのラベルに基づいています。これは、長い間、ある程度の注釈の精度を提供するものと見なされてきました。

POPEは、オブジェクトのハルシネーションを、大きなビジョン言語モデルで二値分類タスクとして再定式化することで評価します。生成されたキャプションを解析するのではなく、モデルに画像内の特定のオブジェクトの存在について「はい/いいえ」の質問をします。

ビジョン言語モデルにおけるオブジェクトのハルシネーションの例。太字のラベルは、元の注釈で存在するとマークされたオブジェクトを示し、赤いラベルはモデルによってハルシネーションされたオブジェクトを示しています。左の例は、伝統的な指示ベースの評価を反映していますが、右の3つの例は、POPEベンチマークのさまざまなバリアントから抽出されています。ソース: https://aclanthology.org/2023.emnlp-main.20.pdf

真のオブジェクト（答え：はい）は、サンプルされた非存在オブジェクト（答え：いいえ）とペアになります。これは、ランダム、頻繁（人気）、または共起ベース（アドバーサリアル）の戦略を使用して選択されます。このセットアップにより、複雑なルールベースのキャプション分析に依存しない、より安定した、プロンプトに依存しないハルシネーションの評価が可能になります。

新しい論文の著者は、RePOPE: POPEベンチマークでの注釈エラーの影響と題した論文で、POPEの精度を疑問視しています。つまり、POPEの画像（つまりMSCOCO）のラベルを再確認し、驚くほど多くのラベルが間違っているか不明確であることがわかりました。

2014年のMSCOCOデータセットの例。 ソース: https://arxiv.org/pdf/1405.0312

これらのエラーは、モデルのランキングを変更し、当初はうまく機能していたモデルが、修正されたラベルで評価されたときに後退することになります。

テストでは、著者は、さまざまなオープンウェイトのビジョン言語モデルを、元のPOPEベンチマークと修正されたRePOPEバージョンの両方で評価しました。

論文によると、修正された注釈は、特にF1スコアで、モデルのランキングに顕著な変化をもたらしました。POPEでは高性能だったモデルは、RePOPEでは後退しました。

著者は、このシフトが、注釈エラーがモデルの実際のハルシネーションの挙動をどれだけ隠しているかを示していると主張しています。彼らは、RePOPEを、ハルシネーションの脆弱性を評価するためのより信頼性の高いツールとして提示しています。

新しい論文の別の例では、元のPOPEキャプションが画像内の微妙なオブジェクト（右端の写真のトラムのキャビン横に座っている人や、左から2番目の写真のテニスプレーヤーに隠された椅子など）を認識できなかったことを示しています。

方法とテスト

研究者は、元のMSCOCOデータセットのすべての注釈を再ラベル付けしました。各データインスタンスに2人の人間のラベラーが割り当てられました。元のラベルの品質について曖昧さが生じた場合（以下の例のように）、これらの結果はテストラウンドから除外されました。

曖昧なケース。POPEのラベルの一貫性の欠如は、不明確なカテゴリ境界を反映しています。たとえば、テディベアがクマとしてラベル付けされたり、オートバイが自転車としてラベル付けされたり、空港の車両が自動車としてラベル付けされたりします。これらのケースは、主観的な分類の性質とMSCOCOの元のラベルの不一致のため、RePOPEから除外されます。

論文には次のように記載されています：

‘元の注釈者は、背景やガラスの後ろにいる人を見逃したり、テニスプレーヤーが背景の「椅子」を隠したり、コールスローにはカロットの小さな可視ストライプしか含まれていないことがあります。 ‘

‘一部のオブジェクトについては、COCOの注釈が非常に一貫性がない可能性があり、注釈者の間で異なる定義が使用されたためです。テディベアを「クマ」と分類したり、オートバイを「モータ化された自転車」と分類したり、空港の車両を「車」と分類したりすることは、特定の定義に依存します。したがって、これらのケースは「曖昧」として注釈付けされます。 ‘

再注釈の結果：陽性の質問はPOPEの3つのバリアントすべてで共有されています。POPEで「はい」とラベル付けされたもののうち、9.3パーセントが不正確であり、13.8パーセントが曖昧として分類されました。「いいえ」とラベル付けされた質問のうち、1.7パーセントが誤ってラベル付けされ、4.3パーセントが曖昧でした。

著者は、さまざまなオープンウェイトモデルを、POPEとRePOPEの両方で、さまざまなアーキテクチャとモデルサイズで評価しました。選択されたモデルには、OpenVLMのリーダーボード上のトップアーキテクチャの一部が含まれていました：InternVL2.5（8B/26B/38B/78Bおよび8B-MPO/26B-MPO）；LLaVA-NeXT；Vicuna；Mistral 7b；Llama；LLaVA-OneVision；Ovis2（1B/2B/4B/8B）；PaliGemma-3B；およびPaliGemma2（3B/10B）。

初期結果：元の陽性ラベルの高いエラー率により、すべてのモデルで真陽性が大きく低下します。偽陽性はサブセットによって異なり、ランダムサブセットではほぼ2倍になり、人気サブセットではほぼ変化せず、対抗サブセットではわずかに低下します。ラベルの再注釈は、F1ベースのランキングに大きな影響を及ぼします。POPEの人気サブセットと対抗サブセットでうまく機能したOvis2-4BやOvis2-8Bなどのモデルは、RePOPEのランダムサブセットでもトップに立っています。ソースPDFを参照してください。

結果グラフは、ラベルを修正した後の真陽性と偽陽性の数の変化を示しています。

真陽性はすべてのモデルで低下しました。これは、モデルが誤ったラベルで正しいと判断された回答で評価されていたことを示しています。一方、偽陽性は、サブセットによって異なるパターンを示しました。

ランダムサブセットでは、多くのモデルで偽陽性がほぼ2倍になりました。これは、実際には画像に存在していたが元の注釈では見逃されていたオブジェクトが多数あったことを示しています。この場合、多くのモデルエラーは、実際にはデータセットのラベル付けミスでした。

対抗サブセットでは、偽陽性が低下しました。これは、実際には画像に存在していたが元の注釈ではラベル付けされていなかったオブジェクトが多数あったことを反映しています。

精度と再現率は多少変化しましたが、モデルのランキングは両方のメトリックで比較的安定しました。

F1スコア（POPEの主な評価尺度）は、ラベル修正に対してはるかに敏感でした。ランダムサブセットでは、元のラベルで上位にランクインしていたモデル（InternVL2.5-8Bや-26Bなど）は、RePOPEで評価されたときに下位に低下しました。他のモデル（Ovis2-4BやOvis2-8Bなど）は、RePOPEでトップに立っています。

著者は、修正されたラベルをGitHubで公開し、ハルシネーションの評価をより信頼性の高いものにすることを支援しています。

ただし、著者は、RePOPEの再注釈はベンチマークの飽和を完全に解決していないことを指摘しています。多くのモデルは、真陽性率と真陰性率が90%を超えています。著者は、DASH-Bなどの追加のベンチマークをRePOPEと組み合わせて使用することを提案しています。これは、より挑戦的な負の例のセットを使用します。

結論

この特定の実験は、関与するデータセットの非常に小さなスケールのため可能でした。同じ仮説を超スケールデータセットで証明することは、データの非常に限定された断片で作業することを伴うため、ほぼ不可能です。非常に多様な大規模データセットでは、統計的に代表的なグループと意味的に整合性のあるグループを分離することは、結果を歪める可能性があります。

そうであっても、現代の最先端技術の下で、どのような対策が講じられるでしょうか。議論は、必然的に、人間の注釈がより良いもので、より豊富である必要があるという事実に戻ります。

この点では、「より良い」と「より豊富」は、それ自体が別々の問題です。注釈の量を増やすことは、Amazon Mechanical Turk（AMT）などの最低限の経済を通じて実行できます。明らかに、この潜在的に搾取的なサブエコノミーは、頻繁に劣った結果につながります。

代わりに、注釈タスクを、同じ出費でより多くの注釈を生み出すことができる経済地域に外注することができます。ただし、注釈者がモデルを形成するためのラベルの使用例から遠ざかるにつれて、その結果のモデルがターゲットドメインのニーズや期待と一致する可能性は低くなります。

これは、機械学習開発の経済学における最も持続性のある、未解決の課題の1つです。

2025年4月23日（水曜日）に初めて公開されました