Connect with us

大規模言語モデルは、テストするためのデータセットを暗記している

Andersonの視点

大規模言語モデルは、テストするためのデータセットを暗記している

mm
'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

AIに頼って何を見たり、読んだり、買ったりすることを推薦する場合は、新しい研究によると、一部のシステムは、記憶からではなく、スキルから結果を出すことがあります。つまり、有用な提案を作ることを学ぶのではなく、モデルは評価に使用されるデータセットからのアイテムを思い出すことが多く、それにより、パフォーマンスが過大評価され、ユーザーに合っていない、または古い推薦が行われる可能性があります。

 

機械学習では、テスト分割を使用して、トレーニングされたモデルがトレーニングに使用された素材と似ているが同じではない問題を解決することを学んだかどうかを確認します。

したがって、新しいAIの「犬の品種認識」モデルが10万枚の犬の写真のデータセットでトレーニングされた場合、通常、80/20の分割が特徴です。80,000枚の写真がモデルをトレーニングするために提供され、20,000枚の写真が保持されてテスト用の素材として使用されます。

明らかなことですが、AIのトレーニングデータが意図せずに「秘密」の20%のテスト分割セクションを含む場合、モデルはこれらのテストをパーフェクトにします。なぜなら、モデルはすでに答えを知っているからです(100%のドメインデータを見たことがあるため)。当然、これはモデルが後の「ライブ」データで、生産環境でどのように実行されるかを正確に反映していません。

映画のネタバレ

AIが試験で不正行為を行う問題は、モデルのスケールとともに成長しています。今日のシステムは、Common Crawlなどの巨大な、無差別なWebスクレイピングコーパスでトレーニングされているため、ベンチマークデータセット(つまり、保持された20%)がトレーニングミックスに混入する可能性は、エッジケースではなくなりました。デフォルトになりました。データ汚染と呼ばれる症候群です。 この規模では、エラーを検出できる手動キュレーションは、論理的に不可能です。

イタリアのポリテクニコ・ディ・バーリの新しい論文では、研究者は、MovieLens-1Mという単一の映画推薦データセットの役割に焦点を当てています。彼らは、複数の主要なAIモデルがトレーニング中に部分的に暗記されたと主張しています。

この特定のデータセットは、レコメンダーシステムのテストに広く使用されているため、モデルのメモリ内の存在は、これらのテストを無意味にする可能性があります。知能と思われるものは、実際には単純な回想であり、直感的なレコメンドスキルと思われるものは、以前の露出を反映した統計的なエコーにすぎない可能性があります。

著者は以下のように述べています:

‘私たちの調査結果は、LLMがMovieLens-1Mデータセットに関する広範な知識を持っていることを示しています。アイテム、ユーザー属性、インタラクション履歴を網羅しています。

‘特に、GPT-4oは、シンプルなプロンプトでデータセット内のほとんどの映画の名前を約80%回復できることがわかりました。

‘調査対象のモデルはすべて、この知識から免れておらず、MovieLens-1Mデータがトレーニングセットに含まれている可能性が高いことを示唆しています。

‘ユーザー属性やインタラクション履歴の取得についても同様の傾向が見られました。 ‘

新しい論文は、Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1Mというタイトルで、ポリテクニコの6人の研究者によって書かれました。研究を再現するためのパイプラインは、GitHubで利用可能です。

方法

モデルの学習と単なる回想を区別するために、研究者は最初にこの文脈での暗記の意味を定義し、MovieLens-1Mデータセットからの特定の情報をモデルが回復できるかどうかをテストしました。

モデルが映画のID番号を見せられ、タイトルとジャンルを生成できる場合、それはアイテムの暗記とみなされました。モデルがユーザーIDからユーザーの詳細(年齢、職業、郵便番号など)を生成できる場合、それもユーザーの暗記とみなされました。モデルが既知のシーケンスからのユーザーの次の映画評価を再現できる場合、それはモデルが一般的なパターンを学習しているのではなく、特定のインタラクションデータを回想している証拠とみなされました。

これらの回想の各形式は、モデルに新しい情報を与えることなく、モデルを促すように工夫されたプロンプトを使用してテストされました。応答が正確であるほど、モデルがすでにトレーニング中にそのデータに遭遇していた可能性が高くなりました:

新しい論文で使用された評価プロトコルのゼロショット・プロンプティング

新しい論文で使用された評価プロトコルのゼロショット・プロンプティング ソース: https://arxiv.org/pdf/2505.10212

データとテスト

適切なデータセットをキュレーションするために、著者は、分野の2つの主要なカンファレンスからの最近の論文を調査しました。 ACM RecSys 2024ACM SIGIR 2024。MovieLens-1Mは最も頻繁に出現し、約5分の1の提出物で引用されました。 以前の研究が同様の結論に達していたため、これは驚くことではありませんでしたが、データセットの優位性を確認するものでした。

MovieLens-1Mは3つのファイルで構成されています。 Movies.datは、映画をID、タイトル、ジャンルでリストします。 Users.datは、ユーザーIDを基本的な伝記フィールドにマップします。 Ratings.datは、誰が何を評価し、いつ評価したかを記録しています。

このデータが大規模言語モデルによって暗記されているかどうかを調べるために、研究者は最初に論文で導入されたプロンプティング技術に頼りました。 Extracting Training Data from Large Language Models、そして後に後の研究で適応された。 Bag of Tricks for Training Data Extraction from Language Models

方法は直接的です。データセット形式を反映する質問を投げかけて、モデルが正しく回答できるかどうかを確認します。 ゼロショット思考の連鎖ファーショット・プロンプティングがテストされ、最後の方法が最も効果的であることがわかりました。より複雑なアプローチの方がより高いリコールをもたらす可能性がありますが、これは何が記憶されているかを明らかにするのに十分であると考えられました。

最小のコンテキストで特定のMovieLens-1Mの値を再現できるかどうかをテストするために使用されるファーショット・プロンプト

最小のコンテキストで特定のMovieLens-1Mの値を再現できるかどうかをテストするために使用されるファーショット・プロンプト

記憶を測定するために、研究者は3つの回想形式を定義しました。 アイテムユーザーインタラクション。これらのテストでは、モデルがIDから映画のタイトルを回復できるか、ユーザーIDからユーザーの詳細を生成できるか、または以前のものに基づいてユーザーの次の評価を予測できるかを調べました。各回想は、データセットのどれだけがプロンプティングによって再構築できるかを反映するカバレッジ・メトリックを使用してスコア付けされました。

テストされたモデルは、GPT-4oGPT-4o miniGPT-3.5 turboLlama-3.3 70BLlama-3.2 3BLlama-3.2 1BLlama-3.1 405BLlama-3.1 70B;および Llama-3.1 8B。すべてのモデルは、温度を0に設定して実行され、top_pを1に設定し、頻度と存在の罰則を無効にしました。固定されたランダムシードにより、実行ごとに一貫した出力が保証されました。

movies.dat、users.dat、ratings.datからのMovieLens-1Mのエントリの割合を、モデルをバージョン別にグループ化してパラメータ数で並べたもの

movies.dat、users.dat、ratings.datからのMovieLens-1Mのエントリの割合を、モデルをバージョン別にグループ化してパラメータ数で並べたもの

データセットがどれだけ深く吸収されたかを調べるために、研究者は各モデルにデータセットの3つのファイル(先ほど述べたもの)からの正確なエントリをプロンプティングしました。 Movies.datUsers.datRatings.dat

初期テストの結果は、GPTとLlamaファミリー間で、またモデルサイズ間で大きな違いがあることを示しています。GPT-4oとGPT-3.5 turboはデータセットの大部分を容易に回復しますが、ほとんどのオープンソースモデルは同じ素材のわずかな部分しか回復できません。これは、事前トレーニングでこのベンチマークにばらつきのある露出があったことを示唆しています。

これらは小さな差ではありません。3つのファイル全体で、最も強力なモデルは、弱いモデルをわずかに上回っただけでなく、MovieLens-1Mの全体の部分を回復しました。

GPT-4oの場合、カバレッジは、データセットの非小さな部分が直接暗記されたことを示唆するのに十分でした。

著者は以下のように述べています:

‘私たちの調査結果は、LLMがMovieLens-1Mデータセットに関する広範な知識を持っていることを示しています。アイテム、ユーザー属性、インタラクション履歴を網羅しています。

‘特に、GPT-4oは、シンプルなプロンプトでデータセット内のほとんどの映画の名前を約80%回復できることがわかりました。

‘調査対象のモデルはすべて、この知識から免れておらず、MovieLens-1Mデータがトレーニングセットに含まれている可能性が高いことを示唆しています。

‘ユーザー属性やインタラクション履歴の取得についても同様の傾向が見られました。 ‘

次に、研究者は、暗記がレコメンドタスクに与える影響をテストするために、各モデルをレコメンダーシステムとして動作させるようプロンプティングしました。パフォーマンスをベンチマークするために、彼らは出力を7つの標準方法と比較しました。 UserKNNItemKNNBPRMFEASERLightGCNMostPop;およびRandom。

MovieLens-1Mデータセットは、Leave-One-Outサンプリング戦略を使用して、80/20の割合でトレーニングセットとテストセットに分割されました。リアルワールドの使用をシミュレートするために。使用されたメトリックは、Hit Rate(HR@[n])とnDCG(@[n])でした:

標準ベースラインとLLMベースの方法のレコメンデーションの精度。モデルはファミリー別にグループ化され、パラメータ数で並べられ、ボールド値は各グループ内で最高のスコアを示します。

標準ベースラインとLLMベースの方法のレコメンデーションの精度。モデルはファミリー別にグループ化され、パラメータ数で並べられ、ボールド値は各グループ内で最高のスコアを示します。

ここで、大規模言語モデルはすべてのメトリックで従来のベースラインを上回りました。GPT-4oは各列で大きなリードを確立し、GPT-3.5 turboやLlama-3.1 405Bのような中規模モデルは、BPRMFやLightGCNのようなベンチマーク方法を一貫して上回りました。

小さいLlamaバリアントではパフォーマンスが大きく異なりましたが、Llama-3.2 3Bは、グループ内で最高のHR@1を達成しました。

結果は、著者によると、暗記されたデータがレコメンダー形式のプロンプティングでの測定可能な利点に変換されることを示唆しています。特に、最も強力なモデルではそうです。

さらに、研究者は以下を観察しました:

‘表2と表1を比較すると、興味深いパターンが見られます。各グループ内で、暗記が高いモデルは、レコメンデーションタスクでも優れたパフォーマンスを示しています。

‘たとえば、GPT-4oはGPT-4o miniを上回り、Llama-3.1 405BはLlama-3.1 70Bと8Bを上回ります。

‘これらの結果は、LLMをトレーニングデータに漏洩したデータセットで評価すると、過大評価されたパフォーマンスにつながり、記憶によって推進されるのではなく、一般化によって推進されるのではないかということを強調しています。 ‘

モデルのスケールがこの問題に与える影響について、著者は、サイズ、暗記、レコメンデーションのパフォーマンスの間に関連性が見られたことを観察しました。大規模モデルは、MovieLens-1Mデータセットをより多く保持しているだけでなく、ダウンストリームタスクでもより強力に実行されます。

たとえば、Llama-3.1 405Bは平均12.9%の暗記率を示しましたが、Llama-3.1 8Bはわずか5.82%を保持しました。この暗記の約55%の減少は、評価カットオフ全体でnDCGの54.23%とHRの47.36%の低下と一致しました。

パターンは整合性がありました。暗記が減少するにつれて、明らかなパフォーマンスも減少しました:

‘これらの調査結果は、モデルのスケールを増加させることで、データセットの暗記が増加し、パフォーマンスが向上することを示唆しています。

‘したがって、大規模モデルはレコメンデーションのパフォーマンスが向上しますが、トレーニングデータの潜在的な漏洩にも関連するリスクがあります。 ‘

最終的なテストでは、MovieLens-1Mに組み込まれた人気バイアスが、暗記を反映するかどうかを調べました。アイテムはインタラクションの頻度でグループ化され、以下のグラフは、大規模モデルが一貫して最も人気のあるエントリを優先することを示しています:

モデル別の3つの人気ティア(上位20%最も人気、20%中位のやや人気、20%下位の最もやや人気のないアイテム)におけるアイテムのカバレッジ

モデル別の3つの人気ティア(上位20%最も人気、20%中位のやや人気、20%下位の最もやや人気のないアイテム)におけるアイテムのカバレッジ

GPT-4oは上位ランクのアイテムの89.06%を回復しましたが、最もやや人気のないアイテムの63.97%しか回復しませんでした。GPT-4o miniと小さいLlamaモデルは、すべてのバンドでカバレッジが大幅に低下しました。研究者は、この傾向が、モデルのスケールが増加するにつれて、トレーニングデータの既存の不均衡が増幅されることを示唆していることを示しています。

彼らは続けています:

‘私たちの調査結果は、LLMに明らかな人気バイアスがあることを示しています。上位20%の最も人気のあるアイテムは、最もやや人気のないアイテムの下位20%よりも回復しやすいということです。

‘この傾向は、トレーニングデータの分布の影響を強調しています。ここでは、人気の映画が過剰に表現されており、モデルによって不釣り合いなほど暗記されています。 ‘

結論

ジレンマは新しいものではありません。トレーニングセットが成長するにつれて、それらをキュレーションする可能性は逆比例して減少します。MovieLens-1Mは、おそらく他にも、膨大なデータの量の中で無視されています。

問題はすべてのスケールで繰り返され、自動化に抵抗します。解決策を実現するには、努力と人間の判断が必要です。機械が提供できない、遅く、誤りやすい判断です。この点では、新しい論文は前進する方法を提供していません。

 

* このコンテキストでのカバレッジ・メトリックは、言語モデルが質問に対して正しく回答できるデータセットの割合を示すパーセンテージです。モデルが映画のIDを提示され、正しいタイトルとジャンルで応答した場合、それは成功した回想とみなされます。成功した回想の総数は、データセット内のエントリの総数で割り、カバレッジ・スコアが算出されます。たとえば、モデルが1,000アイテムのうち800アイテムについて正しい情報を返した場合、そのカバレッジは80%になります。

初めて2025年5月16日に公開

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。