Andersonの視点10 months ago
大規模言語モデルは、自身をテストするためのデータセットを記憶している
AIに視聴、読書、購入の推薦を頼る場合、新たな研究によると、一部のシステムはこれらの結果を記憶に基づいて出している可能性があります:有用な提案を行うことを学習する代わりに、モデルは評価に使用されたデータセットの項目をしばしば想起し、過大評価された性能と、ユーザーにとって時代遅れまたは不適切な推薦につながります。 機械学習において、テスト分割は、訓練されたモデルが、訓練に使用された素材と類似しているが同一ではない問題を解決することを学習したかどうかを確認するために使用されます。 したがって、新しいAI「犬種認識」モデルが10万枚の犬の画像データセットで訓練された場合、通常は80/20分割が採用されます – 8万枚の画像がモデル訓練に提供され、2万枚の画像は控えられ、完成したモデルのテスト材料として使用されます。 言うまでもなく、AIの訓練データに「秘密の」20%のテスト分割が誤って含まれている場合、モデルはこれらのテストで完璧な成績を収めるでしょう。なぜなら、答えを既に知っているからです(ドメインデータの100%を既に見ている)。もちろん、これは本番環境で新しい「ライブ」データに対してモデルが後ほどどのように機能するかを正確に反映するものではありません。 映画のネタバレ AIが試験で不正を行う問題は、モデル自体の規模に比例して拡大してきました。今日のシステムはCommon Crawlのような広範で無差別なウェブスクレイピングコーパスで訓練されているため、ベンチマークデータセット(つまり、控えられた20%)が訓練データに紛れ込む可能性は、もはや例外的なケースではなく、デフォルトとなっています – これはデータ汚染として知られる症候群です。そしてこの規模では、そのようなエラーを捕捉できる手作業によるキュレーションは、実務的に不可能です。 このケースは、イタリアのポリテクニコ・ディ・バーリ大学の新しい論文で探究されており、研究者らは単一の映画推薦データセット、MovieLens-1Mの過大な役割に焦点を当てています。彼らは、このデータセットがいくつかの主要なAIモデルによって訓練中に部分的に記憶されていると主張しています。 この特定のデータセットは推薦システムのテストで非常に広く使用されているため、モデルの記憶内にその存在があることは、それらのテストを無意味にする可能性があります:知性のように見えるものは、実際には単純な想起であり、直感的な推薦スキルのように見えるものは、以前の曝露を反映した統計的なエコーに過ぎないかもしれません。 著者らは次のように述べています: 「我々の発見は、LLMがMovieLens-1Mデータセットの項目、ユーザー属性、インタラクション履歴を広範に知っていることを示しています。注目すべきは、単純なプロンプトによりGPT-4oが[データセット内のほとんどの映画の名前の]ほぼ80%を回復できることです。調査したモデルのいずれもこの知識から自由ではなく、MovieLens-1Mデータがそれらの訓練セットに含まれている可能性が高いことを示唆しています。ユーザー属性とインタラクション履歴の取得においても同様の傾向が観察されました。」 この短い新しい論文はDo LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1Mと題され、ポリテクニコの6人の研究者によるものです。彼らの研究を再現するためのパイプラインはGitHubで公開されています。...