スタブ Googleの研究者が多くのAIモデルの妨げとなるアンダースペックの問題を発見 - Unite.AI
私達と接続

Artificial Intelligence

Googleの研究者が多くのAIモデルの妨げとなるアンダースペックの問題を発見

mm
更新中 on

最近、Google の研究者チームは、AI モデルの失敗の一般的な原因を特定し、機械学習モデルがテストや開発時と現実世界ではまったく異なるパフォーマンスを発揮することが多い主な理由の 1 つとしてアンダースペックを挙げています。

機械学習モデルは、実験室では最適に動作していても、現実世界の設定でタスクに取り組むと失敗することがよくあります。トレーニング/開発と実際のパフォーマンスの間に不一致が発生する理由は数多くあります。現実世界のタスク中に AI モデルが失敗する最も一般的な理由の 1 つは、データ シフトとして知られる概念です。データ シフトとは、機械学習モデルの開発に使用されるデータの種類と、アプリケーション中にモデルに供給されるデータの間の根本的な違いを指します。一例として、高品質の画像データでトレーニングされたコンピューター ビジョン モデルは、モデルの日常環境にある低品質のカメラでキャプチャされたデータが供給されると、パフォーマンスが低下します。

MITテクノロジーレビューによると、Google の 40 人の異なる研究者からなるチームは、機械学習モデルのパフォーマンスがこれほど大きく異なる可能性がある別の理由を特定しました。 問題は「過小仕様」です。これは、観察された現象に多くの考えられる原因があり、そのすべてがモデルによって説明されるわけではない問題を説明する統計的な概念です。 研究のリーダーであるアレックス・ダムール氏によると、この問題は多くの機械学習モデルで目撃されており、この現象は「いたるところで起こっている」という。

機械学習モデルをトレーニングする一般的な方法には、分析して関連するパターンを抽出できる大量のデータをモデルに供給することが含まれます。 その後、モデルにはまだ見たことのないサンプルが与えられ、学習した特徴に基づいてそれらのサンプルの性質を予測するように求められます。 モデルが一定レベルの精度に達すると、通常、トレーニングは完了したとみなされます。

Google 研究チームによると、モデルがトレーニング以外のデータに対して真に一般化できるようにするには、さらに多くのことを行う必要があるとのことです。 機械学習モデルをトレーニングする古典的な方法では、すべてがテストに合格する可能性のあるさまざまなモデルが生成されますが、これらのモデルは、重要ではないように見える小さな点で異なりますが、そうではありません。 モデル内の異なるノードには、異なるランダム値が割り当てられます。あるいは、トレーニング データが異なる方法で選択または表現される可能性があります。 これらの変動は小さく、多くの場合任意であり、トレーニング中のモデルのパフォーマンスに大きな影響を与えない場合は、見落とされがちです。 ただし、これらすべての小さな変更の影響が積み重なると、現実のパフォーマンスに大きな変動をもたらす可能性があります。

この過小仕様は、たとえトレーニング プロセスで優れたモデルを生成できたとしても、貧弱なモデルも生成する可能性があり、モデルが本番環境を終了して使用に入るまで違いが発見されないことを意味するため、問題があります。

アンダースペックの影響を評価するために、研究チームはさまざまなモデルを調査しました。 すべてのモデルは同じトレーニング プロセスを使用してトレーニングされ、その後、パフォーマンスの違いを強調するためにモデルに一連のテストが実施されました。 ある例では、50 の異なるバージョンの画像認識システムが ImageNet データセットでトレーニングされました。 モデルは、トレーニングの開始時にランダムに割り当てられたニューラル ネットワーク値を除いて、すべて同じでした。 モデルの違いを判断するために使用されるストレス テストは、コントラストまたは明るさの調整によって変更された画像で構成される元のデータセットのバリエーションである ImageNet-C を使用して実行されました。 モデルは、日常の物体を異常な方向と文脈でフィーチャーした一連の画像である ObjectNet 上でもテストされました。 トレーニング データセットでは 50 のモデルすべてがほぼ同じパフォーマンスを示していましたが、モデルがストレス テストを実行されるとパフォーマンスは大きく変動しました。

研究チームは、XNUMX つの異なる NLP システムをトレーニングおよびストレス テストしたとき、また他のさまざまなコンピューター ビジョン モデルをテストしたときにも、同様の結果が発生したことを発見しました。 いずれの場合も、すべてのモデルのトレーニング プロセスは同じであったにもかかわらず、モデルは互いに大きく異なりました。

D'Amour 氏によると、機械学習の研究者やエンジニアは、モデルを世に出す前にさらに多くのストレス テストを行う必要があるとのことです。 ストレス テストは現実世界のデータを使用して特定のタスクに合わせて調整する必要があり、特定のタスクやコンテキストではデータを入手するのが難しいため、これを行うのは困難な場合があります。 アンダースペックの問題に対する潜在的な解決策の XNUMX つは、一度に多くのモデルを作成し、そのモデルを一連の実世界のタスクでテストし、常に最良の結果を示すモデルを選択することです。 この方法でモデルを開発するには多くの時間とリソースが必要ですが、特に安全性が最優先される医療分野やその他の分野で使用される AI モデルの場合、トレードオフにはそれだけの価値がある可能性があります。 ダムール氏が説明したように MITテクノロジーレビュー経由:

「モデルに対する要件を正確に指定する方法をさらに改善する必要があります。 なぜなら、多くの場合、モデルが世に出て失敗した後に初めてこれらの要件が見つかるということが起こるからです。」