Artificial Intelligence
機械学習モデルの実行中にスマートフォンを涼しく保つ方法
オースティン大学とカーネギーメロン大学の研究者らは、スマートフォンなどのモバイルデバイスや低電力のエッジデバイス上で、トリガーなしで計算コストの高い機械学習モデルを実行する新しい方法を提案しました。 サーマルスロットリング – 業務用および民生用デバイスに共通の保護メカニズムで、許容可能な動作温度が再び得られるまで、ホスト デバイスのパフォーマンスを低下させることによってホスト デバイスの温度を下げるように設計されています。
新しいアプローチは、ホストスマートフォンなどの安定性を脅かすことなく、より複雑な ML モデルが推論やその他のさまざまなタイプのタスクを実行できるようにする可能性があります。
中心となるアイデアは次のとおりです。 動的ネットワークここで、 重み モデルのローカル機械学習モデルの「低圧力」バージョンと「フル強度」バージョンの両方からアクセスできます。
機械学習モデルのローカルインストールの動作によりデバイスの温度が重大な上昇を引き起こす場合、モデルは温度が安定するまで要求の少ないモデルに動的に切り替わり、その後本格的なモデルに戻ります。バージョン。
研究者らは、2019 Honor V30 Pro スマートフォンと Raspberry Pi 4B 4GB でコンピューター ビジョンと自然言語処理 (NLP) モデルの概念実証テストを実施しました。
結果 (スマートフォンの場合) から、下の画像では、使用に応じてホスト デバイスの温度が上下していることがわかります。 赤い線は実行中のモデルを表します。 無し ダイナミックシフト。
結果は非常に似ているように見えますが、実際はそうではありません。気温の波動の原因は何ですか。 青 行(すなわち、新しい論文の方法を使用すること)は、より単純なモデルのバージョンとより複雑なモデルのバージョンを行ったり来たりすることです。 操作のどの時点でもサーマル スロットルはトリガーされません。
この場合、気温が上がったり下がったりする原因は何ですか? 赤 ラインは、デバイスのサーマル スロットルが自動的に作動し、モデルの動作が遅くなり、遅延が増加します。
モデルの有用性に関しては、以下の画像で、熱的にスロットルされている間の非支援モデルのレイテンシが大幅に高いことがわかります。
同時に、上の画像では、Dynamic Shifting によって管理されているモデルのレイテンシーにほとんど変化がなく、全体的に応答性が維持されていることがわかります。
エンド ユーザーにとって、待ち時間が長いということは待ち時間が長くなることを意味し、タスクの放棄やタスクをホストするアプリへの不満の原因となる可能性があります。
(コンピューター ビジョンではなく) NLP システムの場合、タスクは迅速な応答 (自動翻訳や障害のあるユーザーを支援するユーティリティなど) に依存している可能性があるため、応答時間が長いとさらに不安になる可能性があります。
リアルタイム VR/AR など、真にタイム クリティカルなアプリケーションの場合、レイテンシが高くなると、モデルの中核となる有用性が事実上損なわれてしまいます。
研究者らは次のように述べています。
「私たちは、サーマル スロットリングは遅延が重要なモバイル ML アプリケーションにとって深刻な脅威となると主張します。 たとえば、ビデオ ストリーミングやゲームのリアルタイム ビジュアル レンダリング中に、フレームあたりの処理遅延が突然急増すると、ユーザー エクスペリエンスに大きな悪影響を及ぼします。 また、最新のモバイル オペレーティング システムは、iOS の VoiceOver や Android の TalkBack など、視覚障害のある人向けの特別なサービスやアプリケーションを提供することがよくあります。
「ユーザーは通常、音声に完全に依存して携帯電話を操作するため、これらのサービスの品質はアプリケーションの応答性や遅延に大きく依存します。」
紙 というタイトルです クールにプレイ: 動的シフトによりサーマルスロットリングを防止、UoA の XNUMX 人の研究者の共同研究です。 カーネギーメロンからのXNUMXつ。 もう XNUMX 人は両方の機関を代表します。
CPUベースのモバイルAI
ダイナミック シフティングとマルチスケール アーキテクチャは、 確立されていて活動的である 研究分野では、ほとんどの取り組みはハイエンドの計算デバイスのアレイに集中しており、現時点での取り組みの重点は、ローカル (つまりデバイスベース) ニューラル ネットワークの集中的な最適化に分かれており、通常は、目的ではなく推論を目的としています。トレーニング、および専用モバイル ハードウェアの改善。
研究者らが実施したテストは、GPU チップではなく CPU で実施されました。 にもかかわらず 関心の高まり モバイル機械学習アプリケーションでローカル GPU リソースを活用する場合 (さらには モバイルデバイスで直接トレーニング、その 品質を向上させることができる 最終モデルの)、GPU は通常、より多くの電力を消費します。これは、AI が (クラウド サービスから) 独立してリソースが限られたデバイスで役立つようにするための重要な要素です。
重み共有のテスト
このプロジェクトでテストされたネットワークは次のとおりです。 スリム化可能なネットワーク および ダイナバート、それぞれコンピュータ ビジョンと NLP ベースのタスクを表します。
色々あったのに イニシアチブ モバイルデバイス上で効率的かつ経済的に実行できる BERT の反復を行うために、いくつかの試みが行われています。 批判された 新しい論文の研究者らは、モバイル分野での BERT の使用は課題であり、「一般的に BERT モデルは携帯電話には計算量が多すぎる」と指摘しています。
DynaBERT は、Google の強力な機能を最適化する中国の取り組みです。 NLP/NLU フレームワーク リソースが枯渇した環境のコンテキストへ。 しかし、この BERT の実装でさえ、非常に要求が厳しいことが研究者らは発見しました。
それにもかかわらず、著者はスマートフォンと Raspberry PI デバイスの両方で XNUMX つの実験を実行しました。 CV 実験では、ランダムに選択された XNUMX つの画像が継続的に繰り返し処理されました。 レスネット50 これは分類タスクとして実行され、実験の実行時間の XNUMX 時間全体にわたってサーマル スロットリングを呼び出すことなく、安定して実行できました。
論文は次のように述べています。
「ある程度の精度は犠牲になるかもしれませんが、提案されているダイナミック シフトは推論速度が速くなります。 最も重要なことは、私たちのダイナミック シフティング アプローチは一貫した推論を享受できることです。」
NLP テストの場合、著者らは DynaBERT スイートの 1.4 つの最小モデルの間で実験を変更するように設定しましたが、70 倍の遅延では BERT が約 65° でスロットルすることがわかりました。 したがって、動作温度が XNUMX°に達したときにシフトダウンが発生するように設定されています。
BERT 実験では、インストールで質問と回答のペアに対して継続的に推論を実行させました。 GLUE の ONLI データセット.
野心的な BERT タスクでは、コンピューター ビジョンの実装よりも遅延と精度のトレードオフがより厳しくなり、スロットルを回避するためにデバイスの温度を制御する必要性がさらに厳しくなり、精度が犠牲になりました。
著者らは次のように観察しています。
一般に、モデルの計算量が膨大であるため、動的シフティングでは BERT モデルのサーマル スロットルを防ぐことはできません。 ただし、いくつかの制限の下では、携帯電話に BERT モデルを展開するときに動的なシフトが依然として役立つ可能性があります。
著者らは、BERT モデルでは Honor V30 電話機の CPU 温度が 80 秒以内に 32° まで上昇し、XNUMX 分以内のアクティビティでサーマル スロットルが起動されることを発見しました。 したがって、著者らは半幅 BERT モデルのみを使用しました。
実験は Raspberry PI セットアップで繰り返され、この技術はその環境でもサーマル スロットリングのトリガーを防ぐことができました。 ただし、著者らは、Raspberry PIは、ぎっしりと詰め込まれたスマートフォンと同じような極端な熱制約下では動作しないと指摘しており、適度に装備された処理環境におけるこの手法の有効性をさらに実証するために、この大量の実験を追加したようだ。
初版は23年2022月XNUMX日。