スタブ 機械学習モデルの実行中にスマートフォンを涼しく保つ方法 - Unite.AI
私達と接続

Artificial Intelligence

機械学習モデルの実行中にスマートフォンを涼しく保つ方法

mm
更新中 on
ソース画像: 「新しい Samsung Galaxy S20 Ultra を持つ若い男性」、Jonas Leupe 著、Unsplash - https://unsplash.com/photos/wK-elt11pF0

オースティン大学とカーネギーメロン大学の研究者らは、スマートフォンなどのモバイルデバイスや低電力のエッジデバイス上で、トリガーなしで計算コストの高い機械学習モデルを実行する新しい方法を提案しました。 サーマルスロットリング – 業務用および民生用デバイスに共通の保護メカニズムで、許容可能な動作温度が再び得られるまで、ホスト デバイスのパフォーマンスを低下させることによってホスト デバイスの温度を下げるように設計されています。

新しいアプローチは、ホストスマートフォンなどの安定性を脅かすことなく、より複雑な ML モデルが推論やその他のさまざまなタイプのタスクを実行できるようにする可能性があります。

中心となるアイデアは次のとおりです。 動的ネットワークここで、 重み モデルのローカル機械学習モデルの「低圧力」バージョンと「フル強度」バージョンの両方からアクセスできます。

機械学習モデルのローカルインストールの動作によりデバイスの温度が重大な上昇を引き起こす場合、モデルは温度が安定するまで要求の少ないモデルに動的に切り替わり、その後本格的なモデルに戻ります。バージョン。

テスト タスクは、画像分類ジョブと質問応答自然言語推論 (QNLI) タスクで構成されており、どちらの操作もモバイル AI アプリケーションに関与すると考えられます。 出典: https://arxiv.org/pdf/2206.10849.pdf

テスト タスクは、画像分類ジョブと質問応答自然言語推論 (QNLI) タスクで構成されており、どちらの操作もモバイル AI アプリケーションに関与すると考えられます。 出典:https://arxiv.org/pdf/2206.10849.pdf

研究者らは、2019 Honor V30 Pro スマートフォンと Raspberry Pi 4B 4GB でコンピューター ビジョンと自然言語処理 (NLP) モデルの概念実証テストを実施しました。

結果 (スマートフォンの場合) から、下の画像では、使用に応じてホスト デバイスの温度が上下していることがわかります。 赤い線は実行中のモデルを表します。 無し ダイナミックシフト。

結果は非常に似ているように見えますが、実際はそうではありません。気温の波動の原因は何ですか。 行(すなわち、新しい論文の方法を使用すること)は、より単純なモデルのバージョンとより複雑なモデルのバージョンを行ったり来たりすることです。 操作のどの時点でもサーマル スロットルはトリガーされません。

この場合、気温が上がったり下がったりする原因は何ですか? ラインは、デバイスのサーマル スロットルが自動的に作動し、モデルの動作が遅くなり、遅延が増加します。

モデルの有用性に関しては、以下の画像で、熱的にスロットルされている間の非支援モデルのレイテンシが大幅に高いことがわかります。

同時に、上の画像では、Dynamic Shifting によって管理されているモデルのレイテンシーにほとんど変化がなく、全体的に応答性が維持されていることがわかります。

エンド ユーザーにとって、待ち時間が長いということは待ち時間が長くなることを意味し、タスクの放棄やタスクをホストするアプリへの不満の原因となる可能性があります。

(コンピューター ビジョンではなく) NLP システムの場合、タスクは迅速な応答 (自動翻訳や障害のあるユーザーを支援するユーティリティなど) に依存している可能性があるため、応答時間が長いとさらに不安になる可能性があります。

リアルタイム VR/AR など、真にタイム クリティカルなアプリケーションの場合、レイテンシが高くなると、モデルの中核となる有用性が事実上損なわれてしまいます。

研究者らは次のように述べています。

「私たちは、サーマル スロットリングは遅延が重要なモバイル ML アプリケーションにとって深刻な脅威となると主張します。 たとえば、ビデオ ストリーミングやゲームのリアルタイム ビジュアル レンダリング中に、フレームあたりの処理遅延が突然急増すると、ユーザー エクスペリエンスに大きな悪影響を及ぼします。 また、最新のモバイル オペレーティング システムは、iOS の VoiceOver や Android の TalkBack など、視覚障害のある人向けの特別なサービスやアプリケーションを提供することがよくあります。

「ユーザーは通常、音声に完全に依存して携帯電話を操作するため、これらのサービスの品質はアプリケーションの応答性や遅延に大きく依存します。」

ダイナミック シフティングによる BERT w50 d50 のパフォーマンスを単独で示したグラフ。 Dynamic Shifting (青) のレイテンシの均一性に注目してください。

BERT w50 d50 のパフォーマンスを、補助なし (赤) とダイナミック シフティング (青) を利用した場合のグラフで示します。 Dynamic Shifting (青) のレイテンシの均一性に注目してください。

  というタイトルです クールにプレイ: 動的シフトによりサーマルスロットリングを防止、UoA の XNUMX 人の研究者の共同研究です。 カーネギーメロンからのXNUMXつ。 もう XNUMX 人は両方の機関を代表します。

CPUベースのモバイルAI

ダイナミック シフティングとマルチスケール アーキテクチャは、 確立されていて活動的である 研究分野では、ほとんどの取り組みはハイエンドの計算デバイスのアレイに集中しており、現時点での取り組みの重点は、ローカル (つまりデバイスベース) ニューラル ネットワークの集中的な最適化に分かれており、通常は、目的ではなく推論を目的としています。トレーニング、および専用モバイル ハードウェアの改善。

研究者らが実施したテストは、GPU チップではなく CPU で実施されました。 にもかかわらず 関心の高まり モバイル機械学習アプリケーションでローカル GPU リソースを活用する場合 (さらには モバイルデバイスで直接トレーニング、その 品質を向上させることができる 最終モデルの)、GPU は通常、より多くの電力を消費します。これは、AI が (クラウド サービスから) 独立してリソースが限られたデバイスで役立つようにするための重要な要素です。

重み共有のテスト

このプロジェクトでテストされたネットワークは次のとおりです。 スリム化可能なネットワーク および ダイナバート、それぞれコンピュータ ビジョンと NLP ベースのタスクを表します。

色々あったのに イニシアチブ モバイルデバイス上で効率的かつ経済的に実行できる BERT の反復を行うために、いくつかの試みが行われています。 批判された 新しい論文の研究者らは、モバイル分野での BERT の使用は課題であり、「一般的に BERT モデルは携帯電話には計算量が多すぎる」と指摘しています。

DynaBERT は、Google の強力な機能を最適化する中国の取り組みです。 NLP/NLU フレームワーク リソースが枯渇した環境のコンテキストへ。 しかし、この BERT の実装でさえ、非常に要求が厳しいことが研究者らは発見しました。

それにもかかわらず、著者はスマートフォンと Raspberry PI デバイスの両方で XNUMX つの実験を実行しました。 CV 実験では、ランダムに選択された XNUMX つの画像が継続的に繰り返し処理されました。 レスネット50 これは分類タスクとして実行され、実験の実行時間の XNUMX 時間全体にわたってサーマル スロットリングを呼び出すことなく、安定して実行できました。

論文は次のように述べています。

「ある程度の精度は犠牲になるかもしれませんが、提案されているダイナミック シフトは推論速度が速くなります。 最も重要なことは、私たちのダイナミック シフティング アプローチは一貫した推論を享受できることです。」

ResNet50 を補助なしで、Slimmable ResNet50 x1.0 と x0.25 バージョンの間で動的にシフトしながら、連続画像分類タスクで XNUMX 分間実行します。

ResNet50 を補助なしで、Slimmable ResNet50 x1.0 と x0.25 バージョンの間で動的にシフトしながら、連続画像分類タスクで XNUMX 分間実行します。

NLP テストの場合、著者らは DynaBERT スイートの 1.4 つの最小モデルの間で実験を変更するように設定しましたが、70 倍の遅延では BERT が約 65° でスロットルすることがわかりました。 したがって、動作温度が XNUMX°に達したときにシフトダウンが発生するように設定されています。

BERT 実験では、インストールで質問と回答のペアに対して継続的に推論を実行させました。 GLUE の ONLI データセット.

野心的な BERT タスクでは、コンピューター ビジョンの実装よりも遅延と精度のトレードオフがより厳しくなり、スロットルを回避するためにデバイスの温度を制御する必要性がさらに厳しくなり、精度が犠牲になりました。

XNUMX つの分野のタスクにわたる研究者の実験の待ち時間と精度。

XNUMX つの分野のタスクにわたる研究者の実験の待ち時間と精度。

著者らは次のように観察しています。

一般に、モデルの計算量が膨大であるため、動的シフティングでは BERT モデルのサーマル スロットルを防ぐことはできません。 ただし、いくつかの制限の下では、携帯電話に BERT モデルを展開するときに動的なシフトが依然として役立つ可能性があります。

著者らは、BERT モデルでは Honor V30 電話機の CPU 温度が 80 秒以内に 32° まで上昇し、XNUMX 分以内のアクティビティでサーマル スロットルが起動されることを発見しました。 したがって、著者らは半幅 BERT モデルのみを使用しました。

実験は Raspberry PI セットアップで繰り返され、この技術はその環境でもサーマル スロットリングのトリガーを防ぐことができました。 ただし、著者らは、Raspberry PIは、ぎっしりと詰め込まれたスマートフォンと同じような極端な熱制約下では動作しないと指摘しており、適度に装備された処理環境におけるこの手法の有効性をさらに実証するために、この大量の実験を追加したようだ。

 

初版は23年2022月XNUMX日。