Artificial Intelligence

機械学習モデルの実行中にスマートフォンを涼しく保つ方法

更新中 on 2022 年 12 月 9 日

ソース画像: 「新しい Samsung Galaxy S20 Ultra を持つ若い男性」、Jonas Leupe 著、Unsplash - https://unsplash.com/photos/wK-elt11pF0

オースティン大学とカーネギーメロン大学の研究者らは、スマートフォンなどのモバイルデバイスや低電力のエッジデバイス上で、トリガーなしで計算コストの高い機械学習モデルを実行する新しい方法を提案しました。サーマルスロットリング – 業務用および民生用デバイスに共通の保護メカニズムで、許容可能な動作温度が再び得られるまで、ホストデバイスのパフォーマンスを低下させることによってホストデバイスの温度を下げるように設計されています。

新しいアプローチは、ホストスマートフォンなどの安定性を脅かすことなく、より複雑な ML モデルが推論やその他のさまざまなタイプのタスクを実行できるようにする可能性があります。

中心となるアイデアは次のとおりです。 動的ネットワークここで、重みモデルのローカル機械学習モデルの「低圧力」バージョンと「フル強度」バージョンの両方からアクセスできます。

機械学習モデルのローカルインストールの動作によりデバイスの温度が重大な上昇を引き起こす場合、モデルは温度が安定するまで要求の少ないモデルに動的に切り替わり、その後本格的なモデルに戻ります。バージョン。

テストタスクは、画像分類ジョブと質問応答自然言語推論 (QNLI) タスクで構成されており、どちらの操作もモバイル AI アプリケーションに関与すると考えられます。出典：https://arxiv.org/pdf/2206.10849.pdf

研究者らは、2019 Honor V30 Pro スマートフォンと Raspberry Pi 4B 4GB でコンピュータービジョンと自然言語処理 (NLP) モデルの概念実証テストを実施しました。

結果 (スマートフォンの場合) から、下の画像では、使用に応じてホストデバイスの温度が上下していることがわかります。赤い線は実行中のモデルを表します。無しダイナミックシフト。

結果は非常に似ているように見えますが、実際はそうではありません。気温の波動の原因は何ですか。青行（すなわち、新しい論文の方法を使用すること）は、より単純なモデルのバージョンとより複雑なモデルのバージョンを行ったり来たりすることです。操作のどの時点でもサーマルスロットルはトリガーされません。

この場合、気温が上がったり下がったりする原因は何ですか？赤ラインは、デバイスのサーマルスロットルが自動的に作動し、モデルの動作が遅くなり、遅延が増加します。

モデルの有用性に関しては、以下の画像で、熱的にスロットルされている間の非支援モデルのレイテンシが大幅に高いことがわかります。

同時に、上の画像では、Dynamic Shifting によって管理されているモデルのレイテンシーにほとんど変化がなく、全体的に応答性が維持されていることがわかります。

エンドユーザーにとって、待ち時間が長いということは待ち時間が長くなることを意味し、タスクの放棄やタスクをホストするアプリへの不満の原因となる可能性があります。

(コンピュータービジョンではなく) NLP システムの場合、タスクは迅速な応答 (自動翻訳や障害のあるユーザーを支援するユーティリティなど) に依存している可能性があるため、応答時間が長いとさらに不安になる可能性があります。

リアルタイム VR/AR など、真にタイムクリティカルなアプリケーションの場合、レイテンシが高くなると、モデルの中核となる有用性が事実上損なわれてしまいます。

研究者らは次のように述べています。

「私たちは、サーマルスロットリングは遅延が重要なモバイル ML アプリケーションにとって深刻な脅威となると主張します。たとえば、ビデオストリーミングやゲームのリアルタイムビジュアルレンダリング中に、フレームあたりの処理遅延が突然急増すると、ユーザーエクスペリエンスに大きな悪影響を及ぼします。また、最新のモバイルオペレーティングシステムは、iOS の VoiceOver や Android の TalkBack など、視覚障害のある人向けの特別なサービスやアプリケーションを提供することがよくあります。

「ユーザーは通常、音声に完全に依存して携帯電話を操作するため、これらのサービスの品質はアプリケーションの応答性や遅延に大きく依存します。」

ダイナミックシフティングによる BERT w50 d50 のパフォーマンスを単独で示したグラフ。 Dynamic Shifting (青) のレイテンシの均一性に注目してください。

BERT w50 d50 のパフォーマンスを、補助なし (赤) とダイナミックシフティング (青) を利用した場合のグラフで示します。 Dynamic Shifting (青) のレイテンシの均一性に注目してください。

　紙というタイトルです クールにプレイ: 動的シフトによりサーマルスロットリングを防止、UoA の XNUMX 人の研究者の共同研究です。カーネギーメロンからのXNUMXつ。もう XNUMX 人は両方の機関を代表します。

CPUベースのモバイルAI

ダイナミックシフティングとマルチスケールアーキテクチャは、確立されていて活動的である研究分野では、ほとんどの取り組みはハイエンドの計算デバイスのアレイに集中しており、現時点での取り組みの重点は、ローカル (つまりデバイスベース) ニューラルネットワークの集中的な最適化に分かれており、通常は、目的ではなく推論を目的としています。トレーニング、および専用モバイルハードウェアの改善。

研究者らが実施したテストは、GPU チップではなく CPU で実施されました。にもかかわらず関心の高まりモバイル機械学習アプリケーションでローカル GPU リソースを活用する場合 (さらにはモバイルデバイスで直接トレーニング、その品質を向上させることができる最終モデルの)、GPU は通常、より多くの電力を消費します。これは、AI が (クラウドサービスから) 独立してリソースが限られたデバイスで役立つようにするための重要な要素です。

重み共有のテスト

このプロジェクトでテストされたネットワークは次のとおりです。スリム化可能なネットワークおよびダイナバート、それぞれコンピュータビジョンと NLP ベースのタスクを表します。

色々あったのにイニシアチブモバイルデバイス上で効率的かつ経済的に実行できる BERT の反復を行うために、いくつかの試みが行われています。批判された新しい論文の研究者らは、モバイル分野での BERT の使用は課題であり、「一般的に BERT モデルは携帯電話には計算量が多すぎる」と指摘しています。

DynaBERT は、Google の強力な機能を最適化する中国の取り組みです。 NLP/NLU フレームワークリソースが枯渇した環境のコンテキストへ。しかし、この BERT の実装でさえ、非常に要求が厳しいことが研究者らは発見しました。

それにもかかわらず、著者はスマートフォンと Raspberry PI デバイスの両方で XNUMX つの実験を実行しました。 CV 実験では、ランダムに選択された XNUMX つの画像が継続的に繰り返し処理されました。レスネット50 これは分類タスクとして実行され、実験の実行時間の XNUMX 時間全体にわたってサーマルスロットリングを呼び出すことなく、安定して実行できました。

論文は次のように述べています。

「ある程度の精度は犠牲になるかもしれませんが、提案されているダイナミックシフトは推論速度が速くなります。最も重要なことは、私たちのダイナミックシフティングアプローチは一貫した推論を享受できることです。」

ResNet50 を補助なしで、Slimmable ResNet50 x1.0 と x0.25 バージョンの間で動的にシフトしながら、連続画像分類タスクで XNUMX 分間実行します。

NLP テストの場合、著者らは DynaBERT スイートの 1.4 つの最小モデルの間で実験を変更するように設定しましたが、70 倍の遅延では BERT が約 65° でスロットルすることがわかりました。したがって、動作温度が XNUMX°に達したときにシフトダウンが発生するように設定されています。

BERT 実験では、インストールで質問と回答のペアに対して継続的に推論を実行させました。 GLUE の ONLI データセット.

野心的な BERT タスクでは、コンピュータービジョンの実装よりも遅延と精度のトレードオフがより厳しくなり、スロットルを回避するためにデバイスの温度を制御する必要性がさらに厳しくなり、精度が犠牲になりました。

XNUMX つの分野のタスクにわたる研究者の実験の待ち時間と精度。

著者らは次のように観察しています。

一般に、モデルの計算量が膨大であるため、動的シフティングでは BERT モデルのサーマルスロットルを防ぐことはできません。ただし、いくつかの制限の下では、携帯電話に BERT モデルを展開するときに動的なシフトが依然として役立つ可能性があります。

著者らは、BERT モデルでは Honor V30 電話機の CPU 温度が 80 秒以内に 32° まで上昇し、XNUMX 分以内のアクティビティでサーマルスロットルが起動されることを発見しました。したがって、著者らは半幅 BERT モデルのみを使用しました。

実験は Raspberry PI セットアップで繰り返され、この技術はその環境でもサーマルスロットリングのトリガーを防ぐことができました。ただし、著者らは、Raspberry PIは、ぎっしりと詰め込まれたスマートフォンと同じような極端な熱制約下では動作しないと指摘しており、適度に装備された処理環境におけるこの手法の有効性をさらに実証するために、この大量の実験を追加したようだ。

初版は23年2022月XNUMX日。