人工知能

スマートフォンが機械学習モデルを実行するときに熱を逃がす方法

Published June 23, 2022

Updated April 5, 2026

Martin Anderson

Source image: 'Young man holding the new Samsung Galaxy S20 Ultra', by Jonas Leupe, Unsplash - https://unsplash.com/photos/wK-elt11pF0

オースティン大学とカーネギーメロン大学の研究者は、スマートフォンや低電力のエッジデバイスなどのモバイルデバイスで、機械学習モデルを実行する新しい方法を提案しました。熱制限 – プロフェッショナルおよび消費者向けデバイスで一般的な保護メカニズムで、デバイスの温度を下げるためにパフォーマンスを低下させ、許容される作動温度が再び取得されるまで。この新しいアプローチは、より複雑なMLモデルが推論や他の種類のタスクを実行できるようにすることで、ホストスマートフォンの安定性を脅かすことなく、より複雑なMLモデルを実行できるようになります。中央のアイデアは、動的ネットワークを使用することです。ここで、モデルの重みは、ローカルの機械学習モデルの「低圧」バージョンと「フルインテンシティ」バージョンの両方によってアクセスできます。ローカルにインストールされた機械学習モデルの操作がデバイスの温度を急激に上昇させる場合、モデルは動的に要求の厳しいモデルに切り替えて温度が安定するまで待ち、そして完全なバージョンに切り戻します。

テストタスクは、画像分類ジョブと質問回答自然言語推論（QNLI）タスクで構成されました。両方とも、モバイルAIアプリケーションで使用される可能性のある種類の操作です。ソース: https://arxiv.org/pdf/2206.10849.pdf

研究者は、2019 Honor V30 Pro スマートフォンと Raspberry Pi 4B 4GB で、コンピュータビジョンと自然言語処理（NLP）モデルの概念実証テストを実行しました。結果（スマートフォンの場合）から、画像下のホストデバイスの温度が上昇して下降することがわかります。赤い線は、Dynamic Shifting を使用せずに実行されているモデルを表します。結果は非常に似ているように見えますが、同じではありません。動的ネットワークを使用しているため、青い線（新しいペーパーの方法を使用）では、温度が上昇して下降します。動的ネットワークを使用していない場合、赤い線（新しいペーパーの方法を使用していない）では、温度が上昇して下降します。動的ネットワークを使用する場合、温度が上昇して下降するのは、モデルが動的に切り替わるためです。動的ネットワークを使用しない場合、温度が上昇して下降するのは、自動的に熱制限がかかるためです。モデルが動的に切り替わる場合、待ち時間はほとんど変化しません。動的ネットワークを使用しない場合、待ち時間は大きく変化します。待ち時間が長いと、ユーザーはタスクを放棄し、アプリの満足度が低下する可能性があります。NLPシステム（コンピュータビジョンシステムではなく）では、待ち時間が長いと、タスクが中断される可能性があります。動的ネットワークを使用することで、待ち時間を短縮し、ユーザー満足度を向上させることができます。研究者は、次のように述べています：

‘熱制限は、待ち時間が重要なモバイルMLアプリケーションにとって深刻な脅威をもたらします。たとえば、ビデオストリーミングまたはゲームのリアルタイムビジュアルレンダリングの場合、1フレームあたりの処理待ち時間の急激な増加は、ユーザーエクスペリエンスに大きな悪影響を与えます。また、モダンなモバイルオペレーティングシステムは、視覚障害者向けの特別なサービスやアプリケーションを提供します。ユーザーは、完全に音声に頼ってモバイル電話とやり取りするため、これらのサービスの品質は、アプリケーションの応答性や待ち時間に大きく依存しています。’

BERT w50 d50 のパフォーマンスを示すグラフ、無援助と Dynamic Shifting を使用。青い線の待ち時間の均一性に注目してください。

BERT w50 d50 のパフォーマンスを示すグラフ、無援助（赤）と Dynamic Shifting を使用（青）。青い線の待ち時間の均一性に注目してください。

このペーパーは、Play It Cool: Dynamic Shifting Prevents Thermal Throttling というタイトルで、オースティン大学の2人の研究者、カーネギーメロン大学の1人の研究者、および両方の機関を代表する1人の研究者による共同研究です。

CPUベースのモバイルAI

動的ネットワークとマルチスケールアーキテクチャは、確立された研究分野であり、現在も活発に研究されています。ただし、ほとんどの取り組みは、高性能デバイスのアレイに集中しており、現在の研究の焦点は、ローカル（デバイスベース）のニューラルネットワークの最適化にあります。通常は推論ではなくトレーニングのために使用され、モバイル専用ハードウェアの改善に重点が置かれています。研究者が実行したテストは、CPUチップではなくGPUチップで実行されました。モバイルマシーンラーニングアプリケーションでローカルGPUリソースを利用することへの関心は高まっています（そして、モバイルデバイスで直接トレーニングすることもできます。これは、最終モデルの品質を向上させる可能性があります）。ただし、GPUは通常、より多くの電力を消費し、AIがクラウドサービスに依存せず、リソースが限られているデバイスで有用であることを目指す上で、重要な要素です。

重み共有のテスト

このプロジェクトでテストされたネットワークは、スリムネットワークと DynaBERT でした。コンピュータビジョンとNLPタスクをそれぞれ表しています。 BERTのバージョンをモバイルデバイスで効率的に実行できるようにするための様々な取り組みがあります。ただし、一部の試みは、回避策として批判されています。研究者は、BERTをモバイルスペースで使用することは課題であり、一般的に「BERTモデルはモバイル電話にとって計算コストが高すぎる」と述べています。 DynaBERTは、Googleの強力な NLP/NLUフレームワークを、リソースが制約された環境に最適化するために中国で行われている取り組みですが、研究者は、BERTのこの実装も非常に要求の厳しいものであることを発見しました。それでも、スマートフォンとRaspberry PIデバイスの両方で、研究者は2つの実験を実行しました。コンピュータビジョンの実験では、ランダムに選択された単一の画像が、ResNet50としての分類タスクとして連続して繰り返し処理され、実験の実行時間の全期間中に安定して熱制限を発生させることなく実行できました。ペーパーは次のように述べています：

「動的ネットワークは、ある程度の精度を犠牲にするかもしれませんが、推論速度は速くなります。最も重要なことは、私たちの動的ネットワークアプローチは一貫した推論を享受できるということです。」

Slimmable ResNet50 x1.0 と x0.25 バージョンの間で動的に切り替えて、60 分間の連続的な画像分類タスクで ResNet50 を実行。

NLPテストの場合、研究者は、DynaBERTスイートの2つの最小のモデル間で切り替えるように実験を設定しました。ただし、1.4倍の待ち時間で、BERTは約70°で熱制限を発生させます。したがって、動的ネットワークは、作動温度が65°に達したときに切り替わります。 BERTの実験では、GLUEのONLIデータセットから質問/回答のペアで連続的に推論を実行しました。待ち時間と精度のトレードオフは、コンピュータビジョンの実装よりも、BERTタスクのほうが厳しくなりました。精度は、熱制限を避けるためにデバイスの温度を制御する必要性のために、より厳しい代償を払うことになりました。

研究者の実験の待ち時間と精度のトレードオフを示すグラフ、2つのセクタータスクにわたって。

著者は次のように述べています：

「動的ネットワークは、一般的に、BERTモデルを熱制限から守ることはできません。BERTモデルは計算コストが非常に高いためです。ただし、ある程度の制限の下で、モバイル電話にBERTモデルを展開する場合、動的ネットワークはまだ有用です。」

著者は、BERTモデルは、Honor V30電話のCPU温度を32秒以内に80°に上昇させ、6分以内に熱制限を発生させることを発見しました。したがって、著者は、半分の幅のBERTモデルしか使用しませんでした。実験は、Raspberry PI設定でも繰り返され、この方法は、より貧弱な処理環境でも熱制限を防止できることが示されました。ただし、著者は、Raspberry PIは、密にパッケージ化されたスマートフォンのような同じ厳しい熱制限の下で動作しないことを指摘しています。著者は、この実験のシリーズを、方法の有効性をさらに示すために追加したようです。 最初に公開されたのは2022年6月23日です。

Related Topics:mobile computing research

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。

Unite.AI

スマートフォンが機械学習モデルを実行するときに熱を逃がす方法

CPUベースのモバイルAI

重み共有のテスト

You may like