Künstliche Intelligenz
Wie man Smartphones kühl hält, wenn sie Machine-Learning-Modelle ausführen

Forscher der University of Austin und Carnegie Mellon haben einen neuen Ansatz vorgeschlagen, um rechenintensive Machine-Learning-Modelle auf mobilen Geräten wie Smartphones und auf schwächeren Edge-Geräten auszuführen, ohne dass Thermal-Throttling ausgelöst wird – ein gemeinsames Schutzmechanismus in professionellen und Consumer-Geräten, der darauf ausgelegt ist, die Temperatur des Host-Geräts zu senken, indem die Leistung verlangsamt wird, bis akzeptable Betriebstemperaturen wieder erreicht werden.
Der neue Ansatz könnte es ermöglichen, komplexere ML-Modelle auszuführen und verschiedene Arten von Aufgaben ohne Bedrohung der Stabilität des Host-Smartphones auszuführen.
Die zentrale Idee ist, dynamische Netze zu verwenden, bei denen die Gewichte eines Modells von einer ‘Low-Pressure’- und einer ‘Full-Intensity’-Version des lokalen Machine-Learning-Modells abgerufen werden können.
In Fällen, in denen die Ausführung des lokalen Machine-Learning-Modells die Temperatur des Geräts kritisch ansteigen lassen sollte, würde das Modell dynamisch auf ein weniger anspruchsvolles Modell umschalten, bis die Temperatur stabilisiert ist, und dann wieder auf die vollständige Version umschalten.

Die Testaufgaben bestanden aus einer Bildklassifizierung und einer Frage-Antwort-Naturliche-Sprachinferenz (QNLI)-Aufgabe – beides Arten von Operationen, die wahrscheinlich mobile KI-Anwendungen betreffen. Quelle: https://arxiv.org/pdf/2206.10849.pdf
Die Forscher führten Proof-of-Concept-Tests für Computer-Vision- und Natural-Language-Processing-(NLP)-Modelle auf einem 2019er Honor V30 Pro-Smartphone und einem Raspberry Pi 4B 4GB durch.
Aus den Ergebnissen (für das Smartphone) können wir in dem Bild unten sehen, wie die Temperatur des Host-Geräts mit der Nutzung ansteigt und fällt. Die roten Linien stellen ein Modell dar, das ohne Dynamic Shifting läuft.

Obwohl die Ergebnisse ziemlich ähnlich aussehen, sind sie es nicht: Was die Temperatur für die blauen Linien (d. h. mit der neuen Methode) schwanken lässt, ist das Hin- und Herschalten zwischen einfacheren und komplexeren Modellversionen. Zu keinem Zeitpunkt während der Ausführung wird Thermal-Throttling ausgelöst.
Was die Temperatur ansteigen und fallen lässt, ist das automatische Einschalten von Thermal-Throttling im Gerät, das die Ausführung des Modells verlangsamt und die Latenz erhöht.
In Bezug auf die Benutzbarkeit des Modells können wir in dem Bild unten sehen, dass die Latenz für das unaided-Modell erheblich höher ist, während es thermisch gedrosselt wird:

Zur gleichen Zeit zeigt das Bild oben fast keine Variation in der Latenz für das Modell, das von Dynamic Shifting gesteuert wird, was während der gesamten Ausführung responsiv bleibt.
Für den Endbenutzer kann hohe Latenz bedeuten, dass die Wartezeit erhöht wird, was zum Abbruch einer Aufgabe und Unzufriedenheit mit der App führen kann, die sie hostet.
Im Falle von NLP- (statt Computer-Vision-) Systemen können hohe Antwortzeiten noch beunruhigender sein, da die Aufgaben möglicherweise auf prompte Antworten angewiesen sind (wie z. B. Auto-Übersetzung oder Utilities, um behinderte Benutzer zu unterstützen).
Für wirklich zeitkritische Anwendungen – wie Echtzeit-VR/AR – würde hohe Latenz die Kernfunktionalität des Modells effektiv töten.












