Inteligencia artificial
Cómo mantener frescos los smartphones cuando ejecutan modelos de aprendizaje automático

Los investigadores de la Universidad de Austin y Carnegie Mellon han propuesto una nueva forma de ejecutar modelos de aprendizaje automático computacionalmente costosos en dispositivos móviles como smartphones y en dispositivos de borde de menor potencia, sin activar el limitación térmica – un mecanismo de protección común en dispositivos profesionales y de consumo, diseñado para reducir la temperatura del dispositivo host al ralentizar su rendimiento, hasta que se obtienen nuevamente temperaturas de funcionamiento aceptables.
El nuevo enfoque podría ayudar a que modelos de aprendizaje automático más complejos ejecuten inferencia y varios otros tipos de tareas sin amenazar la estabilidad del host smartphone, por ejemplo.
La idea central es utilizar redes dinámicas, donde los pesos de un modelo pueden ser accedidos por una versión de ‘baja presión’ y ‘intensidad completa’ del modelo de aprendizaje automático local.
En casos donde la operación de la instalación local de un modelo de aprendizaje automático debiera causar que la temperatura del dispositivo aumente críticamente, el modelo cambiaría dinámicamente a un modelo menos exigente hasta que la temperatura se estabilice, y luego cambiaría de regreso a la versión completa.

Las tareas de prueba consistieron en un trabajo de clasificación de imágenes y una tarea de inferencia de lenguaje natural de respuesta a preguntas (QNLI) – ambos tipos de operaciones que probablemente involucran aplicaciones de inteligencia artificial móvil. Fuente: https://arxiv.org/pdf/2206.10849.pdf
Los investigadores realizaron pruebas de concepto para modelos de visión por computadora y Procesamiento de Lenguaje Natural (NLP) en un smartphone Honor V30 Pro de 2019 y un Raspberry Pi 4B de 4GB.
A partir de los resultados (para el smartphone), podemos ver en la imagen a continuación que la temperatura del dispositivo host aumenta y disminuye con el uso. Las líneas rojas representan un modelo que se ejecuta sin Desplazamiento Dinámico.

Aunque los resultados pueden parecer bastante similares, no lo son: lo que causa que la temperatura oscile para las líneas azules (es decir, utilizando el método del nuevo documento) es el cambio entre versiones más simples y más complejas del modelo. En ningún momento de la operación se activa la limitación térmica.
Lo que causa que la temperatura aumente y disminuya en el caso de las líneas rojas es el engagement automático de la limitación térmica en el dispositivo, que ralentiza la operación del modelo y aumenta su latencia.
En términos de cuán usable es el modelo, podemos ver en la imagen a continuación que la latencia para el modelo no asistido es significativamente mayor mientras está siendo limitado térmicamente:

Al mismo tiempo, la imagen anterior muestra casi ninguna variación en la latencia para el modelo que está gestionado por Desplazamiento Dinámico, que permanece respondiendo en todo momento.
Para el usuario final, una alta latencia puede significar un aumento en el tiempo de espera, lo que puede causar el abandono de una tarea y la insatisfacción con la aplicación que la hospeda.
En el caso de los sistemas NLP (en lugar de visión por computadora), los tiempos de respuesta altos pueden ser aún más inquietantes, ya que las tareas pueden depender de una respuesta rápida (como la auto-traducción o las utilidades para ayudar a los usuarios discapacitados).
Para aplicaciones verdaderamente críticas en términos de tiempo – como la realidad virtual o aumentada en tiempo real – una alta latencia efectivamente mataría la utilidad central del modelo.












