Connect with us

Inteligência artificial

Como Manter Smartphones Frescos Quando Estão Executando Modelos de Aprendizado de Máquina

mm
Source image: 'Young man holding the new Samsung Galaxy S20 Ultra', by Jonas Leupe, Unsplash - https://unsplash.com/photos/wK-elt11pF0

Pesquisadores da Universidade de Austin e Carnegie Mellon propuseram uma nova forma de executar modelos de aprendizado de máquina computacionalmente caros em dispositivos móveis, como smartphones, e em dispositivos de borda de baixa potência, sem acionar limitação térmica – um mecanismo de proteção comum em dispositivos profissionais e de consumo, projetado para reduzir a temperatura do dispositivo hospedeiro, desacelerando seu desempenho, até que temperaturas de operação aceitáveis sejam obtidas novamente.

A nova abordagem pode ajudar modelos de ML mais complexos a executar inferência e vários outros tipos de tarefas sem ameaçar a estabilidade do smartphone hospedeiro, por exemplo.

A ideia central é usar redes dinâmicas, onde os pesos de um modelo podem ser acessados por ambas as versões ‘baixa pressão’ e ‘intensidade total’ do modelo de aprendizado de máquina local.

Em casos onde a operação da instalação local de um modelo de aprendizado de máquina deve causar a temperatura do dispositivo a subir criticamente, o modelo mudaria dinamicamente para um modelo menos exigente até que a temperatura seja estabilizada, e então mudaria de volta para a versão completa.

As tarefas de teste consistiram em um trabalho de classificação de imagens e uma tarefa de inferência de linguagem natural de resposta a perguntas (QNLI) – ambos os tipos de operação prováveis de engajar aplicações de IA móvel. Fonte: https://arxiv.org/pdf/2206.10849.pdf

As tarefas de teste consistiram em um trabalho de classificação de imagens e uma tarefa de inferência de linguagem natural de resposta a perguntas (QNLI) – ambos os tipos de operação prováveis de engajar aplicações de IA móvel. Fonte: https://arxiv.org/pdf/2206.10849.pdf

Os pesquisadores conduziram testes de conceito para modelos de visão computacional e Processamento de Linguagem Natural (NLP) em um smartphone Honor V30 Pro de 2019 e um Raspberry Pi 4B 4GB.

A partir dos resultados (para o smartphone), podemos ver na imagem abaixo a temperatura do dispositivo hospedeiro subindo e descendo com o uso. As linhas vermelhas representam um modelo em execução sem Dynamic Shifting.

Embora os resultados possam parecer bastante semelhantes, não são: o que está causando a temperatura a ondular para as linhas azuis (ou seja, usando o método do novo artigo) é a mudança para frente e para trás entre versões mais simples e mais complexas do modelo. Em nenhum momento da operação, a limitação térmica é acionada.

O que está causando a temperatura a subir e descer no caso das linhas vermelhas é o engajamento automático da limitação térmica no dispositivo, que desacelera a operação do modelo e aumenta sua latência.

Em termos de quão usável o modelo é, podemos ver na imagem abaixo que a latência para o modelo não auxiliado é significativamente maior enquanto está sendo limitado termicamente:

Ao mesmo tempo, a imagem acima mostra quase nenhuma variação na latência para o modelo gerenciado por Dynamic Shifting, que permanece responsivo ao longo do tempo.

Para o usuário final, alta latência pode significar aumento do tempo de espera, o que pode causar abandono de uma tarefa e insatisfação com o aplicativo que a hospeda.

No caso de sistemas NLP (em vez de visão computacional), tempos de resposta altos podem ser ainda mais perturbadores, pois as tarefas podem depender de respostas rápidas (como autotradução ou utilitários para ajudar usuários com deficiência).

Para aplicações verdadeiramente críticas em termos de tempo – como VR/AR em tempo real – alta latência mataria efetivamente a utilidade central do modelo.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.