Ângulo de Anderson

Uma Vibração dos Anos 70 para Monitoramento de Conservação de Energia com IA

mm
Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Pesquisas recentes mostram que a maioria dos vídeos de IA não precisa de cor, ativando-a apenas em momentos-chave e reduzindo o uso de dados em mais de 90% com pouca perda de precisão.

 

Câmeras de transmissão remota e outros dispositivos de vídeo alimentados por bateria e sem fio exigem configurações de monitoramento otimizadas, pois podem depender de fontes de energia instáveis – como solar – ou exigir recarga periódica, ou outras formas de intervenção humana, em situações em que, idealmente, ninguém deveria precisar estar presente.

Em conjunto com essa linha de pesquisa, o interesse em dispositivos portáteis com câmera também cresceu (embora esses dispositivos já estivessem fortemente limitados por limites de energia e computação), porque a IA de borda agora promete torná-los significativamente mais úteis.

Além dessas considerações, o impulso de longo prazo para reduzir os custos de IA de borda e monitoramento (particularmente nos casos em que essas economias não precisam ser repassadas ao cliente) faz um caso convincente para a inovação em abordagens de conservação de energia para casos de uso de “borda”.

Som

No campo de transmissão de vídeo-sensação, dispositivos de monitoramento de borda com recursos limitados devem usar a menor quantidade possível de energia, gastando energia suficiente para monitorar eventos “interessantes” – no momento em que será vale a pena gastar mais recursos.

Efetivamente, este é um caso de uso semelhante ao de luzes movidas por movimento, que fornecem iluminação apenas quando sensores de baixo consumo de energia determinam que há alguém lá para apreciá-la.

Desde que o monitoramento de áudio e compressão é notavelmente menos intensivo em recursos do que o vídeo, várias abordagens nos últimos anos tentaram usar sinais de áudio para “ativar” a atenção em sistemas restritos; estruturas como Listen to Look e Egotrigger:

No sistema Egotrigger, o acionamento de áudio seleciona a captura de imagem a partir de sinais de interação entre mãos e objetos, reduzindo quadros redundantes e preservando o desempenho da memória episódica em sistemas de óculos inteligentes com recursos limitados. Fonte - https://arxiv.org/pdf/2508.01915

No sistema Egotrigger, o acionamento de áudio seleciona a captura de imagem a partir de sinais de interação entre mãos e objetos, reduzindo quadros redundantes e preservando o desempenho da memória episódica em sistemas de óculos inteligentes com recursos limitados. Fonte

Claramente, o áudio não é o meio ideal para procurar eventos visuais, pois muitos eventos essenciais podem não ter um sinal de áudio associado ou podem ocorrer fora do alcance dos microfones de borda.

Dormir Leve

O que pode ser melhor, sugere um novo artigo, é um fluxo de vídeo que possa trabalhar junto com a IA para aumentar os recursos assim que um evento observado ocorra. A simulação abaixo* dá uma ideia geral do conceito – o monitoramento de baixa resolução é mantido no nível de sinal mínimo necessário para detecção de objetos funcionar, e para dizer ao sistema para aumentar a resolução devido ao acionamento de um evento:

Uma simulação do comportamento desejado – que a transmissão e análise operem no nível mais baixo de consumo de recursos por padrão; apenas o suficiente para acionar o consumo de mais recursos quando eventos “interessantes” ou procurados são detectados no fluxo em preto e branco. O estilo de vigilância em preto e branco pode ser um pouco “retro”, mas pode ser um sinal do que está por vir. Este vídeo foi criado pelo autor apenas para fins ilustrativos em relação às ideias centrais do novo artigo. Fonte

O novo trabalho, uma colaboração acadêmica entre várias instituições do Reino Unido e a Huawei, propõe um esquema de monitoramento de borda sem treinamento, facilitado por IA, em preto e branco sempre, cor por demanda – projetado para operar com baixo uso de token quando nenhum “evento-chave” está ocorrendo, e para aumentar o consumo apenas durante a duração do evento.

Nos benchmarks de compreensão de vídeo em streaming, o novo sistema, apelidado de ColorTrigger, foi capaz de alcançar 91,6% do desempenho da linha de base de cor completa enquanto usando apenas 8,1% dos quadros RGB nesses padrões:

Quando o modelo vê apenas o vídeo em preto e branco, confunde detalhes importantes e dá respostas erradas; mas acionar a cor nos momentos certos esclarece a imagem e corrige erros desencadeados por tarefas que dependem de cor. Fonte - https://lvgd.github.io/ColorTrigger/

Quando o modelo vê apenas o vídeo em preto e branco, confunde detalhes importantes e dá respostas erradas; mas acionar a cor nos momentos certos esclarece a imagem e corrige erros desencadeados por tarefas que dependem de cor. Fonte

O novo artigo é intitulado Cor Quando Importa: Acionamento Online Guiado por Preto e Branco para Monitoramento de Vídeo em Streaming Sempre-Ativo, e vem de oito pesquisadores de Queen Mary University of London, Durham University, Imperial College London e Huawei Noah’s Ark Lab. O artigo também tem uma página de projeto acompanhante.

Método

Para preservar a estrutura temporal no novo sistema, o ColorTrigger mantém uma vigilância em preto e branco de baixa banda constante. Um acionador online causal analisa uma janela deslizante (ou seja, um intervalo de quadros flexível ao redor de um momento específico, como a detecção de um evento de acionamento) do fluxo de baixa resolução:

A captura contínua de RGB de alta resolução drena rapidamente a energia, então a gravação para antes e os momentos-chave podem ser perdidos. Por outro lado, o ColorTrigger mantém um fluxo em preto e branco de baixa potência em execução o tempo todo e apenas ativa a câmera RGB em momentos selecionados – estendendo o tempo de gravação, enquanto ainda captura os detalhes visuais necessários para responder a consultas posteriores. Fonte - https://arxiv.org/pdf/2603.22466

A captura contínua de RGB de alta resolução drena rapidamente a energia, então a gravação para antes e os momentos-chave podem ser perdidos. Por outro lado, o ColorTrigger mantém um fluxo em preto e branco de baixa potência em execução o tempo todo e apenas ativa a câmera RGB em momentos selecionados – estendendo o tempo de gravação, enquanto ainda captura os detalhes visuais necessários para responder a consultas posteriores. Fonte

Enquanto o sistema está no modo “passivo” (ou seja, ainda não identificou um evento de acionamento), seu roteador de token dinâmico aloca capacidade limitada a um decodificador assimétrico, sempre procurando redundância e eventos que indiquem novidade, no momento em que o fluxo de token re-prioriza a capacidade sobre a compressão:

Esquema do ColorTrigger. O sistema monitora uma análise de janela deslizante de quadros recentes para detectar redundância e mudança, acionando a captura de RGB de alta resolução apenas quando necessário, sob um orçamento baseado em créditos. Um roteador de token dinâmico aloca menos tokens para entradas em preto e branco e mais para quadros RGB selecionados, preservando a ordem temporal para o processamento posterior do Multimodal Large Language Model (MLLM).

Esquema do ColorTrigger. O sistema monitora uma análise de janela deslizante de quadros recentes para detectar redundância e mudança, acionando a captura de RGB de alta resolução apenas quando necessário, sob um orçamento baseado em créditos. Um roteador de token dinâmico aloca menos tokens para entradas em preto e branco e mais para quadros RGB selecionados, preservando a ordem temporal para o processamento posterior do Multimodal Large Language Model (MLLM).

Quadro a quadro, o sistema precisa decidir se o momento atual contém informações novas que valem a pena capturar em cor. A história recente curta de quadros em preto e branco na janela deslizante permite que o ColorTrigger compare o quadro atual com o seu passado imediato. Cada quadro é convertido em uma representação de recurso compacta, e esses recursos são comparados entre si para medir quão semelhantes ou diferentes seus quadros hospedeiros são.

Esse processo de comparação é organizado em uma estrutura que resume quanto cada quadro se sobrepõe aos outros, capturando efetivamente se a cena está se repetindo ou mudando. Uma etapa de otimização leve atribui uma pontuação de importância a cada quadro na janela, favorecendo a novidade.

Equilíbrio de Cor

Para evitar o uso excessivo de cor, um sistema de “créditos” simples limita com que frequência a cor pode ser acionada ao longo do tempo. Os créditos se acumulam gradualmente e são gastos quando a cor é solicitada, garantindo que surtos de atividade sejam permitidos, mas o uso geral permaneça controlado. Um quadro é “atualizado” para cor apenas se for informativo e se houver créditos suficientes disponíveis.

O Roteador de Token Dinâmico controla a quantidade de detalhe que cada quadro recebe, em vez de processar cada quadro em qualidade total. Quando nada importante é detectado, o quadro em preto e branco é mantido em baixa resolução e transformado em um conjunto pequeno e comprimido de tokens. Quando um momento importante é detectado, o sistema muda para cor e processa esse quadro em alta resolução, oferecendo uma representação mais rica e detalhada.

Ambos os tipos de quadros passam pelo mesmo modelo, mas os quadros em preto e branco são tratados de forma mais leve, enquanto os quadros de cor selecionados recebem mais atenção. As saídas são então combinadas em sua ordem original e enviadas ao modelo como um fluxo contínuo.

Como a maioria dos quadros permanece leve e apenas alguns são atualizados, o sistema economiza uma grande quantidade de computação enquanto ainda captura os detalhes-chave quando importa:

Do artigo, outro exemplo em que o sistema é necessário para aumentar temporariamente os recursos para distinguir uma cor.

Do artigo, outro exemplo em que o sistema é necessário para aumentar temporariamente os recursos para distinguir uma cor.

Dados e Testes

Para testar o sistema, os pesquisadores avaliaram contra os benchmarks de vídeo StreamingBench e OVO-Bench, evitando o processamento de conteúdo futuro (que é um perigo potencial em testes offline).

O modelo congelado Multimodal Large Language Model (MLLM) usado foi InternVL3.5-8B-Instruct, com o acionador causal implementado via CLIP ViT-B/16.

O fluxo em preto e branco foi limitado ao canal de luminância no espaço de cor CIELAB, de acordo com trabalho anterior, com os quadros em preto e branco resultantes redimensionados para 224x224px antes da divisão em patches (a divisão de uma imagem em blocos fixos pequenos, para que cada bloco possa ser processado como uma unidade separada pelo modelo).

Os quadros RGB, por outro lado, desfrutaram de uma taxa de bits mais alta e foram processados em 448x448px, produzindo 256 tokens, em contraste com os 64 tokens produzidos para os quadros em preto e branco.

Ferramentas de otimização comuns foram usadas para tomar as decisões do sistema: CVXPY (uma biblioteca Python para configurar problemas de otimização) e OSQP Solver (um algoritmo rápido que calcula quando acionar a cor).

O vídeo foi processado a 1fps, com um limite de 128 quadros por clipe, para manter a computação baixa.

Sistemas proprietários testados foram Gemini 1.5 Pro; GPT-4o; e Claude 3.5 Sonnet. Os MLLMs de vídeo de código aberto testados foram LLaVA-OneVision-7B; Video-LLaMA2-7B; e Qwen2.5-VL-7B.

Os MLLMs de vídeo em streaming testados foram Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; e TimeChat-Online-7B.

InternVL-3.5-8B e Qwen3-VL-8B foram testados em várias configurações, detalhadas na primeira tabela de resultados abaixo, referente ao StreamingBench:

Desempenho no StreamingBench para tarefas de compreensão visual em tempo real, comparando MLLMs proprietários, de código aberto e em streaming sob diferentes orçamentos de cor. RGB (%) indica a proporção de quadros mantidos em cor após o acionamento, onde 100 denota cor completa e 0 denota entrada apenas em preto e branco. O ColorTrigger é avaliado em dois pontos de operação, retenção de 8,1% e 34,3% de quadros de cor, e demonstra precisão geral melhorada sobre a linha de base em preto e branco do InternVL-3.5-8B, enquanto reduz significativamente o uso de cor em relação à configuração de cor completa.

Desempenho no StreamingBench para tarefas de compreensão visual em tempo real, comparando MLLMs proprietários, de código aberto e em streaming sob diferentes orçamentos de cor. RGB (%) indica a proporção de quadros mantidos em cor após o acionamento, onde 100 denota cor completa e 0 denota entrada apenas em preto e branco. O ColorTrigger é avaliado em dois pontos de operação, retenção de 8,1% e 34,3% de quadros de cor, e demonstra precisão geral melhorada sobre a linha de base em preto e branco do InternVL-3.5-8B, enquanto reduz significativamente o uso de cor em relação à configuração de cor completa.

Aqui os autores comentam:

‘O ColorTrigger alcança um desempenho competitivo na sub-tarefa de compreensão visual em tempo real do StreamingBench.

‘Nosso modelo com 34,3% de quadros RGB atinge 75,24, superando o modelo online recente Dispider-7B e próximo ao TimeChat-Online-7B, enquanto é comparável aos modelos proprietários, como o Gemini 1.5 Pro (75,69) e supera o GPT-4o (73,28) e o Claude 3.5 Sonnet (72,44).’

O InternVL-3.5-8B atingiu 77,20 usando cor completa, enquanto o ColorTrigger atingiu 75,24 usando 65,7% menos quadros RGB – e mesmo com apenas 8,1% de quadros de cor, atingiu 70,72, superando a linha de base em preto e branco de 62,08 em 8,64%, e permanecendo competitivo com outros modelos de streaming.

Em seguida, o OVO-Bench foi testado:

Desempenho no OVO-Bench em três categorias: Percepção Visual em Tempo Real, Rastreamento Retroativo e Resposta Ativa Avançada, comparando MLLMs proprietários, de código aberto e em streaming sob diferentes orçamentos de cor. RGB (%) indica a proporção de quadros mantidos em cor após o acionamento, onde 100 denota cor completa e 0 denota entrada apenas em preto e branco. O ColorTrigger é avaliado em dois pontos de operação, retenção de 7,1% e 33,1% de quadros de cor, e mostra precisão geral melhorada sobre a linha de base em preto e branco do InternVL-3.5-8B, enquanto reduz significativamente o uso de cor em relação à configuração de cor completa.

Desempenho no OVO-Bench em três categorias: Percepção Visual em Tempo Real, Rastreamento Retroativo e Resposta Ativa Avançada, comparando MLLMs proprietários, de código aberto e em streaming sob diferentes orçamentos de cor. RGB (%) indica a proporção de quadros mantidos em cor após o acionamento, onde 100 denota cor completa e 0 denota entrada apenas em preto e branco. O ColorTrigger é avaliado em dois pontos de operação, retenção de 7,1% e 33,1% de quadros de cor, e mostra precisão geral melhorada sobre a linha de base em preto e branco do InternVL-3.5-8B, enquanto reduz significativamente o uso de cor em relação à configuração de cor completa.

Desses resultados, os autores afirmam:

‘Nosso modelo com 33,1% de quadros RGB atinge uma pontuação geral de 52,5, superando quase todos os MLLMs de código aberto existentes. Em comparação com o modelo base InternVL-3.5-8B com entrada RGB completa (57,7), o ColorTrigger atinge 52,5 enquanto reduz o uso de quadros RGB em 66,9%, representando apenas uma queda de 5,2 pontos no desempenho geral.

‘Essa degradação modesta é acompanhada por ganhos significativos em eficiência, demonstrando a eficácia de nossa estratégia de roteamento adaptativo.’

A Percepção Visual em Tempo Real atingiu 65,2 – um ganho de 11,4 pontos sobre a linha de base em preto e branco de 53,8. Mesmo quando limitado a apenas 7,1% de quadros RGB (uma redução de 92,9%), o ColorTrigger manteve uma pontuação geral de 50,4, melhorando a configuração em preto e branco em 2,5 pontos.

Finalmente, os pesquisadores conduziram um teste contra uma tarefa de vídeo offline (uma tarefa analítica não projetada para testar latência ou outras condições ambientais “ao vivo”, usando o benchmark de compreensão de vídeo de longo prazo Video-MME:

Comparação de desempenho dos sistemas testados no benchmark Video-MME.

Comparação de desempenho dos sistemas testados no benchmark Video-MME.

Nesse teste, o modelo alcançou uma pontuação geral de 66,1, enquanto usava 37,6% de quadros RGB, superando a pontuação de linha de base do InternVL-3.5-8B de 65,6, apesar de usar 62,4% menos quadros de cor.

Os autores comentam:

‘Isso demonstra que nosso mecanismo de acionamento adaptativo não apenas reduz o custo computacional, mas também pode melhorar o desempenho, focando a capacidade de RGB em momentos semanticamente críticos.

‘Notavelmente, o ColorTrigger supera todos os MLLMs de streaming existentes, incluindo o TimeChat-Online-7B com 62,4 e o Dispider-7B com 57,2, confirmando a eficácia de combinar contexto contínuo em preto e branco com aquisição seletiva de RGB para compreensão de vídeo de longo prazo.’

Conclusão

Eu sempre gosto de ver inovações desse tipo, não apenas porque a IA tem uma grande e crescente necessidade de (energia elétrica) e tem produzido manchetes desanimadoras por um longo tempo, mas também é bom ver pesquisas que indiretamente abordam a questão.

É um consolo cínico saber que as economias de energia feitas nesses esforços são motivadas por considerações comerciais, pois essas são menos propensas a serem afetadas por decisões políticas de curto prazo do que as preocupações mais nobres, mas mais vulneráveis, sobre conservação de energia e aquecimento global. Felizmente, o mesmo fim é alcançado, por diferentes razões.

 

* Criado por mim, apenas para encapsular a ideia do artigo para o leitor.

Publicado pela primeira vez na quinta-feira, 26 de março de 2026

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.