Connect with us

Un toque de los años 70 para la conservación de energía en el monitoreo de IA

Ángulo de Anderson

Un toque de los años 70 para la conservación de energía en el monitoreo de IA

mm
Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Una nueva investigación muestra que la mayoría de la inteligencia artificial de video no necesita color en absoluto, activándolo solo en momentos clave y reduciendo el uso de datos en más del 90% con poca pérdida de precisión.

 

Las cámaras de transmisión remota y otros dispositivos de video sin cable, impulsados por baterías, requieren configuraciones de monitoreo optimizadas, ya que pueden depender de fuentes de alimentación inestables, como la energía solar, o requerir recargas periódicas, u otras formas de intervención humana, en situaciones en las que, idealmente, no debería ser necesario que nadie esté presente.

En conjunto con esta línea de investigación, el interés en dispositivos portátiles con cámara también ha crecido (aunque dichos dispositivos ya estaban limitados por restricciones de potencia y cómputo), porque la inteligencia artificial de borde ahora promete hacerlos significativamente más útiles.

Más allá de estas consideraciones, el impulso a largo plazo para reducir los costos de la inteligencia artificial de borde y el monitoreo (particularmente en casos en los que dichos ahorros no necesitan ser transferidos al cliente) hacen un caso convincente para la innovación en enfoques de conservación de energía para casos de uso de “borde”.

Sonido

En el campo de detección de video en transmisión, los dispositivos de monitoreo de borde con recursos limitados deben utilizar la menor cantidad posible de energía, mientras gastan suficiente potencia para monitorear eventos “interesantes” – en cuyo punto, valdrá la pena gastar más recursos.

En efecto, este es un caso de uso similar al de las luces controladas por movimiento, que proporcionan iluminación solo cuando los sensores de bajo consumo de energía determinan que hay alguien allí para apreciarla.

Dado que la compresión y el monitoreo de audio son notablemente menos intensivos en recursos que el video, varios enfoques en años recientes han intentado utilizar señales de audio para “activar” la atención en sistemas limitados; marcos como Listen to Look y Egotrigger:

En el sistema Egotrigger, la activación por audio selecciona la captura de imagen a partir de señales de interacción entre la mano y el objeto, reduciendo los fotogramas redundantes mientras se mantiene el rendimiento de la memoria episódica en sistemas de gafas inteligentes con recursos limitados. Fuente - https://arxiv.org/pdf/2508.01915

En el sistema Egotrigger, la activación por audio selecciona la captura de imagen a partir de señales de interacción entre la mano y el objeto, reduciendo los fotogramas redundantes mientras se mantiene el rendimiento de la memoria episódica en sistemas de gafas inteligentes con recursos limitados. Fuente

Es evidente que el audio no es el medio ideal para buscar eventos visuales, ya que muchos eventos visuales esenciales pueden no tener una señal de audio asociada, o pueden ocurrir fuera del alcance de los micrófonos de borde.

Durmiente ligero

¿Qué podría ser mejor, sugiere un nuevo artículo, es una transmisión de video que pueda trabajar junto con la IA para aumentar los recursos tan pronto como se produzca un evento vigilado. La simulación a continuación* da una idea general del concepto – se mantiene la vigilancia de baja resolución al nivel de señal de mínima necesidad para detección de objetos y para decirle al sistema que aumente la resolución debido al desencadenamiento de un evento:

Una simulación del comportamiento deseado – que la transmisión y el análisis operen a su nivel más bajo de consumo de recursos por defecto; solo lo suficiente para desencadenar un mayor consumo de recursos cuando se detecten eventos “interesantes” o buscados en la transmisión en escala de grises. El estilo de vigilancia en escala de grises puede ser un poco “retro”, pero podría ser un signo de lo que está por venir. Este video fue creado por el autor únicamente con fines ilustrativos en relación con las ideas básicas del nuevo artículo. Fuente

El nuevo trabajo, una colaboración académica entre varias instituciones del Reino Unido y Huawei, propone un esquema de gris siempre, color bajo demanda sin entrenamiento, facilitado por la IA, para el monitoreo de borde – diseñado para operar a bajo uso de tokens cuando no se produzcan “eventos clave”, y para aumentar el consumo solo durante la duración del evento.

En las pruebas de comprensión de video en transmisión, el nuevo sistema, llamado ColorTrigger, logró alcanzar el 91,6% del rendimiento de la línea de base de color completo mientras utilizaba solo el 8,1% de los fotogramas RGB en esas normas:

Cuando el modelo solo ve video en escala de grises, confunde detalles clave y da respuestas incorrectas; pero desencadenar el color en los momentos adecuados desambigua la imagen y corrige errores desencadenados por tareas que dependen del color. Fuente - https://lvgd.github.io/ColorTrigger/

Cuando el modelo solo ve video en escala de grises, confunde detalles clave y da respuestas incorrectas; pero desencadenar el color en los momentos adecuados desambigua la imagen y corrige errores desencadenados por tareas que dependen del color. Fuente

El nuevo artículo se titula Color cuando cuenta: desencadenamiento en línea guiado por escala de grises para detección de video en transmisión siempre activa, y proviene de ocho investigadores de la Universidad Queen Mary de Londres, la Universidad de Durham, el Imperial College de Londres y el Laboratorio Noah’s Ark de Huawei. El artículo también tiene una página del proyecto.

Método

Para preservar la estructura temporal en el nuevo sistema, ColorTrigger mantiene una vigilancia de baja resolución constante. Un desencadenador en línea causal analiza una ventana deslizante (es decir, un rango flexible de fotogramas alrededor de un momento particular, como la detección de un desencadenador de evento) de la transmisión de baja resolución:

La captura continua de RGB de alta resolución agota rápidamente la potencia, por lo que la grabación se detiene temprano y se pueden perder momentos clave. Por el contrario, ColorTrigger mantiene una transmisión de escala de grises de baja potencia en ejecución en todo momento, y solo activa la cámara RGB en momentos seleccionados – extendiendo el tiempo de grabación, mientras aún captura los detalles visuales necesarios para responder a consultas posteriores. Fuente - https://arxiv.org/pdf/2603.22466

La captura continua de RGB de alta resolución agota rápidamente la potencia, por lo que la grabación se detiene temprano y se pueden perder momentos clave. Por el contrario, ColorTrigger mantiene una transmisión de escala de grises de baja potencia en ejecución en todo momento, y solo activa la cámara RGB en momentos seleccionados – extendiendo el tiempo de grabación, mientras aún captura los detalles visuales necesarios para responder a consultas posteriores. Fuente

Mientras el sistema está en modo “pasivo” (es decir, no ha identificado un evento de desencadenamiento), su enrutador de tokens dinámico asigna capacidad limitada a un decodificador asimétrico, siempre buscando redundancia, y eventos que indiquen novedad, en cuyo punto el flujo de tokens reasigna la capacidad sobre la compresión:

Esquema para ColorTrigger. El sistema monitorea un análisis de ventana deslizante de fotogramas recientes para detectar redundancia y cambio, desencadenando la captura de RGB de alta resolución solo cuando es necesario, bajo un presupuesto basado en créditos. Un enrutador de tokens dinámico asigna menos tokens a las entradas de escala de grises y más a los fotogramas RGB seleccionados, preservando el orden temporal para el procesamiento posterior del modelo de lenguaje grande multimodal (MLLM).

Esquema para ColorTrigger. El sistema monitorea un análisis de ventana deslizante de fotogramas recientes para detectar redundancia y cambio, desencadenando la captura de RGB de alta resolución solo cuando es necesario, bajo un presupuesto basado en créditos. Un enrutador de tokens dinámico asigna menos tokens a las entradas de escala de grises y más a los fotogramas RGB seleccionados, preservando el orden temporal para el procesamiento posterior del modelo de lenguaje grande multimodal (MLLM).

A nivel de fotograma, el sistema necesita decidir si el momento actual contiene nueva información que valga la pena capturar en color. La historia reciente de fotogramas de escala de grises en la ventana deslizante permite que ColorTrigger compare el fotograma actual con su inmediato pasado. Cada fotograma se convierte en una representación de características compacta, y estas características se comparan entre sí para medir cuánto se superponen o difieren sus fotogramas anfitriones.

Este proceso de comparación se organiza en una estructura que resume cuánto cada fotograma se superpone con los demás, capturando efectivamente si la escena se repite o cambia. Un paso de optimización ligero asigna una puntuación de importancia a cada fotograma en la ventana, favoreciendo la novedad.

Equilibrio de color

Para evitar un uso excesivo del color, un simple “sistema de créditos” limita cuántas veces se puede desencadenar el color con el tiempo. Los créditos se acumulan gradualmente y se gastan cuando se solicita el color, asegurando que se permitan estallidos de actividad, pero que el uso general permanezca controlado. Un fotograma solo se “actualiza” a color si es informativo y si hay suficientes créditos disponibles.

El Enrutador de tokens dinámico controla cuánto detalle recibe cada fotograma, en lugar de procesar cada fotograma a toda calidad. Cuando no se detecta nada importante, el fotograma de escala de grises se mantiene de baja resolución y se convierte en un conjunto pequeño y comprimido de tokens. Cuando se detecta un momento importante, el sistema cambia a color y procesa ese fotograma a una resolución más alta, ofreciendo una representación más rica y detallada.

Ambos tipos de fotogramas pasan por el mismo modelo, pero los fotogramas de escala de grises se manejan de una manera más ligera, mientras que los fotogramas de color seleccionados reciben más atención. Las salidas se combinan en su orden original y se envían al modelo como una transmisión continua.

Como la mayoría de los fotogramas permanecen ligeros y solo unos pocos se actualizan, el sistema ahorra una gran cantidad de cómputo mientras aún captura los detalles clave cuando importan:

Del artículo, otro ejemplo en el que el sistema requiere aumentar temporalmente los recursos para distinguir un color.

Del artículo, otro ejemplo en el que el sistema requiere aumentar temporalmente los recursos para distinguir un color.

Datos y pruebas

Para probar el sistema, los investigadores lo evaluaron contra las pruebas de video StreamingBench y OVO-Bench, evitando el procesamiento de contenido futuro (que es un peligro potencial en pruebas fuera de línea).

El modelo congelado de lenguaje grande multimodal (MLLM) utilizado fue InternVL3.5-8B-Instruct, con el desencadenador causal implementado a través de CLIP ViT-B/16.

La transmisión de escala de grises se limitó al canal de luminancia en el espacio de color CIELAB, de acuerdo con trabajos anteriores, con los fotogramas de escala de grises resultantes redimensionados a 224x224px antes de dividir en parches (la división de una imagen en bloques fijos pequeños, para que cada bloque pueda ser procesado como una unidad separada por el modelo).

Los fotogramas RGB, por el contrario, disfrutaron de un bitrate más alto y se procesaron a 448x448px, produciendo 256 tokens, en contraste con los 64 tokens producidos para los fotogramas de escala de grises.

Herramientas de optimización comunes se utilizaron para tomar las decisiones del sistema: CVXPY (una biblioteca de Python para configurar problemas de optimización), y OSQP Solver (un algoritmo rápido que calcula cuándo desencadenar el color).

El video se procesó a 1fps, con un límite de 128 fotogramas por clip, para mantener la computación baja.

Los sistemas propietarios probados fueron Gemini 1.5 Pro; GPT-4o; y Claude 3.5 Sonnet. Los modelos de lenguaje grande multimodal de video de código abierto probados fueron LLaVA-OneVision-7B; Video-LLaMA2-7B; y Qwen2.5-VL-7B.

Los modelos de lenguaje grande multimodal de video en transmisión probados fueron Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; y TimeChat-Online-7B.

InternVL-3.5-8B y Qwen3-VL-8B se probaron en varias configuraciones, detalladas en la primera tabla de resultados a continuación, con respecto a StreamingBench:

Rendimiento en StreamingBench para tareas de comprensión visual en tiempo real, comparando modelos de lenguaje grande multimodal propietarios, de código abierto y en transmisión con diferentes presupuestos de color. RGB (%) indica la proporción de fotogramas mantenidos en color después del desencadenamiento, donde 100 denota color completo y 0 denota entrada de escala de grises solo. ColorTrigger se evalúa en dos puntos de operación, manteniendo el 8,1% y el 34,3% de los fotogramas de color, y demuestra una precisión general mejorada sobre la línea de base de escala de grises InternVL-3.5-8B mientras reduce sustancialmente el uso de color en comparación con la configuración de color completo.

Rendimiento en StreamingBench para tareas de comprensión visual en tiempo real, comparando modelos de lenguaje grande multimodal propietarios, de código abierto y en transmisión con diferentes presupuestos de color. RGB (%) indica la proporción de fotogramas mantenidos en color después del desencadenamiento, donde 100 denota color completo y 0 denota entrada de escala de grises solo. ColorTrigger se evalúa en dos puntos de operación, manteniendo el 8,1% y el 34,3% de los fotogramas de color, y demuestra una precisión general mejorada sobre la línea de base de escala de grises InternVL-3.5-8B mientras reduce sustancialmente el uso de color en comparación con la configuración de color completo.

Aquí los autores comentan:

‘ColorTrigger logra un rendimiento competitivo en la subtask de comprensión visual en tiempo real de StreamingBench.

‘Nuestro modelo con el 34,3% de fotogramas RGB obtiene una puntuación de 75,24, superando al modelo en línea reciente Dispider-7B y cercano a TimeChat-Online-7B, mientras es comparable a modelos propietarios como Gemini 1.5 Pro (75,69) y supera a GPT-4o (73,28) y Claude 3.5 Sonnet (72,44).’

InternVL-3.5-8B obtuvo una puntuación de 77,20 utilizando color completo, mientras que ColorTrigger alcanzó una puntuación de 75,24 utilizando el 65,7% menos de fotogramas RGB – y incluso con solo el 8,1% de los fotogramas de color, obtuvo una puntuación de 70,72, superando la línea de base de escala de grises de 62,08 en un 8,64%, y permaneciendo competitivo con otros modelos en transmisión.

A continuación, se probó OVO-Bench:

Rendimiento en OVO-Bench en tres categorías: percepción visual en tiempo real, trazado hacia atrás y respuesta activa hacia adelante, comparando modelos de lenguaje grande multimodal propietarios, de código abierto y en transmisión con diferentes presupuestos de color. RGB (%) indica la proporción de fotogramas mantenidos en color después del desencadenamiento, donde 100 denota color completo y 0 denota entrada de escala de grises solo. ColorTrigger se evalúa en dos puntos de operación, manteniendo el 7,1% y el 33,1% de los fotogramas de color, y muestra una precisión general mejorada sobre la línea de base de escala de grises InternVL-3.5-8B mientras reduce sustancialmente el uso de color en comparación con la configuración de color completo.

Rendimiento en OVO-Bench en tres categorías: percepción visual en tiempo real, trazado hacia atrás y respuesta activa hacia adelante, comparando modelos de lenguaje grande multimodal propietarios, de código abierto y en transmisión con diferentes presupuestos de color. RGB (%) indica la proporción de fotogramas mantenidos en color después del desencadenamiento, donde 100 denota color completo y 0 denota entrada de escala de grises solo. ColorTrigger se evalúa en dos puntos de operación, manteniendo el 7,1% y el 33,1% de los fotogramas de color, y muestra una precisión general mejorada sobre la línea de base de escala de grises InternVL-3.5-8B mientras reduce sustancialmente el uso de color en comparación con la configuración de color completo.

De estos resultados, los autores afirman:

‘Nuestro modelo con el 33,1% de fotogramas RGB logra una puntuación general de 52,5, superando a casi todos los modelos de lenguaje grande multimodal en línea de código abierto existentes. En comparación con el modelo base InternVL-3.5-8B con entrada RGB completa (57,7), ColorTrigger obtiene una puntuación de 52,5 mientras reduce el uso de fotogramas RGB en un 66,9%, lo que representa solo una caída de 5,2 puntos en el rendimiento general.

‘Esta degradación modesta va acompañada de ganancias sustanciales en eficiencia, demostrando la efectividad de nuestra estrategia de enrutamiento adaptativa.’

La percepción visual en tiempo real alcanzó una puntuación de 65,2 – una ganancia de 11,4 puntos sobre la línea de base de escala de grises de 53,8. Incluso cuando se limitó a solo el 7,1% de los fotogramas RGB (una reducción del 92,9%), ColorTrigger mantuvo una puntuación general de 50,4, mejorando la configuración de escala de grises en 2,5 puntos.

Finalmente, los investigadores realizaron una prueba contra una tarea de video fuera de línea (una tarea analítica no diseñada para probar la latencia o otras condiciones ambientales “en vivo”, utilizando el benchmark de comprensión de video a largo plazo Video-MME:

Comparación de rendimiento de los sistemas probados en el benchmark Video-MME.

Comparación de rendimiento de los sistemas probados en el benchmark Video-MME.

En esta prueba, el modelo logró una puntuación general de 66,1, mientras utilizaba el 37,6% de los fotogramas RGB, superando la puntuación de la línea de base de color completo de InternVL-3.5-8B de 65,6, a pesar de utilizar el 62,4% menos de fotogramas RGB.

Los autores comentan:

‘Esto demuestra que nuestro mecanismo de desencadenamiento adaptativo no solo reduce el costo computacional, sino que también puede mejorar el rendimiento al enfocar la capacidad RGB en momentos semánticamente críticos.

‘Cabe destacar que ColorTrigger supera a todos los modelos de lenguaje grande multimodal en línea existentes, incluido TimeChat-Online-7B con una puntuación de 62,4 y Dispider-7B con una puntuación de 57,2, lo que confirma la efectividad de combinar contexto de escala de grises continuo con adquisición selectiva de RGB para la comprensión de video a largo plazo.’

Conclusión

Siempre disfruto viendo innovaciones de este tipo, no solo porque la inteligencia artificial tiene una gran y cada vez mayor necesidad de (energía eléctrica) y ha estado produciendo titulares desalentadores durante mucho tiempo, sino también porque es bueno ver investigaciones que abordan indirectamente el problema.

Es reconfortante saber que los ahorros de energía logrados en tales incursiones están motivados por consideraciones comerciales, ya que estas son menos propensas a ser afectadas por decisiones políticas a corto plazo que las preocupaciones más nobles, pero más vulnerables, sobre la conservación de la energía y el calentamiento global. Afortunadamente, se logra el mismo fin, por diferentes razones.

 

* Crear por mí, solo para encapsular la idea del artículo para el lector.

Publicado por primera vez el jueves 26 de marzo de 2026

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.