Connect with us

Sudut Anderson

Suasana 1970-an untuk Pemantauan AI yang Menghemat Energi

mm
Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Penelitian baru menunjukkan bahwa sebagian besar AI video tidak memerlukan warna sama sekali, hanya mengaktifkannya pada saat-saat kunci dan mengurangi penggunaan data lebih dari 90% dengan sedikit kehilangan akurasi.

 

Kamera streaming jarak jauh dan perangkat video lain yang tidak terhubung dan berbasis baterai memerlukan pengaturan pemantauan yang sangat dioptimalkan, karena mereka mungkin bergantung pada sumber daya yang tidak stabil – seperti surya – atau memerlukan pengisian ulang berkala, atau bentuk intervensi manusia lainnya, dalam situasi di mana, idealnya, tidak ada yang perlu hadir.

Bersamaan dengan penelitian ini, minat pada perangkat wearable yang dilengkapi kamera juga tumbuh (meskipun perangkat tersebut sudah terbatas oleh keterbatasan daya dan komputasi), karena edge AI sekarang berjanji untuk membuatnya lebih berguna.

Di luar pertimbangan ini, dorongan jangka panjang untuk mengurangi biaya edge AI dan pemantauan (terutama dalam kasus di mana penghematan tersebut tidak perlu diteruskan kepada pelanggan) membuat kasus yang kuat untuk inovasi dalam pendekatan konservasi energi untuk kasus penggunaan ‘edge’.

Sound Off

Di bidang streaming video-sensing, perangkat pemantauan edge yang kekurangan sumber daya harus menggunakan energi minimal, sementara masih menghabiskan cukup daya untuk memantau ‘peristiwa menarik’ – pada saat itu, akan sepadan dengan menghabiskan lebih banyak sumber daya.

Secara efektif, ini adalah kasus penggunaan yang sama dengan lampu yang dipicu oleh gerakan, yang menyediakan penerangan hanya ketika sensor yang menghabiskan daya rendah menentukan ada seseorang di sana untuk menghargainya.

Karena pemantauan audio dan kompresi secara signifikan kurang intensif sumber daya daripada video, beberapa pendekatan dalam beberapa tahun terakhir telah mencoba menggunakan petunjuk suara untuk ‘mengaktifkan’ perhatian dalam sistem yang terbatas; kerangka seperti Listen to Look dan Egotrigger:

Dalam sistem Egotrigger, pemicu audio-driven secara selektif mengaktifkan penangkapan gambar dari interaksi tangan-objek, mengurangi frame redundan sambil mempertahankan kinerja memori episodik dalam sistem kacamata pintar yang terbatas sumber daya. Sumber - https://arxiv.org/pdf/2508.01915

Dalam sistem Egotrigger, pemicu audio-driven secara selektif mengaktifkan penangkapan gambar dari interaksi tangan-objek, mengurangi frame redundan sambil mempertahankan kinerja memori episodik dalam sistem kacamata pintar yang terbatas sumber daya. Sumber

Jelas bahwa audio bukanlah medium ideal untuk mencari peristiwa visual, karena banyak peristiwa penting mungkin tidak memiliki petunjuk audio, atau mungkin terjadi di luar jangkauan mikrofon edge.

Light Sleeper

Apa yang mungkin lebih baik, satu makalah baru menyarankan, adalah aliran video yang dapat bekerja sama dengan AI untuk meningkatkan sumber daya segera setelah peristiwa yang diawasi terjadi. Simulasi di bawah* memberikan gambaran umum tentang konsep – pemantauan resolusi rendah dipertahankan pada tingkat sinyal minimum yang diperlukan untuk kerangka deteksi objek untuk beroperasi, dan untuk memberitahu sistem untuk meningkatkan resolusi karena pemicuan peristiwa:

Simulasi perilaku yang diinginkan – bahwa streaming dan analisis beroperasi pada tingkat konsumsi sumber daya terendah oleh default; hanya cukup untuk memicu konsumsi sumber daya yang lebih tinggi ketika ‘peristiwa menarik’ atau peristiwa yang dicari terdeteksi dalam aliran grayscale. Gaya pengawasan hitam-putih mungkin agak ‘retro’, tetapi bisa menjadi tanda dari hal-hal yang akan datang. Video ini dibuat oleh penulis semata-mata untuk tujuan ilustratif dalam kaitannya dengan ide-ide inti dari makalah baru. Sumber:

Makalah baru, kolaborasi akademis antara berbagai lembaga di UK dan Huawei, mengusulkan skema grayscale-always, color-on-demand yang difasilitasi AI untuk pemantauan edge – dirancang untuk beroperasi pada penggunaan token yang rendah ketika tidak ada ‘peristiwa kunci’ yang terjadi, dan untuk meningkatkan konsumsi hanya untuk durasi peristiwa.

Dalam benchmark pemahaman video streaming, sistem baru, yang disebut ColorTrigger, dapat mencapai 91,6% dari kinerja baseline warna penuh sambil menggunakan hanya 8,1% dari frame RGB dalam standar tersebut:

Ketika model hanya melihat video grayscale, itu membingungkan detail kunci dan memberikan jawaban yang salah; tetapi memicu warna pada saat yang tepat menghilangkan keraguan dalam gambar dan memperbaiki kesalahan yang dipicu oleh tugas yang bergantung pada warna. Sumber - https://lvgd.github.io/ColorTrigger/

Ketika model hanya melihat video grayscale, itu membingungkan detail kunci dan memberikan jawaban yang salah; tetapi memicu warna pada saat yang tepat menghilangkan keraguan dalam gambar dan memperbaiki kesalahan yang dipicu oleh tugas yang bergantung pada warna. Sumber

Makalah baru ini berjudul Color When It Counts: Grayscale-Guided Online Triggering for Always-On Streaming Video Sensing, dan berasal dari delapan peneliti di Queen Mary University of London, Durham University, Imperial College London, dan Huawei Noah’s Ark Lab. Makalah ini juga memiliki halaman proyek pendamping.

Metode

Untuk mempertahankan struktur temporal dalam sistem baru, ColorTrigger mempertahankan pemantauan grayscale resolusi rendah yang konstan. Sebuah pemicu online yang bersifat sebab-akibat menganalisis jendela geser (yaitu, rentang frame yang fleksibel plus-minus sekitar waktu tertentu, seperti penginderaan pemicu peristiwa) dari aliran resolusi rendah:

Pengambilan RGB resolusi tinggi yang terus-menerus dengan cepat menghabiskan daya, sehingga perekaman berhenti lebih awal dan momen kunci dapat terlewatkan. Sebaliknya, ColorTrigger menjaga aliran grayscale yang berjalan terus-menerus, dan hanya mengaktifkan kamera RGB pada saat-saat tertentu - memperpanjang waktu perekaman, sambil masih menangkap detail visual yang diperlukan untuk menjawab pertanyaan kemudian. Sumber - https://arxiv.org/pdf/2603.22466

Pengambilan RGB resolusi tinggi yang terus-menerus dengan cepat menghabiskan daya, sehingga perekaman berhenti lebih awal dan momen kunci dapat terlewatkan. Sebaliknya, ColorTrigger menjaga aliran grayscale yang berjalan terus-menerus, dan hanya mengaktifkan kamera RGB pada saat-saat tertentu – memperpanjang waktu perekaman, sambil masih menangkap detail visual yang diperlukan untuk menjawab pertanyaan kemudian. Sumber

Saat sistem dalam mode ‘pasif’ (yaitu, belum mengidentifikasi peristiwa pemicu), ruter token dinamisnya mengalokasikan kapasitas terbatas ke decoder asimetris, selalu mencari redundansi, dan untuk peristiwa yang menunjukkan kebaruan, pada saat itu aliran token memprioritaskan kapasitas atas kompresi:

Skema untuk ColorTrigger. Sistem memantau analisis jendela geser dari frame terbaru untuk mendeteksi redundansi dan perubahan, memicu pengambilan RGB resolusi tinggi hanya ketika diperlukan, di bawah anggaran berbasis kredit. Ruter token dinamis mengalokasikan token yang lebih sedikit ke input grayscale dan lebih banyak ke frame RGB yang dipilih, mempertahankan urutan temporal untuk pemrosesan Multimodal Large Language Model (MLLM) hilir.

Skema untuk ColorTrigger. Sistem memantau analisis jendela geser dari frame terbaru untuk mendeteksi redundansi dan perubahan, memicu pengambilan RGB resolusi tinggi hanya ketika diperlukan, di bawah anggaran berbasis kredit. Ruter token dinamis mengalokasikan token yang lebih sedikit ke input grayscale dan lebih banyak ke frame RGB yang dipilih, mempertahankan urutan temporal untuk pemrosesan Multimodal Large Language Model (MLLM) hilir.

Pada basis frame per frame, sistem perlu memutuskan apakah saat ini mengandung informasi baru yang sepadan dengan biaya penangkapan warna. Sejarah singkat frame grayscale di jendela geser memungkinkan ColorTrigger untuk membandingkan frame saat ini dengan masa lalu yang langsung. Setiap frame dikonversi menjadi representasi fitur yang kompak, dan fitur-fitur ini dibandingkan satu sama lain untuk mengukur seberapa mirip atau berbeda frame yang menjadi tuan rumah.

Proses perbandingan ini diatur dalam struktur yang merangkum berapa banyak setiap frame tumpang tindih dengan yang lain, secara efektif menangkap apakah adegan tersebut mengulangi atau berubah. Langkah optimasi ringan mengassign skor kepentingan ke setiap frame dalam jendela, memfavoritkan kebaruan.

Keseimbangan Warna

Untuk mencegah penggunaan warna yang berlebihan, sistem ‘kredit’ sederhana membatasi seberapa sering warna dapat dipicu seiring waktu. Kredit terkumpul secara bertahap, dan dihabiskan ketika warna diminta, memastikan bahwa ledakan aktivitas diizinkan, tetapi penggunaan secara keseluruhan tetap terkendali. Sebuah frame hanya ‘ditingkatkan’ ke warna jika itu informatif, dan jika ada cukup kredit yang tersedia.

Ruter Token Dinamis mengontrol seberapa banyak detail yang diterima setiap frame, bukan memproses setiap frame dengan kualitas penuh. Ketika tidak ada yang penting terdeteksi, frame grayscale dipertahankan resolusi rendah dan diubah menjadi set token yang kecil dan terkompresi. Ketika peristiwa penting terdeteksi, sistem beralih ke warna dan memproses frame tersebut dengan resolusi yang lebih tinggi, menawarkan representasi yang lebih kaya dan lebih rinci.

Kedua jenis frame melewati model yang sama, tetapi frame grayscale diproses dengan cara yang lebih ringan, sementara frame warna yang dipilih diberi perhatian lebih. Keluaran kemudian digabungkan dalam urutan aslinya dan dikirim ke model sebagai aliran kontinu.

Karena sebagian besar frame tetap ringan dan hanya beberapa yang ditingkatkan, sistem menghemat sejumlah besar komputasi sambil masih menangkap detail kunci saat itu:

Dari makalah, contoh lain di mana sistem memerlukan peningkatan sementara sumber daya untuk membedakan warna.

Dari makalah, contoh lain di mana sistem memerlukan peningkatan sementara sumber daya untuk membedakan warna.

Data dan Tes

Untuk menguji sistem, peneliti mengevaluasi melawan StreamingBench dan OVO-Bench benchmark video, menghindari pemrosesan konten masa depan (yang merupakan bahaya potensial dalam tes offline).

Model Multimodal Large Language (MLLM) yang dibekukan yang digunakan adalah InternVL3.5-8B-Instruct, dengan pemicu sebab-akibat yang diimplementasikan melalui CLIP ViT-B/16.

Aliran grayscale dibatasi pada kanal luminans dalam ruang warna CIELAB, sesuai dengan penelitian sebelumnya, dengan frame grayscale yang dihasilkan diubah ukurannya menjadi 224x224px sebelum patchifikasi (pemisahan gambar menjadi blok kecil dengan ukuran tetap, sehingga setiap blok dapat diproses sebagai unit terpisah oleh model).

Frame RGB, di sisi lain, menikmati bitrate yang lebih tinggi, dan diproses pada 448x448px, menghasilkan 256 token, dibandingkan dengan 64 token yang dihasilkan untuk frame grayscale.

Alat optimasi umum digunakan untuk membuat keputusan sistem: CVXPY (perpustakaan Python untuk mengatur masalah optimasi), dan OSQP Solver (algoritma cepat yang menghitung kapan warna harus dipicu).

Video diproses pada 1fps, dengan batas 128 frame per klip, untuk menjaga komputasi rendah.

Sistem proprietary yang diuji adalah Gemini 1.5 Pro; GPT-4o; dan Claude 3.5 Sonnet. Model video MLLM sumber terbuka yang diuji adalah LLaVA-OneVision-7B; Video-LLaMA2-7B; dan Qwen2.5-VL-7B.

Model MLLM streaming yang diuji adalah Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; dan TimeChat-Online-7B.

InternVL-3.5-8B dan Qwen3-VL-8B diuji dalam berbagai konfigurasi, yang dirinci dalam tabel hasil pertama di bawah, mengenai StreamingBench:

Kinerja pada StreamingBench untuk tugas pemahaman visual waktu nyata, membandingkan MLLM proprietary, sumber terbuka, dan streaming dengan berbagai anggaran warna. RGB (%) menunjukkan proporsi frame yang disimpan dalam warna setelah pemicuan, di mana 100 menunjukkan warna penuh dan 0 menunjukkan input grayscale saja. ColorTrigger dievaluasi pada dua titik operasi, mempertahankan 8,1% dan 34,3% frame warna, dan menunjukkan akurasi keseluruhan yang ditingkatkan dibandingkan dengan baseline grayscale InternVL-3.5-8B sambil secara substansial mengurangi penggunaan warna relatif terhadap pengaturan warna penuh.

Kinerja pada StreamingBench untuk tugas pemahaman visual waktu nyata, membandingkan MLLM proprietary, sumber terbuka, dan streaming dengan berbagai anggaran warna. RGB (%) menunjukkan proporsi frame yang disimpan dalam warna setelah pemicuan, di mana 100 menunjukkan warna penuh dan 0 menunjukkan input grayscale saja. ColorTrigger dievaluasi pada dua titik operasi, mempertahankan 8,1% dan 34,3% frame warna, dan menunjukkan akurasi keseluruhan yang ditingkatkan dibandingkan dengan baseline grayscale InternVL-3.5-8B sambil secara substansial mengurangi penggunaan warna relatif terhadap pengaturan warna penuh.

Di sini penulis mengomentari:

‘ColorTrigger mencapai kinerja kompetitif pada subtask Pemahaman Visual Waktu Nyata dari StreamingBench. ‘

‘Model kami dengan 34,3% frame RGB mencetak 75,24, mengungguli model online Dispider-7B dan dekat dengan TimeChat-Online-7B, sementara setara dengan model proprietary seperti Gemini 1.5 Pro (75,69) dan mengungguli GPT-4o (73,28) dan Claude 3.5 Sonnet (72,44).’

InternVL-3.5-8B mencetak 77,20 menggunakan warna penuh, sementara ColorTrigger mencapai 75,24 menggunakan 65,7% frame RGB lebih sedikit – dan bahkan dengan hanya 8,1% frame warna, mencetak 70,72, mengungguli baseline grayscale 62,08 sebesar 8,64%, dan tetap kompetitif dengan model streaming lainnya.

Selanjutnya, OVO-Bench diuji:

Kinerja pada OVO-Bench di seluruh tiga kategori: Persepsi Visual Waktu Nyata, Pelacakan Mundur, dan Respon Aktif Maju, membandingkan MLLM proprietary, sumber terbuka, dan streaming dengan berbagai anggaran warna. RGB (%) menunjukkan proporsi frame yang disimpan dalam warna setelah pemicuan, di mana 100 menunjukkan warna penuh dan 0 menunjukkan input grayscale saja. ColorTrigger dievaluasi pada dua titik operasi, mempertahankan 7,1% dan 33,1% frame warna, dan menunjukkan akurasi keseluruhan yang ditingkatkan dibandingkan dengan baseline grayscale InternVL-3.5-8B sambil secara substansial mengurangi penggunaan warna relatif terhadap pengaturan warna penuh.

Kinerja pada OVO-Bench di seluruh tiga kategori: Persepsi Visual Waktu Nyata, Pelacakan Mundur, dan Respon Aktif Maju, membandingkan MLLM proprietary, sumber terbuka, dan streaming dengan berbagai anggaran warna. RGB (%) menunjukkan proporsi frame yang disimpan dalam warna setelah pemicuan, di mana 100 menunjukkan warna penuh dan 0 menunjukkan input grayscale saja. ColorTrigger dievaluasi pada dua titik operasi, mempertahankan 7,1% dan 33,1% frame warna, dan menunjukkan akurasi keseluruhan yang ditingkatkan dibandingkan dengan baseline grayscale InternVL-3.5-8B sambil secara substansial mengurangi penggunaan warna relatif terhadap pengaturan warna penuh.

Dari hasil ini, penulis menyatakan:

‘Model kami dengan 33,1% frame RGB mencapai skor keseluruhan 52,5, mengungguli hampir semua MLLM online sumber terbuka yang ada. Dibandingkan dengan model dasar InternVL-3.5-8B dengan input RGB penuh (57,7), ColorTrigger mencetak 52,5 sambil mengurangi penggunaan frame RGB sebesar 66,9%, yang hanya menunjukkan penurunan 5,2 poin dalam kinerja keseluruhan.

‘Penurunan ini disertai dengan peningkatan efisiensi yang substansial, menunjukkan efektivitas strategi pengalihan adaptif kami.’

Persepsi Visual Waktu Nyata mencapai 65,2 – sebuah kenaikan 11,4 poin dari baseline grayscale 53,8. Bahkan ketika dibatasi hanya 7,1% frame RGB (penurunan 92,9%), ColorTrigger mempertahankan skor keseluruhan 50,4, meningkatkan baseline grayscale sebesar 2,5 poin.

Akhirnya, peneliti melakukan tes melawan tugas video offline (tugas analitis yang tidak dirancang untuk menguji keterlambatan atau kondisi lingkungan ‘langsung’ lainnya, menggunakan benchmark Video-MME pemahaman video panjang):

Perbandingan kinerja sistem yang diuji pada benchmark Video-MME.

Perbandingan kinerja sistem yang diuji pada benchmark Video-MME.

Dalam tes ini, model mencapai skor keseluruhan 66,1, sambil menggunakan 37,6% frame RGB, mengungguli skor baseline InternVL-3.5-8B 65,6, meskipun menggunakan 62,4% frame RGB lebih sedikit.

Penulis mengomentari:

‘Hal ini menunjukkan bahwa mekanisme pemicuan adaptif kami tidak hanya mengurangi biaya komputasi tetapi juga dapat meningkatkan kinerja dengan fokus kapasitas RGB pada momen kritis secara semantik. ‘

‘Secara khusus, ColorTrigger mengungguli semua MLLM online yang ada, termasuk TimeChat-Online-7B pada 62,4 dan Dispider-7B pada 57,2, yang mengonfirmasi efektivitas menggabungkan konteks grayscale terus-menerus dengan akuisisi RGB selektif untuk pemahaman video panjang.’

Kesimpulan

Saya selalu menikmati melihat inovasi seperti ini, tidak hanya karena kebutuhan AI yang tinggi dan terus tumbuh akan daya (listrik) telah menghasilkan headline yang suram selama waktu yang lama, dan itu baik untuk melihat penelitian yang secara tidak langsung mengatasi masalah ini.

Ini adalah kenyamanan sinis untuk mengetahui bahwa penghematan daya yang dilakukan dalam upaya seperti ini dimotivasi oleh pertimbangan komersial, karena ini kurang mungkin dipengaruhi oleh keputusan politik jangka pendek daripada kekhawatiran yang lebih mulia, tetapi lebih rentan, tentang konservasi energi dan pemanasan global. Untungnya, tujuan yang sama dicapai, dengan alasan yang berbeda.

 

* Dibuat oleh saya, hanya untuk menggambarkan ide makalah bagi pembaca.

Dipublikasikan pertama kali pada hari Kamis, 26 Maret 2026

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.