มุมมองของ Anderson

สว่างไสวด้วยพลังงานอนุรักษ์ AI

Published March 26, 2026

Updated May 16, 2026

Martin Anderson

Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

การวิจัยใหม่แสดงให้เห็นว่า AI วิดีโอส่วนใหญ่ไม่ต้องการสีเลย โดยเปิดใช้งานสีเฉพาะในเวลาที่สำคัญ และลดการใช้ข้อมูลลงมากกว่า 90% โดยมีการสูญเสียความแม่นยำเพียงเล็กน้อย

กล้องสตรีมมิ่งระยะไกลและอุปกรณ์วิดีโออื่นๆ ที่ไม่มีการเชื่อมต่อและขับเคลื่อนด้วยแบตเตอรี่ต้องการการตั้งค่าการตรวจสอบที่ได้รับการปรับให้เหมาะสมอย่างเข้มงวด เนื่องจากอาจพึ่งพาแหล่งจ่ายไฟที่ไม่เสถียร เช่น ระบบสุริยะ หรือต้องการการชาร์จซ้ำเป็นระยะๆ หรือรูปแบบการแทรกแซงอื่นๆ ในสถานการณ์ที่ไม่ควรจะมีใครอยู่

ควบคู่ไปกับการวิจัยนี้ ความสนใจในอุปกรณ์สวมใส่ที่มีกล้อง เพิ่มขึ้น (แม้ว่าอุปกรณ์เหล่านี้จะถูกจำกัดอย่างเข้มงวดด้วยข้อจำกัดด้านพลังงานและคำนวณก็ตาม) เนื่องจาก เอดจ์ AI มีแนวโน้มที่จะทำให้อุปกรณ์เหล่านี้มีประโยชน์มากขึ้น

นอกเหนือจากข้อพิจารณาเหล่านี้ แรงจูงใจในระยะยาวในการลดต้นทุนของเอดจ์ AI และการตรวจสอบ (โดยเฉพาะในกรณีที่การประหยัดต้นทุนเหล่านี้ไม่จำเป็นต้องถูกส่งต่อไปยังลูกค้า) ทำให้เกิดกรณีที่น่าสนใจสำหรับการนวัตกรรมในการอนุรักษ์พลังงานสำหรับกรณีการใช้งาน “เอดจ์”

เสียงดัง

ในด้าน การตรวจสอบวิดีโอสตรีมมิ่ง อุปกรณ์ตรวจสอบเอดจ์ที่ขาดแคลนแหล่งจ่ายพลังงานต้องใช้พลังงานน้อยที่สุด ในขณะเดียวกันก็ใช้พลังงานเพียงพอในการตรวจสอบเหตุการณ์ที่ “น่าสนใจ” – ซึ่งจะทำให้มีมูลค่าในการใช้ทรัพยากรมากขึ้น

โดยพื้นฐานแล้ว นี่คือกรณีการใช้งานที่คล้ายกับไฟที่ขับเคลื่อนด้วยการเคลื่อนไหว ซึ่งให้แสงสว่างเฉพาะเมื่อเซ็นเซอร์ที่มีการใช้พลังงานต่ำตรวจพบว่ามีคนอยู่

เนื่องจากการตรวจสอบและบีบอัดเสียงนั้นใช้ทรัพยากรน้อยกว่าการตรวจสอบวิดีโออย่างมีนัยสำคัญ การเข้าใกล้หลายอย่างในช่วงไม่กี่ปีที่ผ่านมาได้พยายามใช้เสียงเป็นคำแนะนำในการ “เปิดใช้งาน” การตรวจสอบในระบบที่มีข้อจำกัด เช่น ฟังเพื่อดู และ Egotrigger:

ในระบบ Egotrigger การกระตุ้นด้วยเสียงเลือกการบันทึกภาพจากสัญญาณการโต้ตอบระหว่างมือและวัตถุ ลดเฟรมที่ซ้ำกันในขณะเดียวกันก็รักษาความสามารถในการจดจำเหตุการณ์ในระบบแว่นตาส마트ที่มีข้อจำกัดด้านทรัพยากร แหล่งที่มา

ชัดเจนว่าเสียงไม่ใช่สื่อที่เหมาะสมที่สุดในการค้นหาฤดูกาลเหตุการณ์ทางภาพ เนื่องจากหลายเหตุการณ์ที่สำคัญอาจไม่มีสัญญาณเสียงหรืออาจเกิดขึ้นนอกเหนือพิสัยของไมโครโฟนเอดจ์

คนนอนหลับเบาๆ

สิ่งที่อาจดีกว่านั้นคือสตรีมวิดีโอที่สามารถทำงานร่วมกับ AI เพื่อเพิ่มทรัพยากรเมื่อเกิดเหตุการณ์ที่ต้องการให้ตรวจสอบ ซึ่งการจำลองด้านล่างให้แนวคิดทั่วไป – การตรวจสอบความละเอียดต่ำจะถูกบำรุงรักษาที่ระดับระดับสัญญาณขั้นต่ำที่จำเป็นสำหรับ การตรวจจับวัตถุ และบอกให้ระบบเพิ่มความละเอียดเมื่อเกิดเหตุการณ์:

การจำลองพฤติกรรมที่ต้องการ – การสตรีมและวิเคราะห์ทำงานที่ระดับการใช้ทรัพยากรต่ำสุดโดยค่าเริ่มต้น; เพียงพอสำหรับการกระตุ้นการบริโภคทรัพยากรมากขึ้นเมื่อตรวจพบเหตุการณ์ที่ “น่าสนใจ” หรือเหตุการณ์ที่ต้องการในกระแสสีเทา การแสดงภาพสอดส่องสีดำขาวอาจดู “เก่า” แต่อาจเป็นสัญญาณของสิ่งที่จะเกิดขึ้น นี่คือวิดีโอที่สร้างขึ้นโดยผู้เขียนเพื่อแสดงแนวคิดหลักของเอกสารวิจัยใหม่ แหล่งที่มา:

งานวิจัยใหม่ซึ่งเป็นความร่วมมือระหว่างสถาบันในสหราชอาณาจักรและ Huawei เสนอระบบ สีเทาเสมอ สีตามคำขอ สำหรับการตรวจสอบเอดจ์ ซึ่งออกแบบมาเพื่อทำงานที่การใช้โทเค็นต่ำเมื่อไม่มี “เหตุการณ์หลัก” กำลังเกิดขึ้น และเพิ่มการใช้ทรัพยากรเฉพาะในช่วงเวลาของเหตุการณ์

ในมาตรฐานการตรวจสอบวิดีโอสตรีมมิ่ง ระบบใหม่นี้ที่เรียกว่า ColorTrigger สามารถบรรลุผลการทำงานได้ 91.6% ของผลการทำงานของฐานสีเต็มในขณะที่ใช้เพียง 8.1% ของเฟรม RGB ในมาตรฐานเหล่านั้น:

เมื่อโมเดลเห็นเพียงวิดีโอสีเทา มันจะสับสนในรายละเอียดสำคัญและให้คำตอบที่ไม่ถูกต้อง แต่การกระตุ้นสีในเวลาที่เหมาะสมจะช่วยให้ภาพชัดเจนขึ้นและแก้ไขข้อผิดพลาดที่เกิดจากงานที่ขึ้นอยู่กับสี แหล่งที่มา

เอกสารวิจัยใหม่ซึ่งมีชื่อว่า สีเมื่อมันสำคัญ: การกระตุ้นออนไลน์แบบสีเทาเป็นแนวทางสำหรับการตรวจสอบวิดีโอสตรีมมิ่งที่เปิดใช้งานตลอดเวลา มาจากนักวิจัย 8 คนจาก Queen Mary University of London, Durham University, Imperial College London และ Huawei Noah’s Ark Lab เอกสารวิจัยนี้ยังมี หน้าโครงการ ที่มาพร้อมกัน

วิธีการ

เพื่อรักษาโครงสร้างเชิงเวลาในระบบใหม่นี้ ColorTrigger จะรักษาการตรวจสอบสีเทาต่อเนื่องด้วยแบนด์วิธต่ำ ระบบจะวิเคราะห์ หน้าต่างเลื่อน (เช่น ช่วงเฟรมที่ยืดหยุ่นรอบๆ เวลาที่เฉพาะเจาะจง เช่น การตรวจจับเหตุการณ์) ของสตรีมความละเอียดต่ำ:

การบันทึกวิดีโอด้วยความละเอียดสูงแบบต่อเนื่องจะทำให้พลังงานหมดเร็ว และอาจทำให้พลาดช่วงเวลาสำคัญ ในทางกลับกัน ColorTrigger จะรักษาสตรีมสีเทาที่มีพลังงานต่ำตลอดเวลา และเปิดใช้งานกล้อง RGB เฉพาะในช่วงเวลาที่เลือก – ทำให้สามารถบันทึกได้นานขึ้น ในขณะเดียวกันก็ยังคงสามารถจับภาพรายละเอียดที่จำเป็นสำหรับการซักถามในภายหลัง แหล่งที่มา

ในขณะที่ระบบอยู่ใน “โหมดพักผ่อน” (เช่น ยังไม่ได้ตรวจจับเหตุการณ์กระตุ้น) ระบบจะจัดสรรความจุแบบไดนามิกให้กับดีコ더แบบไม่สมมาตร ซึ่งกำลังมองหาการซ้ำซ้อนและเหตุการณ์ที่บ่งบอกถึงความแปลกใหม่ เมื่อตรวจพบเหตุการณ์ดังกล่าว การไหลของโทเค็นจะจัดลำดับความสำคัญของความจุเหนือการบีบอัด:

โครงสร้างของ ColorTrigger ระบบจะตรวจสอบการวิเคราะห์หน้าต่างเลื่อนของเฟรมล่าสุดเพื่อตรวจจับการซ้ำซ้อนและการเปลี่ยนแปลง โดยกระตุ้นการบันทึก RGB สูงในเวลาที่ต้องการภายใต้งบประมาณที่ใช้เครดิต ระบบจะจัดสรรโทเค็นน้อยกว่าสำหรับข้อมูลเข้าสีเทาและโทเค็นมากกว่าสำหรับเฟรม RGB ที่เลือกไว้ เพื่อรักษาลำดับเวลาไว้สำหรับการประมวลผล MLLM หลังจากระบบ

ในแต่ละเฟรม ระบบจะต้องตัดสินใจว่าช่วงเวลาปัจจุบันมีข้อมูลใหม่ที่คุ้มค่ากับการจับภาพสี ประวัติศาสตร์สั้นๆ ของเฟรมสีเทาในหน้าต่างเลื่อนช่วยให้ ColorTrigger สามารถเปรียบเทียบเฟรมปัจจุบันกับ อดีตที่ใกล้เคียง ของมัน

กระบวนการเปรียบเทียบนี้จัดระเบียบเป็นโครงสร้างที่สรุป ว่าแต่ละเฟรมทับซ้อนกับเฟรมอื่นๆ มากน้อยเพียงใด โดยพื้นฐานแล้วจะจับภาพว่าฉากนั้นซ้ำหรือเปลี่ยนแปลงไป การเปรียบเทียบจะแปลงเฟรมแต่ละเฟรมเป็นตัวแทนการแสดงคุณลักษณะที่กะทัดรัด และเปรียบเทียบคุณลักษณะเหล่านั้นกันเพื่อวัดความคล้ายคลึงหรือความแตกต่างของเฟรมโฮสต์

สมดุลสี

เพื่อป้องกันการใช้สีมากเกินไป ระบบ “เครดิต” ที่ง่ายๆ จะจำกัดความถี่ในการกระตุ้นสีตลอดเวลา เครดิตจะสะสมอย่างช้าๆ และจะถูกใช้เมื่อมีการขอสี ระบบจะ “อัปเกรด” เฟรมเป็นสีเฉพาะเมื่อเป็นไปตามเงื่อนไขสองประการ: เฟรมนั้นต้องให้ข้อมูลและต้องมีเครดิตเพียงพอ

Dynamic Token Router ควบคุมรายละเอียดที่แต่ละเฟรมได้รับ แทนที่จะประมวลผลเฟรมทุกเฟรมในคุณภาพเต็ม ระบบจะประมวลผลเฟรมสีเทาในลักษณะที่เบากว่า ในขณะที่เฟรมสีที่เลือกจะถูกประมวลผลในรายละเอียดที่สูงกว่า โดยให้ภาพที่มีรายละเอียดมากขึ้น

ทั้งสองประเภทของเฟรมจะผ่านโมเดลเดียวกัน แต่เฟรมสีเทาจะถูกจัดการในลักษณะที่เบากว่า ในขณะที่เฟรมสีที่เลือกจะได้รับการดูแลมากขึ้น ระบบจะรวมเอาออกพุตเหล่านั้นในลำดับเดิมและส่งไปยังโมเดลเป็นสตรีมต่อเนื่อง

เนื่องจากเฟรมส่วนใหญ่จะยังคงเบาและเพียงไม่กี่เฟรมที่ถูกอัปเกรด ระบบจะประหยัดการคำนวณได้มากในขณะเดียวกันก็ยังคงจับภาพรายละเอียดสำคัญเมื่อจำเป็น:

จากเอกสารวิจัย ตัวอย่างอื่นที่ระบบจำเป็นต้องเพิ่มทรัพยากรชั่วคราวเพื่อแยกแยะสี

ข้อมูลและการทดสอบ

เพื่อทดสอบระบบ นักวิจัยประเมินผลการทำงานกับมาตรฐาน StreamingBench และ OVO-Bench โดยหลีกเลี่ยงการประมวลผลเนื้อหาที่จะเกิดขึ้นในอนาคต (ซึ่งเป็นข้อเสียที่อาจเกิดขึ้นในการทดสอบออฟไลน์)

โมเดล ที่ถูกแช่แข็ง ที่ใช้คือ InternVL3.5-8B-Instruct โดยมีการกระตุ้นแบบสาเหตุผ่าน CLIP ViT-B/16

สตรีมสีเทาถูกจำกัดไว้ที่ช่องสัญญาณลูมิแนนซ์ในพื้นที่ CIELAB ตาม งานก่อนหน้า โดยมีเฟรมสีเทาที่ได้รับการปรับขนาดเป็น 224x224px ก่อนที่จะถูก แบ่งออกเป็นแพทช์ (การแบ่งภาพออกเป็นบล็อกขนาดเล็กๆ ที่สามารถประมวลผลแยกกันได้)

เฟรม RGB มีคุณภาพสูงกว่าและถูกประมวลผลที่ 448x448px โดยให้ผลลัพธ์ 256 โทเค็น ในขณะที่เฟรมสีเทาให้ผลลัพธ์ 64 โทเค็น

เครื่องมือการเพิ่มประสิทธิภาพทั่วไปถูกใช้เพื่อช่วยในการตัดสินใจของระบบ: CVXPY (ไลบรารี Python สำหรับการตั้งค่าปัญหาเพิ่มประสิทธิภาพ) และ OSQP Solver (อัลกอริทึมที่คำนวณเมื่อใดควรกระตุ้นสี)

วิดีโอถูกประมวลผลที่ 1 เฟรมต่อวินาที โดยมีจำนวนเฟรมสูงสุด 128 เฟรมต่อคลิป เพื่อรักษาการคำนวณให้ต่ำ

ระบบที่ใช้ในการทดสอบ ได้แก่ Gemini 1.5 Pro และ GPT-4o และ Claude 3.5 Sonnet ระบบ MLLM แบบเปิดที่ใช้ในการทดสอบ ได้แก่ LLaVA-OneVision-7B และ Video-LLaMA2-7B และ Qwen2.5-VL-7B

MLLM สตรีมมิ่งที่ใช้ในการทดสอบ ได้แก่ Flash-VStream-7B และ VideoLLM-online-8B และ Dispider-7B และ TimeChat-Online-7B

InternVL-3.5-8B และ Qwen3-VL-8B ถูกทดสอบในหลายๆ การตั้งค่า ซึ่งรายละเอียดจะอยู่ในตารางผลลัพธ์แรกด้านล่าง สำหรับ StreamingBench:

ผลการทำงานบน StreamingBench สำหรับงานการทำความเข้าใจภาพแบบเรียลไทม์ โดยเปรียบเทียบ MLLM ระบบที่มีงบประมาณสี RGB ที่แตกต่างกัน

ผู้เขียนแสดงความคิดเห็นว่า:

ColorTrigger บรรลุผลการทำงานที่แข่งขันได้บน StreamingBench สำหรับงานการทำความเข้าใจภาพแบบเรียลไทม์

โมเดลของเราที่มีเฟรม RGB 34.3% มีคะแนน 75.24 ซึ่งเหนือกว่าโมเดลออนไลน์ Dispider-7B และใกล้เคียงกับ TimeChat-Online-7B ในขณะเดียวกันก็เทียบเท่ากับโมเดลที่มีเจ้าของ เช่น Gemini 1.5 Pro (75.69) และเหนือกว่า GPT-4o (73.28) และ Claude 3.5 Sonnet (72.44)

InternVL-3.5-8B ได้คะแนน 77.20 โดยใช้สีเต็ม ในขณะที่ ColorTrigger บรรลุคะแนน 75.24 โดยใช้เฟรม RGB เพียง 65.7% – และแม้แต่เมื่อใช้เพียง 8.1% ของเฟรมสี ก็ยังคงได้คะแนน 70.72 ซึ่งเหนือกว่าผลลัพธ์ของการทำงานด้วยสีเทาเพียงอย่างเดียวที่ 62.08 ถึง 8.64% และยังคงแข่งขันกับโมเดลสตรีมมิ่งอื่นๆ

ต่อไป OVO-Bench ถูกทดสอบ:

ผลการทำงานบน OVO-Bench ในสามหมวด: การรับรู้ภาพแบบเรียลไทม์ การติดตามย้อนหลัง และการตอบสนองแบบกระตุ้นไปข้างหน้า โดยเปรียบเทียบ MLLM ระบบที่มีงบประมาณสี RGB ที่แตกต่างกัน

สำหรับผลลัพธ์เหล่านี้ ผู้เขียนระบุว่า:

โมเดลของเราที่มีเฟรม RGB 33.1% มีคะแนนรวม 52.5 ซึ่งเหนือกว่า MLLM แบบเปิดออนไลน์ส่วนใหญ่

เมื่อเปรียบเทียบกับโมเดลฐาน InternVL-3.5-8B ที่มีการใช้เฟรม RGB เต็ม (57.7) ColorTrigger มีคะแนน 52.5 ในขณะที่ลดการใช้เฟรม RGB ลง 66.9% ซึ่งแสดงถึงการเสื่อมสภาพของประสิทธิภาพที่ไม่มากนัก โดย 5.2 คะแนน

การรับรู้ภาพแบบเรียลไทม์บรรลุคะแนน 65.2 ซึ่งเหนือกว่าผลลัพธ์ของการทำงานด้วยสีเทาเพียงอย่างเดียวที่ 53.8 ถึง 11.4 คะแนน และแม้แต่เมื่อจำกัดไว้ที่เพียง 7.1% ของเฟรม RGB (การลดลง 92.9%) ColorTrigger ก็ยังคงรักษาคะแนนรวมที่ 50.4 ซึ่งดีกว่าการตั้งค่าสีเทา 2.5 คะแนน

สุดท้าย นักวิจัยได้ทดสอบระบบกับงานวิดีโอแบบออฟไลน์ (งานวิเคราะห์ที่ไม่ได้ออกแบบมาเพื่อทดสอบความล่าช้าหรือสภาพแวดล้อม “สด” อื่นๆ) โดยใช้มาตรฐานการทำความเข้าใจวิดีโอยาว Video-MME:

การเปรียบเทียบผลการทำงานของระบบต่างๆ บนมาตรฐาน Video-MME

ในงานนี้ ระบบบรรลุคะแนนรวม 66.1 ในขณะที่ใช้เฟรม RGB 37.6% ซึ่งเหนือกว่าคะแนนของโมเดลฐาน InternVL-3.5-8B ที่มีการใช้เฟรม RGB เต็มที่ 65.6 แม้ว่าจะใช้เฟรมสีน้อยกว่า 62.4%

ผู้เขียนระบุว่า:

สิ่งนี้แสดงให้เห็นว่ากลไกการกระตุ้นที่ปรับเปลี่ยนได้ของเรานั้นไม่เพียงแต่ลดต้นทุนการคำนวณเท่านั้น แต่ยังสามารถปรับปรุงประสิทธิภาพได้โดยการโฟกัสความสามารถ RGB ที่จุดสำคัญเชิงสำนวน

โดยเฉพาะอย่างยิ่ง ColorTrigger เหนือกว่า MLLM ออนไลน์ที่มีอยู่ทั้งหมด รวมถึง TimeChat-Online-7B ที่ 62.4 และ Dispider-7B ที่ 57.2 ซึ่งยืนยันประสิทธิผลของการรวมบริบทสีเทาต่อเนื่องกับการจับภาพ RGB ที่เลือกสำหรับการทำความเข้าใจวิดีโอยาว

สรุป

ฉันชอบเห็นนวัตกรรมประเภทนี้ ไม่ใช่แค่เพราะ AI ต้องการพลังงานสูงและเพิ่มขึ้นเรื่อยๆ ซึ่งทำให้เกิดหัวข้อข่าวที่น่าเสียใจมานาน และดีใจที่ได้เห็นงานวิจัยที่กล่าวถึงประเด็นนี้โดยไม่โดยตรง

เป็นการปลอบใจในทางที่ดีในการรู้ว่าการประหยัดพลังงานที่ทำได้ในงานดังกล่าวได้รับแรงบันดาลใจจากข้อพิจารณาทางการค้า ซึ่งน่าจะได้รับผลกระทบน้อยกว่าการตัดสินใจทางการเมืองระยะสั้นเมื่อเทียบกับความกังวลที่สูงส่งแต่เสี่ยงต่อการอนุรักษ์พลังงานและภาวะโลกร้อน ดีใจที่ได้เห็นว่าจุดจบเหมือนกันถึงแม้จะมีเหตุผลที่แตกต่างกัน

* สร้างโดยผู้เขียน เพื่อแสดงแนวคิดหลักของเอกสารวิจัยให้กับผู้อ่าน

เผยแพร่ครั้งแรกวันพฤหัสบดี 26 มีนาคม 2026