Góc nhìn Anderson

Phong cách những năm 1970 đối với Giám sát AI Tiết kiệm Năng lượng

Published March 26, 2026

Updated May 16, 2026

Martin Anderson

Excerpts from a video simulating a grayscale video stream activated by object detection – source: https://videos.pexels.com/video-files/36553218/15498630_2560_1440_25fps.mp4

Nghiên cứu mới cho thấy hầu hết video AI không cần màu sắc, chỉ bật màu tại các thời điểm quan trọng và cắt giảm sử dụng dữ liệu hơn 90% với sự mất mát nhỏ về độ chính xác.

Camera truyền phát từ xa và các thiết bị video không dây khác yêu cầu thiết lập giám sát tối ưu hóa chặt chẽ, vì chúng có thể phụ thuộc vào nguồn điện không ổn định – như năng lượng mặt trời – hoặc yêu cầu sạc định kỳ, hoặc các hình thức can thiệp của con người, trong các tình huống lý tưởng, không ai nên có mặt.

Đồng thời với dòng nghiên cứu này, sự quan tâm đến các thiết bị đeo có camera cũng đã tăng lên (mặc dù các thiết bị như vậy đã bị giới hạn chặt chẽ bởi giới hạn năng lượng và tính toán), vì trí tuệ nhân tạo biên bây giờ hứa hẹn sẽ làm cho chúng trở nên hữu ích hơn.

Beyond những xem xét này, động lực lâu dài để giảm chi phí trí tuệ nhân tạo biên và giám sát (đặc biệt trong các trường hợp mà những tiết kiệm này không cần phải được chuyển cho khách hàng) tạo ra một trường hợp thuyết phục cho sự đổi mới trong các phương pháp tiết kiệm năng lượng cho các trường hợp sử dụng ‘biên’.

Âm thanh

Trong lĩnh vực truyền phát video cảm biến, các thiết bị giám sát biên hạn chế về tài nguyên phải sử dụng ít năng lượng nhất, trong khi vẫn tiêu tốn đủ năng lượng để giám sát các sự kiện ‘thú vị’ – tại thời điểm đó, nó sẽ đáng để tiêu tốn nhiều tài nguyên hơn.

Hiệu quả, đây là một trường hợp sử dụng tương tự như đèn di chuyển, cung cấp ánh sáng chỉ khi các cảm biến tiết kiệm năng lượng thấp xác định có người ở đó để đánh giá cao nó.

vì giám sát âm thanh và nén dữ liệu ít tốn tài nguyên hơn video, một số phương pháp trong những năm gần đây đã cố gắng sử dụng các tín hiệu âm thanh để ‘bật’ sự chú ý trong các hệ thống hạn chế; các khuôn khổ như Listen to Look và Egotrigger:

Trong hệ thống Egotrigger, kích hoạt âm thanh chọn lọc kích hoạt chụp ảnh từ các tín hiệu tương tác tay-vật, giảm các khung hình dư thừa trong khi vẫn giữ nguyên hiệu suất nhớ lại trong các hệ thống kính thông minh hạn chế tài nguyên. Nguồn

Rõ ràng âm thanh không phải là phương tiện lý tưởng để tìm kiếm các sự kiện trực quan, vì nhiều sự kiện quan trọng như vậy có thể không có tín hiệu âm thanh hoặc có thể xảy ra ngoài tầm với của các microphone biên.

Người ngủ nhẹ

Điều gì có thể tốt hơn, một bài báo mới gợi ý, là một luồng video có thể làm việc cùng với trí tuệ nhân tạo để tăng tài nguyên ngay khi một sự kiện được theo dõi xảy ra. Mô phỏng dưới đây* cho một ý tưởng chung về khái niệm – giám sát độ phân giải thấp được duy trì ở mức tín hiệu thấp nhất cần thiết cho phát hiện đối tượng các khuôn khổ để hoạt động, và để thông báo cho hệ thống tăng độ phân giải do sự kích hoạt của một sự kiện:

Mô phỏng về hành vi mong muốn – rằng truyền phát và phân tích hoạt động ở mức tiêu thụ tài nguyên thấp nhất có thể theo mặc định; chỉ đủ để kích hoạt tiêu thụ tài nguyên cao hơn khi ‘thú vị’ hoặc các sự kiện được tìm kiếm được phát hiện trong luồng grayscale. Phong cách giám sát đen trắng có thể khá ‘lỗi thời’, nhưng nó có thể là một dấu hiệu của những điều sắp tới. Video này được tạo bởi tác giả chỉ để minh họa ý tưởng của bài báo cho người đọc. Nguồn:

Bài báo mới, một sự hợp tác học thuật giữa các tổ chức của Vương quốc Anh và Huawei, đề xuất một lược đồ grayscale-always, color-on-demand được hỗ trợ bởi trí tuệ nhân tạo cho giám sát biên – được thiết kế để hoạt động ở mức sử dụng token thấp khi không có ‘sự kiện quan trọng’ nào xảy ra, và để tăng tiêu thụ chỉ trong thời gian của sự kiện.

Trong các chuẩn mực hiểu biết video truyền phát, hệ thống mới, được gọi là ColorTrigger, đã có thể đạt được 91,6% hiệu suất của chuẩn mực màu đầy đủ trong khi chỉ sử dụng 8,1% khung hình RGB trong những chuẩn mực đó:

Khi mô hình chỉ nhìn thấy video grayscale, nó nhầm lẫn các chi tiết quan trọng và đưa ra câu trả lời sai; nhưng kích hoạt màu tại đúng thời điểm làm rõ ràng hình ảnh và sửa lỗi do các nhiệm vụ phụ thuộc vào màu sắc gây ra. Nguồn

Bài báo mới có tiêu đề Màu sắc khi cần thiết: Kích hoạt trực tuyến hướng dẫn bởi grayscale cho giám sát video luôn bật, và đến từ tám nhà nghiên cứu trên Queen Mary University of London, Durham University, Imperial College London, và Huawei Noah’s Ark Lab. Bài báo cũng có một trang dự án kèm theo.

Phương pháp

Để bảo tồn cấu trúc thời gian trong hệ thống mới, ColorTrigger duy trì giám sát grayscale liên tục ở mức tín hiệu thấp nhất. Một kích hoạt trực tuyến nhân quả phân tích một cửa sổ trượt (tức là một phạm vi khung hình linh hoạt xung quanh một thời điểm cụ thể, chẳng hạn như cảm nhận của một sự kiện kích hoạt) của luồng độ phân giải thấp:

Chụp ảnh RGB liên tục với độ phân giải cao nhanh chóng làm cạn kiệt năng lượng, vì vậy quá trình ghi lại dừng lại sớm và các thời điểm quan trọng có thể bị bỏ lỡ. Ngược lại, ColorTrigger giữ một luồng grayscale thấp năng lượng chạy mọi lúc, và chỉ kích hoạt camera RGB tại các thời điểm được chọn – kéo dài thời gian ghi lại, trong khi vẫn ghi lại các chi tiết trực quan cần thiết để trả lời các truy vấn sau này. Nguồn

Khi hệ thống ở chế độ ‘thụ động’ (tức là nó chưa xác định được một sự kiện kích hoạt), bộ định tuyến token động của nó phân bổ khả năng hạn chế cho một bộ giải mã không đối xứng, luôn tìm kiếm sự dư thừa và các sự kiện chỉ ra tính mới, tại thời điểm đó, dòng token sẽ ưu tiên khả năng trên nén:

Khuôn khổ cho ColorTrigger. Hệ thống theo dõi một phân tích cửa sổ trượt của các khung hình gần đây để phát hiện sự dư thừa và thay đổi, kích hoạt chụp ảnh RGB chỉ khi cần, dưới một ngân sách dựa trên tín dụng. Bộ định tuyến token động phân bổ ít token hơn cho các đầu vào grayscale và nhiều hơn cho các khung hình RGB được chọn, bảo tồn thứ tự thời gian cho quá trình xử lý ngôn ngữ đa phương tiện lớn (MLLM) sau này.

Trên cơ sở khung hình, hệ thống cần quyết định liệu thời điểm hiện tại có chứa thông tin mới đáng giá để ghi lại màu. Lịch sử gần đây của các khung hình grayscale trong cửa sổ trượt cho phép ColorTrigger so sánh khung hình hiện tại với quá khứ ngay lập tức của nó. Mỗi khung hình được chuyển đổi thành một đại diện tính năng compact, và các tính năng này được so sánh với nhau để đo lường mức độ tương đồng hoặc khác biệt của các khung hình chủ của chúng.

Quá trình so sánh này được tổ chức thành một cấu trúc tóm tắt bao nhiêu mỗi khung hình trùng với các khung hình khác, hiệu quả nắm bắt liệu cảnh có đang lặp lại hay thay đổi. Một bước tối ưu hóa nhẹ gán một điểm số quan trọng cho mỗi khung hình trong cửa sổ, ưa thích tính mới.

Cân bằng màu sắc

Để ngăn chặn việc sử dụng màu sắc quá mức, một hệ thống ‘tín dụng’ đơn giản hạn chế việc kích hoạt màu sắc theo thời gian. Các tín dụng tích lũy dần dần và được chi tiêu khi màu sắc được yêu cầu, đảm bảo rằng các đợt hoạt động được phép, nhưng tổng sử dụng vẫn được kiểm soát. Một khung hình chỉ được ‘nâng cấp’ lên màu nếu nó vừa mang tính thông tin và có đủ tín dụng có sẵn.

Bộ định tuyến token động kiểm soát mức độ chi tiết mà mỗi khung hình nhận được, thay vì xử lý mọi khung hình ở chất lượng đầy đủ. Khi không có gì quan trọng được phát hiện, khung hình grayscale được giữ ở độ phân giải thấp và được chuyển đổi thành một tập hợp token nén nhỏ. Khi một thời điểm quan trọng được phát hiện, hệ thống chuyển sang màu và xử lý khung hình đó ở độ phân giải cao hơn, cung cấp một biểu diễn chi tiết và phong phú hơn.

Cả hai loại khung hình đều đi qua cùng một mô hình, nhưng các khung hình grayscale được xử lý theo cách nhẹ hơn, trong khi các khung hình màu được chọn nhận được sự chú ý nhiều hơn. Các đầu ra sau đó được kết hợp theo thứ tự ban đầu và gửi đến mô hình như một luồng liên tục.

Vì hầu hết các khung hình vẫn nhẹ và chỉ một vài khung hình được nâng cấp, hệ thống tiết kiệm một lượng tính toán lớn trong khi vẫn ghi lại các chi tiết quan trọng khi chúng quan trọng:

Từ bài báo, một ví dụ khác nơi hệ thống yêu cầu tăng tạm thời tài nguyên để phân biệt một màu.

Dữ liệu và Kiểm tra

Để kiểm tra hệ thống, các nhà nghiên cứu đã đánh giá nó so với các chuẩn mực video StreamingBench và OVO-Bench, tránh việc xử lý trước nội dung (điều này là một nguy cơ tiềm ẩn trong các kiểm tra ngoại tuyến).

Mô hình đóng băng Multimodal Large Language Model (MLLM) được sử dụng là InternVL3.5-8B-Instruct, với kích hoạt nhân quả được thực hiện thông qua CLIP ViT-B/16.

Luồng grayscale được giới hạn ở kênh độ sáng trong không gian màu CIELAB, theo công việc trước, với các khung hình grayscale kết quả được thay đổi kích thước lên 224x224px trước khi chia thành các khối (tức là chia một hình ảnh thành các khối nhỏ cố định, để mỗi khối có thể được xử lý như một đơn vị riêng biệt bởi mô hình).

Các khung hình RGB, ngược lại, tận hưởng một bitrate cao hơn và được xử lý ở 448x448px, tạo ra 256 token, so với 64 token được tạo ra cho các khung hình grayscale.

Các công cụ tối ưu hóa chung được sử dụng để đưa ra quyết định của hệ thống: CVXPY (một thư viện Python để thiết lập các vấn đề tối ưu hóa), và OSQP Solver (một thuật toán nhanh tính toán khi nào kích hoạt màu).

Video được xử lý ở 1fps, với giới hạn 128 khung hình mỗi đoạn, để giữ tính toán thấp.

Các hệ thống độc quyền được kiểm tra là Gemini 1.5 Pro; GPT-4o; và Claude 3.5 Sonnet. Các mô hình ngôn ngữ đa phương tiện lớn (MLLM) mã nguồn mở được kiểm tra là LLaVA-OneVision-7B; Video-LLaMA2-7B; và Qwen2.5-VL-7B.

Các mô hình ngôn ngữ đa phương tiện lớn (MLLM) truyền phát được kiểm tra là Flash-VStream-7B; VideoLLM-online-8B; Dispider-7B; và TimeChat-Online-7B.

InternVL-3.5-8B và Qwen3-VL-8B được kiểm tra trong các cấu hình khác nhau, được chi tiết trong bảng kết quả đầu tiên dưới đây, liên quan đến StreamingBench:

Hiệu suất trên StreamingBench cho các nhiệm vụ hiểu biết trực quan thời gian thực, so sánh các mô hình ngôn ngữ đa phương tiện lớn (MLLM) độc quyền, mã nguồn mở và truyền phát dưới các ngân sách màu khác nhau. RGB (%) chỉ tỷ lệ khung hình được giữ lại màu sau khi kích hoạt, nơi 100 biểu thị màu đầy đủ và 0 biểu thị đầu vào grayscale chỉ. ColorTrigger được đánh giá tại hai điểm hoạt động, giữ lại 8,1% và 34,3% khung hình màu, và thể hiện độ chính xác tổng thể được cải thiện so với baseline grayscale InternVL-3.5-8B trong khi giảm đáng kể việc sử dụng màu so với cài đặt màu đầy đủ.

Tại đây, các tác giả nhận xét:

‘ColorTrigger đạt được hiệu suất cạnh tranh trên StreamingBench cho các nhiệm vụ hiểu biết trực quan thời gian thực.

‘Mô hình của chúng tôi với 34,3% khung hình RGB đạt 75,24, vượt qua mô hình trực tuyến gần đây Dispider-7B và gần với TimeChat-Online-7B, trong khi vẫn so sánh được với các mô hình độc quyền như Gemini 1.5 Pro (75,69) và vượt qua GPT-4o (73,28) và Claude 3.5 Sonnet (72,44).’

InternVL-3.5-8B đạt 77,20 khi sử dụng màu đầy đủ, trong khi ColorTrigger đạt 75,24 khi sử dụng 65,7% ít khung hình RGB hơn – và thậm chí với chỉ 8,1% khung hình màu, nó đạt 70,72, vượt qua baseline grayscale của 62,08 bằng 8,64%, và vẫn cạnh tranh với các mô hình truyền phát khác.

Tiếp theo, OVO-Bench được kiểm tra:

Hiệu suất trên OVO-Bench trên ba loại: Nhận thức trực quan thời gian thực, Tìm kiếm ngược và Phản hồi chủ động, so sánh các mô hình ngôn ngữ đa phương tiện lớn (MLLM) độc quyền, mã nguồn mở và truyền phát dưới các ngân sách màu khác nhau. RGB (%) chỉ tỷ lệ khung hình được giữ lại màu sau khi kích hoạt, nơi 100 biểu thị màu đầy đủ và 0 biểu thị đầu vào grayscale chỉ. ColorTrigger được đánh giá tại hai điểm hoạt động, giữ lại 7,1% và 33,1% khung hình màu, và thể hiện độ chính xác tổng thể được cải thiện so với baseline grayscale InternVL-3.5-8B trong khi giảm đáng kể việc sử dụng màu so với cài đặt màu đầy đủ.

Về những kết quả này, các tác giả tuyên bố:

‘Mô hình của chúng tôi với 33,1% khung hình RGB đạt được điểm số tổng thể là 52,5, vượt qua hầu hết các mô hình ngôn ngữ đa phương tiện lớn (MLLM) mã nguồn mở trực tuyến hiện có. So với mô hình cơ sở InternVL-3.5-8B với đầu vào RGB đầy đủ (57,7), ColorTrigger đạt 52,5 trong khi giảm việc sử dụng khung hình RGB xuống 66,9%, thể hiện sự suy giảm hiệu suất khiêm tốn.

‘Sự suy giảm này khiêm tốn đi kèm với những lợi ích đáng kể về hiệu quả, chứng minh tính hiệu quả của chiến lược định tuyến thích ứng của chúng tôi.’

Nhận thức trực quan thời gian thực đạt 65,2 – một lợi ích 11,4 điểm so với baseline grayscale của 53,8. Thậm chí khi chỉ giữ lại 7,1% khung hình RGB (một sự giảm 92,9%), ColorTrigger vẫn duy trì điểm số tổng thể là 50,4, cải thiện so với cài đặt grayscale bằng 2,5 điểm.

Cuối cùng, các nhà nghiên cứu đã tiến hành một kiểm tra so với một nhiệm vụ video ngoại tuyến (một nhiệm vụ phân tích không được thiết kế để kiểm tra độ trễ hoặc các điều kiện môi trường ‘trực tiếp’ khác, sử dụng chuẩn mực hiểu biết video dài Video-MME:

So sánh hiệu suất của các hệ thống được thử nghiệm trên chuẩn mực Video-MME.

Trong kiểm tra này, mô hình đạt được điểm số tổng thể là 66,1, trong khi sử dụng 37,6% khung hình RGB, vượt qua điểm số baseline của InternVL-3.5-8B là 65,6 khi sử dụng 62,4% ít khung hình màu hơn.

Các tác giả nhận xét:

‘Điều này chứng minh rằng cơ chế kích hoạt thích ứng của chúng tôi không chỉ giảm chi phí tính toán mà còn có thể cải thiện hiệu suất bằng cách tập trung khả năng RGB vào các thời điểm quan trọng về mặt ngữ nghĩa.

‘Đáng chú ý, ColorTrigger vượt qua tất cả các mô hình ngôn ngữ đa phương tiện lớn (MLLM) trực tuyến hiện có, bao gồm TimeChat-Online-7B ở 62,4 và Dispider-7B ở 57,2, xác nhận tính hiệu quả của việc kết hợp ngữ cảnh grayscale liên tục với việc thu thập RGB chọn lọc cho hiểu biết video dài.’

Kết luận

Tôi luôn thích xem những đổi mới như vậy, không chỉ vì nhu cầu năng lượng cao và tăng dần của trí tuệ nhân tạo đã tạo ra những tiêu đề ảm đạm trong một thời gian dài, và thật tốt khi thấy nghiên cứu gián tiếp giải quyết vấn đề này.

Nó là một sự an ủi hoài nghi khi biết rằng những tiết kiệm năng lượng được thực hiện trong những nỗ lực như vậy được thúc đẩy bởi các xem xét thương mại, vì những điều này ít bị ảnh hưởng bởi các quyết định chính trị ngắn hạn hơn là những lo lắng cao quý nhưng dễ bị tấn công hơn về tiết kiệm năng lượng và biến đổi khí hậu. May mắn thay, cùng một mục tiêu được đạt được, vì những lý do khác nhau.

* Tạo bởi tôi, chỉ để bao gồm ý tưởng của bài báo cho người đọc.

Được xuất bản lần đầu vào thứ Năm, ngày 26 tháng 3 năm 2026

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]