Trí tuệ nhân tạo
Khôi phục video trên các nền tảng truyền thông xã hội bị nén quá mức bằng học máy

Nghiên cứu mới từ Trung Quốc cung cấp một phương pháp hiệu quả và mới để khôi phục chi tiết và độ phân giải của video được người dùng tải lên, bị nén tự động trên các nền tảng như WeChat và YouTube để tiết kiệm băng thông và không gian lưu trữ.

So sánh phương pháp mới với các phương pháp trước đây về khả năng chính xác tái giải quyết chi tiết bị loại bỏ trong quá trình tối ưu hóa tự động của nền tảng truyền thông xã hội. Nguồn: https://arxiv.org/pdf/2208.08597.pdf
Ngược lại với các phương pháp trước đây có thể nâng cấp và lấy mẫu video dựa trên dữ liệu đào tạo chung, phương pháp mới này thay vào đó tạo ra một bản đồ tính năng suy giảm (DFM) cho từng khung hình của video bị nén – hiệu quả là một cái nhìn tổng quan về các vùng bị hư hỏng hoặc suy giảm nhất trong khung hình do quá trình nén.

Từ các nghiên cứu mới: thứ hai từ phải, bản đồ tính năng suy giảm ‘thuần’ (DFM); thứ ba từ phải, ước tính thiệt hại mà không sử dụng DFM. Trái, một bản đồ thiệt hại chính xác hơn với DFM.
Quá trình phục hồi, sử dụng mạng nơ-ron tích chập (CNN), cùng với các công nghệ khác, được hướng dẫn và tập trung bởi thông tin trong DFM, cho phép phương pháp mới này vượt qua hiệu suất và độ chính xác của các phương pháp trước đây.
Bản đồ tính năng suy giảm được tạo ra bằng cách sử dụng một mô-đun cảm biến suy giảm đặc biệt (DSM), và sau đó được sử dụng để trích xuất các tính năng trong các khối tích chập. Các khung hình được truyền đến một mô-đun trích xuất tính năng và căn chỉnh (FEAM), và sau đó được truyền đến một mô-đun điều chỉnh suy giảm (DMM). Cuối cùng, mô-đun tái tạo xuất ra video đã được phục hồi.
Nghiên cứu này đã tạo ra một bộ dữ liệu HQ/LQ mới gọi là Video người dùng chia sẻ trên truyền thông xã hội (UVSSM), và đã được làm có sẵn để tải xuống (mật khẩu: rsqw) tại Baidu, cho lợi ích của các dự án nghiên cứu tiếp theo nhằm phát triển các phương pháp mới để phục hồi video bị nén trên nền tảng.

So sánh giữa hai mẫu HQ/LQ tương đương từ bộ dữ liệu UVSSM (xem liên kết trên để nguồn URL). Vì thậm chí ví dụ này có thể bị ảnh hưởng bởi nhiều vòng nén (ứng dụng hình ảnh, CMS, CDN, v.v.), vui lòng tham khảo dữ liệu nguồn gốc để có so sánh chính xác hơn.
Mã nguồn của hệ thống, được gọi là Phục hồi video thông qua cảm biến suy giảm thích ứng (VOTES), cũng đã được phát hành trên GitHub, mặc dù việc triển khai nó đòi hỏi một số phụ thuộc dựa trên kéo.
Bài báo này có tiêu đề Phục hồi video người dùng chia sẻ trên truyền thông xã hội, và đến từ ba nhà nghiên cứu tại Đại học Shenzhen, và một từ Bộ phận Kỹ thuật Điện và Tin học tại Đại học Bách khoa Hồng Kông.
Từ di tích đến sự thật
Khả năng phục hồi chất lượng của video không cần đến sự “ảo giác” chi tiết của các chương trình như Gigapixel (và hầu hết các gói mã nguồn mở có phạm vi tương tự) có thể có ý nghĩa đối với lĩnh vực nghiên cứu thị giác máy tính.
Nghiên cứu về công nghệ thị giác máy tính dựa trên video thường dựa trên cảnh quay lấy từ các nền tảng như YouTube và Twitter, nơi các phương pháp nén và codec được sử dụng được bảo vệ chặt chẽ, không thể dễ dàng suy đoán dựa trên mẫu di tích hoặc chỉ thị thị giác khác, và có thể thay đổi định kỳ.
Hầu hết các dự án sử dụng video tìm thấy trên web không nghiên cứu nén, và phải điều chỉnh cho chất lượng có sẵn của video nén mà các nền tảng cung cấp, vì họ không có quyền truy cập vào các phiên bản chất lượng cao gốc mà người dùng tải lên.
Vì vậy, khả năng phục hồi trung thực chất lượng và độ phân giải cao hơn cho các video như vậy, mà không giới thiệu ảnh hưởng từ các tập dữ liệu thị giác máy tính không liên quan, có thể giúp loại bỏ các biện pháp khắc phục và điều chỉnh thường xuyên mà các dự án CV phải thực hiện cho các nguồn video suy giảm.
Mặc dù các nền tảng như YouTube sẽ偶尔 tuyên bố các thay đổi lớn trong cách họ nén video của người dùng (như VP9), nhưng không có nền tảng nào tiết lộ toàn bộ quá trình hoặc codec và cài đặt cụ thể được sử dụng để làm mỏng các tệp chất lượng cao mà người dùng tải lên.
Đạt được chất lượng đầu ra tốt hơn từ các bản tải lên của người dùng đã trở thành một loại nghệ thuật Druidic trong khoảng mười năm qua, với các ‘biện pháp khắc phục’ không được xác nhận (hầu hết) đang đi vào và ra khỏi thời trang.
Phương pháp
Các phương pháp trước đây về phục hồi video dựa trên học sâu đã liên quan đến việc trích xuất tính năng chung, hoặc như một phương pháp phục hồi khung hình đơn, hoặc trong một kiến trúc đa khung hình tận dụng lưu lượng quang học (tức là xem xét các khung hình liền kề và sau khi phục hồi một khung hình hiện tại).
Tất cả các phương pháp này đã phải đối mặt với hiệu ứng ‘hộp đen’ – thực tế là chúng không thể kiểm tra các hiệu ứng nén trong các công nghệ cốt lõi, vì không chắc chắn liệu các công nghệ cốt lõi là gì, hoặc chúng được cấu hình như thế nào cho bất kỳ video nào được người dùng tải lên.
VOTES, thay vào đó, tìm cách trích xuất các tính năng quan trọng trực tiếp từ video gốc và nén, và xác định các mẫu biến đổi sẽ tổng quát hóa cho các tiêu chuẩn của một số nền tảng.
VOTES sử dụng một mô-đun cảm biến suy giảm đặc biệt (DSM) để trích xuất các tính năng trong các khối tích chập. Các khung hình được truyền đến một mô-đun trích xuất tính năng và căn chỉnh (FEAM), và sau đó được truyền đến một mô-đun điều chỉnh suy giảm (DMM). Cuối cùng, mô-đun tái tạo xuất ra video đã được phục hồi.
Dữ liệu và Thử nghiệm
Trong công việc mới, các nhà nghiên cứu đã tập trung vào việc phục hồi video được tải lên và tải xuống từ nền tảng WeChat, nhưng quan tâm đến việc đảm bảo rằng thuật toán kết quả có thể được điều chỉnh cho các nền tảng khác.
Nó đã được chứng minh rằng một khi họ đã có được một mô hình phục hồi hiệu quả cho video WeChat, việc điều chỉnh nó cho Bilibili, Twitter và YouTube chỉ mất 90 giây cho một kỷ cho mỗi mô hình tùy chỉnh cho mỗi nền tảng (trên một máy chạy 4 GPU NVIDIA Tesla P40 với tổng 96GB VRAM).

Việc điều chỉnh mô hình WeChat thành công cho các nền tảng chia sẻ video khác đã chứng minh là khá đơn giản. Ở đây, chúng ta thấy VOTES đạt được sự tương đương về hiệu suất gần như tức thời trên các nền tảng khác nhau, sử dụng bộ dữ liệu UVSSM và bộ dữ liệu REDS (xem dưới đây).
Để tạo bộ dữ liệu UVSSM, các nhà nghiên cứu đã thu thập 264 video có độ dài từ 5-30 giây, mỗi khung hình có tốc độ 30fps, được lấy trực tiếp từ máy ảnh điện thoại di động hoặc từ internet. Các video đều có độ phân giải 1920 x 1080 hoặc 1280 x 270.
Nội dung (xem hình ảnh trước) bao gồm các cảnh quan thành phố, phong cảnh, người, động vật, và nhiều chủ đề khác, và có thể được sử dụng trong bộ dữ liệu công khai thông qua giấy phép Creative Commons Attribution, cho phép tái sử dụng.
Các tác giả đã tải lên 214 video cho WeChat bằng năm thương hiệu điện thoại di động khác nhau, nhận được độ phân giải video mặc định của WeChat là 960×540 (trừ khi video nguồn đã nhỏ hơn các kích thước này), trong số các chuyển đổi ‘trừng phạt’ nhất trên các nền tảng phổ biến.

Trên cùng bên trái, khung hình HQ gốc với ba phần được phóng to; trên cùng bên phải, khung hình từ phiên bản nén của cùng một video; dưới cùng bên trái, sự suy giảm được tính toán của khung hình nén; và dưới cùng bên phải, khu vực ‘làm việc’ cho VOTES để tập trung sự chú ý vào. Rõ ràng kích thước của hình ảnh chất lượng thấp là một nửa của HQ, nhưng đã được thay đổi kích thước ở đây để so sánh rõ ràng.
Đối với các so sánh sau với các quy trình chuyển đổi của các nền tảng khác, các nhà nghiên cứu đã tải lên 50 video không được bao gồm trong 214 video ban đầu lên Bilibili, YouTube và Twitter. Độ phân giải gốc của các video là 1280×270, với các phiên bản tải xuống có độ phân giải 640×360.
Điều này mang bộ dữ liệu UVSSM lên tổng cộng 364 cặp video gốc (HQ) và chia sẻ (LQ), với 214 cho WeChat và 50 cho mỗi Bilibili, YouTube và Twitter.
Đối với các thử nghiệm, 10 video ngẫu nhiên được chọn làm tập kiểm tra, bốn làm tập xác thực, và 200 còn lại làm tập huấn luyện cốt lõi. Các thử nghiệm được thực hiện năm lần với K-fold cross validation, với kết quả được tính trung bình trên các lần này.
Trong các thử nghiệm phục hồi video, VOTES được so sánh với Spatio-Temporal Deformable Fusion (STDF). Đối với việc nâng cao độ phân giải, nó được kiểm tra chống lại Enhanced Deformable convolutions (EDVR), RSDN, Video Super-resolution with Temporal Group Attention (VSR_TGA), và BasicVSR. Phương pháp một giai đoạn của Google COMISR cũng được bao gồm, mặc dù nó không phù hợp với loại kiến trúc của các công việc trước đó.
Các phương pháp này được kiểm tra trên cả bộ dữ liệu UVSS và bộ dữ liệu REDS, với VOTES đạt được điểm số cao nhất:
Các tác giả cho rằng kết quả định lượng cũng chỉ ra sự vượt trội của VOTES so với các hệ thống trước đó:

Khung hình video từ REDS được phục hồi bởi các phương pháp cạnh tranh. Độ phân giải chỉ mang tính chỉ dẫn – xem bài báo để có độ phân giải xác định.
Được xuất bản lần đầu vào ngày 19 tháng 8 năm 2022.














