sơ khai Khôi phục video truyền thông xã hội bị nén quá mức bằng máy học - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Khôi phục video truyền thông xã hội bị nén quá mức bằng máy học

mm
cập nhật on
Nguồn hình ảnh chính: DALL-E 2

Nghiên cứu mới của Trung Quốc đưa ra một phương pháp hiệu quả và mới lạ để khôi phục độ chi tiết và độ phân giải cho video do người dùng tải lên. tự động nén trên các nền tảng như WeChat và YouTube để tiết kiệm băng thông và dung lượng lưu trữ.

So sánh phương pháp mới với các phương pháp trước đó, xét về khả năng tái phân giải chính xác các chi tiết bị loại bỏ trong quá trình tối ưu hóa tự động của nền tảng truyền thông xã hội. Nguồn: https://arxiv.org/pdf/2208.08597.pdf

So sánh phương pháp mới với các phương pháp trước đó, xét về khả năng tái phân giải chính xác các chi tiết bị loại bỏ trong quá trình tối ưu hóa tự động của nền tảng truyền thông xã hội. Nguồn: https://arxiv.org/pdf/2208.08597.pdf

Trái ngược với các phương pháp trước đây có thể nâng cấp và lấy mẫu video dựa trên dữ liệu đào tạo chung, thay vào đó, phương pháp mới tạo ra một bản đồ tính năng xuống cấp (DFM) cho từng khung hình của video nén – tổng quan hiệu quả về các vùng bị hỏng hoặc xuống cấp nhất trong khung hình do quá trình nén.

Từ các nghiên cứu cắt bỏ của bài báo mới: thứ hai từ phải sang, sự thật cơ bản cho bản đồ tính năng xuống cấp 'thuần túy' (DFM); thứ ba từ phải sang, ước tính thiệt hại khi không sử dụng DFM. Còn lại, một bản đồ thiệt hại chính xác hơn nhiều với DFM.

Từ các nghiên cứu cắt bỏ của bài báo mới: thứ hai từ phải sang, sự thật cơ bản cho bản đồ tính năng xuống cấp 'thuần túy' (DFM); thứ ba từ phải sang, ước tính thiệt hại khi không sử dụng DFM. Còn lại, một bản đồ thiệt hại chính xác hơn nhiều với DFM.

Quá trình phục hồi, sử dụng các mạng thần kinh tích chập (CNN), trong số các công nghệ khác, được hướng dẫn và tập trung bởi thông tin trong DFM, cho phép phương pháp mới vượt qua hiệu suất và độ chính xác của các phương pháp trước đó.

Sự thật cơ bản của quy trình này có được là nhờ các nhà nghiên cứu tải video chất lượng cao lên bốn nền tảng chia sẻ phổ biến, tải xuống kết quả đã nén và phát triển quy trình thị giác máy tính có khả năng học một cách trừu tượng các tạo tác nén và mất chi tiết để có thể áp dụng trên toàn bộ nền tảng. một số nền tảng để khôi phục video về chất lượng gần như nguyên bản, dựa trên dữ liệu hoàn toàn phù hợp.

Các ví dụ từ bộ dữ liệu UVSSM mới của các nhà nghiên cứu.

Các ví dụ từ bộ dữ liệu UVSSM mới của các nhà nghiên cứu.

Tài liệu được sử dụng trong nghiên cứu đã được tổng hợp thành bộ dữ liệu HQ/LQ có tiêu đề Video của người dùng được chia sẻ trên phương tiện truyền thông xã hội (UVSSM), và đã được thực hiện sẵn để tải về (mật khẩu: rqw) tại Baidu, vì lợi ích của các dự án nghiên cứu tiếp theo nhằm tìm cách phát triển các phương pháp mới để khôi phục video nén trên nền tảng.

So sánh giữa hai mẫu HQ/LQ tương đương từ bộ dữ liệu UVSSM có thể tải xuống (xem các liên kết ở trên để biết URL nguồn). Vì ngay cả ví dụ này cũng có thể trải qua nhiều vòng nén (ứng dụng hình ảnh, CMS, CDN, v.v.), vui lòng tham khảo dữ liệu nguồn ban đầu để so sánh chính xác hơn.

So sánh giữa hai mẫu HQ/LQ tương đương từ bộ dữ liệu UVSSM có thể tải xuống (xem các liên kết ở trên để biết URL nguồn). Vì ngay cả ví dụ này cũng có thể trải qua nhiều vòng nén (ứng dụng hình ảnh, CMS, CDN, v.v.), vui lòng tham khảo dữ liệu nguồn ban đầu để so sánh chính xác hơn.

Mã cho hệ thống, được gọi là Khôi phục video thông qua AdaptTive degradation Sensing (VOTE), cũng đã được phát hành tại GitHub, mặc dù việc triển khai nó đòi hỏi một số phụ thuộc dựa trên kéo.

Sản phẩm giấy có tiêu đề Khôi phục video của người dùng được chia sẻ trên phương tiện truyền thông xã hội, và đến từ ba nhà nghiên cứu tại Đại học Thâm Quyến và một từ Khoa Kỹ thuật Điện tử và Thông tin tại Đại học Bách khoa Hồng Kông.

Từ đồ tạo tác đến sự thật

Khả năng khôi phục chất lượng của các video được quét trên web mà không có chung chung, đôi khi quá nhiều 'ảo giác' về chi tiết được cung cấp bởi các chương trình như Gigapixel (và hầu hết các gói nguồn mở phổ biến có phạm vi tương tự) có thể có ý nghĩa đối với lĩnh vực nghiên cứu thị giác máy tính.

Nghiên cứu về các công nghệ CV dựa trên video thường dựa trên các đoạn phim thu được từ các nền tảng như YouTube và Twitter, nơi các phương pháp nén và codec được sử dụng được bảo vệ chặt chẽ, không thể dễ dàng thu thập được dựa trên các mẫu tạo tác hoặc các chỉ báo trực quan khác và có thể thay đổi định kỳ.

Hầu hết các dự án tận dụng video tìm thấy trên web đều không nghiên cứu nén, và phải thực hiện phụ cấp đối với chất lượng có sẵn của video nén mà nền tảng cung cấp, vì họ không có quyền truy cập vào các phiên bản chất lượng cao ban đầu mà người dùng đã tải lên.

Do đó, khả năng khôi phục trung thực chất lượng và độ phân giải cao hơn cho các video như vậy mà không gây ra ảnh hưởng xuôi dòng từ các bộ dữ liệu thị giác máy tính không liên quan, có thể giúp loại bỏ các cách giải quyết và điều chỉnh thường xuyên mà các dự án CV hiện phải thực hiện đối với các nguồn video đã xuống cấp.

Mặc dù các nền tảng như YouTube đôi khi sẽ thông báo những thay đổi lớn trong cách họ nén video của người dùng (chẳng hạn như VP9), không trang nào tiết lộ rõ ​​ràng toàn bộ quy trình hoặc các codec và cài đặt chính xác được sử dụng để giảm bớt các tệp chất lượng cao mà người dùng tải lên.

Do đó, việc đạt được chất lượng đầu ra được cải thiện từ các bản tải lên của người dùng đã trở thành một tu sĩ nghệ thuật trong khoảng mười năm trở lại đây, với nhiều (hầu hết chưa được xác nhận) 'cách giải quyết' đi vào và ra khỏi thời trang.

Phương pháp

Các cách tiếp cận trước đây để khôi phục video dựa trên học sâu có liên quan đến việc trích xuất tính năng chung, như một cách tiếp cận để khôi phục một khung hình hoặc trong một kiến ​​trúc đa khung tận dụng luồng quang (tức là tính đến các khung liền kề và sau đó khi khôi phục khung hiện tại).

Tất cả các cách tiếp cận này đều phải đối mặt với hiệu ứng 'hộp đen' - thực tế là chúng không thể kiểm tra các hiệu ứng nén trong các công nghệ cốt lõi, bởi vì không chắc chắn công nghệ cốt lõi là gì hoặc chúng được định cấu hình như thế nào cho bất kỳ người dùng cụ thể nào. -video đã tải lên.

Thay vào đó, VOTES tìm cách trích xuất các tính năng nổi bật trực tiếp từ video gốc và video đã nén, đồng thời xác định các kiểu chuyển đổi sẽ khái quát hóa theo tiêu chuẩn của một số nền tảng.

Kiến trúc khái niệm đơn giản hóa cho VOTES.

Kiến trúc khái niệm đơn giản hóa cho VOTES.

BẦU CỬ sử dụng mô-đun cảm biến suy giảm được phát triển đặc biệt (DSM, xem hình trên) để trích xuất các tính năng trong các khối tích chập. Sau đó, nhiều khung hình được chuyển đến mô-đun căn chỉnh và trích xuất tính năng (FEAM), sau đó các khung hình này được chuyển sang mô-đun điều biến suy giảm (DMM). Cuối cùng, mô-đun tái tạo xuất video đã khôi phục.

Dữ liệu và Thử nghiệm

Trong nghiên cứu mới, các nhà nghiên cứu đã tập trung nỗ lực vào việc khôi phục video được tải lên và tải xuống lại từ nền tảng WeChat, nhưng lo ngại để đảm bảo rằng thuật toán kết quả có thể được điều chỉnh cho các nền tảng khác.

Có vẻ như sau khi họ có được mô hình khôi phục hiệu quả cho video WeChat, việc điều chỉnh mô hình đó thành Bilibili, Twitter và YouTube chỉ mất 90 giây trong một kỷ nguyên cho từng mô hình tùy chỉnh cho từng nền tảng (trên máy chạy 4 GPU NVIDIA Tesla P40 với một tổng cộng 96GB VRAM).

Việc điều chỉnh mô hình WeChat thành công sang các nền tảng chia sẻ video khác tỏ ra khá tầm thường. Ở đây, chúng ta thấy BẦU bầu đạt được hiệu suất ngang bằng gần như ngay lập tức trên các nền tảng khác nhau, sử dụng bộ dữ liệu UVSSM của chính tác giả và bộ dữ liệu REDS (xem bên dưới).

Việc điều chỉnh mô hình WeChat thành công sang các nền tảng chia sẻ video khác tỏ ra khá tầm thường. Ở đây, chúng ta thấy BẦU bầu đạt được hiệu suất ngang bằng gần như ngay lập tức trên các nền tảng khác nhau, sử dụng bộ dữ liệu UVSSM của chính tác giả và bộ dữ liệu REDS (xem bên dưới).

Để điền vào bộ dữ liệu UVSSM, các nhà nghiên cứu đã thu thập 264 video có thời lượng từ 5-30 giây, mỗi video có tốc độ khung hình 30 khung hình/giây, được lấy trực tiếp từ máy ảnh của điện thoại di động hoặc từ internet. Tất cả các video đều có độ phân giải 1920 x 1080 hoặc 1280 x 270.

Nội dung (xem hình ảnh trước đó) bao gồm quang cảnh thành phố, phong cảnh, con người và động vật, trong số nhiều chủ đề khác và có thể sử dụng được trong bộ dữ liệu công khai thông qua giấy phép Creative Commons Attribution, cho phép sử dụng lại.

Các tác giả đã tải 214 video lên WeChat bằng năm nhãn hiệu điện thoại di động khác nhau, đạt được độ phân giải video mặc định của WeChat là 960 × 540 (trừ khi video nguồn đã nhỏ hơn các kích thước này), trong số các chuyển đổi 'có tính trừng phạt' nhất trên các nền tảng phổ biến.

Trên cùng bên trái, khung HQ ban đầu với ba phần được phóng to; trên cùng bên phải, cùng một khung hình từ phiên bản nén đã giảm chất lượng nền tảng của cùng một video; dưới cùng bên trái, sự suy giảm tính toán của khung nén; và dưới cùng bên phải, 'khu vực làm việc' tiếp theo để BẦU CỬ tập trung sự chú ý vào. Rõ ràng kích thước của hình ảnh chất lượng thấp bằng một nửa so với hình ảnh HQ, nhưng đã được thay đổi kích thước ở đây để dễ so sánh.

Trên cùng bên trái, khung HQ ban đầu với ba phần được phóng to; trên cùng bên phải, cùng một khung hình từ phiên bản nén đã giảm chất lượng nền tảng của cùng một video; dưới cùng bên trái, sự suy giảm tính toán của khung nén; và dưới cùng bên phải, 'khu vực làm việc' tiếp theo để BẦU CỬ tập trung sự chú ý vào. Rõ ràng kích thước của hình ảnh chất lượng thấp bằng một nửa so với hình ảnh HQ, nhưng đã được thay đổi kích thước ở đây để dễ so sánh.

Để so sánh sau này với quy trình chuyển đổi của các nền tảng khác, các nhà nghiên cứu đã tải lên 50 video không bao gồm trong bản gốc 214 cho Bilibili, YouTube và Twitter. Độ phân giải ban đầu của video là 1280×270, với các phiên bản đã tải xuống là 640×360.

Điều này đưa bộ dữ liệu UVSSM lên tổng cộng 364 cặp video gốc (HQ) và video được chia sẻ (LQ), với 214 video cho WeChat và 50 video cho Bilibili, YouTube và Twitter.

Đối với các thử nghiệm, 10 video ngẫu nhiên đã được chọn làm tập thử nghiệm, 200 video làm tập xác thực và XNUMX video còn lại làm tập huấn luyện cốt lõi. Thí nghiệm được tiến hành năm lần với Xác thực chéo K-fold, với kết quả được tính trung bình trên các trường hợp này.

Trong các thử nghiệm về khôi phục video, VOTES được so sánh với Hợp nhất có thể biến dạng không gian-thời gian (STDF). Để tăng cường độ phân giải, nó đã được thử nghiệm với các cấu trúc có thể biến dạng nâng cao (EDVR), RSDN, Video siêu phân giải với Chú ý theo nhóm tạm thời (VSR_TGA), Và Cơ bảnVSR. Của Google duy nhất-phương pháp giai đoạn COMISR cũng được đưa vào, mặc dù nó không phù hợp với kiểu kiến ​​trúc của các công trình trước đó.

Các phương pháp đã được thử nghiệm chống lại cả UVSS và ĐỎ tập dữ liệu, với VOTES đạt điểm cao nhất:

Các tác giả cho rằng các kết quả định tính cũng chỉ ra tính ưu việt của BẦU CỬ so với các hệ thống trước đó:

Các khung hình video từ REDS được khôi phục bằng các phương pháp cạnh tranh. Chỉ giải pháp chỉ định - xem bài báo để biết giải pháp dứt khoát.

Các khung hình video từ REDS được khôi phục bằng các phương pháp cạnh tranh. Chỉ giải pháp chỉ định – xem bài viết để biết giải pháp dứt khoát.

 

Xuất bản lần đầu vào ngày 19 tháng 2022 năm XNUMX.