Kecerdasan buatan
Mengembalikan Video Media Sosial yang Terlalu Dikompresi dengan Pembelajaran Mesin

Penelitian baru dari Tiongkok menawarkan metode yang efektif dan inovatif untuk mengembalikan detail dan resolusi video pengguna yang diunggah ke platform seperti WeChat dan YouTube, yang secara otomatis dikompresi untuk menghemat bandwidth dan ruang penyimpanan.

Perbandingan metode baru dengan pendekatan sebelumnya, dalam hal kemampuan untuk mengembalikan detail yang hilang selama proses optimasi otomatis platform media sosial. Sumber: https://arxiv.org/pdf/2208.08597.pdf
Berbeda dengan metode sebelumnya yang dapat meningkatkan resolusi video berdasarkan data pelatihan generik, pendekatan baru ini menghasilkan peta fitur degradasi (DFM) untuk setiap frame video yang dikompresi – secara efektif, gambaran tentang daerah yang paling rusak atau rusak dalam frame yang dihasilkan dari kompresi.

Dari studi ablasion paper baru: kedua dari kanan, kebenaran untuk ‘murni’ peta fitur degradasi (DFM); ketiga dari kanan, perkiraan kerusakan tanpa menggunakan DFM. Kiri, peta kerusakan yang jauh lebih akurat dengan DFM.
Proses restorasi, yang menggunakan jaringan saraf konvolusi (CNN), dipandu dan difokuskan oleh informasi dalam DFM, memungkinkan metode baru untuk melampaui kinerja dan akurasi pendekatan sebelumnya.
Keadaan sebenarnya untuk proses ini diperoleh oleh peneliti dengan mengunggah video berkualitas tinggi ke empat platform berbagi populer, mengunduh hasil yang dikompresi, dan mengembangkan pipa komputer visi yang dapat belajar secara abstrak tentang artefak kompresi dan kehilangan detail, sehingga dapat diterapkan di berbagai platform untuk mengembalikan video ke kualitas aslinya, berdasarkan data yang sepenuhnya berbeda.
Bahan yang digunakan dalam penelitian telah dikompilasi ke dalam dataset HQ/LQ yang berjudul Video Pengguna yang Dibagikan di Media Sosial (UVSSM), dan telah dibuat tersedia untuk diunduh (kata sandi: rsqw) di Baidu, untuk kepentingan proyek penelitian berikutnya yang bertujuan mengembangkan metode baru untuk mengembalikan video yang dikompresi oleh platform.

Perbandingan antara dua sampel HQ/LQ yang setara dari dataset UVSSM yang dapat diunduh (lihat tautan di atas untuk URL sumber). Karena contoh ini mungkin juga mengalami beberapa putaran kompresi (aplikasi gambar, CMS, CDN, dll.), silakan merujuk ke data sumber asli untuk perbandingan yang lebih akurat.
Kode untuk sistem, yang dikenal sebagai Restorasi Video melalui Pendeteksian Degradasi Adaptif (VOTES), juga telah dirilis di GitHub, meskipun implementasinya memerlukan beberapa ketergantungan berbasis tarik.
Paper ini berjudul Pengembalian Video Pengguna yang Dibagikan di Media Sosial, dan berasal dari tiga peneliti di Universitas Shenzhen, dan satu dari Departemen Teknik Elektronik dan Informasi di Universitas Politeknik Hong Kong.
Dari Artefak ke Fakta
Kemampuan untuk mengembalikan kualitas video yang diambil dari web tanpa “halusinasi” detail yang berlebihan yang disediakan oleh program seperti Gigapixel (dan sebagian besar paket sumber terbuka dengan cakupan serupa) dapat memiliki implikasi untuk sektor penelitian visi komputer.
Penelitian tentang teknologi berbasis video seringkali bergantung pada footage yang diperoleh dari platform seperti YouTube dan Twitter, di mana metode kompresi dan codec yang digunakan sangat dijaga, tidak dapat dengan mudah diperoleh berdasarkan pola artefak atau indikator visual lainnya, dan mungkin berubah secara berkala.
Sebagian besar proyek yang menggunakan video yang ditemukan di web tidak meneliti kompresi, dan harus mengakomodasi kualitas video yang tersedia yang ditawarkan oleh platform, karena mereka tidak memiliki akses ke versi asli berkualitas tinggi yang diunggah oleh pengguna.
Oleh karena itu, kemampuan untuk mengembalikan kualitas dan resolusi yang lebih baik ke video tersebut, tanpa memperkenalkan pengaruh hilir dari dataset visi komputer yang tidak terkait, dapat membantu menghilangkan banyak cara yang sering digunakan oleh proyek CV untuk mengakomodasi sumber video yang rusak.
Meskipun platform seperti YouTube akan terkadang mengumumkan perubahan besar dalam cara mereka mengompresi video pengguna (seperti VP9), tidak ada yang secara eksplisit mengungkapkan proses lengkap atau codec dan pengaturan yang digunakan untuk mengurangi file berkualitas tinggi yang diunggah oleh pengguna.
Mencapai kualitas output yang lebih baik dari unggahan pengguna telah menjadi semacam seni Druidik seni dalam sepuluh tahun terakhir, dengan berbagai “cara” yang tidak terkonfirmasi (sebagian besar) ‘cara’ yang masuk dan keluar dari mode.
Metode
Pendekatan sebelumnya untuk restorasi video berbasis pembelajaran dalam telah melibatkan ekstraksi fitur generik, baik sebagai pendekatan untuk restorasi frame tunggal atau dalam arsitektur multi-frame yang menggunakan aliran optik (yaitu, yang mempertimbangkan frame yang berdekatan dan kemudian saat mengembalikan frame saat ini).
Semua pendekatan ini harus berhadapan dengan efek “black box” – fakta bahwa mereka tidak dapat memeriksa efek kompresi di teknologi inti, karena tidak pasti apa teknologi inti itu, atau bagaimana mereka dikonfigurasi untuk video pengguna yang diunggah tertentu.
VOTES, sebagai gantinya, berusaha untuk mengekstrak fitur yang jelas langsung dari video asli dan yang dikompresi, dan menentukan pola transformasi yang akan umum untuk standar beberapa platform.
VOTES menggunakan modul pendeteksian degradasi khusus (DSM, lihat gambar di atas) untuk mengekstrak fitur dalam blok konvolusi. Beberapa frame kemudian dilewatkan ke modul ekstraksi fitur dan penyelarasan (FEAM), dengan ini kemudian dilewatkan ke modul modulasi degradasi (DMM). Akhirnya, modul rekonstruksi mengeluarkan video yang dikembalikan.
Data dan Eksperimen
Dalam penelitian baru, peneliti telah memfokuskan upaya mereka pada mengembalikan video yang diunggah ke dan diunduh dari platform WeChat, tetapi mereka peduli untuk memastikan bahwa algoritma yang dihasilkan dapat disesuaikan dengan platform lain.
Ternyata bahwa setelah mereka mendapatkan model restorasi yang efektif untuk video WeChat, menyesuaikannya dengan Bilibili, Twitter, dan YouTube hanya membutuhkan 90 detik untuk satu epoch untuk setiap model kustom untuk setiap platform (pada mesin yang menjalankan 4 NVIDIA Tesla P40 GPU dengan total 96GB VRAM).

Menyesuaikan model WeChat yang sukses dengan platform berbagi video lain terbukti cukup sederhana. Di sini kita melihat VOTES mencapai paritas kinerja hampir instan di berbagai platform, menggunakan dataset UVSSM milik penulis dan dataset REDS (lihat di bawah).
Untuk mempopulasi dataset UVSSM, peneliti mengumpulkan 264 video yang berkisar antara 5-30 detik, masing-masing dengan kecepatan frame 30fps, yang berasal dari kamera ponsel atau dari internet. Video tersebut semua memiliki resolusi 1920 x 1080 atau 1280 x 270.
Isi (lihat gambar sebelumnya) termasuk pemandangan kota, lanskap, orang, dan hewan, di antara berbagai subjek lainnya, dan dapat digunakan dalam dataset publik melalui Lisensi Atribusi Creative Commons, yang memungkinkan penggunaan kembali.
Penulis mengunggah 214 video ke WeChat menggunakan lima merek ponsel yang berbeda, mendapatkan resolusi video default WeChat sebesar 960×540 (kecuali video sumber sudah lebih kecil dari dimensi ini), di antara konversi yang paling “hukuman” di seluruh platform.

Atas-kiri, frame HQ asli dengan tiga bagian yang diperbesar; atas-kanan, frame yang sama dari versi video yang dikompresi oleh platform; bawah-kiri, degradasi yang dihitung dari frame yang dikompresi; dan bawah-kanan, ‘area kerja’ yang dihasilkan untuk VOTES untuk memfokuskan perhatiannya. Jelas ukuran gambar berkualitas rendah adalah setengah dari ukuran HQ, tetapi telah diubah ukurannya di sini untuk perbandingan yang lebih jelas.
Untuk perbandingan selanjutnya dengan rutinitas konversi platform lain, peneliti mengunggah 50 video tidak termasuk dalam 214 asli ke Bilibili, YouTube, dan Twitter. Resolusi asli video adalah 1280×270, dengan versi yang diunduh berdiri di 640×360.
Hal ini membawa dataset UVSSM ke total 364 pasangan video asli (HQ) dan dibagikan (LQ), dengan 214 ke WeChat, dan 50 masing-masing ke Bilibili, YouTube, dan Twitter.
Untuk eksperimen, 10 video acak dipilih sebagai set tes, empat sebagai set validasi, dan sisa 200 sebagai set pelatihan inti. Eksperimen dilakukan lima kali dengan validasi silang K-fold, dengan hasilnya dirata-ratakan di seluruh instance.
Dalam tes untuk restorasi video, VOTES dibandingkan dengan Spatio-Temporal Deformable Fusion (STDF). Untuk peningkatan resolusi, itu diuji melawan Enhanced Deformable konvolusi (EDVR), RSDN, Video Super-resolusi dengan Perhatian Kelompok Waktu (VSR_TGA), dan BasicVSR. Metode tahap tunggal Google COMISR juga termasuk, meskipun tidak sesuai dengan jenis arsitektur karya sebelumnya.
Metode ini diuji melawan dataset UVSS dan REDS, dengan VOTES mencapai skor tertinggi:
Penulis berpendapat bahwa hasil kualitatif juga menunjukkan superioritas VOTES dibandingkan dengan sistem sebelumnya:

Bingkai video dari REDS yang dipulihkan oleh pendekatan yang kompetitif. Resolusi indikatif saja – lihat makalah untuk resolusi yang pasti.
Dipublikasikan pertama kali pada 19 Agustus 2022.















