potongan Menghapus Objek Dari Video Lebih Efisien Dengan Machine Learning - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Menghapus Objek Dari Video Lebih Efisien Dengan Machine Learning

mm
Updated on

Penelitian baru dari China melaporkan hasil yang canggih – serta peningkatan efisiensi yang mengesankan – untuk sistem pengecatan video baru yang dapat menghapus objek dari footage dengan cekatan.

Harness hang-glider dicat dengan prosedur baru. Lihat video sumber (disematkan di bagian bawah artikel ini) untuk resolusi yang lebih baik dan lebih banyak contoh. Sumber: https://www.youtube.com/watch?v=N--qC3T2wc4

Harness hang-glider dicat dengan prosedur baru. Lihat video sumber (disematkan di bagian bawah artikel ini) untuk resolusi yang lebih baik dan lebih banyak contoh. Sumber: https://www.youtube.com/watch?v=N–qC3T2wc4

Teknik yang disebut End-to-End framework untuk Inpainting video Flow-Guided (E2FGVI), juga mampu menghilangkan watermark dan berbagai macam oklusi lainnya dari konten video.

E2FGVI menghitung prediksi untuk konten yang berada di belakang oklusi, memungkinkan penghapusan bahkan tanda air yang terkenal dan sulit dipecahkan. Sumber: https://github.com/MCG-NKU/E2FGVI

E2FGVI menghitung prediksi untuk konten yang berada di belakang oklusi, memungkinkan penghapusan bahkan watermark yang terkenal dan sulit dipecahkan. Sumber: https://github.com/MCG-NKU/E2FGVI

Untuk melihat lebih banyak contoh dalam resolusi yang lebih baik, lihat video yang disematkan di akhir artikel.

Meskipun model yang ditampilkan dalam makalah yang diterbitkan dilatih pada video 432px x 240px (umumnya ukuran input rendah, dibatasi oleh ruang GPU yang tersedia vs. ukuran kumpulan optimal dan faktor lainnya), penulis telah merilisnya E2FGVI-HQ, yang dapat menangani video dengan resolusi acak.

Kode untuk versi saat ini adalah tersedia di GitHub, sedangkan versi HQ, dirilis Minggu lalu, dapat diunduh dari Google drive dan Disk Baidu.

Anak itu tetap dalam gambar.

Anak itu tetap dalam gambar.

E2FGVI dapat memproses video 432x240 pada 0.12 detik per frame pada GPU Titan XP (VRAM 12GB), dan penulis melaporkan bahwa sistem beroperasi lima belas kali lebih cepat daripada metode canggih sebelumnya berdasarkan aliran optik.

Seorang pemain tenis keluar secara tak terduga.

Seorang pemain tenis keluar secara tak terduga.

Diuji pada kumpulan data standar untuk sub-sektor penelitian sintesis gambar ini, metode baru ini mampu mengungguli pesaing baik dalam putaran evaluasi kualitatif maupun kuantitatif.

Tes terhadap pendekatan sebelumnya. Sumber: https://arxiv.org/pdf/2204.02663.pdf

Tes terhadap pendekatan sebelumnya. Sumber: https://arxiv.org/pdf/2204.02663.pdf

Grafik kertas berjudul Menuju Kerangka End-to-End untuk Inpainting Video yang Dipandu Aliran, dan merupakan kolaborasi antara empat peneliti dari Universitas Nankai, bersama dengan seorang peneliti dari Hisilicon Technologies.

Apa yang Hilang di Gambar Ini

Selain aplikasinya yang jelas untuk efek visual, inpainting video berkualitas tinggi diatur untuk menjadi fitur penentu inti dari sintesis gambar baru berbasis AI dan teknologi pengubah gambar.

Ini terutama berlaku untuk aplikasi mode yang mengubah tubuh, dan kerangka kerja lain yang berusaha untuk 'langsing' atau mengubah adegan dalam gambar dan video. Dalam kasus seperti itu, penting untuk 'mengisi' latar belakang ekstra yang diekspos oleh sintesis secara meyakinkan.

Dari makalah baru-baru ini, algoritme 'pembentukan kembali' tubuh ditugaskan untuk mengecat latar belakang yang baru terungkap saat subjek diubah ukurannya. Di sini, kekurangan itu diwakili oleh garis merah yang biasa ditempati oleh (kehidupan nyata, lihat gambar kiri) yang lebih penuh. Berdasarkan materi sumber dari https://arxiv.org/pdf/2203.10496.pdf

Dari makalah baru-baru ini, algoritme 'pembentukan kembali' tubuh ditugaskan untuk mengecat latar belakang yang baru terungkap saat subjek diubah ukurannya. Di sini, kekurangan itu diwakili oleh garis merah yang biasa ditempati oleh (kehidupan nyata, lihat gambar kiri) yang lebih penuh. Berdasarkan materi sumber dari https://arxiv.org/pdf/2203.10496.pdf

Aliran Optik yang Koheren

Aliran optik (OF) telah menjadi teknologi inti dalam pengembangan penghapusan objek video. Seperti atlas, OF menyediakan peta one-shot dari urutan temporal. Sering digunakan untuk mengukur kecepatan dalam inisiatif visi komputer, OF juga dapat memungkinkan in-painting yang konsisten secara temporal, di mana jumlah agregat tugas dapat dipertimbangkan dalam sekali jalan, bukan perhatian 'per-frame' ala Disney, yang pasti akan mengarah pada ke diskontinuitas temporal.

Metode inpainting video hingga saat ini berpusat pada proses tiga tahap: penyelesaian aliran, di mana video pada dasarnya dipetakan menjadi entitas yang terpisah dan dapat dijelajahi; propagasi piksel, di mana lubang di video yang 'rusak' diisi oleh piksel yang menyebar secara dua arah; Dan halusinasi konten ('penemuan' piksel yang akrab bagi sebagian besar dari kita dari deepfake dan kerangka teks-ke-gambar seperti seri DALL-E) di mana perkiraan konten yang 'hilang' ditemukan dan dimasukkan ke dalam rekaman.

Inovasi utama E2FGVI menggabungkan ketiga tahap ini ke dalam sistem end-to-end, meniadakan kebutuhan untuk melakukan operasi manual pada konten atau proses.

Makalah tersebut mengamati bahwa kebutuhan intervensi manual mengharuskan proses lama tidak memanfaatkan GPU, membuatnya cukup memakan waktu. Dari kertas*:

'Memukau DFVI sebagai contoh menyelesaikan satu video dengan ukuran 432×240 dari DAVIS, yang berisi sekitar 70 bingkai, membutuhkan waktu sekitar 4 menit, yang tidak dapat diterima di sebagian besar aplikasi dunia nyata. Selain itu, kecuali untuk kelemahan yang disebutkan di atas, hanya dengan menggunakan gambar pra-pelatihan dalam jaringan lukisan pada tahap halusinasi konten akan mengabaikan hubungan konten lintas waktu, yang menyebabkan konten yang dihasilkan tidak konsisten dalam video.'

Dengan menyatukan ketiga tahapan video inpainting, E2FGVI mampu menggantikan tahap kedua, propagasi piksel, dengan propagasi fitur. Dalam proses yang lebih tersegmentasi dari pekerjaan sebelumnya, fitur tidak tersedia secara luas, karena setiap tahap relatif kedap udara, dan alur kerjanya hanya semi-otomatis.

Selain itu, para peneliti telah menyusun a transformator fokus temporal untuk tahap halusinasi konten, yang mempertimbangkan tidak hanya tetangga langsung piksel dalam bingkai saat ini (yaitu apa yang terjadi di bagian bingkai itu pada gambar sebelumnya atau berikutnya), tetapi juga tetangga jauh yang berjarak banyak bingkai, dan namun akan mempengaruhi efek kohesif dari setiap operasi yang dilakukan pada video secara keseluruhan.

Arsitektur E2FGVI.

Arsitektur E2FGVI.

Bagian pusat berbasis fitur baru dari alur kerja dapat memanfaatkan lebih banyak proses tingkat fitur dan offset pengambilan sampel yang dapat dipelajari, sementara transformator fokus baru proyek, menurut penulis, memperluas ukuran jendela fokus 'dari 2D ke 3D' .

Tes dan Data

Untuk menguji E2FGVI, para peneliti mengevaluasi sistem terhadap dua kumpulan data segmentasi objek video populer: YouTube-VOS, dan DAVIS. YouTube-VOS menampilkan 3741 klip video pelatihan, 474 klip validasi, dan 508 klip pengujian, sedangkan DAVIS menampilkan 60 klip video pelatihan, dan 90 klip pengujian.

E2FGVI dilatih di YouTube-VOS dan dievaluasi pada kedua dataset. Selama pelatihan, topeng objek (area hijau pada gambar di atas, dan video tersemat di bawah) dibuat untuk mensimulasikan penyelesaian video.

Untuk metrik, para peneliti mengadopsi Peak signal-to-noise ratio (PSNR), Structural similarity (SSIM), Video-based Fréchet Inception Distance (VFID), dan Flow Warping Error – yang terakhir untuk mengukur stabilitas temporal pada video yang terpengaruh.

Arsitektur sebelumnya yang digunakan untuk menguji sistem VINet, DFVI, LGTSM, CAP, FGVC, STTN, dan FuseMantan.

Dari bagian hasil kuantitatif kertas. Panah atas dan bawah masing-masing menunjukkan bahwa angka yang lebih tinggi atau lebih rendah lebih baik. E2FGVI mencapai skor terbaik secara keseluruhan. Metode dievaluasi menurut FuseFormer, meskipun DFVI, VINet dan FGVC bukan sistem end-to-end, sehingga tidak mungkin memperkirakan FLOP mereka.

Dari bagian hasil kuantitatif kertas. Panah atas dan bawah masing-masing menunjukkan bahwa angka yang lebih tinggi atau lebih rendah lebih baik. E2FGVI mencapai skor terbaik secara keseluruhan. Metode dievaluasi menurut FuseFormer, meskipun DFVI, VINet dan FGVC bukan sistem end-to-end, sehingga tidak mungkin memperkirakan FLOP mereka.

Selain mencapai skor terbaik terhadap semua sistem yang bersaing, para peneliti melakukan studi pengguna kualitatif, di mana video yang diubah dengan lima metode representatif ditampilkan secara individual kepada dua puluh sukarelawan, yang diminta untuk menilai mereka dalam hal kualitas visual.

Sumbu vertikal mewakili persentase peserta yang lebih memilih keluaran E2FGVI dalam hal kualitas visual.

Sumbu vertikal mewakili persentase peserta yang memilih E2Keluaran FGVI dalam hal kualitas visual.

Para penulis mencatat bahwa terlepas dari preferensi bulat untuk metode mereka, salah satu hasil, FGVC, tidak mencerminkan hasil kuantitatif, dan mereka menyarankan bahwa ini menunjukkan bahwa E2FGVI mungkin, khususnya, menghasilkan 'hasil yang lebih menyenangkan secara visual'.

Dalam hal efisiensi, penulis mencatat bahwa sistem mereka sangat mengurangi operasi floating point per detik (FLOPs) dan waktu inferensi pada GPU Titan tunggal pada dataset DAVIS, dan mengamati bahwa hasilnya menunjukkan E2FGVI berjalan x15 lebih cepat daripada metode berbasis aliran.

Mereka berkomentar:

'[E2FGVI] memegang FLOP terendah berbeda dengan semua metode lainnya. Hal ini menunjukkan bahwa metode yang diusulkan sangat efisien untuk video inpainting.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

* Konversi saya dari kutipan sebaris penulis ke hyperlink.

Pertama kali diterbitkan 19 Mei 2022.