Kecerdasan buatan

AI Image Matting yang Memahami Adegan

Published April 24, 2022

Updated April 28, 2026

Martin Anderson

Dalam dokumenter tambahan yang menyertai rilis DVD tahun 2003 dari Alien³ (1992), legenda efek visual Richard Edlund mengingat dengan teror “sumo wrestling” dari ekstraksi matte foto kimia yang mendominasi pekerjaan efek visual antara akhir 1930-an dan akhir 1980-an. Edlund menjelaskan sifat hit-and-miss dari proses sebagai ‘sumo wrestling’, dibandingkan dengan teknik layar biru/hijau digital yang mengambil alih pada awal 1990-an (dan dia telah kembali ke metafor tersebut sejak saat itu).

Mengeluarkan elemen foreground (seperti orang atau model pesawat luar angkasa) dari latar belakang, sehingga gambar yang dipotong dapat disusun ke dalam pelat latar belakang, awalnya dicapai dengan memfilmkan objek foreground melawan latar belakang biru atau hijau seragam.

Proses ekstraksi foto kimia yang melelahkan untuk shot VFX oleh ILM untuk ‘Return of the Jedi’ (1983). Source: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Dalam footage yang dihasilkan, warna latar belakang kemudian diisolasi secara kimia dan digunakan sebagai template untuk mencetak ulang objek foreground (atau orang) dalam optical printer sebagai objek ‘mengapung’ dalam sel film transparan.

Proses ini dikenal sebagai overlay pemisahan warna (CSO) – meskipun istilah ini akhirnya menjadi lebih terkait dengan efek video ‘Chromakey’ yang kasar ‘ dalam output televisi dengan anggaran rendah pada 1970-an dan 1980-an, yang dicapai dengan cara analog bukan kimia atau digital.

Demonstrasi Color Separation Overlay pada 1970 untuk acara anak-anak Inggris ‘Blue Peter’. Source: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Dalam hal apa pun, apakah untuk elemen film atau video, kemudian footage yang diekstrak dapat dimasukkan ke dalam footage lain.

Meskipun proses natrium-vapor Disney yang lebih mahal dan proprietary (yang mengunci pada kuning, khususnya, dan juga digunakan untuk film horor Alfred Hitchcock 1963 The Birds) memberikan definisi dan matte yang lebih tajam, ekstraksi foto kimia tetap melelahkan dan tidak dapat diandalkan.

Proses ekstraksi natrium-vapor proprietary Disney memerlukan latar belakang dekat dengan ujung spektrum kuning. Di sini, Angela Lansbury digantung pada kawat selama produksi urutan VFX-laced untuk ‘Bedknobs and Broomsticks’ (1971). Source

Melampaui Matting Digital

Pada 1990-an, revolusi digital menghilangkan bahan kimia, tetapi tidak menghilangkan kebutuhan akan layar hijau. Sekarang memungkinkan untuk menghapus latar belakang hijau (atau warna apa pun) hanya dengan mencari piksel dalam jangkauan toleransi warna tersebut, dalam perangkat lunak pengeditan piksel seperti Photoshop, dan generasi baru suite komposisi video yang dapat secara otomatis menghilangkan latar belakang berwarna. Hampir semalam, enam puluh tahun industri pencetakan optik dikirim ke sejarah.

Sepuluh tahun terakhir penelitian visi komputer yang dipercepat GPU membawa ekstraksi matte ke usia ketiga, menugaskan peneliti untuk mengembangkan sistem yang dapat mengekstrak matte berkualitas tinggi tanpa kebutuhan akan layar hijau. Di Arxiv saja, makalah terkait dengan inovasi dalam ekstraksi foreground berbasis pembelajaran mesin adalah fitur mingguan.

Meletakkan Kita dalam Gambar

Fokus akademis dan industri ini pada ekstraksi AI sudah mempengaruhi ruang konsumen: implementasi kasar tetapi dapat digunakan familiar bagi kita semua dalam bentuk Zoom dan Skype filter yang dapat menggantikan latar belakang ruang tamu kita dengan pulau tropis, dll, dalam panggilan konferensi video.

Namun, matte terbaik masih memerlukan layar hijau, seperti Zoom mencatat hari Rabu terakhir.

Kiri, seorang pria di depan layar hijau, dengan rambut yang diekstrak dengan baik melalui fitur Latar Belakang Virtual Zoom. Kanan, seorang wanita di depan adegan domestik normal, dengan rambut diekstrak secara algoritmik, kurang akurat, dan dengan kebutuhan komputasi yang lebih tinggi. Source: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Pos lanjutan dari Platform Dukungan Zoom memperingatkan bahwa ekstraksi non-layar hijau juga memerlukan daya komputasi yang lebih besar pada perangkat penangkap.

Kebutuhan untuk Memotongnya

Perbaikan kualitas, portabilitas, dan ekonomi sumber daya untuk sistem ekstraksi matte ‘di alam liar’ (yaitu, mengisolasi orang tanpa kebutuhan akan layar hijau) relevan dengan sektor dan kegiatan yang lebih banyak daripada hanya filter konferensi video.

Untuk pengembangan dataset, pengenalan wajah, kepala penuh, dan tubuh penuh yang ditingkatkan menawarkan kemungkinan untuk memastikan bahwa elemen latar belakang yang tidak diinginkan tidak dilatih ke dalam model visi komputer subjek manusia; isolasi yang lebih akurat akan sangat meningkatkan segmentasi semantik teknik yang dirancang untuk membedakan dan mengasimilasi domain (yaitu ‘kucing’, ‘orang’, ‘perahu’), dan meningkatkan VAE dan transformer-based sistem sintesis gambar seperti OpenAI baru DALL-E 2; dan algoritma ekstraksi yang lebih baik akan mengurangi kebutuhan akan rotoscoping manual yang mahal dalam pipa VFX yang mahal.

Pada kenyataannya, supremasi multimodal (biasanya teks/gambar) metodologi, di mana domain seperti ‘kucing’ dikodekan baik sebagai gambar dan dengan referensi teks terkait, sudah membuat terobosan ke dalam pemrosesan gambar. Salah satu contoh baru-baru ini adalah arsitektur Text2Live, yang menggunakan pelatihan multimodal (teks/gambar) untuk membuat video dari, antara lain, kristal angsa dan jerapah kaca.

AI Matting yang Memahami Adegan

Sejumlah besar penelitian tentang matting otomatis berbasis AI telah fokus pada pengenalan batas dan evaluasi grupasi piksel dalam gambar atau bingkai video. Namun, penelitian baru dari Cina menawarkan pipeline ekstraksi yang meningkatkan pembatasan dan kualitas matte dengan memanfaatkan deskripsi teks dari adegan (pendekatan multimodal yang telah mendapatkan traksi di sektor penelitian visi komputer selama 3-4 tahun terakhir), yang mengklaim telah meningkatkan metode sebelumnya dalam beberapa cara.

Contoh ekstraksi SPG-IM (gambar terakhir, kanan bawah), dibandingkan dengan metode sebelumnya. Source: https://arxiv.org/pdf/2204.09276.pdf

Tantangan yang diajukan untuk sub-sektor penelitian ekstraksi adalah untuk menghasilkan aliran kerja yang memerlukan annotasi manual dan intervensi manusia yang minimal – idealnya, tidak ada. Selain implikasi biaya, peneliti makalah baru mengamati bahwa annotasi dan segmentasi manual yang dilakukan oleh pekerja kerumunan yang disewa di berbagai budaya dapat menyebabkan gambar dilabeli atau bahkan disegmentasi dengan cara yang berbeda, menghasilkan algoritma yang tidak konsisten dan tidak memuaskan.

Salah satu contoh adalah interpretasi subjektif tentang apa yang mendefinisikan ‘objek foreground’:

Dari makalah baru: metode sebelumnya LFM dan MODNet (‘GT’ menunjukkan Ground Truth, hasil ‘ideal’ yang sering dicapai secara manual atau dengan metode non-algoritmik), memiliki definisi yang berbeda dan efektif tentang konten foreground, sedangkan metode SPG-IM baru lebih efektif dalam membatasi ‘konten dekat’ melalui konteks adegan.

Untuk mengatasi ini, peneliti telah mengembangkan pipeline dua tahap yang disebut Situational Perception Guided Image Matting (SPG-IM). Arsitektur encoder/decoder dua tahap ini terdiri dari Situational Perception Distillation (SPD) dan Situational Perception Guided Matting (SPGM).

Arsitektur SPG-IM.

Pertama, SPD melakukan pra-pelatihan transformasi fitur visual-ke-teks, menghasilkan keterangan yang sesuai dengan gambar yang terkait. Setelah itu, prediksi masker foreground diaktifkan dengan menghubungkan pipeline ke teknik prediksi saliensi baru.

Kemudian SPGM menghasilkan matte alfa yang diestimasi berdasarkan input gambar RGB mentah dan masker yang dihasilkan dalam modul pertama.

Tujuan adalah panduan persepsi situasional, di mana sistem memiliki pemahaman kontekstual tentang apa yang terdiri dari gambar, memungkinkan untuk membingkai – misalnya – tantangan ekstraksi rambut kompleks dari latar belakang melawan karakteristik yang diketahui dari tugas spesifik tersebut.

Dalam contoh di bawah, SPG-IM memahami bahwa kabel-kabel tersebut intrinsik pada ‘parasut’, di mana MODNet gagal mempertahankan dan mendefinisikan detail-detail tersebut. Begitu juga di atas, struktur lengkap peralatan playground hilang secara sewenang-wenang dalam MODNet.

Makalah baru berjudul Situational Perception Guided Image Matting, dan berasal dari peneliti di OPPO Research Institute, PicUp.ai, dan Xmotors.

Matte Otomatis yang Cerdas

SPG-IM juga menawarkan Jaringan Pemurnian Transformasi Fokus Adaptif (AFT) yang dapat memproses detail lokal dan konteks global secara terpisah, memfasilitasi ‘matte cerdas’.

Memahami konteks adegan, dalam hal ini ‘gadis dengan kuda’, dapat membuat ekstraksi foreground lebih mudah daripada metode sebelumnya.

Makalah tersebut menyatakan:

‘Kami percaya bahwa representasi visual dari tugas visual-ke-teks, misalnya penjelasan gambar, fokus pada sinyal yang lebih komprehensif secara semantik antara a) objek ke objek dan b) objek ke lingkungan sekitar untuk menghasilkan deskripsi yang dapat mencakup baik info global dan detail lokal. Selain itu, dibandingkan dengan anotasi piksel yang mahal dari pemotongan gambar, label teks dapat dikumpulkan secara masif dengan biaya yang sangat rendah.’

Makalah tersebut menyatakan: