Sun'iy intellekt
Sahnalarni tushunadigan AI tasviri

2003-yilda DVD chiqarilishi bilan birga kelgan qo'shimcha hujjatli filmda Alien3 (1992), vizual effektlar afsonasi Richard Edlund dahshat bilan esladi: fotokimyoviy mat ekstraktsiyasining "sumo kurashi" o'rtasida vizual effektlar ishida ustunlik qildi. kech 1930s va 1980-yillarning oxiri. Edlund 1990-yillarning boshlarida qabul qilingan raqamli koʻk/yashil ekran texnikasi bilan solishtirganda, jarayonning “sumo kurashi” deb taʼrifladi (va u qaytib keldi beri metaforaga).
Kesilgan tasvirni fon plitasiga birlashtira olishi uchun fondan oldingi elementni (masalan, odam yoki kosmik kema modeli) ajratib olish dastlab oldingi ob'ektni bir xil ko'k yoki yashil fonda suratga olish orqali erishilgan.

ILM tomonidan "Jediylarning qaytishi" (1983) uchun suratga olingan VFX uchun mashaqqatli fotokimyoviy ekstraksiya jarayonlari. Manba: https://www.youtube.com/watch?v=qwMLOjqPmbQ
Olingan tasvirda fon rangi keyinchalik kimyoviy jihatdan ajratiladi va oldingi ob'ektni (yoki shaxsni) qayta chop etish uchun shablon sifatida ishlatiladi. optik printer shaffof plyonkali hujayradagi "suzuvchi" ob'ekt sifatida.
Jarayon rang ajratish qoplamasi (CSO) sifatida tanilgan, ammo bu atama oxir-oqibat xom ashyo bilan bog'liq bo'ladi. "Chromakey" 1970 va 1980-yillarning past byudjetli televizion chiqishida kimyoviy yoki raqamli vositalardan ko'ra analog bilan erishilgan video effektlar.

1970 yilda Britaniyaning "Moviy Piter" bolalar shousi uchun Ranglarni ajratish qoplamasining namoyishi. Manba: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx
Qanday bo'lmasin, kino yoki video elementlar uchun bo'ladimi, undan keyin olingan tasvirlar boshqa istalgan tasvirga kiritilishi mumkin.
Garchi Disney qimmatroq va mulkiy bo'lsa ham natriy-bug' jarayoni (ayniqsa sariq rangga kirgan va shu bilan birga edi Ikkinchi qo'l Alfred Xitkokning 1963 yildagi dahshatli filmi uchun Qushlar) yaxshiroq ta'rif va tiniq mattlar berdi, fotokimyoviy ekstraktsiya mashaqqatli va ishonchsiz bo'lib qoldi.

Disneyning xususiy natriy bug'ini olish jarayoni spektrning sariq uchiga yaqin fonni talab qildi. Bu erda Anjela Lansberi "To'shak va supurgilar" (1971) uchun VFX bilan bog'langan ketma-ketlikni ishlab chiqarishda simlarga osilgan. manba
Raqamli Mattingdan tashqari
1990-yillarda raqamli inqilob kimyoviy moddalardan voz kechdi, ammo yashil ekranlarga ehtiyoj yo'q edi. Endi yashil (yoki qanday rangda bo'lishidan qat'iy nazar) fonni faqat shu rangning bardoshlik diapazonidagi piksellarni, Photoshop kabi piksellarni tahrirlash dasturlarida va avtomatik ravishda ajratib turadigan video kompozitsiyalarining yangi avlodini qidirish orqali olib tashlash mumkin edi. rangli fonlar. Deyarli bir kechada, oltmish yil optik matbaa sanoati tarixga qoldirildi.
GPU tomonidan tezlashtirilgan kompyuter ko'rish tadqiqotining so'nggi o'n yili mat rangli ekstraktsiyani uchinchi asrga olib kirdi va tadqiqotchilarga yashil ekranlarga ehtiyoj sezmasdan yuqori sifatli matlarni ajratib oladigan tizimlarni ishlab chiqish vazifasini topshirdi. Faqat Arxiv-da, mashinani o'rganishga asoslangan oldingi o'rinni olish bo'yicha innovatsiyalar bilan bog'liq maqolalar haftalik xususiyatdir.
Bizni rasmga qo'yish
Sun'iy intellektni qazib olishga bo'lgan ushbu ilmiy va sanoat qiziqishi allaqachon iste'mol maydoniga ta'sir ko'rsatgan: qo'pol, ammo amalda qo'llanilishi mumkin bo'lgan ilovalar barchamizga tanish. zum va Skype video konferentsiya qo'ng'iroqlarida yashash xonamiz fonini tropik orollar va boshqalar bilan almashtira oladigan filtrlar.
Biroq, eng yaxshi matlar hali ham yashil ekranni talab qiladi Kattalashtirish qayd etildi o'tgan chorshanba.

Chapda yashil ekran oldida, Zoom virtual fon funksiyasi orqali sochlari yaxshi taralgan erkak. To'g'ri, oddiy uy sahnasi oldida ayol, sochlari algoritmik tarzda chiqarilgan, kamroq aniqlik va yuqori hisoblash talablari bilan. Manba: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image
A keyingi post Zoom Support platformasidan ogohlantiradiki, yashil bo'lmagan ekranni olish ham suratga olish qurilmasida katta hisoblash quvvatini talab qiladi.
Uni kesib tashlash zarurati
“Yovvoyi tabiatda” matli ekstraksiya tizimlari (ya’ni, odamlarni yashil ekranlarga muhtoj bo‘lmasdan izolyatsiya qilish) sifati, ko‘chma qobiliyati va resurs tejamkorligining yaxshilanishi videokonferensaloqa filtrlaridan ko‘ra ko‘proq sohalar va ishlarga taalluqlidir.
Ma'lumotlar to'plamini ishlab chiqish uchun takomillashtirilgan yuz, bosh va to'liq tanani aniqlash tashqi fon elementlarining inson sub'ektlarining kompyuter ko'rish modellariga o'rganilmasligini ta'minlash imkoniyatini beradi; aniqroq izolyatsiyalash ancha yaxshilanadi semantik segmentatsiya domenlarni ajratish va assimilyatsiya qilish uchun mo'ljallangan texnikalar (ya'ni "mushuk", "odam", 'qayiq') va yaxshilang Afsuski va transformator-asoslangan tasvir sintezi tizimlari, masalan, OpenAI-ning yangi DALL-E2; va yaxshiroq qazib olish algoritmlari qimmat qo'llanmaga bo'lgan ehtiyojni kamaytiradi rotoskopiya qimmat VFX quvurlarida.
Darhaqiqat, ning yuksalishi multimodal (odatda matn/tasvir) metodologiyalari, bunda "mushuk" kabi domen ham tasvir sifatida, ham tegishli matnga havolalar bilan kodlangan, allaqachon tasvirni qayta ishlashga kirib bormoqda. Yaqinda bir misol Text2Live ko'plab boshqa imkoniyatlar qatorida videolarni yaratish uchun multimodal (matn/tasvir) treningidan foydalanadigan arxitektura, billur oqqushlar va shisha jirafalar.
Sahnadan xabardor AI Matting
Sun'iy intellektga asoslangan avtomatik matlash bo'yicha ko'plab tadqiqotlar tasvir yoki video ramka ichidagi pikselga asoslangan guruhlarni chegaralarni aniqlash va baholashga qaratilgan. Biroq, Xitoydan olib borilgan yangi tadqiqotlar ekstraktsiya quvurini taklif qiladi, bu esa matlik sifatini yaxshilaydi. matnga asoslangan tavsiflar sahna ko'rinishi (so'nggi 3-4 yil ichida kompyuterni ko'rishni tadqiq qilish sohasida o'ziga xos xususiyatga ega bo'lgan multimodal yondashuv), oldingi usullarni bir necha jihatdan yaxshilaganligini da'vo qiladi.

SPG-IM ekstraktsiyasiga misol (oxirgi rasm, pastki o'ng), oldingi raqobatdosh usullar bilan solishtirganda. Manba: https://arxiv.org/pdf/2204.09276.pdf
Ekstraksiya tadqiqotlari kichik sektori oldiga qo'yiladigan qiyinchilik minimal qo'lda izoh va inson aralashuvini talab qiladigan ish oqimlarini ishlab chiqarishdir - ideal holda, yo'q. Xarajatlardan tashqari, tadqiqotchilarning ta'kidlashicha, turli madaniyatlarda autsorsing qilingan olomon ishchilari tomonidan amalga oshirilgan izohlar va qo'lda segmentatsiyalar tasvirlarni turli yo'llar bilan etiketlash yoki hatto segmentlarga ajratishga olib kelishi mumkin, bu esa nomuvofiq va qoniqarsiz algoritmlarga olib keladi.
Bunga misol qilib, "oldingi ob'ekt" ni belgilaydigan sub'ektiv talqindir:

Yangi maqoladan: oldingi usullar L.F.M. va MODNet (“GT” asosiy haqiqatni bildiradi, bu ko‘pincha qo‘lda yoki algoritmik bo‘lmagan usullar bilan erishiladigan “ideal” natijadir), oldingi tarkibni aniqlashda turli va turlicha samarali yondashuvlarga ega, yangi SPG-IM usuli esa “yaqin tarkibni” yanada samaraliroq belgilaydi. sahna konteksti orqali.
Buni hal qilish uchun tadqiqotchilar nomli ikki bosqichli quvur liniyasini ishlab chiqdilar Vaziyatni idrok etish bo'yicha boshqariladigan tasvirni to'ldirish (SPG-IM). Ikki bosqichli kodlovchi/dekoder arxitekturasi Situatsion Perception Distillation (SPD) va Situatsion Perception Guided Matting (SPGM) dan iborat.
Birinchidan, SPD vizual-matn xususiyatini o'zgartirishni oldindan tayyorlaydi, ular bilan bog'liq tasvirlarga mos yozuvlar yaratadi. Shundan so'ng, quvur liniyasini romanga ulash orqali oldingi niqobni bashorat qilish yoqiladi aniqlikni bashorat qilish texnikasi.
Keyin SPGM xom RGB tasvir kiritishiga va birinchi modulda olingan niqobga asoslangan taxminiy alfa matini chiqaradi.
Maqsad vaziyatni idrok etish bo'yicha ko'rsatma bo'lib, tizim tasvirning nimadan iboratligini kontekstli tushunishga ega bo'lib, unga bunday aniq vazifaning ma'lum xususiyatlariga qarshi fondan murakkab sochlarni olish muammosini shakllantirishga imkon beradi.

Quyidagi misolda SPG-IM kordonlar "parashyut" ga xos ekanligini tushunadi, bunda MODNet bu tafsilotlarni saqlay olmaydi va aniqlay olmaydi. Xuddi shunday, yuqoridagi kabi, o'yin maydonchasi apparatining to'liq tuzilishi MODNet-da o'zboshimchalik bilan yo'qolgan.
yangi qog'oz sarlavhali Vaziyatni idrok etish bo'yicha boshqariladigan tasvirni to'ldirish, va OPPO tadqiqot instituti, PicUp.ai va Xmotors tadqiqotchilaridan keladi.
Intelligent Avtomatlashtirilgan Mattlar
SPG-IM shuningdek, mahalliy tafsilotlarni va global kontekstni alohida qayta ishlay oladigan, "aqlli matlar" ni osonlashtiradigan Adaptiv Fokal Transformatsiya (AFT) aniqlashtirish tarmog'ini taklif qiladi.

Sahna kontekstini, bu holda "otli qiz"ni tushunish, oldingi usullarga qaraganda, oldingi rejani ajratib olishni osonlashtirishi mumkin.
Hujjatda shunday deyilgan:
"Biz vizual-matnli vazifadan vizual tasvirlar, masalan tasvir sarlavhasi, global ma'lumot va mahalliy tafsilotlarni qamrab oladigan tavsiflarni yaratish uchun a) ob'ektdan ob'ektga va b) atrof-muhitga ob'ekt o'rtasidagi yanada kengroq semantik signallarga e'tibor qarating. Bundan tashqari, tasvirni matlashning qimmat pikselli izohi bilan solishtirganda, matn yorliqlarini juda arzon narxda to'plash mumkin.'
Arxitekturaning SPD bo'limi Michigan universiteti bilan birgalikda tayyorlanmoqda VirTex semantik jihatdan zich sarlavhalardan vizual tasvirlarni o'rganadigan transformatorga asoslangan matnli dekoder.

VirTex ConvNet va Transformerlarni birgalikda tasvir sarlavhali juftliklar orqali o'qitadi va olingan tushunchalarni ob'ektni aniqlash kabi quyi oqimdagi ko'rish vazifalariga o'tkazadi. Manba: https://arxiv.org/pdf/2006.06666.pdf
Boshqa testlar va ablasyon tadqiqotlari bilan bir qatorda, tadqiqotchilar SPG-IMni eng zamonaviy texnologiyalarga qarshi sinovdan o'tkazdilar trimapChuqur tasvirni o'zgartirishga asoslangan usullar (DIM), IndexNet, Kontekstdan xabardor tasvirni moslashtirish (CAM), Kontekstga asoslangan e'tibor (GCA), FBA, va semantik tasvirni xaritalash (SIM-karta).
Sinovdan o'tgan boshqa ramkalar trimapsiz yondashuvlarni o'z ichiga oladi L.F.M., HAttMattingva MODNet. Adolatli taqqoslash uchun test usullari turli metodologiyalar asosida moslashtirilgan; Agar kod mavjud bo'lmasa, qog'oz texnikasi tasvirlangan arxitekturadan qayta ishlab chiqarilgan.
Yangi hujjatda shunday deyilgan:
"Bizning SPG-IM barcha raqobatdosh trimapsiz usullardan ([LFM], [HAttMatting] va [MODNet]) katta farq bilan ustundir. Shu bilan birga, bizning modelimiz umumiy ma'lumotlar to'plamidagi barcha to'rtta ko'rsatkich (ya'ni, Composition-1K, Distinction-646 va Inson) bo'yicha eng zamonaviy (SOTA) trimap va niqobga asoslangan usullardan sezilarli ustunlikni ko'rsatadi. -2K) va bizning Multi-Object-1K mezonimiz.'
Va davom etadi:
"Bizning usulimiz nozik detallarni (masalan, soch uchlari joylari, shaffof teksturalar va chegaralar) trimap ko'rsatmalarisiz saqlab qolishini aniq kuzatish mumkin. Bundan tashqari, boshqa raqobatdosh trimapsiz modellar bilan solishtirganda, bizning SPG-IM global semantik mukammallikni saqlab qolishi mumkin.'
Birinchi marta 24 yil 2022 aprelda nashr etilgan.