Yapay Zeka
Sahneleri Anlayan AI Image Matting

2003 DVD sürümüne eşlik eden ekstralar belgeselinde Alien3 (1992), görsel efekt efsanesi Richard Edlund, XNUMX ile XNUMX yılları arasında görsel efekt çalışmalarına hakim olan fotokimyasal mat çıkarma işleminin 'sumo güreşini' dehşetle hatırladı. geç 1930s ve 1980'lerin sonları. Edlund, sürecin inişli çıkışlı doğasını, 1990'ların başında yaygınlaşan dijital mavi/yeşil ekran teknikleriyle karşılaştırıldığında 'sumo güreşi' olarak tanımladı (ve o da iade beri metafor için).
Kesilen görüntünün bir arka plan plakasında birleştirilebilmesi için bir arka plandan bir ön plan öğesinin (bir kişi veya bir uzay gemisi modeli gibi) çıkarılması, orijinal olarak ön plandaki nesnenin tekdüze bir mavi veya yeşil arka plana karşı filme alınmasıyla gerçekleştirildi.

ILM'nin 'Jedi'ın Dönüşü' (1983) için çektiği bir VFX çekimi için zahmetli fotokimyasal çıkarma işlemleri. Kaynak: https://www.youtube.com/watch?v=qwMLOjqPmbQ
Ortaya çıkan görüntüde, arka plan rengi daha sonra kimyasal olarak izole edilecek ve ön plandaki nesneyi (veya kişiyi) yeniden yazdırmak için bir şablon olarak kullanılacaktır. optik yazıcı Aksi takdirde şeffaf bir film hücresinde 'yüzen' bir nesne olarak.
İşlem, renk ayırma kaplaması (CSO) olarak biliniyordu - ancak bu terim sonunda ham renkle daha fazla ilişkilendirilecekti. 'Kromakey' 1970'lerin ve 1980'lerin düşük bütçeli televizyon çıktılarında kimyasal veya dijital araçlardan ziyade analogla elde edilen video efektleri.

1970 yılında İngiliz çocuk programı 'Blue Peter' için Renk Ayrımı Kaplamasının bir gösterimi. Kaynak: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx
Her halükarda, ister film ister video öğeleri olsun, bundan sonra çıkarılan görüntü başka herhangi bir görüntüye eklenebilir.
Disney'in belirgin şekilde daha pahalı ve tescilli olmasına rağmen sodyum buharı işlemi (özellikle sarı tuşlu ve aynı zamanda Kullanılmış Alfred Hitchcock'un 1963 yapımı korku filmi için Kuşlar) daha iyi tanım ve daha net matlar verdi, fotokimyasal ekstraksiyon zahmetli ve güvenilmez kaldı.

Disney'in tescilli sodyum buharı çıkarma işlemi, spektrumun sarı ucuna yakın arka planlar gerektiriyordu. Burada, Angela Lansbury, 'Bedknobs and Broomsticks' (1971) için görsel efektlerle dolu bir sekansın prodüksiyonu sırasında tellere asılı duruyor. Kaynak
Dijital Paspasın Ötesinde
1990'larda, dijital devrim kimyasalları ortadan kaldırdı, ancak yeşil ekranlara olan ihtiyacı ortadan kaldırdı. Artık yeşil (veya herhangi bir renk olan) arka planı, Photoshop gibi piksel düzenleme yazılımlarında ve otomatik olarak anahtarlama yapabilen yeni nesil video birleştirme paketlerinde o rengin tolerans aralığındaki pikselleri arayarak kaldırmak mümkündü. renkli arka planlar. Neredeyse bir gecede, altmış yıl optik baskı endüstrisi tarihe gömüldü.
GPU ile hızlandırılmış bilgisayarlı görü araştırmalarının son on yılı, mat görüntü çıkarma işlemini üçüncü bir çağa taşıyor ve araştırmacılara, yeşil ekranlara ihtiyaç duymadan yüksek kaliteli mat görüntüler çıkarabilen sistemler geliştirme görevi veriyor. Yalnızca Arxiv'de, makine öğrenimi tabanlı ön plan çıkarımındaki yeniliklerle ilgili makaleler haftalık olarak yayınlanmaktadır.
Bizi Resmin İçine Koymak
AI çıkarımına yönelik bu akademik ve endüstri ilgisi, tüketici alanını zaten etkiledi: kaba ama uygulanabilir uygulamalar hepimize aşinadır. yakınlaştırma ve Skype video konferans görüşmelerinde oturma odası arka planımızı tropikal adalar vb. ile değiştirebilen filtreler.
Ancak, en iyi örtüler hala yeşil ekran gerektirir, çünkü Yakınlaştırıldı Geçen Çarşamba.

Solda, Zoom'un Sanal Arka Plan özelliğiyle saçları iyice çekilmiş, yeşil bir ekranın önünde duran bir adam. Sağda, normal bir ev sahnesinin önünde, saçları algoritmik olarak, daha az doğrulukla ve daha yüksek bilgi işlem gereksinimleriyle çekilmiş bir kadın. Kaynak: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image
A sonraki gönderi Zoom Destek platformundan, yeşil ekran dışı çıkarma işleminin de yakalama cihazında daha fazla bilgi işlem gücü gerektirdiği konusunda uyarıda bulunuyor.
Kesip Atma İhtiyacı
'Doğada' mat çıkarma sistemlerinde (yani yeşil perdeye ihtiyaç duymadan insanları izole etmede) kalite, taşınabilirlik ve kaynak ekonomisindeki iyileştirmeler, yalnızca görüntülü konferans filtrelerinden çok daha fazla sektör ve uğraş için önemlidir.
Veri seti geliştirme için, geliştirilmiş yüz, tam baş ve tam vücut tanıma, yabancı arka plan öğelerinin insan deneklerinin bilgisayarlı görüş modellerine dahil edilmemesini sağlama olanağı sunar; daha doğru izolasyon büyük ölçüde iyileşir anlamsal bölümleme alanları ayırt etmek ve özümsemek için tasarlanmış teknikler (örn. 'kedi', 'kişi', 'bot'), Ve geliştirmek VAE ve transformatörOpenAI'nin yeni tabanlı görüntü sentez sistemleri gibi DALL-E2; ve daha iyi çıkarma algoritmaları, pahalı kılavuzlara olan ihtiyacı azaltacaktır. rotoscoping maliyetli VFX ardışık düzenlerinde.
Aslında, yükseliş multimodal (genellikle metin/görüntü) metodolojileri, 'kedi' gibi bir alanın hem bir görüntü olarak hem de ilişkili metin referanslarıyla kodlandığı, görüntü işlemede ilerleme kaydediyor. Son örneklerden biri, Metin2Live sayısız diğer olasılıkların yanı sıra video oluşturmak için çok modlu (metin/resim) eğitimi kullanan mimari, kristal kuğular ve cam zürafalar.
Sahneye Duyarlı Yapay Zeka Örtüsü
Yapay zeka tabanlı otomatik döşemeye ilişkin çok sayıda araştırma, bir görüntü veya video çerçevesi içindeki piksel tabanlı gruplamaların sınır tanıma ve değerlendirilmesine odaklanmıştır. Bununla birlikte, Çin'den yapılan yeni araştırma, betimlemeyi ve mat kalitesini iyileştiren bir ekstraksiyon boru hattı sunuyor. metin tabanlı açıklamalar önceki yöntemlerde çeşitli şekillerde geliştiğini iddia eden bir sahnenin (bilgisayarlı görü araştırma sektöründe son 3-4 yılda ilgi kazanan çok modlu bir yaklaşım).

Rakip önceki yöntemlerle karşılaştırılan örnek bir SPG-IM çıkarımı (son resim, sağ alt). Kaynak: https://arxiv.org/pdf/2204.09276.pdf
Çıkarma araştırması alt sektörü için ortaya çıkan zorluk, minimum düzeyde manuel ek açıklama ve insan müdahalesi gerektiren iş akışları üretmektir - ideal olarak hiçbiri. Maliyet etkilerinin yanı sıra, yeni makalenin araştırmacıları, çeşitli kültürlerde dış kaynaklı kalabalık çalışanlar tarafından gerçekleştirilen ek açıklamaların ve manuel bölümlemelerin, görüntülerin farklı şekillerde etiketlenmesine ve hatta bölümlere ayrılmasına neden olarak tutarsız ve tatmin edici olmayan algoritmalara yol açabileceğini gözlemliyor.
Bunun bir örneği, 'ön plan nesnesi'ni tanımlayan şeyin öznel yorumudur:

Yeni makaleden: önceki yöntemler LFM ve MODNet ('GT', çoğunlukla elle veya algoritmik olmayan yöntemlerle elde edilen 'ideal' bir sonuç olan Zemin Gerçeği anlamına gelir), ön plan içeriğinin tanımı konusunda farklı ve çeşitli etkili yaklaşımlara sahiptir, oysa yeni SPG-IM yöntemi sahne bağlamı aracılığıyla 'yakın içeriği' daha etkili bir şekilde belirler.
Bunu ele almak için, araştırmacılar iki aşamalı bir boru hattı geliştirdiler. Durumsal Algı Güdümlü Görüntü Örtüsü (SPG-IM). İki aşamalı kodlayıcı/kod çözücü mimarisi, Durumsal Algı Distilasyonu (SPD) ve Durumsal Algı Kılavuzlu Örtüleme (SPGM) içerir.
İlk olarak, SPD görselden metne özellik dönüşümlerini önceden eğitir ve ilişkili görüntülere uygun altyazılar oluşturur. Bundan sonra, ardışık düzen bir romana bağlanarak ön plan maskesi tahmini etkinleştirilir. belirginlik tahmini tekniği.
Daha sonra SPGM, ham RGB görüntü girdisine ve birinci modülde elde edilen oluşturulan maskeye dayalı olarak tahmini bir alfa mat çıktısı verir.
Amaç, sistemin görüntünün nelerden oluştuğuna dair bağlamsal bir anlayışa sahip olduğu durumsal algı rehberliğidir; örneğin, böyle özel bir görevin bilinen özelliklerine karşı bir arka plandan karmaşık saç çıkarma zorluğunu çerçevelemesine izin verir.

Aşağıdaki örnekte, SPG-IM, iplerin bir 'paraşüt'ün ayrılmaz bir parçası olduğunu, ancak MODNet'in bu ayrıntıları koruyup tanımlamadığını anlıyor. Benzer şekilde, oyun alanı aparatının tüm yapısı MODNet'te keyfi olarak kayboluyor.
Yeni kâğıt başlıklı Durumsal Algı Güdümlü Görüntü Örtüsüve OPPO Araştırma Enstitüsü, PicUp.ai ve Xmotors'taki araştırmacılardan geliyor.
Akıllı Otomatik Örtüler
SPG-IM ayrıca yerel ayrıntıları ve küresel bağlamı ayrı ayrı işleyebilen ve 'akıllı matları' kolaylaştıran Uyarlanabilir Odak Dönüşümü (AFT) Geliştirme Ağı da sunmaktadır.

Sahne bağlamını anlamak, bu durumda 'atlı kız', ön plan çıkarımını önceki yöntemlere göre daha kolay hale getirebilir.
Kağıt şöyle diyor:
"Görselden metne geçiş görevindeki görsel temsillerin, örneğin Resim altyazısı, hem genel bilgileri hem de yerel ayrıntıları kapsayabilen açıklamalar üretmek için a) nesneden nesneye ve b) nesneden ortam ortamına kadar anlamsal olarak daha kapsamlı sinyallere odaklanır. Ayrıca, resim matlaştırmanın pahalı piksel açıklamalarıyla karşılaştırıldığında, metinsel etiketler çok düşük bir maliyetle büyük miktarlarda toplanabilir.
Mimarinin SPD dalı, Michigan Üniversitesi'nin SPD bölümüyle birlikte önceden eğitilmiştir. VirTex Anlamsal olarak yoğun başlıklardan görsel temsilleri öğrenen dönüştürücü tabanlı metinsel kod çözücü.

VirTex, bir ConvNet'i ve Transformers'ı görüntü altyazı çiftleri aracılığıyla ortaklaşa eğitir ve elde edilen içgörüleri nesne algılama gibi akış aşağı görüş görevlerine aktarır. Kaynak: https://arxiv.org/pdf/2006.06666.pdf
Araştırmacılar, diğer testler ve ablasyon çalışmalarının yanı sıra SPG-IM'i en son teknolojiye karşı test etti. Döşeme haritasıtabanlı yöntemler Derin Görüntü Örtüsü (DIM), EndeksNet, Bağlama Duyarlı Görüntü Örtüsü (CAM), Kılavuzlu Bağlamsal Dikkat (DHA'nın) FBAve Semantik Görüntü Eşleme (SIM).
Test edilen önceki diğer çerçeveler, trimap içermeyen yaklaşımları içeriyordu LFM, HAttMat, ve MODNetAdil bir karşılaştırma için, test yöntemleri farklı metodolojilere göre uyarlandı; kodun mevcut olmadığı durumlarda, makalenin teknikleri açıklanan mimariden yeniden üretildi.
Yeni kağıt belirtiyor:
'SPG-IM'miz, tüm rakip trimmap içermeyen yöntemleri ([LFM], [HAttMatting] ve [MODNet]) büyük bir farkla geride bırakıyor. Bu arada, modelimiz ayrıca, kamuya açık veri kümelerindeki dört metrik (yani Kompozisyon-1K, Ayrım-646 ve İnsan-2K) ve Çoklu Nesne-1K kıyaslama ölçütümüz açısından, en son teknolojiye sahip (SOTA) trimmap tabanlı ve maske kılavuzlu yöntemlere göre de dikkate değer bir üstünlük gösteriyor.'
Ve devam ediyor:
'Yöntemimizin, trimap rehberliği olmadan ince ayrıntıları (örneğin saç ucu bölgeleri, şeffaf dokular ve sınırlar) koruduğu açıkça görülebilir. Dahası, trimap içermeyen diğer rakip modellerle karşılaştırıldığında, SPG-IM modelimiz küresel anlamsal bütünlüğü daha iyi koruyabilmektedir.'
İlk olarak 24 Nisan 2022'de yayınlandı.













