Yapay Zekâ

Sahne Anlayan AI Görüntü Matting

Published April 24, 2022

Updated April 28, 2026

Martin Anderson

2003 yılında yayınlanan Alien³ (1992) filminin DVD sürümüne eşlik eden ekstra belgeselde, görsel efekt efsanesi Richard Edlund, görsel efekt çalışmalarını 1930’ların sonları ve 1980’lerin sonları arasında domine eden foto-kimyasal matte çıkarma işleminin ‘sumo güreşi’ne benzettiğini hatırladı. Edlund, bu sürecin digital mavi/yeşil ekran tekniklerinin 1990’ların başında devraldığı bir doğaçlama ve şans işi olduğunu söyledi (ve o zamandan beri metafora geri döndü).

Ön plan öğesini (örneğin, bir kişi veya bir uzay gemisi modeli) arka plandan çıkarmak ve kesilen görüntüyü bir arka plan plakasına kompozit etmek, ilk olarak ön plan nesnesini tek tip bir mavi veya yeşil arka plana karşı filme almak yoluyla gerçekleştirildi.

ILM tarafından ‘Return of the Jedi’ (1983) için bir VFX şotu için zahmetli foto-kimyasal çıkarma işlemleri. Kaynak: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Sonuçta elde edilen görüntüde, arka plan rengi daha sonra kimyasal olarak izole edilecek ve ön plan nesnesini (veya kişiyi) bir optik yazıcıda şeffaf bir film hücresinde ‘yüzen’ bir nesne olarak yeniden yazmak için bir şablon olarak kullanılacaktı.

Bu süreç, renk ayrımı üst örtüsü (CSO) olarak biliniyordu – ancak bu terim sonunda, 1970’ler ve 1980’lerin düşük bütçeli televizyon çıkışındaki kaba ‘Chromakey’ video efektleriyle daha fazla ilişkilendirilecekti; bunlar, kimyasal veya dijital değil, analog araçlarla elde edildi.

1970’te ‘Blue Peter’ adlı İngiliz çocuk programı için Renk Ayrımı Üst Örtüsü gösterimi. Kaynak: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Her durumda, film veya video öğeleri için, daha sonra çıkarılan görüntüleri herhangi bir diğer görüntüye eklemek mümkündü.

Disney’in daha pahalı ve özel sodyum buharı işlemi (bu, sarıya özgü olarak anahtarlama yapıyordu ve ayrıca kullanıldı Alfred Hitchcock’un 1963 korku filmi Kuşlar için) daha iyi tanımlama ve daha keskin matlar sağlasa da, foto-kimyasal çıkarma vẫn zahmetli ve güvensizdi.

Disney’in özel sodyum buharı çıkarma işlemi, spektrumun sarı ucuna yakın arka planlar gerektiriyordu. Burada, Angela Lansbury, ‘Sihirli Değnek ve Süpürgeler’ (1971) için bir VFX’li sekansın prodüksiyonu sırasında tellere asılı duruyor. Kaynak

Dijital Matting’in Ötesinde

1990’larda dijital devrim, kimyasalları ortadan kaldırdı, ancak yeşil ekranlara olan ihtiyacı ortadan kaldırmadı. Artık, yeşil (veya herhangi bir renk) arka planı, sadece piksel düzenleme yazılımları gibi Photoshop ve video kompozit düzenleyicileri gibi yeni bir video kompozit süiti kullanarak renk tolerans aralığında pikselleri aramak suretiyle kaldırmak mümkündü ve arka planı otomatik olarak anahtarlama yapabiliyordu.几乎 bir gecede, altmış yıl optik baskı endüstrisi tarihe karıştı.

Son on yılın GPU hızlandırmalı bilgisayar görme araştırmaları, matte çıkarmayı üçüncü bir çağa sokuyor ve araştırmacılara, yeşil ekranlara gerek kalmadan yüksek kaliteli matlar çıkaran sistemler geliştirme görevi veriyor. Arxiv’de alone, makine öğrenimi tabanlı ön plan çıkarma yeniliklerine ilişkin makaleler haftalık bir özelliktir.

Bizi Resme Koymak

Bu akademik ve endüstri ilgisinin AI çıkarma üzerindeki odak noktası, already tüketici alanını etkiledi: kaba ancak işlevsel uygulamalar, Zoom ve Skype filtreleri olarak bize tanıdık geliyor ve video konferans görüşmelerinde arka planlarımızı tropik adalarla değiştirebiliyor.

Ancak, en iyi matlar hala bir yeşil ekran gerektiriyor, Zoom geçen Çarşamba belirtti.

Solda, bir yeşil ekran önünde bir adam, Zoom’un Sanal Arka Plan özelliğiyle iyi çıkarılan saçla. Sağda, normal bir ev içi sahne önünde bir kadın, algoritmik olarak çıkarılan saçla, daha az doğru ve daha yüksek hesaplama gereksinimleriyle. Kaynak: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Zoom Destek platformundan bir daha fazla gönderi, ayrıca yeşil ekran çıkarmasının, yakalama cihazında daha fazla hesaplama gücünü gerektirdiğini uyarıyor.

Çıkarmak İçin İhtiyaç

Kalite, taşınabilirlik ve ‘vahşi’ matte çıkarma sistemleri (yani, yeşil ekranlara gerek kalmadan insanları izole etme) için geliştirmeler, video konferans filtrelerinin ötesinde birçok sektöre ve faaliyete ilgili.

Veri seti geliştirme için, geliştirilmiş yüz, tam baş ve tam vücut tanıma, arka plan öğelerinin bilgisayar görme modellerine eğitilmesini engellemek için olanak sağlar; daha doğru izolasyon, anlamsal segmentasyon tekniklerini büyük ölçüde iyileştirir ve VAE ve transformer tabanlı görüntü sentez sistemlerini geliştirir; ve daha iyi çıkarma algoritmaları, pahalı manuel rotoskopi ihtiyacını azaltacaktır.

Aslında, multimodal (genellikle metin/görüntü) metodolojilerinin yükselişi, bir alanın (‘kedi’ gibi) hem görüntü hem de ilgili metin referansları olarak kodlandığı yerlerde, zaten görüntü işleme alanına giriyor. Bir recent örnek, Text2Live mimarisi, metin/görüntü eğitimi kullanarak, sayısız olasılık arasında, kristal kuğular ve cam zürafalar videoları oluşturmak için kullanılıyor.

Sahne Anlayan AI Matting

AI tabanlı otomatik matting araştırmalarının önemli bir kısmı, sınır tanıma ve bir görüntü veya video karesi içindeki piksel tabanlı grupların değerlendirmesine odaklandı. Ancak, Çin’den yeni bir araştırma, bir çıkarma pipeline’u sunuyor ve sahne açıklamalarını kullanarak (son 3-4 yıl içinde bilgisayar görme araştırma sektöründe kabul gören bir multimodal yaklaşım) mat delineasyonu ve kalitesini iyileştiriyor ve önceki yöntemleri çeşitli şekillerde geliştiriyor.

Önceki yöntemlerle karşılaştırıldığında SPG-IM çıkarma örneği (son görüntü, sağ alt). Kaynak: https://arxiv.org/pdf/2204.09276.pdf

Çıkarma araştırma alt sektörünün karşılaştığı zorluk, minimum el ile müdahale ve insan müdahalesi gerektiren iş akışları üretmektir – ideal olarak, hiç değil. Sadece maliyet etkileri değil, araştırmacılar da, çeşitli kültürlerde dış kaynaklı kalabalık çalışanlar tarafından yapılan anotasyonlar ve manuel segmentasyonların, görüntülerin farklı şekillerde etiketlenmesine veya segmentlenmesine neden olabileceğini ve tutarlı ve tatmin edici algoritmalar üretilmesini engelleyebileceğini gözlemliyor.

Bir örnek, ‘ön plan nesnesi’nin ne olduğu konusundaki öznel yorumdur:

Yeni makalede: önceki yöntemler LFM ve MODNet (‘GT’ ideal bir sonucu, genellikle manuel veya algoritmik olmayan yöntemlerle elde edilen Ground Truth’u gösterir), ön plan içeriği tanımında farklı ve çeşitli etkili yaklaşımlara sahiptir, oysa yeni SPG-IM yöntemi sahne bağlamı yoluyla ‘yakın içeriği’ daha etkili bir şekilde belirler.

Bunu ele almak için, araştırmacılar iki aşamalı bir pipeline geliştirdi ve buna Sahne Algısı Kılavuzlu Görüntü Matting (SPG-IM) dediler. İki aşamalı kodlayıcı/çözücü mimarisi, Sahne Algısı Damıtma (SPD) ve Sahne Algısı Kılavuzlu Matting (SPGM) içerir.

SPG-IM mimarisi.

İlk olarak, SPD, görsel-içerikten metne özellikler dönüşümlerini ön eğitmek için, ilgili görüntülerle birlikte uygun başlıklar üreterek eğitim görür. Daha sonra, ön plan maskesi tahmini, pipeline’u yeni bir dikkat çekme tahmini tekniği ile bağlantılı olarak etkinleştirilir.

Sonra SPGM, ham RGB görüntü girişi ve ilk modülde elde edilen maskeden oluşan tahmini alfa matını verir.

Hedef, sahne algısı kılavuzluğudur, burada sistem, görüntünün ne olduğunu bağlamsal olarak anlar ve örneğin, bir arka plana karşı karmaşık saç çıkarmasının zorluğunu çerçeveleme yeteneğine sahiptir.

Aşağıdaki örnekte, SPG-IM bir ‘paraşüt’ün kordonlarının intrinsic olduğunu anlar, oysa MODNet bu ayrıntıları korumayı ve tanımlamayı başaramaz. Benzer şekilde yukarıda, oyun alanı aparatının tam yapısı MODNet’te keyfi olarak kaybolur.

Yeni makale, Sahne Algısı Kılavuzlu Görüntü Matting olarak adlandırıldı ve OPPO Araştırma Enstitüsü, PicUp.ai ve Xmotors’tan araştırmacılardan geldi.

Akıllı Otomatik Matlar

SPG-IM ayrıca, yerel ayrıntıları ve küresel bağlamı ayrı ayrı işleyebilen Uyumlu Odak Dönüşümü (AFT) Rafine Ağı sunar ve ‘akıllı matlar’ sağlar.

Sahne bağlamını anlama, bu durumda ‘kız ile at’, ön plan çıkarmasını daha kolay hale getirebilir.

Makale şöyle diyor:

‘Görsel-içerikten metne görevlerden, örneğin, görüntü başlıklaması, nesne ile nesne ve nesne ile çevreye arasında daha anlamlı sinyallere odaklanan görsel temsilciler elde edildiğine inanıyoruz. Ayrıca, görüntü matting’in pahalı piksel anotasyonuna kıyasla metin etiketleri çok düşük maliyetle toplanabilir.’

SPD mimarisinin dalı, University of Michigan’ın VirTex transformer tabanlı metin çözücüsü ile birlikte ön eğitime tabi tutulur; bu, anlamsal olarak yoğun başlıklardan görsel temsilciler öğrenir.

VirTex, bir ConvNet ve Transformer’ları görüntü-başlık çiftleri aracılığıyla ortaklaşa eğitime tabi tutuyor ve elde edilen içgörülerini aşağı akım görme görevlerine, nesne tespiti gibi aktarıyor. Kaynak: https://arxiv.org/pdf/2006.06666.pdf

Araştırmacılar, diğer testler ve soykütüğü çalışmalarının yanı sıra, SPG-IM’i, durum tabanlı trimap yöntemleri olan Deep Image Matting (DIM), IndexNet, Context-Aware Image Matting (CAM), Guided Contextual Attention (GCA) , FBA, ve Semantic Image Mapping (SIM) ile karşılaştırdı.

Diğer test edilen önceki çerçeveler arasında, trimap-free yaklaşımlar LFM, HAttMatting, ve MODNet yer aldı. Adil bir karşılaştırma için, test yöntemleri, farklı metodolojilere göre uyarlandı; kod mevcut değilse, makaledeki mimariden yeniden üretildi.

Yeni makale şöyle diyor:

‘SPG-IM’in, tüm trimap-free yöntemleri ([LFM], [HAttMatting], ve [MODNet]) büyük bir marjla aştığı görüldü. Ayrıca, kamu veri setleri üzerinde (yani Composition-1K, Distinction-646, ve Human-2K) ve Multi-Object-1K benchmark’ünde trimap tabanlı ve maskeli yöntemlere kıyasla dört metriğin tamamında üstünlük gösterdiği görüldü.’

Ve devam ediyor:

‘Açıkça görülebileceği gibi, yöntemimiz trimap rehberliği olmadan ince ayrıntıları (örneğin, saç uçları, şeffaf dokular ve sınırlar) korur. Ayrıca, diğer trimap-free modellerle karşılaştırıldığında, SPG-IM global anlamsal bütünlüğü daha iyi korur.’

İlk olarak 24 Nisan 2022’de yayınlandı.

Related Topics:image synthesis research transformer