Tekoäly
AI Image Matting joka ymmärtää kohtauksia

Lisädokumentissa, joka liittyy vuoden 2003 DVD-julkaisuun Ulkomaalainen3 (1992) visuaalisten tehosteiden legenda Richard Edlund muisteli kauhulla fotokemiallisen mattan uuton "sumopainia", joka hallitsi visuaalisten tehosteiden työtä myöhään 1930s ja 1980-luvun lopulla. Edlund kuvaili prosessin osuma-huti-luonnetta "sumopainiksi" verrattuna digitaalisiin sinisen/vihreän kankaan tekniikoihin, jotka valtasivat alaa 1990-luvun alussa (ja hän on palautettu metaforaan vuodesta).
Etualalla olevan elementin (kuten henkilön tai avaruusalusmallin) irrottaminen taustasta, jotta leikattu kuva voidaan yhdistää taustalevyksi, tehtiin alun perin kuvaamalla etualalla oleva objekti tasaista sinistä tai vihreää taustaa vasten.

ILM:n 'Jedin paluu' (1983) -elokuvan VFX-kuvauksen työläitä fotokemiallisia uuttoprosesseja. Lähde: https://www.youtube.com/watch?v=qwMLOjqPmbQ
Tuloksena olevassa kuvamateriaalissa taustaväri eristetään myöhemmin kemiallisesti ja sitä käytetään mallina etualan objektin (tai henkilön) tulostamiseen uudelleen optinen tulostin 'kelluvana' objektina muuten läpinäkyvässä kalvosolussa.
Prosessi tunnettiin nimellä värierotuspäällystys (CSO) – vaikka tämä termi yhdistettiin lopulta enemmän raakatuotteeseen. Chromakey videotehosteet 1970- ja 1980-luvun pienemmässä budjetoidussa televisiossa, jotka saavutettiin analogisilla keinoilla kemiallisten tai digitaalisten keinojen sijaan.

Värierottelupeittokuvan esittely vuonna 1970 brittiläisessä lastenohjelmassa "Blue Peter". Lähde: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx
Joka tapauksessa, olipa kyseessä elokuva- tai videoelementti, poimittu materiaali voitiin sen jälkeen lisätä mihin tahansa muuhun materiaaliin.
Vaikka Disneyn huomattavasti kalliimpi ja omaperäisempi natriumhöyryprosessi (joka näppäili keltaista, erityisesti, ja oli myös käytetty Alfred Hitchcockin vuoden 1963 kauhuelokuvalle Linnut) antoi paremman tarkkuuden ja terävämmän mattapinnan, valokemiallinen uutto pysyi vaivalloisena ja epäluotettavana.

Disneyn oma natriumhöyryuuttoprosessi vaati taustoja lähellä spektrin keltaista päätä. Tässä Angela Lansbury roikkuu vaijereissa videoefekteillä koristellun sekvenssin tuotannon aikana elokuvaan 'Bedknobs and Broomsticks' (1971). Lähde
Beyond Digital Matting
1990-luvulla digitaalinen vallankumous luopui kemikaaleista, mutta ei vihreiden näyttöjen tarvetta. Nyt oli mahdollista poistaa vihreä (tai minkä värinen tahansa) tausta vain etsimällä pikseleitä kyseisen värin toleranssialueelta, pikselien muokkausohjelmistolla, kuten Photoshopilla, ja uuden sukupolven videokompositioohjelmilla, jotka pystyivät automaattisesti näppäilemään värilliset taustat. Melkein yön yli, kuusikymmentä vuotta Optisen painoteollisuuden osat jätettiin historiaan.
Viimeiset kymmenen vuotta grafiikkasuorittimella kiihdytettyä tietokonenäkötutkimusta on tuonut mattapintaisen louhinnan kolmanteen aikakauteen ja antaa tutkijoille tehtäväksi kehittää järjestelmiä, joilla voidaan erottaa korkealaatuisia mattoja ilman vihreiden näyttöjen tarvetta. Pelkästään Arxivissa koneoppimiseen perustuvan etualojen poiminnan innovaatioihin liittyvät paperit ovat viikoittainen ominaisuus.
Laita meidät kuvaan
Tämä akateemisen ja teollisuuden kiinnostuksen kohde tekoälyä kohtaan on jo vaikuttanut kuluttajatilaan: karkeat mutta toimivat toteutukset ovat tuttuja meille kaikille zoomaus ja Skype suodattimia, jotka voivat korvata olohuoneemme taustat trooppisilla saarilla jne. videoneuvotteluissa.
Parhaat matot vaativat kuitenkin edelleen vihreän näytön, kuten Zoom huomautti viime keskiviikko.

Vasemmalla mies vihreän ruudun edessä, jonka hiukset on poistettu tarkasti Zoomin virtuaalitaustatoiminnolla. Oikealla nainen normaalin kotimaiseman edessä, jonka hiukset on poistettu algoritmisesti, epätarkemmin ja vaatien enemmän laskentatehoa. Lähde: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image
A lisää viesti Zoom Support -alustasta varoittaa, että ei-vihreän näytön poistaminen vaatii myös suurempaa laskentatehoa sieppauslaitteessa.
Tarve leikata se pois
"Villien" kivenpoistojärjestelmien laadun, siirrettävyyden ja resurssien säästön parannukset (eli ihmisten eristäminen ilman vihreitä sermejä) ovat merkityksellisiä monille muille aloille ja toimille kuin vain videoneuvottelusuodattimille.
Aineistokehityksessä parannettu kasvojen, koko pään ja koko kehon tunnistus tarjoaa mahdollisuuden varmistaa, että ulkopuolisia taustaelementtejä ei kouluteta ihmiskohteiden konenäkömalleihin; tarkempi eristäminen parantaisi huomattavasti semanttinen segmentointi tekniikat, jotka on suunniteltu erottamaan ja omaksumaan alueita (esim 'kissa', 'henkilö', 'vene') ja parantaa UAE ja muuntaja-pohjaiset kuvien synteesijärjestelmät, kuten OpenAI:n uusi DALL-E2; ja paremmat poiminta-algoritmit vähentäisivät kalliiden manuaalien tarvetta Rotoscoping kalliissa VFX-putkissa.
Itse asiassa valta-asema multimodaalinen (yleensä teksti/kuva) -menetelmät, joissa verkkotunnus, kuten 'kissa', koodataan sekä kuvana että siihen liittyvine tekstiviittauksineen, ovat jo valtaamassa alaa kuvankäsittelyssä. Yksi tuore esimerkki on Text2Live arkkitehtuuri, joka käyttää multimodaalista (teksti/kuva) koulutusta videoiden luomiseen lukemattomien muiden mahdollisuuksien joukossa, kristallijoutsenet ja lasikirahvit.
Scene-Aware AI Matting
Suuri osa tekoälypohjaiseen automaattiseen mattoamiseen liittyvästä tutkimuksesta on keskittynyt rajojen tunnistamiseen ja kuva- tai videokehyksen sisällä olevien pikselipohjaisten ryhmittelyjen arviointiin. Uusi Kiinalainen tutkimus tarjoaa kuitenkin uuttoputken, joka parantaa rajaamista ja mattalaatua hyödyntämällä tekstipohjaiset kuvaukset kohtauksen (multimodaalinen lähestymistapa, joka on saanut vetoa tietokonenäkötutkimuksen alalla viimeisten 3–4 vuoden aikana), väittäen parantaneensa aikaisempia menetelmiä useilla tavoilla.

Esimerkki SPG-IM-poistosta (viimeinen kuva, alhaalla oikealla), verrattuna kilpaileviin aikaisempiin menetelmiin. Lähde: https://arxiv.org/pdf/2204.09276.pdf
Louhintatutkimuksen alasektorin haasteena on tuottaa työnkulkuja, jotka vaativat vain vähän manuaalista merkintää ja ihmisen väliintuloa – mieluiten ei mitään. Kustannusvaikutusten lisäksi uuden artikkelin tutkijat havaitsevat, että ulkoistettujen joukkotyöntekijöiden eri kulttuureissa tekemät huomautukset ja manuaaliset segmentoinnit voivat aiheuttaa kuvien merkitsemisen tai jopa segmentoinnin eri tavoin, mikä johtaa epäjohdonmukaisiin ja epätyydyttäviin algoritmeihin.
Yksi esimerkki tästä on subjektiivinen tulkinta siitä, mikä määrittelee 'etualan kohteen':

Uudesta paperista: aiemmat menetelmät L.F.M. ja MODNet ('GT' tarkoittaa Ground Truth -menetelmää, 'ihanteellista' tulosta, joka usein saavutetaan manuaalisesti tai ei-algoritmisilla menetelmillä) on erilaisia ​​ja vaihtelevasti tehokkaita näkemyksiä etualan sisällön määrittelystä, kun taas uusi SPG-IM-menetelmä rajaa 'lähisisällön' tehokkaammin kohtauksen kontekstin kautta.
Tämän ratkaisemiseksi tutkijat ovat kehittäneet kaksivaiheisen putkiston nimeltä Tilannehavainnolla ohjattu kuvan matto (SPG-IM). Kaksivaiheinen enkooderi/dekooderiarkkitehtuuri sisältää Situational Perception Distilation (SPD) ja Situational Perception Guided Matting (SPGM).
Ensinnäkin SPD esiopettaa visuaalisten ominaisuuksien muunnoksia tekstiksi luoden niihin liittyviin kuviin sopivia kuvatekstejä. Tämän jälkeen etualan maskin ennustus otetaan käyttöön yhdistämällä liukuhihna romaaniin näkyvyyden ennuste tekniikka.
Sitten SPGM tulostaa arvioidun alfa-matten raaka-RGB-kuvasyötteen ja ensimmäisessä moduulissa saadun maskin perusteella.
Tavoitteena on tilannehavainnon ohjaus, jossa järjestelmällä on kontekstuaalinen ymmärrys siitä, mistä kuva koostuu, jolloin se voi kehystää – esimerkiksi haasteen poimia monimutkaisia ​​hiuksia taustasta tietyn tehtävän tunnettuja ominaisuuksia vastaan.

Alla olevassa esimerkissä SPG-IM ymmärtää narujen olevan olennaisia ​​'laskuvarjolle', mutta MODNet ei onnistu säilyttämään ja määrittelemään näitä yksityiskohtia. Samoin yllä leikkikenttälaitteiden koko rakenne on mielivaltaisesti kadonnut MODNetistä.
Uusi paperi on otsikko Tilannehavainnolla ohjattu kuvan matto, ja se tulee OPPO Research Instituten, PicUp.ai:n ja Xmotorsin tutkijoilta.
Älykkäät automatisoidut matot
SPG-IM tarjoaa myös adaptiivisen fokaalisen muunnoksen (AFT) tarkennusverkon, joka pystyy käsittelemään paikallisia yksityiskohtia ja globaalia kontekstia erikseen, mikä helpottaa "älykkäiden asioiden" käsittelyä.

Kohtauksen kontekstin, tässä tapauksessa "tytön ja hevosen", ymmärtäminen voi mahdollisesti helpottaa etualan erottamista aiempiin menetelmiin verrattuna.
Paperissa todetaan:
"Uskomme, että visuaaliset esitykset visuaalisesta tekstiksi tehtävästä, esim kuvatekstien luomisessa keskitytään semanttisesti kattavampiin signaaleihin a) objektista objektiin ja b) objektin ja ympäröivän ympäristön välillä, jotta voidaan luoda kuvauksia, jotka kattavat sekä globaalit että paikalliset tiedot. Lisäksi verrattuna kalliisiin pikselimerkintöihin kuvamattojen avulla, tekstitunnisteita voidaan kerätä massiivisesti erittäin alhaisin kustannuksin.
Arkkitehtuurin SPD-haara on esikoulutettu yhteistyössä Michiganin yliopiston kanssa. VirTex muuntajapohjainen tekstidekooderi, joka oppii visuaaliset esitykset semanttisesti tiheistä kuvateksteistä.

VirTex kouluttaa yhdessä ConvNetin ja Transformersin kuvatekstitysparien avulla ja siirtää saadut näkemykset loppupään näkötehtäviin, kuten esineiden havaitsemiseen. Lähde: https://arxiv.org/pdf/2006.06666.pdf
Muiden testien ja ablaatiotutkimusten ohella tutkijat testasivat SPG-IM:ää uusinta tekniikkaa vastaan trimap-pohjaiset menetelmät Deep Image Matting (HIMMEÄ), IndexNet, Context-Aware Image Matting (CAM), Ohjattu kontekstuaalinen huomio (GCA), FBAja semanttinen kuvakartoitus (KYLLÄ).
Muut testatut puitteet sisälsivät trimap-vapaita lähestymistapoja L.F.M., HATtMattingja MODNetJotta vertailu olisi tasapuolista, testimenetelmät mukautettiin erilaisten menetelmien perusteella; jos koodia ei ollut saatavilla, artikkelin tekniikat toistettiin kuvatusta arkkitehtuurista.
Uusi lehti sanoo:
”SPG-IM-mallimme päihittää kaikki kilpailevat trimap-vapaat menetelmät ([LFM], [HAttMatting] ja [MODNet]) selvästi. Samaan aikaan mallimme osoittaa huomattavaa ylivoimaa huippuluokan (SOTA) trimap-pohjaisiin ja maskiohjattuihin menetelmiin verrattuna kaikissa neljässä julkisten tietojoukkojen mittarissa (eli Composition-1K, Distinction-646 ja Human-2K) sekä Multi-Object-1K-vertailutestissämme.”
Ja jatkaa:
"Voidaan selvästi havaita, että menetelmämme säilyttää hienot yksityiskohdat (esim. hiustenkärkien kohdat, läpinäkyvät tekstuurit ja rajat) ilman trimap-ohjausta. Lisäksi verrattuna muihin kilpaileviin trimap-vapaisiin malleihin, SPG-IM-menetelmämme pystyy säilyttämään paremman globaalin semanttisen täydellisyyden."
Julkaistu ensimmäisen kerran 24.