Verbinding met ons

Kunsmatige Intelligensie

AI-beeldmatting wat tonele verstaan

mm
Opgedateer on

In die ekstras dokumentêr wat die 2003 DVD-vrystelling van uitheemse3 (1992), het die visuele effekte-legende Richard Edlund met afgryse die 'sumo-stoei' van fotochemiese matonttrekking wat visuele effekte-werk tussen die laat 1930s en die laat 1980's. Edlund het die tref-en-mis-aard van die proses beskryf as 'sumo-stoei', in vergelyking met die digitale blou/groenskerm-tegnieke wat in die vroeë 1990's oorgeneem het (en hy het teruggekeer na die metafoor sedert).

Om 'n voorgrondelement (soos 'n persoon of 'n ruimteskipmodel) uit 'n agtergrond te onttrek, sodat die uitgesnyde beeld in 'n agtergrondplaat saamgestel kan word, is oorspronklik bewerkstellig deur die voorgrondvoorwerp teen 'n eenvormige blou of groen agtergrond te verfilm.

Moeisame fotochemiese onttrekkingsprosesse vir 'n VFX wat deur ILM geskiet is vir 'Return of the Jedi' (1983). Bron: https://www.youtube.com/watch?v=qwMLOjqPmbQ

Moeisame fotochemiese onttrekkingsprosesse vir 'n VFX wat deur ILM geskiet is vir 'Return of the Jedi' (1983). Bron: https://www.youtube.com/watch?v=qwMLOjqPmbQ

In die gevolglike beeldmateriaal sal die agtergrondkleur vervolgens chemies geïsoleer word en as 'n sjabloon gebruik word om die voorgrondvoorwerp (of persoon) in 'n optiese drukker as 'n 'drywende' voorwerp in 'n andersins deursigtige filmsel.

Die proses was bekend as kleurskeiding-oorleg (CSO) – alhoewel hierdie term uiteindelik meer geassosieer sou word met die ru 'Chromakey' video-effekte in laer-begroting televisie-uitset van die 1970's en 1980's, wat met analoog eerder as chemiese of digitale middele bereik is.

'n Demonstrasie van Color Separation Overlay in 1970 vir die Britse kinderprogram 'Blue Peter'. Bron: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

'n Demonstrasie van Color Separation Overlay in 1970 vir die Britse kinderprogram 'Blue Peter'. Bron: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

In elk geval, hetsy vir film- of video-elemente, kon die onttrekte beeldmateriaal daarna in enige ander beeldmateriaal ingevoeg word.

Alhoewel Disney veral duurder en eie is natrium-damp proses (wat spesifiek geel gesleutel het, en ook was gebruik vir Alfred Hitchcock se 1963-gruwel die voëls) het beter definisie en skerper matte gegee, fotochemiese ekstraksie het moeisaam en onbetroubaar gebly.

Disney se eie natriumdamponttrekkingsproses het agtergronde naby die geel punt van die spektrum vereis. Hier word Angela Lansbury aan drade gehang tydens die vervaardiging van 'n VFX-reeks vir 'Bedknobs and Broomsticks' (1971). Bron

Disney se eie natriumdamponttrekkingsproses het agtergronde naby die geel punt van die spektrum vereis. Hier word Angela Lansbury aan drade gehang tydens die vervaardiging van 'n VFX-reeks vir 'Bedknobs and Broomsticks' (1971). Bron

Beyond Digital Matting

In die 1990's het die digitale revolusie van die chemikalieë afgesien, maar nie die behoefte aan groen skerms nie. Dit was nou moontlik om die groen (of watter kleur ook al) agtergrond te verwyder net deur te soek vir pixels binne 'n toleransie reeks van daardie kleur, in pixel-redigering sagteware soos Photoshop, en 'n nuwe generasie van video-samestelling suites wat outomaties kan uitsleutel die gekleurde agtergronde. Amper oornag, sestig jaar van die optiese drukkerybedryf is aan die geskiedenis oorgedra.

Die laaste tien jaar van GPU-versnelde rekenaarvisie-navorsing lei matonttrekking in 'n derde ouderdom in, wat navorsers opdrag gee met die ontwikkeling van stelsels wat matte van hoë gehalte kan onttrek sonder die behoefte aan groen skerms. By Arxiv alleen is vraestelle wat verband hou met innovasies in masjienleer-gebaseerde voorgrondonttrekking 'n weeklikse kenmerk.

Plaas ons in die prentjie

Hierdie lokus van akademiese en industrie se belangstelling in KI-ontginning het reeds 'n impak op die verbruikersruimte gehad: kru maar werkbare implementerings is aan ons almal bekend in die vorm van Klik op en Skype filters wat ons sitkameragtergronde kan vervang met tropiese eilande, et al, in videokonferensie-oproepe.

Die beste matte benodig egter steeds 'n groen skerm, soos Zoom opgemerk laas Woensdag.

Links, 'n man voor 'n groen skerm, met goed onttrekte hare via Zoom se virtuele agtergrond-funksie. Links, 'n vrou voor 'n normale huishoudelike toneel, met hare wat algoritmies onttrek is, minder akkuraat en met hoër rekenaarvereistes. Bron: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Links, 'n man voor 'n groen skerm, met goed onttrekte hare via Zoom se virtuele agtergrond-funksie. Reg, 'n vrou voor 'n normale huishoudelike toneel, met hare wat algoritmies onttrek is, minder akkuraat en met hoër rekenaarvereistes. Bron: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

A verdere pos van die Zoom-ondersteuningsplatform waarsku dat nie-groenskerm-onttrekking ook groter rekenaarkrag in die vangtoestel vereis.

Die behoefte om dit uit te sny

Verbeterings in kwaliteit, oordraagbaarheid en hulpbronekonomie vir 'in die natuur' mat-onttrekkingstelsels (dws om mense te isoleer sonder die behoefte aan groenskerms) is relevant vir baie meer sektore en strewes as net videokonferensiefilters.

Vir datastelontwikkeling bied verbeterde gesigs-, volkop- en volliggaamherkenning die moontlikheid om te verseker dat vreemde agtergrondelemente nie opgelei word in rekenaarvisiemodelle van menslike proefpersone nie; meer akkurate isolasie sal aansienlik verbeter semantiese segmentering tegnieke wat ontwerp is om domeine te onderskei en te assimileer (bv 'kat', 'persoon', 'boot'), en verbeter Helaas en transformator-gebaseerde gebaseerde beeldsintese stelsels soos OpenAI se nuwe DALL-E2; en beter onttrekkingsalgoritmes sal die behoefte aan duur handleiding verminder Rotoscoping in duur VFX-pypleidings.

Trouens, die opkoms van multimodaal (gewoonlik teks/beeld)-metodologieë, waar 'n domein soos 'kat' sowel as 'n beeld en met gepaardgaande teksverwysings geënkodeer word, maak reeds 'n deurbraak in beeldverwerking. Een onlangse voorbeeld is die Text2Live argitektuur, wat multimodale (teks/beeld) opleiding gebruik om video's te skep van, onder talle ander moontlikhede, kristal swane en glas kameelperde.

Toneelbewuste AI Matting

Heelwat navorsing oor KI-gebaseerde outomatiese matte het gefokus op grensherkenning en evaluering van pixel-gebaseerde groeperings binne 'n beeld- of videoraam. Nuwe navorsing uit China bied egter 'n onttrekkingspyplyn wat afbakening en matkwaliteit verbeter deur gebruik te maak teksgebaseerde beskrywings van 'n toneel ('n multimodale benadering wat in die rekenaarvisie-navorsingsektor oor die afgelope 3-4 jaar aanslag gekry het), wat beweer dat dit op 'n aantal maniere op vorige metodes verbeter het.

'n Voorbeeld van SPG-IM-onttrekking (laaste prent, regs onder), in vergelyking met mededingende vorige metodes. Bron: https://arxiv.org/pdf/2204.09276.pdf

'n Voorbeeld van SPG-IM-onttrekking (laaste prent, regs onder), in vergelyking met mededingende vorige metodes. Bron: https://arxiv.org/pdf/2204.09276.pdf

Die uitdaging wat vir die onttrekkingsnavorsingssubsektor gestel word, is om werkvloeie te produseer wat 'n minimum van handaantekeninge en menslike ingryping vereis – ideaal gesproke geen. Behalwe vir die koste-implikasies, neem die navorsers van die nuwe referaat waar dat aantekeninge en manuele segmentasies wat deur uitgekontrakteerde skarewerkers oor verskeie kulture onderneem word, kan veroorsaak dat beelde op verskillende maniere geëtiketteer of selfs gesegmenteer word, wat lei tot inkonsekwente en onbevredigende algoritmes.

Een voorbeeld hiervan is die subjektiewe interpretasie van wat 'n 'voorgrondobjek' definieer:

Uit die nuwe referaat: vorige metodes LFM en MODNet ('GT' dui op Ground Truth, 'n 'ideale' resultaat wat dikwels met die hand of deur nie-algoritmiese metodes bereik word), het verskillende en verskillende effektiewe aannames oor die definisie van voorgrondinhoud, terwyl die nuwe SPG-IM metode omlyn 'naby inhoud' meer effektief deur toneelkonteks.

Uit die nuwe vraestel: vorige metodes L.F.M. en MODNet ('GT' dui op Ground Truth, 'n 'ideale' resultaat wat dikwels met die hand of deur nie-algoritmiese metodes bereik word), het verskillende en verskillende effektiewe aannames oor die definisie van voorgrondinhoud, terwyl die nuwe SPG-IM-metode 'naby-inhoud' meer effektief omskryf ' deur toneelkonteks.

Om dit aan te spreek, het die navorsers 'n twee-fase pyplyn met die titel ontwikkel Situasionele persepsie Begeleide beeldmatting (SPG-IM). Die twee-stadium enkodeerder/dekodeerder argitektuur bestaan ​​uit Situasionele Persepsie Distillasie (SPD) en Situasionele Persepsie Begeleide Matting (SPGM).

Die SPG-IM argitektuur.

Die SPG-IM argitektuur.

Eerstens lei SPD visuele-tot-tekstuele kenmerktransformasies voor, en genereer onderskrifte wat ooreenstem met hul gepaardgaande beelde. Hierna word die voorgrondmaskervoorspelling geaktiveer deur die pyplyn aan 'n roman te koppel opvallende voorspelling tegniek.

Dan voer SPGM 'n geskatte alfamat uit gebaseer op die rou RGB-beeldinvoer en die gegenereerde masker wat in die eerste module verkry is.

Die doelwit is situasionele persepsie leiding, waarin die sisteem 'n kontekstuele begrip het van waaruit die beeld bestaan, wat dit toelaat om byvoorbeeld die uitdaging om komplekse hare uit 'n agtergrond te onttrek teen bekende kenmerke van so 'n spesifieke taak te raam.

In die voorbeeld hieronder verstaan ​​SPG-IM dat die koorde intrinsiek is aan 'n 'valskerm', waar MODNet nie daarin slaag om hierdie besonderhede te behou en te definieer nie. Net so hierbo gaan die volledige struktuur van die speelgrondapparaat arbitrêr verlore in MODNet.

In die voorbeeld hieronder verstaan ​​SPG-IM dat die koorde intrinsiek is aan 'n 'valskerm', waar MODNet nie daarin slaag om hierdie besonderhede te behou en te definieer nie. Net so hierbo gaan die volledige struktuur van die speelgrondapparaat arbitrêr verlore in MODNet.

Die nuwe papier is getiteld Situasionele persepsie Begeleide beeldmatting, en kom van navorsers by die OPPO Navorsingsinstituut, PicUp.ai, en Xmotors.

Intelligente outomatiese matte

SPG-IM bied ook 'n Adaptive Focal Transformation (AFT) Refinement Network aan wat plaaslike besonderhede en globale konteks afsonderlik kan verwerk, wat 'intelligente mattes' fasiliteer.

Om toneelkonteks te verstaan, in hierdie geval 'meisie met perd', kan moontlik voorgrondonttrekking makliker maak as vorige metodes.

Om toneelkonteks te verstaan, in hierdie geval 'meisie met perd', kan moontlik voorgrondonttrekking makliker maak as vorige metodes.

Die artikel sê:

'Ons glo dat visuele voorstellings van die visuele-tot-tekstuele taak, bv beeldonderskrifte, fokus op meer semanties omvattende seine tussen a) voorwerp tot voorwerp en b) voorwerp tot die omringende omgewing om beskrywings te genereer wat beide die globale inligting en plaaslike besonderhede kan dek. Boonop, in vergelyking met die duur pixel-aantekening van beeldmat, kan tekstuele etikette massaal versamel word teen 'n baie lae koste.'

Die SPD-tak van die argitektuur word saam met die Universiteit van Michigan vooraf opgelei VirTex transformator-gebaseerde tekstuele dekodeerder, wat visuele voorstellings van semanties digte byskrifte leer.

VirTex lei gesamentlik 'n ConvNet en Transformers op via beeldonderskrifte-koeplette, en dra die verkrygde insigte oor na stroomaf-visietake soos objekbespeuring. Bron: https://arxiv.org/pdf/2006.06666.pdf

VirTex lei gesamentlik 'n ConvNet en Transformers op via beeldonderskrifte-koeplette, en dra die verkrygde insigte oor na stroomaf-visietake soos objekbespeuring. Bron: https://arxiv.org/pdf/2006.06666.pdf

Onder ander toetse en ablasiestudies het die navorsers SPG-IM getoets teen state-of-the-art trimap-gebaseerde metodes Deep Image Matting (GEEN), IndeksNet, Konteksbewuste beeldmatting (CAM), Begeleide kontekstuele aandag (GCA uitbreiding), FBA, en Semantiese Beeldkartering (JA).

Ander vorige raamwerke wat getoets is, het trimap-vrye benaderings ingesluit L.F.M., HattMatting, en MODNet. Vir billike vergelyking is die toetsmetodes aangepas op grond van die verskillende metodologieë; waar kode nie beskikbaar was nie, is die vraestel se tegnieke uit die beskryfde argitektuur weergegee.

Die nuwe koerant sê:

'Ons SPG-IM presteer met 'n groot marge beter as alle mededingende trimap-vrye metodes ([LFM], [HAttMatting] en [MODNet]). Intussen toon ons model ook merkwaardige superioriteit bo die moderne (SOTA) trimap-gebaseerde en maskergeleide metodes in terme van al vier metrieke oor die publieke datastelle (dws Composition-1K, Distinction-646, en Human -2K), en ons Multi-Object-1K maatstaf.'

En gaan voort:

'Dit kan duidelik waargeneem word dat ons metode fyn besonderhede bewaar (bv. haarpuntplekke, deursigtige teksture en grense) sonder die leiding van trimap. Verder, in vergelyking met ander mededingende trimap-vrye modelle, kan ons SPG-IM beter globale semantiese volledigheid behou.'

 

Eerste gepubliseer 24 April 2022.

Skrywer oor masjienleer, domeinspesialis in menslike beeldsintese. Voormalige hoof van navorsingsinhoud by Metaphysic.ai.
Persoonlike webwerf: martinanderson.ai
Kontak: [e-pos beskerm]
Twitter: @manders_ai