Kunstig intelligens
AI-billede matning, der forstår scener

I den ekstra dokumentar, der følger med 2003 DVD-udgaven af Alien3 (1992), mindes visuelle effekter-legenden Richard Edlund med rædsel ‘sumo wrestling’ af foto kemisk matte-udtrækning, der dominerede visuelle effekter mellem sen 1930’erne og sen 1980’erne. Edlund beskrev processens hit-and-miss-natur som ‘sumo wrestling’ i sammenligning med de digitale blå/grøn-skræmteknikker, der overtog i begyndelsen af 1990’erne (og han har returneret til metaforen siden).
At udtrække et forgrunds-element (såsom en person eller et rumskib-model) fra en baggrund, således at det udskårne billede kan komponeres ind i en baggrundsskive, blev oprindeligt opnået ved at filme forgrunds-objektet mod en ensartet blå eller grøn baggrund.

Besværlige foto-kemiske udtrækningsprocesser for en VFX-optagelse af ILM til ‘Return of the Jedi’ (1983). Kilde: https://www.youtube.com/watch?v=qwMLOjqPmbQ
I den resulterende optagelse ville baggrundsfarven herefter isoleres kemisk og bruges som en skabelon til at genudtrykke forgrunds-objektet (eller person) i en optisk printer som et ‘flydende’ objekt i en ellers gennemsigtig film-celle.
Processen blev kaldt farve-separation-overlæg (CSO) – selvom denne betegnelse senere blev mere associeret med den grove ‘Chromakey’ video-effekter i lavere-budgetterede tv-udsendelser i 1970’erne og 1980’erne, som blev opnået med analoge snarere end kemiske eller digitale midler.

En demonstration af Color Separation Overlay i 1970 til den britiske børne-show ‘Blue Peter’. Kilde: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx
I ethvert tilfælde, enten for film eller video-elementer, kunne det herefter udtrukne footage indsættes i ethvert andet footage.
Selvom Disneys bemærkelsesværdigt dyre og ejendomsretlige natrium-damp-proces (som blev nøgle på gul, specifikt, og også brugt til Alfred Hitchcocks 1963 horror The Birds) gav bedre definition og skarpe mattes, forblev foto-kemisk udtrækning en besværlig og upålidelig proces.

Disneys ejendomsretlige natrium-damp-udtrækningsproces krævede baggrunde nær den gule ende af spektret. Her er Angela Lansbury ophængt på ledninger under produktionen af en VFX-laget sekvens til ‘Bedknobs and Broomsticks’ (1971). Kilde
Beyond Digital Matting
I 1990’erne gjorde den digitale revolution det muligt at undvære kemikalierne, men ikke behovet for grønne skærme. Det var nu muligt at fjerne den grønne (eller hvilken som helst) baggrund bare ved at søge efter pixels inden for en toleranceregion af den farve i pixel-redigeringssoftware som Photoshop, og en ny generation af video-compositing-suites, der kunne automatisk nøgle ud de farvede baggrunde. Næsten over nat blev tres år af den optiske trykkeindustri consigneret til historien.
De sidste ti år af GPU-accelereret computer-vision-forskning er ved at føre matte-udtrækning ind i en tredje alder, hvor forskerne tildeler udviklingen af systemer, der kan udtrække høj-kvalitets-mattes uden behov for grønne skærme. På Arxiv alene er artikler relateret til innovationer i maskinlærings-baseret forgrunds-udtrækning en ugentlig funktion.
Putting Us in the Picture
Dette fokus på akademisk og industriinteresse i AI-udtrækning har allerede påvirket forbruger-rummet: grove, men fungerende implementeringer er velkendte for os alle i form af Zoom og Skype filtre, der kan erstatte vores stue-baggrunde med tropiske øer, osv., i video-konference-opkald.
Men de bedste mattes kræver stadig en grøn skærm, som Zoom bemærkede sidste onsdag.

Venstre, en mand foran en grøn skærm, med godt udtrukket hår via Zooms Virtual Background-funktion. Højre, en kvinde foran en normal hjemmeskærm, med hår udtrukket algoritisk, mindre præcist og med højere beregningskrav. Kilde: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image
En yderligere post fra Zoom Support-platformen advarer om, at non-grøn-skærm-udtrækning også kræver større beregningskraft i optage-enheten.
The Need to Cut It Out
Forbedringer i kvalitet, bæring og ressource-økonomi for ‘i det vilde’ matte-udtrækningssystemer (dvs. isolering af mennesker uden behov for grønne skærme) er relevante for mange flere sektorer og forfølgelse end blot video-konference-filtre.
Til dataset-udvikling tilbyder forbedret ansigt-, fuld-hoved- og fuld-krops-genkendelse muligheden for at sikre, at uønskede baggrundselementer ikke trænes ind i computer-vision-modeller af menneskelige subjekter; mere præcis isolering ville betydeligt forbedre semantisk segmentering teknikker designet til at skelne og assimilere domæner (dvs. ‘kat’, ‘person’, ‘båd’), og forbedre VAE og transformer-baserede billed-syntese-systemer som OpenAIs nye DALL-E 2; og bedre udtræknings-algoritmer ville reducere behovet for dyre manuelle rotoscoping i dyre VFX-rørledninger.
I virkeligheden er den stigende multimodale (som regel tekst/billede) metoder, hvor et domæne som ‘kat’ kodificeres både som et billede og med associerede tekst-referencer, allerede påvirker billed-behandling. Et nyligt eksempel er Text2Live arkitekturen, der bruger multimodal (tekst/billede) træning til at skabe videoer af, blandt mange andre muligheder, krystal-svaner og glas-giraffer.
Scene-Aware AI Matting
En betydelig del af forskningen i AI-baseret automatisk matning har fokuseret på grænse-genkendelse og evaluering af pixel-baserede grupperinger inden for et billede eller video-ramme. Men ny forskning fra Kina tilbyder en udtræknings-pipeline, der forbedrer afgrænsning og matte-kvalitet ved at udnytte tekst-baserede beskrivelser af en scene (en multimodal tilgang, der har fået fart i computer-vision-forskningssektoren over de sidste 3-4 år), og hævder at have forbedret tidligere metoder på flere måder.

Et eksempel på SPG-IM-udtrækning (sidste billede, nederst til højre), sammenlignet med konkurrerende tidligere metoder. Kilde: https://arxiv.org/pdf/2204.09276.pdf
Udfordringen, der stilles for udtræknings-forsknings-undersektoren, er at producere arbejdsprocesser, der kræver en absolut minimum af manuel annotation og menneskelig indgriben – idealiseret, ingen. Ud over omkostnings-implicationerne observerer forskerne bag den nye artikel, at annotationer og manuelle segmenteringer, der er udforet af udliciterede crowdworkers på tværs af forskellige kulturer, kan føre til, at billeder bliver mærket eller endda segmenteret på forskellige måder, hvilket fører til inkonsistente og utilfredsstillende algoritmer.
Et eksempel på dette er den subjektive fortolkning af, hvad der definerer et ‘forgrunds-objekt’:

Fra den nye artikel: tidligere metoder LFM og MODNet (‘GT’ betegner Ground Truth, en ‘ideel’ resultater ofte opnået manuelt eller ved ikke-algoritmiske metoder), har forskellige og forskelligt effektive definitioner af forgrunds-indhold, hvorimod den nye SPG-IM-metode mere effektivt afgrænser ‘nær-indhold’ gennem scene-kontekst.
For at imødekomme dette har forskerne udviklet en to-trins pipeline med titlen Situational Perception Guided Image Matting (SPG-IM). De to-trins encoder/decoder-arkitektur består af Situational Perception Distillation (SPD) og Situational Perception Guided Matting (SPGM).
Først forudtræner SPD visuelt-til-tekstlige funktionstransformationer, og genererer beskrivelser, der er relevante for deres associerede billeder. Efter dette aktiveres forgrunds-masken-forudsigelse ved at tilslutte pipeline til en ny saliency-forudsigelse teknik.
Derefter udgiver SPGM en estimeret alpha-matte baseret på den rå RGB-billede-indtastning og den genererede maske, der er opnået i den første modul.
Formålet er situation-perception-guidance, hvor systemet har en kontekst-forståelse af, hvad billedet består af, og tillader det at ramme – for eksempel – udfordringen ved at udtrække komplekst hår fra en baggrund mod kendte karakteristika af en sådan specifik opgave.

I eksemplet nedenfor forstår SPG-IM, at kablerne er intrinsic til en ‘faldskærm’, hvor MODNet ikke kan fastholde og definere disse detaljer. Ligeså ovenfor er den komplette struktur af lege-apparatus arbitrært tabt i MODNet.
Den nye artikel er titlen Situational Perception Guided Image Matting, og kommer fra forskere ved OPPO Research Institute, PicUp.ai og Xmotors.
Intelligent Automated Mattes
SPG-IM tilbyder også et Adaptive Focal Transformation (AFT) Refinement Network, der kan behandle lokale detaljer og globale kontekster separat, hvilket faciliterer ‘intelligente mattes’.












