Kunstig intelligens

AI-bildematting som forstår scener

oppdatert on Desember 9, 2022

I tilleggsdokumentaren som fulgte med DVD-utgivelsen fra 2003 av Alien³ (1992) husket den visuelle effektlegenden Richard Edlund med gru på 'sumobrytingen' av fotokjemisk mattekstraksjon som dominerte arbeidet med visuelle effekter mellom sent 1930s og slutten av 1980-tallet. Edlund beskrev treff-og-miss-karakteren til prosessen som "sumobryting", sammenlignet med de digitale blå/grønnskjerm-teknikkene som tok over på begynnelsen av 1990-tallet (og han har returnert til metaforen siden).

Å trekke ut et forgrunnselement (som en person eller en romskipsmodell) fra en bakgrunn, slik at det utklippede bildet kan settes sammen til en bakgrunnsplate, ble opprinnelig oppnådd ved å filme forgrunnsobjektet mot en ensartet blå eller grønn bakgrunn.

Arbeidskrevende fotokjemiske utvinningsprosesser for en VFX-bilde av ILM for 'Return of the Jedi' (1983). Kilde: https://www.youtube.com/watch?v=qwMLOjqPmbQ

I de resulterende opptakene vil bakgrunnsfargen deretter bli isolert kjemisk og brukt som en mal for å skrive ut forgrunnsobjektet (eller personen) på nytt i en optisk skriver som et 'flytende' objekt i en ellers gjennomsiktig filmcelle.

Prosessen ble kjent som fargeseparasjonsoverlegg (CSO) - selv om dette begrepet til slutt ville bli mer assosiert med råoljen "Chromakey" videoeffekter i lavere budsjettert TV-utgang på 1970- og 1980-tallet, som ble oppnådd med analoge snarere enn kjemiske eller digitale midler.

En demonstrasjon av Color Separation Overlay i 1970 for det britiske barneshowet 'Blue Peter'. Kilde: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

Uansett om det gjelder film- eller videoelementer, kan de utpakkede opptakene deretter settes inn i alle andre opptak.

Skjønt Disney er spesielt dyrere og proprietær natrium-damp prosess (som tastet på gult, spesifikt, og var også brukt for Alfred Hitchcocks skrekk fra 1963 Fuglene) ga bedre definisjon og skarpere matte, fotokjemisk ekstraksjon forble omhyggelig og upålitelig.

Disneys proprietære natriumdampekstraksjonsprosess krevde bakgrunner nær den gule enden av spekteret. Her er Angela Lansbury hengt opp på ledninger under produksjonen av en VFX-snøret sekvens for 'Bedknobs and Broomsticks' (1971). kilde

Beyond Digital Matting

På 1990-tallet unnlot den digitale revolusjonen kjemikaliene, men ikke behovet for grønne skjermer. Det var nå mulig å fjerne den grønne (eller hvilken som helst farge) bakgrunnen bare ved å søke etter piksler innenfor et toleranseområde for den fargen, i pikselredigeringsprogramvare som Photoshop, og en ny generasjon av videokomposisjonssuiter som automatisk kunne taste ut de fargede bakgrunnene. Nesten over natten, seksti år av den optiske trykkeriindustrien ble overført til historien.

De siste ti årene med GPU-akselerert datasynsforskning innleder matteutvinning i en tredje alder, og gir forskere i oppgave å utvikle systemer som kan trekke ut matte av høy kvalitet uten behov for grønne skjermer. Bare hos Arxiv er artikler relatert til innovasjoner innen maskinlæringsbasert forgrunnsekstraksjon en ukentlig funksjon.

Setter oss i bildet

Dette stedet for akademisk og industriinteresse for AI-utvinning har allerede påvirket forbrukerområdet: grove, men brukbare implementeringer er kjent for oss alle i form av Zoom og Skype filtre som kan erstatte stuebakgrunnen vår med tropiske øyer, et al., i videokonferansesamtaler.

Imidlertid krever de beste mattene fortsatt en grønn skjerm, som Zoom notert forrige onsdag.

Til venstre, en mann foran en grønn skjerm, med godt ekstrahert hår via Zooms virtuelle bakgrunnsfunksjon. Til venstre, en kvinne foran en vanlig hjemmescene, med hår ekstrahert algoritmisk, mindre nøyaktig og med høyere datakrav. Kilde: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Til venstre, en mann foran en grønn skjerm, med godt ekstrahert hår via Zooms virtuelle bakgrunnsfunksjon. Høyre, en kvinne foran en vanlig hjemmescene, med hår ekstrahert algoritmisk, mindre nøyaktig og med høyere datakrav. Kilde: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

A videre innlegg fra Zoom Support-plattformen advarer om at utvinning uten grønn skjerm også krever større datakraft i fangstenheten.

Behovet for å kutte det ut

Forbedringer i kvalitet, portabilitet og ressursøkonomi for "i naturen" matte utvinningssystemer (dvs. isolering av mennesker uten behov for grønne skjermer) er relevante for mange flere sektorer og sysler enn bare videokonferansefiltre.

For utvikling av datasett tilbyr forbedret ansikts-, helhode- og helkroppsgjenkjenning muligheten til å sikre at fremmede bakgrunnselementer ikke blir trent inn i datasynsmodeller av mennesker; mer nøyaktig isolasjon vil forbedres betraktelig semantisk segmentering teknikker utviklet for å skille og assimilere domener (dvs 'katt', 'person', 'båt'), og forbedre UAE og transformator-baserte baserte bildesyntesesystemer som OpenAIs nye DALL-E2; og bedre utvinningsalgoritmer ville kutte ned på behovet for dyre manualer rotoscoping i kostbare VFX-rørledninger.

Faktisk er overvekt av multimodal (vanligvis tekst/bilde) metodikker, der et domene som "katt" er kodet både som et bilde og med tilhørende tekstreferanser, er allerede på vei inn i bildebehandlingen. Et nylig eksempel er Text2Live arkitektur, som bruker multimodal (tekst/bilde) opplæring for å lage videoer av, blant utallige andre muligheter, krystallsvaner og glassgiraffer.

Scene-Aware AI Matting

En god del forskning på AI-basert automatisk matting har fokusert på grensegjenkjenning og evaluering av pikselbaserte grupperinger inne i en bilde- eller videoramme. Ny forskning fra Kina tilbyr imidlertid en utvinningsrørledning som forbedrer avgrensning og matt kvalitet ved å utnytte tekstbaserte beskrivelser av en scene (en multimodal tilnærming som har fått gjennomslag i forskningssektoren for datasyn i løpet av de siste 3-4 årene), som hevder å ha forbedret tidligere metoder på en rekke måter.

Et eksempel på SPG-IM-ekstraksjon (siste bilde, nede til høyre), sammenlignet med konkurrerende tidligere metoder. Kilde: https://arxiv.org/pdf/2204.09276.pdf

Utfordringen som stilles til undersektoren for utvinningsforskning er å produsere arbeidsflyter som krever et minimum av manuell merknad og menneskelig intervensjon – ideelt sett ingen. Foruten kostnadsimplikasjonene, observerer forskerne i det nye papiret at merknader og manuelle segmenteringer utført av outsourcede crowdworkers på tvers av ulike kulturer kan føre til at bilder merkes eller til og med segmenteres på forskjellige måter, noe som fører til inkonsekvente og utilfredsstillende algoritmer.

Et eksempel på dette er den subjektive tolkningen av hva som definerer et 'forgrunnsobjekt':

Fra den nye artikkelen: tidligere metoder LFM og MODNet ('GT' betyr Ground Truth, et 'ideelt' resultat som ofte oppnås manuelt eller ved hjelp av ikke-algoritmiske metoder), har forskjellige og forskjellige effektive oppfatninger av definisjonen av forgrunnsinnhold, mens den nye SPG-IM-metoden avgrenser "nær innhold" mer effektivt gjennom scenekontekst.

Fra det nye papiret: tidligere metoder L.F.M. og MODNet ('GT' betyr Ground Truth, et 'ideelt' resultat som ofte oppnås manuelt eller ved hjelp av ikke-algoritmiske metoder), har forskjellige og forskjellige effektive oppfatninger av definisjonen av forgrunnsinnhold, mens den nye SPG-IM-metoden mer effektivt avgrenser 'nær innhold' ' gjennom scenekontekst.

For å løse dette har forskerne utviklet en to-trinns rørledning med tittelen Situasjonsoppfatning Veiledet bildematting (SPG-IM). To-trinns koder/dekoderarkitektur omfatter Situational Perception Destillation (SPD) og Situational Perception Guided Matting (SPGM).

SPG-IM-arkitekturen.

For det første forhåndstrener SPD visuelle-til-tekstuelle funksjonstransformasjoner, og genererer bildetekster som passer til deres tilknyttede bilder. Etter dette aktiveres forgrunnsmaskeprediksjonen ved å koble rørledningen til en roman fremtredende prediksjon teknikk.

Deretter sender SPGM ut en estimert alfamatt basert på den rå RGB-bildeinngangen og den genererte masken oppnådd i den første modulen.

Målet er situasjonsbestemt persepsjonsveiledning, der systemet har en kontekstuell forståelse av hva bildet består av, slik at det kan ramme – for eksempel – utfordringen med å trekke ut komplekst hår fra en bakgrunn mot kjente egenskaper ved en slik spesifikk oppgave.

I eksemplet nedenfor forstår SPG-IM at ledningene er iboende til en "fallskjerm", der MODNet ikke klarer å beholde og definere disse detaljene. På samme måte ovenfor er hele strukturen til lekeplassapparatet vilkårlig tapt i MODNet.

Den nye papir har tittelen Situasjonsoppfatning Veiledet bildematting, og kommer fra forskere ved OPPO Research Institute, PicUp.ai og Xmotors.

Intelligente automatiserte matter

SPG-IM tilbyr også et Adaptive Focal Transformation (AFT) Refinement Network som kan behandle lokale detaljer og global kontekst separat, noe som letter "intelligente mattes".

Å forstå scenekonteksten, i dette tilfellet 'jente med hest', kan potensielt gjøre forgrunnsekstraksjon enklere enn tidligere metoder.

Papiret sier:

«Vi tror at visuelle representasjoner fra den visuelle-til-tekstuelle oppgaven, f.eks bildeteksting, fokus på mer semantisk omfattende signaler mellom a) objekt til objekt og b) objekt til omgivelsesmiljøet for å generere beskrivelser som kan dekke både global informasjon og lokale detaljer. I tillegg, sammenlignet med den dyre pikselannoteringen av bildematting, kan tekstetiketter samles inn massivt til en svært lav pris.'

SPD-grenen til arkitekturen er i fellesskap fortrent med University of Michigan's VirTex transformatorbasert tekstdekoder, som lærer visuelle representasjoner fra semantisk tette bildetekster.

VirTex trener sammen et ConvNet og Transformers via bildetekstkupletter, og overfører den oppnådde innsikten til nedstrøms visjonsoppgaver som objektdeteksjon. Kilde: https://arxiv.org/pdf/2006.06666.pdf

Blant andre tester og ablasjonsstudier, testet forskerne SPG-IM mot toppmoderne trimap-baserte metoder Deep Image Matting (DIM), IndexNet, Kontekstbevisst bildematting (CAM), Veiledet kontekstuell oppmerksomhet (GCA) FBA, og semantisk bildekartlegging (JA).

Andre tidligere testede rammeverk inkluderte trimapfrie tilnærminger L.F.M., HAttMattingog MODNet. For rettferdig sammenligning ble testmetodene tilpasset basert på de ulike metodikkene; der kode ikke var tilgjengelig, ble papirets teknikker gjengitt fra den beskrevne arkitekturen.

Det nye papiret sier:

«Vår SPG-IM overgår alle konkurrerende trimap-frie metoder ([LFM], [HAttMatting] og [MODNet]) med stor margin. I mellomtiden viser modellen vår også bemerkelsesverdig overlegenhet over de toppmoderne (SOTA) trimap-baserte og maske-veiledede metodene når det gjelder alle fire beregninger på tvers av de offentlige datasettene (dvs. Composition-1K, Distinction-646 og Human -2K), og vår Multi-Object-1K benchmark.'

Og fortsetter:

'Det kan åpenbart observeres at metoden vår bevarer fine detaljer (f.eks. hårspisser, gjennomsiktige teksturer og grenser) uten veiledning fra trimap. I tillegg, sammenlignet med andre konkurrerende trimap-frie modeller, kan vår SPG-IM beholde bedre global semantisk fullstendighet.'