Kunstig intelligens

Fjerne objekter fra video mer effektivt med maskinlæring

oppdatert on Desember 9, 2022

Ny forskning fra Kina rapporterer toppmoderne resultater – så vel som en imponerende forbedring i effektivitet – for et nytt videomalingssystem som på en behendig måte kan fjerne objekter fra opptak.

En hanggliders sele er malt ut etter den nye prosedyren. Se kildevideoen (innebygd nederst i denne artikkelen) for bedre oppløsning og flere eksempler. Kilde: https://www.youtube.com/watch?v=N–qC3T2wc4

Teknikken, kalt End-to-End-rammeverk for Flow-Guided video Inpainting (E²FGVI), er også i stand til å fjerne vannmerker og forskjellige andre typer okklusjon fra videoinnhold.

E2FGVI beregner spådommer for innhold som ligger bak okklusjoner, noe som muliggjør fjerning av til og med bemerkelsesverdige og vanskelige vannmerker. Kilde: https://github.com/MCG-NKU/E2FGVI

E2FGVI beregner spådommer for innhold som ligger bak okklusjoner, noe som muliggjør fjerning av til og med bemerkelsesverdige og ellers vanskelige vannmerker. Kilde: https://github.com/MCG-NKU/E2FGVI

For å se flere eksempler i bedre oppløsning, sjekk ut videoen som er innebygd på slutten av artikkelen.

Selv om modellen omtalt i den publiserte artikkelen ble trent på 432px x 240px-videoer (vanligvis lave inngangsstørrelser, begrenset av tilgjengelig GPU-plass kontra optimale batchstørrelser og andre faktorer), har forfatterne siden gitt ut E²FGVI-HQ, som kan håndtere videoer med en vilkårlig oppløsning.

Koden for gjeldende versjon er tilgjengelig på GitHub, mens HQ-versjonen, utgitt forrige søndag, kan lastes ned fra Google Disk og Baidu disk.

Ungen forblir i bildet.

E²FGVI kan behandle 432×240 video med 0.12 sekunder per bilde på en Titan XP GPU (12GB VRAM), og forfatterne rapporterer at systemet fungerer femten ganger raskere enn tidligere toppmoderne metoder basert på optisk flyt.

En tennisspiller gjør en uventet utgang.

Testet på standard datasett for denne undersektoren av bildesynteseforskning, var den nye metoden i stand til å overgå rivaler i både kvalitative og kvantitative evalueringsrunder.

Tester mot tidligere tilnærminger. Kilde: https://arxiv.org/pdf/2204.02663.pdf

De papir har tittelen Mot et ende-til-ende-rammeverk for flytstyrt videomaling, og er et samarbeid mellom fire forskere fra Nankai University, sammen med en forsker fra Hisilicon Technologies.

Hva mangler i dette bildet

Foruten de åpenbare bruksområdene for visuelle effekter, er høykvalitets videoinnredning satt til å bli en kjernedefinerende funksjon i ny AI-basert bildesyntese og bildeendringsteknologi.

Dette er spesielt tilfelle for kroppsendrende moteapplikasjoner og andre rammeverk som søke å "slanke seg" eller på annen måte endre scener i bilder og video. I slike tilfeller er det nødvendig å overbevisende 'fylle ut' den ekstra bakgrunnen som avsløres av syntesen.

Fra en fersk artikkel har en algoritme for omforming av kroppen i oppgave å male den nylig avslørte bakgrunnen når et emne endres. Her er denne mangelen representert av det røde omrisset som (det virkelige liv, se bildet til venstre) fyldigere person pleide å okkupere. Basert på kildemateriale fra https://arxiv.org/pdf/2203.10496.pdf

Koherent optisk strømning

Optisk flyt (OF) har blitt en kjerneteknologi i utviklingen av fjerning av videoobjekter. Som en atlas, OF gir et one-shot kart over en tidssekvens. Ofte brukt til å måle hastighet i datasynsinitiativer, kan OF også muliggjøre tidsmessig konsistent in-painting, der den samlede summen av oppgaven kan vurderes i en enkelt pass, i stedet for Disney-stil 'per-frame' oppmerksomhet, som uunngåelig fører til til tidsmessig diskontinuitet.

Videoinpainting-metoder til dags dato har sentrert seg om en tre-trinns prosess: fullføring av flyt, hvor videoen i hovedsak er kartlagt til en diskret og utforskbar enhet; pikselutbredelse, hvor hullene i "korrupte" videoer fylles ut av toveis forplantende piksler; og innhold hallusinasjon (piksel "oppfinnelse" som er kjent for de fleste av oss fra dype faker og tekst-til-bilde-rammeverk som DALL-E-serien) der det estimerte "manglende" innholdet er oppfunnet og satt inn i opptakene.

Den sentrale innovasjonen til E²FGVI skal kombinere disse tre stadiene til et ende-til-ende-system, og eliminere behovet for å utføre manuelle operasjoner på innholdet eller prosessen.

Papiret observerer at behovet for manuell intervensjon krever at eldre prosesser ikke drar nytte av en GPU, noe som gjør dem ganske tidkrevende. Fra avisen*:

«Tar DFVI som et eksempel, å fullføre en video med størrelsen 432 × 240 fra DAVIS, som inneholder omtrent 70 bilder, trenger omtrent 4 minutter, noe som er uakseptabelt i de fleste virkelige applikasjoner. Dessuten, bortsett fra de ovennevnte ulempene, ignorerer bare bruk av et forhåndsopplært nettverk for bildemaling på innholdshallusinasjonsstadiet innholdsrelasjonene på tvers av tidsmessige naboer, noe som fører til inkonsekvent generert innhold i videoer.'

Ved å forene de tre stadiene av videomaleri, kan E²FGVI er i stand til å erstatte det andre trinnet, pikselutbredelse, med funksjonsforplantning. I de mer segmenterte prosessene til tidligere arbeider, er funksjoner ikke så omfattende tilgjengelige, fordi hvert trinn er relativt hermetisk, og arbeidsflyten bare halvautomatisert.

I tillegg har forskerne utviklet en temporal fokal transformator for innholdshallusinasjonsstadiet, som ikke bare tar hensyn til de direkte naboene til piksler i gjeldende bilde (dvs. hva som skjer i den delen av bildet i forrige eller neste bilde), men også de fjerne naboene som er mange bilder unna, og vil likevel påvirke den sammenhengende effekten av alle operasjoner som utføres på videoen som helhet.

Arkitektur av E2FGVI.

Den nye funksjonsbaserte sentrale delen av arbeidsflyten er i stand til å dra nytte av prosesser på funksjonsnivå og lærbare samplingsforskyvninger, mens prosjektets nye fokale transformator, ifølge forfatterne, utvider størrelsen på fokalvinduer "fra 2D til 3D" .

Tester og data

For å teste E²FGVI, forskerne evaluerte systemet mot to populære videoobjektsegmenteringsdatasett: YouTube-VOSog DAVIS. YouTube-VOS har 3741 treningsvideoklipp, 474 valideringsklipp og 508 testklipp, mens DAVIS har 60 treningsvideoklipp og 90 testklipp.

E²FGVI ble trent på YouTube-VOS og evaluert på begge datasettene. Under trening ble det generert objektmasker (de grønne områdene i bildene ovenfor, og den innebygde videoen nedenfor) for å simulere videofullføring.

For beregninger tok forskerne i bruk Peak signal-to-noise ratio (PSNR), Strukturell likhet (SSIM), Video-basert Fréchet Inception Distance (VFID) og Flow Warping Error – sistnevnte for å måle tidsmessig stabilitet i den berørte videoen.

De tidligere arkitekturene som systemet ble testet mot var VINet, DFVI, LGTSM, CAP, FGVC, STTNog FuseFormer.

Fra delen om kvantitative resultater i artikkelen. Pil opp og ned indikerer at henholdsvis høyere eller lavere tall er bedre. E2FGVI oppnår best poengsum over hele linja. Metodene er evaluert i henhold til FuseFormer, selv om DFVI, VINet og FGVC ikke er ende-til-ende-systemer, noe som gjør det umulig å estimere FLOP-ene deres.

I tillegg til å oppnå best score mot alle konkurrerende systemer, gjennomførte forskerne en kvalitativ brukerstudie, der videoer transformert med fem representative metoder ble vist individuelt til tjue frivillige, som ble bedt om å rangere dem med tanke på visuell kvalitet.

Den vertikale aksen representerer prosentandelen av deltakerne som foretrakk E2FGVI-utgangen når det gjelder visuell kvalitet.

Den vertikale aksen representerer prosentandelen av deltakerne som foretrakk E²FGVI-utgang når det gjelder visuell kvalitet.

Forfatterne bemerker at til tross for den enstemmige preferansen for deres metode, gjenspeiler ikke ett av resultatene, FGVC, de kvantitative resultatene, og de antyder at dette indikerer at E²FGVI kan, spesielt, generere "mer visuelt behagelige resultater".

Når det gjelder effektivitet, bemerker forfatterne at systemet deres i stor grad reduserer flytepunktoperasjoner per sekund (FLOPs) og slutningstid på en enkelt Titan GPU på DAVIS-datasettet, og observerer at resultatene viser E²FGVI kjører x15 raskere enn flytbaserte metoder.

De kommenterer:

'[E²FGVI] har de laveste FLOP-ene i motsetning til alle andre metoder. Dette indikerer at den foreslåtte metoden er svært effektiv for videoinnmaling.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*Min konvertering av forfatternes innebygde sitater til hyperkoblinger.

Først publisert 19. mai 2022.