Artificiell intelligens

Ta bort objekt från video mer effektivt med maskininlärning

Uppdaterad on December 9, 2022

Ny forskning från Kina rapporterar toppmoderna resultat – såväl som en imponerande förbättring av effektiviteten – för ett nytt videomålningssystem som på ett skickligt sätt kan ta bort föremål från film.

En sele för hängglidare målas ut med den nya proceduren. Se källvideon (inbäddad längst ner i den här artikeln) för bättre upplösning och fler exempel. Källa: https://www.youtube.com/watch?v=N–qC3T2wc4

Tekniken, kallad End-to-End-ramverk för Flow-Guided Video Inpainting (E²FGVI), kan också ta bort vattenstämplar och olika andra typer av ocklusion från videoinnehåll.

E2FGVI beräknar förutsägelser för innehåll som ligger bakom ocklusioner, vilket möjliggör borttagning av även anmärkningsvärda och svårlösta vattenstämplar. Källa: https://github.com/MCG-NKU/E2FGVI

E2FGVI beräknar förutsägelser för innehåll som ligger bakom ocklusioner, vilket möjliggör borttagning av även anmärkningsvärda och annars svårlösta vattenstämplar. Källa: https://github.com/MCG-NKU/E2FGVI

För att se fler exempel i bättre upplösning, kolla in videon som är inbäddad i slutet av artikeln.

Även om modellen som presenteras i den publicerade artikeln tränades på 432px x 240px videor (vanligtvis låga indatastorlekar, begränsade av tillgängligt GPU-utrymme kontra optimala batchstorlekar och andra faktorer), har författarna sedan dess släppt E²FGVI-HQ, som kan hantera videor med en godtycklig upplösning.

Koden för den aktuella versionen är tillgänglig på GitHub, medan HQ-versionen, som släpptes i söndags, kan laddas ner från Google Drive och Baidu disk.

Barnet stannar på bilden.

E²FGVI kan bearbeta 432×240 video med 0.12 sekunder per bildruta på en Titan XP GPU (12GB VRAM), och författarna rapporterar att systemet fungerar femton gånger snabbare än tidigare toppmoderna metoder baserat på optiskt flöde.

En tennisspelare gör en oväntad utgång.

Testad på standarddatauppsättningar för denna delsektor av bildsyntesforskning, kunde den nya metoden överträffa rivaler i både kvalitativa och kvantitativa utvärderingsrundor.

Tester mot tidigare tillvägagångssätt. Källa: https://arxiv.org/pdf/2204.02663.pdf

Smakämnen papper har titeln Mot ett heltäckande ramverk för flödesstyrd videomålning, och är ett samarbete mellan fyra forskare från Nankai University, tillsammans med en forskare från Hisilicon Technologies.

Vad saknas i den här bilden

Förutom dess uppenbara applikationer för visuella effekter, kommer högkvalitativ videomålning att bli en av de viktigaste egenskaperna hos ny AI-baserad bildsyntes och bildförändringsteknik.

Detta är särskilt fallet för kroppsförändrande modeapplikationer och andra ramverk som sträva efter att "banta ner" eller på annat sätt ändra scener i bilder och video. I sådana fall är det nödvändigt att på ett övertygande sätt "fylla i" den extra bakgrunden som exponeras av syntesen.

Från en nyligen publicerad artikel har en algoritm för "omformning av kroppen" i uppgift att måla den nyligen avslöjade bakgrunden när ett motiv ändras. Här representeras den bristen av den röda kontur som den (verkliga livet, se bild till vänster) fylligare person brukade ockupera. Baserat på källmaterial från https://arxiv.org/pdf/2203.10496.pdf

Koherent optiskt flöde

Optiskt flöde (OF) har blivit en kärnteknologi i utvecklingen av borttagning av videoobjekt. Som en atlas, OF tillhandahåller en engångskarta över en tidssekvens. Ofta används för att mäta hastighet i datorseendeinitiativ, OF kan också möjliggöra tidsmässigt konsekvent in-painting, där den sammanlagda summan av uppgiften kan övervägas i ett enda pass, istället för Disney-liknande "per-frame"-uppmärksamhet, vilket oundvikligen leder till till tidsmässig diskontinuitet.

Videoinmålningsmetoder har hittills fokuserat på en process i tre steg: flödesavslutning, där videon i huvudsak kartläggs till en diskret och utforskbar enhet; pixelförökning, där hålen i "skadade" videor fylls i av dubbelriktade pixlar; och innehåll hallucination (pixel "uppfinning" som är bekant för de flesta av oss från deepfakes och text-till-bild ramar som DALL-E-serien) där det uppskattade "saknade" innehållet uppfinns och infogas i filmen.

Den centrala innovationen av E²FGVI ska kombinera dessa tre steg till ett heltäckande system, vilket eliminerar behovet av att utföra manuella operationer på innehållet eller processen.

Tidningen konstaterar att behovet av manuell intervention kräver att äldre processer inte drar fördel av en GPU, vilket gör dem ganska tidskrävande. Från tidningen*:

'Tar DFVI som ett exempel, slutföra en video med storleken 432 × 240 från DAVIS, som innehåller cirka 70 bildrutor, behöver cirka 4 minuter, vilket är oacceptabelt i de flesta verkliga applikationer. Förutom de ovannämnda nackdelarna, ignorerar endast användningen av ett förutbildat bildinmålningsnätverk i hallucinationsstadiet innehållsrelationerna mellan temporära grannar, vilket leder till inkonsekvent genererat innehåll i videor.'

Genom att förena de tre stadierna av videomålning kan E²FGVI kan ersätta det andra steget, pixelförökning, med funktionsutbredning. I de mer segmenterade processerna i tidigare arbeten är funktionerna inte så omfattande, eftersom varje steg är relativt hermetiskt och arbetsflödet endast halvautomatiskt.

Dessutom har forskarna tagit fram en temporal fokal transformator för innehållshallucinationsstadiet, som inte bara tar hänsyn till de direkta grannarna till pixlar i den aktuella bildrutan (dvs vad som händer i den delen av bildrutan i föregående eller nästa bild), utan även de avlägsna grannarna som är många bildrutor bort, och kommer ändå att påverka den sammanhängande effekten av alla operationer som utförs på videon som helhet.

Arkitektur av E2FGVI.

Den nya funktionsbaserade centrala delen av arbetsflödet kan dra fördel av fler funktionsnivåprocesser och inlärbara samplingsförskjutningar, medan projektets nya fokaltransformator, enligt författarna, utökar storleken på fokalfönster "från 2D till 3D" .

Tester och data

För att testa E²FGVI, forskarna utvärderade systemet mot två populära videoobjektsegmenteringsdataset: YouTube-VOSoch DAVIS. YouTube-VOS har 3741 träningsvideoklipp, 474 valideringsklipp och 508 testklipp, medan DAVIS har 60 träningsvideoklipp och 90 testklipp.

E²FGVI tränades på YouTube-VOS och utvärderades på båda datamängderna. Under träningen genererades objektmasker (de gröna områdena i bilderna ovan och den inbäddade videon nedan) för att simulera färdigställande av video.

För mätvärden använde forskarna Peak signal-to-noise ratio (PSNR), Strukturell likhet (SSIM), Video-based Fréchet Inception Distance (VFID) och Flow Warping Error – det senare för att mäta tidsstabilitet i den påverkade videon.

De tidigare arkitekturerna mot vilka systemet testades var VINet, DFVI, LGTSM, CAP, FGVC, STTNoch FuseFormer.

Från avsnittet om kvantitativa resultat i tidningen. Upp- och nedpilar indikerar att högre respektive lägre siffror är bättre. E2FGVI uppnår de bästa poängen över hela linjen. Metoderna utvärderas enligt FuseFormer, även om DFVI, VINet och FGVC inte är end-to-end-system, vilket gör det omöjligt att uppskatta deras FLOP.

Förutom att uppnå de bästa poängen mot alla konkurrerande system, genomförde forskarna en kvalitativ användarstudie, där videor omvandlade med fem representativa metoder visades individuellt för tjugo frivilliga, som ombads att betygsätta dem när det gäller visuell kvalitet.

Den vertikala axeln representerar andelen deltagare som föredrog E2FGVI-utgången när det gäller visuell kvalitet.

Den vertikala axeln representerar andelen deltagare som föredrog E²FGVI-utgång när det gäller visuell kvalitet.

Författarna noterar att trots den enhälliga preferensen för deras metod, återspeglar inte ett av resultaten, FGVC, de kvantitativa resultaten, och de föreslår att detta indikerar att E²FGVI kan, speciellt, generera "mer visuellt behagliga resultat".

När det gäller effektivitet noterar författarna att deras system kraftigt minskar flyttalsoperationer per sekund (FLOPs) och slutledningstid på en enda Titan GPU på DAVIS-datauppsättningen, och observerar att resultaten visar E²FGVI kör x15 snabbare än flödesbaserade metoder.

De kommenterar:

'[E²FGVI] har de lägsta FLOP:arna i motsats till alla andra metoder. Detta indikerar att den föreslagna metoden är mycket effektiv för videomålning.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*Min konvertering av författares inline-citat till hyperlänkar.

Första gången publicerad 19 maj 2022.