Artificial Intelligence

Objecten efficiënter uit video verwijderen met machine learning

Bijgewerkt on 9 december 2022

Nieuw onderzoek uit China rapporteert state-of-the-art resultaten - evenals een indrukwekkende verbetering in efficiëntie - voor een nieuw video-inpainting-systeem dat handig objecten uit beeldmateriaal kan verwijderen.

Het harnas van een deltavlieger is geverfd volgens de nieuwe procedure. Zie de bronvideo (ingesloten onderaan dit artikel) voor een betere resolutie en meer voorbeelden. Bron: https://www.youtube.com/watch?v=N–qC3T2wc4

De techniek, genaamd End-to-End framework voor Flow-Guided video Inpainting (E²FGVI), kan ook watermerken en verschillende andere soorten occlusie van video-inhoud verwijderen.

E2FGVI berekent voorspellingen voor inhoud die achter occlusies ligt, waardoor zelfs opmerkelijke en hardnekkige watermerken kunnen worden verwijderd. Bron: https://github.com/MCG-NKU/E2FGVI

E2FGVI berekent voorspellingen voor inhoud die achter occlusies ligt, waardoor zelfs opmerkelijke en anderszins hardnekkige watermerken kunnen worden verwijderd. Bron: https://github.com/MCG-NKU/E2FGVI

Bekijk de video aan het einde van het artikel om meer voorbeelden in een betere resolutie te zien.

Hoewel het model in het gepubliceerde artikel is getraind op video's van 432px x 240px (meestal lage invoerformaten, beperkt door beschikbare GPU-ruimte vs. optimale batchgroottes en andere factoren), hebben de auteurs sindsdien vrijgegeven E²FGVI-hoofdkwartier, die video's met een willekeurige resolutie aankan.

De code voor de huidige versie is Beschikbaar op GitHub, terwijl de HQ-versie, die afgelopen zondag is uitgebracht, kan worden gedownload van Google Drive en Baidu-schijf.

Het kind blijft in beeld.

E²FGVI kan 432×240 video verwerken met 0.12 seconden per frame op een Titan XP GPU (12GB VRAM), en de auteurs melden dat het systeem vijftien keer sneller werkt dan eerdere state-of-the-art methodes gebaseerd op optische stroming.

Een tennisser maakt een onverwachte exit.

Getest op standaard datasets voor deze subsector van beeldsyntheseonderzoek, presteerde de nieuwe methode beter dan rivalen in zowel kwalitatieve als kwantitatieve evaluatierondes.

Tests tegen eerdere benaderingen. Bron: https://arxiv.org/pdf/2204.02663.pdf

De papier is getiteld Op weg naar een end-to-end raamwerk voor Flow-Guided Video Inpainting, en is een samenwerking tussen vier onderzoekers van Nankai University, samen met een onderzoeker van Hisilicon Technologies.

Wat ontbreekt er op deze foto

Naast de voor de hand liggende toepassingen voor visuele effecten, zal video-inpainting van hoge kwaliteit een kernbepalend kenmerk worden van nieuwe op AI gebaseerde beeldsynthese en beeldveranderende technologieën.

Dit is met name het geval voor lichaamsveranderende mode-applicaties en andere frameworks probeer af te slanken of anderszins scènes in afbeeldingen en video wijzigen. In dergelijke gevallen is het nodig om de extra achtergrond die door de synthese wordt blootgelegd overtuigend 'in te vullen'.

Uit een recent artikel blijkt dat een algoritme voor het 'hervormen' van het lichaam de taak heeft om de nieuw onthulde achtergrond in te kleuren wanneer de grootte van een onderwerp wordt gewijzigd. Hier wordt dat tekort weergegeven door de rode omtrek die de (echte leven, zie afbeelding links) voller persoon gebruikte. Gebaseerd op bronmateriaal van https://arxiv.org/pdf/2203.10496.pdf

Coherente optische stroom

Optische stroom (OF) is een kerntechnologie geworden bij de ontwikkeling van het verwijderen van video-objecten. Zoals een atlas, OF biedt een eenmalige kaart van een temporele reeks. Vaak gebruikt om de snelheid te meten bij computervisie-initiatieven, kan OF ook temporeel consistente in-painting mogelijk maken, waarbij de totale som van de taak in één keer kan worden overwogen, in plaats van de 'per-frame'-aandacht in Disney-stijl, wat onvermijdelijk leidt tot tot tijdelijke discontinuïteit.

Methoden voor video-inpainting waren tot nu toe gericht op een proces in drie fasen: stroom voltooiing, waar de video in wezen in kaart wordt gebracht in een discrete en verkenbare entiteit; pixelvoortplanting, waar de gaten in 'corrupte' video's worden opgevuld door bidirectioneel voortplantende pixels; En inhoud hallucinatie (pixel 'uitvinding' die de meesten van ons bekend is van deepfakes en tekst-naar-beeld-frameworks zoals de DALL-E-serie) waarbij de geschatte 'ontbrekende' inhoud wordt uitgevonden en in de beelden wordt ingevoegd.

De centrale innovatie van E²FGVI wil deze drie fasen combineren tot een end-to-end systeem, waardoor handmatige bewerkingen op de inhoud of het proces overbodig worden.

De paper merkt op dat de noodzaak van handmatige interventie vereist dat oudere processen geen gebruik maken van een GPU, waardoor ze behoorlijk tijdrovend zijn. Uit de krant*:

'Nemen DFVI als voorbeeld het voltooien van een video met een grootte van 432 × 240 uit DAVIS, dat ongeveer 70 frames bevat, heeft ongeveer 4 minuten nodig, wat onaanvaardbaar is in de meeste real-world toepassingen. Trouwens, behalve de bovengenoemde nadelen, negeert alleen het gebruik van een vooraf getraind netwerk voor beeldinschildering in de fase van inhoudshallucinatie de inhoudsrelaties tussen tijdelijke buren, wat leidt tot inconsistent gegenereerde inhoud in video's.'

Door de drie stadia van video-inpainting te verenigen, E²FGVI kan de tweede fase, pixelpropagatie, vervangen door featurepropagatie. In de meer gesegmenteerde processen van eerdere werken zijn functies niet zo uitgebreid beschikbaar, omdat elke fase relatief hermetisch is en de workflow slechts halfautomatisch.

Daarnaast hebben de onderzoekers een tijdelijke focale transformator voor de fase van inhoudshallucinatie, die niet alleen rekening houdt met de directe buren van pixels in het huidige frame (dwz wat er gebeurt in dat deel van het frame in de vorige of volgende afbeelding), maar ook met de verre buren die veel frames verwijderd zijn, en toch zal het samenhangende effect van alle bewerkingen die op de video als geheel worden uitgevoerd, worden beïnvloed.

Architectuur van E2FGVI.

Het nieuwe, op functies gebaseerde centrale gedeelte van de workflow kan profiteren van processen op meer functieniveau en leerbare bemonsteringsoffsets, terwijl de nieuwe focale transformator van het project, volgens de auteurs, de grootte van focale vensters uitbreidt 'van 2D naar 3D' .

Testen en gegevens

E testen²FGVI, evalueerden de onderzoekers het systeem aan de hand van twee populaire datasets voor het segmenteren van video-objecten: YouTube-VOS en DAVIS. YouTube-VOS bevat 3741 trainingsvideoclips, 474 validatieclips en 508 testclips, terwijl DAVIS 60 trainingsvideoclips en 90 testclips bevat.

E²FGVI is getraind op YouTube-VOS en geëvalueerd op beide datasets. Tijdens de training werden objectmaskers (de groene gebieden in de afbeeldingen hierboven en de ingesloten video hieronder) gegenereerd om videovoltooiing te simuleren.

Voor statistieken gebruikten de onderzoekers Peak signal-to-noise ratio (PSNR), Structural similarity (SSIM), Video-based Fréchet Inception Distance (VFID) en Flow Warping Error - de laatste om temporele stabiliteit in de betreffende video te meten.

De eerdere architecturen waartegen het systeem werd getest waren VINet, DFVI, LGTSM, POSTCODE, FGVC, STTN en ZekeringVoormalig.

Uit de sectie met kwantitatieve resultaten van het artikel. Pijlen omhoog en omlaag geven aan dat respectievelijk hogere of lagere getallen beter zijn. E2FGVI behaalt over de hele linie de beste scores. De methoden worden geëvalueerd volgens FuseFormer, hoewel DFVI, VINet en FGVC geen end-to-end-systemen zijn, waardoor het onmogelijk is hun FLOP's in te schatten.

Naast het behalen van de beste scores tegen alle concurrerende systemen, voerden de onderzoekers een kwalitatieve gebruikersstudie uit, waarin video's getransformeerd met vijf representatieve methoden individueel werden getoond aan twintig vrijwilligers, die werden gevraagd om ze te beoordelen op visuele kwaliteit.

De verticale as geeft het percentage deelnemers weer dat de voorkeur gaf aan de E2FGVI-uitvoer in termen van visuele kwaliteit.

De verticale as geeft het percentage deelnemers weer dat de voorkeur gaf aan de E²FGVI-uitvoer in termen van visuele kwaliteit.

De auteurs merken op dat ondanks de unanieme voorkeur voor hun methode, een van de resultaten, FGVC, niet de kwantitatieve resultaten weergeeft, en ze suggereren dat dit erop wijst dat E²FGVI zou, misleidend, 'visueel aangenamere resultaten' kunnen genereren.

In termen van efficiëntie merken de auteurs op dat hun systeem drijvende-kommabewerkingen per seconde (FLOP's) en inferentietijd op een enkele Titan GPU op de DAVIS-dataset aanzienlijk vermindert, en merken op dat de resultaten laten zien E²FGVI werkt x15 sneller dan op flow gebaseerde methoden.

Ze geven commentaar:

'[E²FGVI] heeft de laagste FLOP's in tegenstelling tot alle andere methoden. Dit geeft aan dat de voorgestelde methode zeer efficiënt is voor video-inpainting.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*Mijn conversie van inline citaten van auteurs naar hyperlinks.

Voor het eerst gepubliceerd op 19 mei 2022.

Gerelateerde onderwerpen:beeld synthese onderzoek transformator video-

'Professionele' schadelijke online beoordelingen detecteren met machine learning

Mis het niet

AI-hardwaretechnologie imiteert veranderingen in neurale netwerktopologie

Martin Anderson

Schrijver over machine learning, kunstmatige intelligentie en big data.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai

Verenig.AI

Objecten efficiënter uit video verwijderen met machine learning

Artificial Intelligence