Stumm Objekter aus Video méi effizient mat Machine Learning erofhuelen - Unite.AI
Connect mat eis

Kënschtlech Intelligenz

Ewechzehuelen Objekter aus Video méi effizient Mat Machine Learning

mm
aktualiséiert on

Nei Fuerschung aus China bericht modernste Resultater - souwéi eng beandrockend Verbesserung vun der Effizienz - fir en neie Video-Inpainting-System, deen d'Objete vu Footage fäeg ka läschen.

D'Garness vun engem Hangglider gëtt duerch déi nei Prozedur ausgemoolt. Kuckt de Quellvideo (ënne vun dësem Artikel agebaut) fir besser Opléisung a méi Beispiller. Source: https://www.youtube.com/watch?v=N--qC3T2wc4

D'Garness vun engem Hangglider gëtt duerch déi nei Prozedur ausgemoolt. Kuckt de Quellvideo (ënne vun dësem Artikel agebaut) fir besser Opléisung a méi Beispiller. Quell: https://www.youtube.com/watch?v=N–qC3T2wc4

D'Technik, genannt End-to-End Kader fir Flow-Guided Video Inpainting (E2FGVI), ass och fäeg Waasserzeechen a verschidden aner Aarte vu Okklusioun aus Videoinhalt ze läschen.

E2FGVI berechent Prognosen fir Inhalt deen hannert Okklusiounen läit, wat d'Ewechhuele vu souguer bemierkenswäerten an intractable Waasserzeechen erlaabt. Source: https://github.com/MCG-NKU/E2FGVI

E2FGVI berechent Prognosen fir Inhalter deen hannert Okklusiounen läit, wat d'Ewechhuele vu souguer bemierkenswäerten an soss intractable Waasserzeechen erlaabt. Source: https://github.com/MCG-NKU/E2FGVI

Fir méi Beispiller a besserer Opléisung ze gesinn, kuckt de Video um Enn vum Artikel agebonnen.

Och wann de Modell am publizéierten Pabeier op 432px x 240px Videoen trainéiert gouf (allgemeng niddereg Inputgréissten, limitéiert duerch verfügbare GPU Plaz vs optimal Batchgréissten an aner Faktoren), hunn d'Auteuren zënter verëffentlecht E2FGVI-HQ, déi Videoe mat enger arbiträrer Resolutioun handhaben kann.

De Code fir déi aktuell Versioun ass sinn bei GitHub, während der HQ Versioun, verëffentlecht leschte Sonndeg, kann erofgeluede ginn Google Drive an Baidu Disk.

D'Kand bleift am Bild.

D'Kand bleift am Bild.

E2FGVI kann 432 × 240 Video bei 0.12 Sekonnen pro Frame op engem Titan XP GPU (12GB VRAM) veraarbechten, an d'Auteuren berichten datt de System fofzéng Mol méi séier funktionnéiert wéi fréier modernste Methoden baséiert op opteschen Flux.

En Tennisspiller mécht eng onerwaart Sortie.

En Tennisspiller mécht eng onerwaart Sortie.

Getest op Standard Datesätz fir dësen Ënnersektor vun der Bildsynthesefuerschung, konnt déi nei Method Rivalen a béid qualitativen a quantitativen Evaluatiounsronnen besser maachen.

Tester géint virdrun Approche. Source: https://arxiv.org/pdf/2204.02663.pdf

Tester géint virdrun Approche. Source: https://arxiv.org/pdf/2204.02663.pdf

d' Pabeier heescht Richtung En Enn-zu-Enn Framework fir Flow-Guided Video Inpainting, an ass eng Zesummenaarbecht tëscht véier Fuerscher vun der Nankai Universitéit, zesumme mat engem Fuerscher vun Hisilicon Technologies.

Wat fehlt an dësem Bild

Nieft sengen offensichtlechen Uwendungen fir visuell Effekter, ass héichqualitativ Videoinpainting agestallt fir eng Kär definéierend Feature vun neier AI-baséierter Bildsynthese a Bildverännerungstechnologien ze ginn.

Dëst ass besonnesch de Fall fir Kierperverännerend Moudeapplikatiounen, an aner Kaderen déi sichen ze 'schlanken' oder soss änneren Szenen a Biller a Video. An esou Fäll ass et néideg den extra Hannergrond, deen duerch d'Synthese ausgesat ass, iwwerzeegend 'auszefëllen'.

Aus engem rezenten Pabeier ass e Kierper "reshaping" Algorithmus opgefuerdert den nei opgedeckten Hannergrond ze malen wann e Sujet geännert gëtt. Hei ass dee Mangel duerch de roude Kontur vertrueden, deen déi (echte Liewen, kuckt Bild lénks) méi vollstänneg Persoun benotzt fir ze besetzen. Baséiert op Quellmaterial vun https://arxiv.org/pdf/2203.10496.pdf

Aus engem rezenten Pabeier ass e Kierper "reshaping" Algorithmus opgefuerdert den nei opgedeckten Hannergrond ze malen wann e Sujet geännert gëtt. Hei ass dee Mangel duerch de roude Kontur vertrueden, deen déi (echte Liewen, kuckt Bild lénks) méi vollstänneg Persoun benotzt fir ze besetzen. Baséiert op Quellmaterial vun https://arxiv.org/pdf/2203.10496.pdf

Kohärent Optical Flow

Optesch Flow (OF) ass eng Kärtechnologie an der Entwécklung vu Videoobjektentfernung ginn. Wéi an Atlas, OF gëtt eng One-Shot Kaart vun enger temporärer Sequenz. Oft benotzt fir Geschwindegkeet an Computervisiounsinitiativen ze moossen, OF kann och temporär konsequent In-Painting erméiglechen, wou d'aggregéiert Zomm vun der Aufgab an engem eenzege Pass berécksiichtegt ka ginn, anstatt Disney-Stil 'per-Frame' Opmierksamkeet, wat zwangsleefeg féiert zu temporärer Diskontinuitéit.

Video Inpainting Methoden bis elo sinn op en Dräi-Etapp Prozess zentréiert: Flux Ofschloss, wou de Video wesentlech an eng diskret an exploréierbar Entitéit ausgezeechent gëtt; Pixel Verbreedung, wou d'Lächer an 'korruptéierten' Videoen duerch bidirektional propagéierend Pixelen ausgefëllt ginn; an Inhalt Halluzinatioun (Pixel 'Erfindung' déi fir déi meescht vun eis aus Deepfakes an Text-zu-Bild Kaderen wéi d'DALL-E Serie vertraut ass) wou de geschätzte 'fehlend' Inhalt erfonnt gëtt an an de Footage agesat gëtt.

Déi zentral Innovatioun vum E2FGVI ass dës dräi Etappen an en End-to-End System ze kombinéieren, d'Bedierfnes ze vermeiden fir manuell Operatiounen op den Inhalt oder de Prozess auszeféieren.

De Pabeier beobachtet datt d'Bedierfnes fir manuell Interventioun erfuerdert datt eeler Prozesser net vun enger GPU profitéieren, wat se zimlech Zäitopwendeg mécht. Aus dem Pabeier*:

'huelen DFVI als Beispill, fäerdeg ee Video mat der Gréisst vun 432 × 240 aus DAVIS, déi ongeféier 70 Rummen enthält, brauch ongeféier 4 Minutten, wat an de meeschte real-Welt Uwendungen inakzeptabel ass. Donieft, ausser den uewe genannten Nodeeler, nëmmen e pretrained Bild-inpainting-Netzwierk an der Inhaltshalluzinatiounsphase ignoréiert d'Inhaltsverhältnisser iwwer temporär Noperen, wat zu inkonsistente generéierten Inhalter a Videoen féiert.'

Andeems Dir déi dräi Etappe vu Videoinpainting verbënnt, huet E2FGVI ass fäeg déi zweet Stuf ze ersetzen, Pixel Verbreedung, mat Feature Verbreedung. An de méi segmentéierte Prozesser vu fréiere Wierker sinn d'Features net sou extensiv verfügbar, well all Etapp relativ hermetesch ass, an de Workflow nëmmen semi-automatiséiert.

Zousätzlech hunn d'Fuerscher eng temporal Brennwäit Transformator fir d'Inhaltshalluzinatiounsphase, déi net nëmmen déi direkt Nopere vu Pixelen am aktuellen Frame berücksichtegt (dh wat an deem Deel vum Frame am virdrun oder nächste Bild geschitt), mä och déi wäit Noperen, déi vill Frames ewech sinn, an beaflosst awer de kohäsive Effekt vun all Operatiounen, déi am Video als Ganzt gemaach ginn.

Architektur vun E2FGVI.

Architektur vun E2FGVI.

Déi nei Feature-baséiert Zentral Sektioun vum Workflow ass fäeg vu méi Feature-Niveau Prozesser a léierbar Sampling Offsets ze profitéieren, wärend de Projet säi neie Brennwäit Transformator, laut den Autoren, d'Gréisst vun de Brennwäit "vun 2D op 3D" verlängert. .

Tester an Daten

Testen E2FGVI, d'Fuerscher hunn de System géint zwee populär Videoobjekt Segmentatiounsdatesets evaluéiert: YouTube-VOS, an DAVIS. YouTube-VOS Fonctiounen 3741 Training Video Clips, 474 Validatioun Clips, an 508 Test Clips, iwwerdeems DAVIS Fonctiounen 60 Training Video Clips, an 90 Test Clips.

E2FGVI gouf op YouTube-VOS trainéiert an op béide Datesätz evaluéiert. Wärend der Ausbildung goufen Objektmasken (déi gréng Flächen an de Biller hei uewen, an den embedded Video hei ënnen) generéiert fir d'Videoofschloss ze simuléieren.

Fir Metriken hunn d'Fuerscher Peak Signal-to-Noise Verhältnis (PSNR), Strukturell Ähnlechkeet (SSIM), Video-baséiert Fréchet Inception Distance (VFID), a Flow Warping Error ugeholl - déi lescht fir temporär Stabilitéit am betraffene Video ze moossen.

Déi fréier Architekturen géint déi de System getest gouf waren VINet, DFVI, LGTS, PAC, FGVC, STTN, an FuseFormer.

Vun der quantitativer Resultater Sektioun vum Pabeier. Up an Down Pfeile weisen datt méi héich oder manner Zuelen besser sinn, respektiv. E2FGVI erreecht déi bescht Partituren iwwerall. D'Methoden ginn no FuseFormer bewäert, obwuel DFVI, VINet an FGVC keng End-to-End Systemer sinn, wat et onméiglech mécht hir FLOPs ze schätzen.

Vun der quantitativer Resultater Sektioun vum Pabeier. Up an Down Pfeile weisen datt méi héich oder manner Zuelen besser sinn, respektiv. E2FGVI erreecht déi bescht Partituren iwwerall. D'Methoden ginn no FuseFormer bewäert, obwuel DFVI, VINet an FGVC keng End-to-End Systemer sinn, wat et onméiglech mécht hir FLOPs ze schätzen.

Zousätzlech fir déi bescht Partituren géint all konkurréiere Systemer z'erreechen, hunn d'Fuerscher eng qualitativ User-Studie gemaach, an där Videoe transforméiert mat fënnef representativ Methoden individuell un zwanzeg Fräiwëlleger gewise goufen, déi gefrot goufen se a punkto visuell Qualitéit ze bewäerten.

Déi vertikal Achs stellt de Prozentsaz vun de Participanten duer, déi den E2FGVI Output a punkto visueller Qualitéit virzéien.

Déi vertikal Achs stellt de Prozentsaz vun de Participanten duer, déi den E bevorzugt hunn2FGVI Output wat visuell Qualitéit ugeet.

D'Auteuren bemierken datt trotz der eestëmmeg Präferenz fir hir Method, ee vun de Resultater, FGVC, déi quantitativ Resultater net reflektéiert, a si proposéiere datt dëst beweist datt E2FGVI kéint, speziell, 'méi visuell agreabel Resultater' generéieren.

Wat d'Effizienz ugeet, bemierken d'Auteuren datt hire System d'Schwemmpunktoperatioune pro Sekonn (FLOPs) an d'Inferenzzäit op enger eenzeger Titan GPU op der DAVIS Dataset staark reduzéiert, an observéieren datt d'Resultater E weisen.2FGVI Lafen x15 méi séier wéi Flux-baséiert Methoden.

Si kommentéieren:

'[E2FGVI] hält déi ënnescht FLOPs am Géigesaz zu all anere Methoden. Dëst weist datt déi proposéiert Method héich effizient ass fir Videoinpainting.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

* Meng Konversioun vun den Inline Zitater vun den Auteuren op Hyperlinks.

Éischt publizéiert 19. Mee 2022.