Kënschtlech Intelligenz
Ewechzehuelen Objekter aus Video méi effizient Mat Machine Learning
Nei Fuerschung aus China bericht modernste Resultater - souwéi eng beandrockend Verbesserung vun der Effizienz - fir en neie Video-Inpainting-System, deen d'Objete vu Footage fäeg ka läschen.
D'Technik, genannt End-to-End Kader fir Flow-Guided Video Inpainting (E2FGVI), ass och fäeg Waasserzeechen a verschidden aner Aarte vu Okklusioun aus Videoinhalt ze läschen.
Fir méi Beispiller a besserer Opléisung ze gesinn, kuckt de Video um Enn vum Artikel agebonnen.
Och wann de Modell am publizéierten Pabeier op 432px x 240px Videoen trainéiert gouf (allgemeng niddereg Inputgréissten, limitéiert duerch verfügbare GPU Plaz vs optimal Batchgréissten an aner Faktoren), hunn d'Auteuren zënter verëffentlecht E2FGVI-HQ, déi Videoe mat enger arbiträrer Resolutioun handhaben kann.
De Code fir déi aktuell Versioun ass sinn bei GitHub, während der HQ Versioun, verëffentlecht leschte Sonndeg, kann erofgeluede ginn Google Drive an Baidu Disk.
E2FGVI kann 432 × 240 Video bei 0.12 Sekonnen pro Frame op engem Titan XP GPU (12GB VRAM) veraarbechten, an d'Auteuren berichten datt de System fofzéng Mol méi séier funktionnéiert wéi fréier modernste Methoden baséiert op opteschen Flux.
Getest op Standard Datesätz fir dësen Ënnersektor vun der Bildsynthesefuerschung, konnt déi nei Method Rivalen a béid qualitativen a quantitativen Evaluatiounsronnen besser maachen.
d' Pabeier heescht Richtung En Enn-zu-Enn Framework fir Flow-Guided Video Inpainting, an ass eng Zesummenaarbecht tëscht véier Fuerscher vun der Nankai Universitéit, zesumme mat engem Fuerscher vun Hisilicon Technologies.
Wat fehlt an dësem Bild
Nieft sengen offensichtlechen Uwendungen fir visuell Effekter, ass héichqualitativ Videoinpainting agestallt fir eng Kär definéierend Feature vun neier AI-baséierter Bildsynthese a Bildverännerungstechnologien ze ginn.
Dëst ass besonnesch de Fall fir Kierperverännerend Moudeapplikatiounen, an aner Kaderen déi sichen ze 'schlanken' oder soss änneren Szenen a Biller a Video. An esou Fäll ass et néideg den extra Hannergrond, deen duerch d'Synthese ausgesat ass, iwwerzeegend 'auszefëllen'.
Kohärent Optical Flow
Optesch Flow (OF) ass eng Kärtechnologie an der Entwécklung vu Videoobjektentfernung ginn. Wéi an Atlas, OF gëtt eng One-Shot Kaart vun enger temporärer Sequenz. Oft benotzt fir Geschwindegkeet an Computervisiounsinitiativen ze moossen, OF kann och temporär konsequent In-Painting erméiglechen, wou d'aggregéiert Zomm vun der Aufgab an engem eenzege Pass berécksiichtegt ka ginn, anstatt Disney-Stil 'per-Frame' Opmierksamkeet, wat zwangsleefeg féiert zu temporärer Diskontinuitéit.
Video Inpainting Methoden bis elo sinn op en Dräi-Etapp Prozess zentréiert: Flux Ofschloss, wou de Video wesentlech an eng diskret an exploréierbar Entitéit ausgezeechent gëtt; Pixel Verbreedung, wou d'Lächer an 'korruptéierten' Videoen duerch bidirektional propagéierend Pixelen ausgefëllt ginn; an Inhalt Halluzinatioun (Pixel 'Erfindung' déi fir déi meescht vun eis aus Deepfakes an Text-zu-Bild Kaderen wéi d'DALL-E Serie vertraut ass) wou de geschätzte 'fehlend' Inhalt erfonnt gëtt an an de Footage agesat gëtt.
Déi zentral Innovatioun vum E2FGVI ass dës dräi Etappen an en End-to-End System ze kombinéieren, d'Bedierfnes ze vermeiden fir manuell Operatiounen op den Inhalt oder de Prozess auszeféieren.
De Pabeier beobachtet datt d'Bedierfnes fir manuell Interventioun erfuerdert datt eeler Prozesser net vun enger GPU profitéieren, wat se zimlech Zäitopwendeg mécht. Aus dem Pabeier*:
'huelen DFVI als Beispill, fäerdeg ee Video mat der Gréisst vun 432 × 240 aus DAVIS, déi ongeféier 70 Rummen enthält, brauch ongeféier 4 Minutten, wat an de meeschte real-Welt Uwendungen inakzeptabel ass. Donieft, ausser den uewe genannten Nodeeler, nëmmen e pretrained Bild-inpainting-Netzwierk an der Inhaltshalluzinatiounsphase ignoréiert d'Inhaltsverhältnisser iwwer temporär Noperen, wat zu inkonsistente generéierten Inhalter a Videoen féiert.'
Andeems Dir déi dräi Etappe vu Videoinpainting verbënnt, huet E2FGVI ass fäeg déi zweet Stuf ze ersetzen, Pixel Verbreedung, mat Feature Verbreedung. An de méi segmentéierte Prozesser vu fréiere Wierker sinn d'Features net sou extensiv verfügbar, well all Etapp relativ hermetesch ass, an de Workflow nëmmen semi-automatiséiert.
Zousätzlech hunn d'Fuerscher eng temporal Brennwäit Transformator fir d'Inhaltshalluzinatiounsphase, déi net nëmmen déi direkt Nopere vu Pixelen am aktuellen Frame berücksichtegt (dh wat an deem Deel vum Frame am virdrun oder nächste Bild geschitt), mä och déi wäit Noperen, déi vill Frames ewech sinn, an beaflosst awer de kohäsive Effekt vun all Operatiounen, déi am Video als Ganzt gemaach ginn.
Déi nei Feature-baséiert Zentral Sektioun vum Workflow ass fäeg vu méi Feature-Niveau Prozesser a léierbar Sampling Offsets ze profitéieren, wärend de Projet säi neie Brennwäit Transformator, laut den Autoren, d'Gréisst vun de Brennwäit "vun 2D op 3D" verlängert. .
Tester an Daten
Testen E2FGVI, d'Fuerscher hunn de System géint zwee populär Videoobjekt Segmentatiounsdatesets evaluéiert: YouTube-VOS, an DAVIS. YouTube-VOS Fonctiounen 3741 Training Video Clips, 474 Validatioun Clips, an 508 Test Clips, iwwerdeems DAVIS Fonctiounen 60 Training Video Clips, an 90 Test Clips.
E2FGVI gouf op YouTube-VOS trainéiert an op béide Datesätz evaluéiert. Wärend der Ausbildung goufen Objektmasken (déi gréng Flächen an de Biller hei uewen, an den embedded Video hei ënnen) generéiert fir d'Videoofschloss ze simuléieren.
Fir Metriken hunn d'Fuerscher Peak Signal-to-Noise Verhältnis (PSNR), Strukturell Ähnlechkeet (SSIM), Video-baséiert Fréchet Inception Distance (VFID), a Flow Warping Error ugeholl - déi lescht fir temporär Stabilitéit am betraffene Video ze moossen.
Déi fréier Architekturen géint déi de System getest gouf waren VINet, DFVI, LGTS, PAC, FGVC, STTN, an FuseFormer.
Zousätzlech fir déi bescht Partituren géint all konkurréiere Systemer z'erreechen, hunn d'Fuerscher eng qualitativ User-Studie gemaach, an där Videoe transforméiert mat fënnef representativ Methoden individuell un zwanzeg Fräiwëlleger gewise goufen, déi gefrot goufen se a punkto visuell Qualitéit ze bewäerten.
D'Auteuren bemierken datt trotz der eestëmmeg Präferenz fir hir Method, ee vun de Resultater, FGVC, déi quantitativ Resultater net reflektéiert, a si proposéiere datt dëst beweist datt E2FGVI kéint, speziell, 'méi visuell agreabel Resultater' generéieren.
Wat d'Effizienz ugeet, bemierken d'Auteuren datt hire System d'Schwemmpunktoperatioune pro Sekonn (FLOPs) an d'Inferenzzäit op enger eenzeger Titan GPU op der DAVIS Dataset staark reduzéiert, an observéieren datt d'Resultater E weisen.2FGVI Lafen x15 méi séier wéi Flux-baséiert Methoden.
Si kommentéieren:
'[E2FGVI] hält déi ënnescht FLOPs am Géigesaz zu all anere Methoden. Dëst weist datt déi proposéiert Method héich effizient ass fir Videoinpainting.'
httpv://www.youtube.com/watch?v=N–qC3T2wc4
* Meng Konversioun vun den Inline Zitater vun den Auteuren op Hyperlinks.
Éischt publizéiert 19. Mee 2022.