Artificial Intelligence

Efektywne usuwanie obiektów z wideo dzięki uczeniu maszynowemu

Zaktualizowano on 9 grudnia 2022 r.

Nowe badania przeprowadzone w Chinach donoszą o najnowocześniejszych wynikach – a także imponującej poprawie wydajności – nowego systemu malowania wideo, który potrafi zręcznie usuwać obiekty z materiału filmowego.

Nowa procedura maluje uprząż lotni. Zobacz źródłowy film wideo (zamieszczony na dole tego artykułu), aby uzyskać lepszą rozdzielczość i więcej przykładów. Źródło: https://www.youtube.com/watch?v=N–qC3T2wc4

Technika zwana kompleksową strukturą malowania wideo sterowanego przepływem (E²FGVI), jest również w stanie usuwać znaki wodne i różne inne rodzaje okluzji z treści wideo.

E2FGVI oblicza prognozy dotyczące treści znajdujących się za okluzjami, umożliwiając usunięcie nawet zauważalnych i trudnych do usunięcia znaków wodnych. Źródło: https://github.com/MCG-NKU/E2FGVI

Aby zobaczyć więcej przykładów w lepszej rozdzielczości, obejrzyj wideo umieszczone na końcu artykułu.

Chociaż model przedstawiony w opublikowanym artykule został wytrenowany na filmach o wymiarach 432 x 240 pikseli (zwykle małe rozmiary wejściowe, ograniczone dostępną przestrzenią GPU w porównaniu z optymalnymi rozmiarami partii i innymi czynnikami), autorzy opublikowali od tego czasu E²Siedziba FGVI, który może obsługiwać filmy w dowolnej rozdzielczości.

Kod aktualnej wersji to dostępny w GitHubie, natomiast wersję HQ wydaną w ostatnią niedzielę można pobrać z Dysk Google i Dysk Baidu.

Dzieciak pozostaje na zdjęciu.

E²FGVI może przetwarzać wideo w rozdzielczości 432×240 z szybkością 0.12 sekundy na klatkę na procesorze graficznym Titan XP (12 GB VRAM), a autorzy podają, że system działa piętnaście razy szybciej niż wcześniejsze, najnowocześniejsze metody oparte na ruch optyczny.

Tenisista nieoczekiwanie odchodzi.

Nowa metoda, przetestowana na standardowych zbiorach danych dla tego podsektora badań nad syntezą obrazu, okazała się lepsza od konkurentów zarówno w rundach oceny jakościowej, jak i ilościowej.

Testy względem wcześniejszych podejść. Źródło: https://arxiv.org/pdf/2204.02663.pdf

Połączenia papier jest zatytułowany W stronę kompleksowej struktury malowania wideo sterowanego przepływemi jest efektem współpracy czterech badaczy z Uniwersytetu Nankai oraz badacza z Hisilicon Technologies.

Czego brakuje na tym obrazku

Oprócz oczywistych zastosowań w zakresie efektów wizualnych, wysokiej jakości malowanie wideo stanie się podstawową cechą nowych technologii syntezy obrazu i zmiany obrazu opartych na sztucznej inteligencji.

Dotyczy to szczególnie aplikacji mody zmieniających sylwetkę i innych struktur tego typu starać się „odchudzić” ani w inny sposób zmieniać scen w obrazach i filmach. W takich przypadkach konieczne jest przekonujące „wypełnienie” dodatkowego tła wyeksponowanego przez syntezę.

Z niedawnego artykułu wynika, że algorytm „przekształcania kształtu” ciała ma za zadanie odmalowanie nowo odsłoniętego tła podczas zmiany rozmiaru obiektu. Tutaj ten brak jest reprezentowany przez czerwony kontur, który zajmowała (w prawdziwym życiu, patrz zdjęcie po lewej) osoba o pełniejszych figurach. Na podstawie materiałów źródłowych z https://arxiv.org/pdf/2203.10496.pdf

Spójny przepływ optyczny

Przepływ optyczny (OF) stał się podstawową technologią w rozwoju usuwania obiektów wideo. jak atlasOF zapewnia jednorazową mapę sekwencji czasowej. Często używany do pomiaru prędkości w inicjatywach związanych z wizją komputerową, OF może również umożliwić spójne w czasie malowanie, w którym łączną sumę zadania można uwzględnić w jednym przejściu, zamiast uwagi „na klatkę” w stylu Disneya, co nieuchronnie prowadzi do chwilowej nieciągłości.

Dotychczasowe metody malowania wideo skupiały się na procesie trzyetapowym: zakończenie przepływu, gdzie wideo jest zasadniczo podzielone na odrębną i możliwą do eksploracji całość; propagacja pikseli, w którym dziury w „uszkodzonych” filmach są wypełniane dwukierunkowo propagującymi się pikselami; I halucynacja treściowa („wynalazek” pikseli znany większości z nas z deepfake’ów i platform przetwarzania tekstu na obraz, takich jak seria DALL-E), w ramach którego wymyślana jest szacunkowa „brakująca” treść i wstawiana do materiału filmowego.

Główną innowacją E²FGVI ma połączyć te trzy etapy w kompleksowy system, eliminując potrzebę ręcznego wykonywania operacji na treści lub procesie.

W artykule zauważono, że konieczność ręcznej interwencji wymaga, aby starsze procesy nie wykorzystywały procesora graficznego, co czyni je dość czasochłonnymi. Z gazety*:

'Nabierający DFVI przykładowo skompletowanie jednego filmu o rozmiarze 432×240 z DAVIS, który zawiera około 70 klatek, potrzebuje około 4 minut, co jest niedopuszczalne w większości rzeczywistych aplikacji. Poza tym, poza wyżej wymienionymi wadami, użycie wyłącznie wstępnie wyszkolonej sieci do malowania obrazu na etapie halucynacji treści ignoruje relacje między treściami pomiędzy sąsiadami czasowymi, co prowadzi do niespójności generowanej treści w filmach.

Łącząc trzy etapy malarstwa wideo, E²FGVI jest w stanie zastąpić drugi etap, propagację pikseli, propagacją cech. W bardziej segmentowanych procesach z poprzednich prac funkcje nie są tak szeroko dostępne, ponieważ każdy etap jest stosunkowo hermetyczny, a przepływ pracy jest jedynie półautomatyczny.

Dodatkowo badacze opracowali m.in transformator ogniskowy czasowy dla etapu halucynacji treści, który uwzględnia nie tylko bezpośrednich sąsiadów pikseli w bieżącej klatce (tj. to, co dzieje się w tej części klatki na poprzednim lub następnym obrazie), ale także odległych sąsiadów, oddalonych o wiele klatek, oraz będzie to miało jednak wpływ na spójny efekt wszelkich operacji wykonywanych na materiale wideo jako całości.

Architektura E2FGVI.

Nowa, centralna część przepływu pracy oparta na funkcjach umożliwia wykorzystanie większej liczby procesów na poziomie funkcji i możliwych do nauczenia się przesunięć próbkowania, podczas gdy nowatorski transformator ogniskowy zastosowany w projekcie, zdaniem autorów, zwiększa rozmiar okien ogniskowych „z 2D do 3D”. .

Testy i dane

Aby przetestować E²FGVI badacze ocenili system na podstawie dwóch popularnych zbiorów danych dotyczących segmentacji obiektów wideo: YouTube-VOS, DAVIS. YouTube-VOS zawiera 3741 szkoleniowych klipów wideo, 474 klipów weryfikacyjnych i 508 klipów testowych, natomiast DAVIS zawiera 60 szkoleniowych klipów wideo i 90 klipów testowych.

E²FGVI został przeszkolony w serwisie YouTube-VOS i poddany ocenie na podstawie obu zbiorów danych. Podczas szkolenia wygenerowano maski obiektów (zielone obszary na powyższych obrazach i osadzony film poniżej) w celu symulacji ukończenia wideo.

Do wskaźników badacze przyjęli szczytowy stosunek sygnału do szumu (PSNR), podobieństwo strukturalne (SSIM), odległość wejściową Frécheta w oparciu o wideo (VFID) i błąd zniekształcenia przepływu – ten ostatni do pomiaru stabilności czasowej w materiale wideo, którego dotyczy problem.

Wcześniejsze architektury, na podstawie których testowano system, to: VINet, DFVI, LGTSM, CAP, FGVC, STTN, BezpiecznikFormer.

Z części artykułu zawierającej wyniki ilościowe. Strzałki w górę i w dół wskazują, że odpowiednio wyższe lub niższe liczby są lepsze. E2FGVI osiąga najlepsze wyniki we wszystkich obszarach. Metody są oceniane według FuseFormer, chociaż DFVI, VINet i FGVC nie są systemami typu end-to-end, co uniemożliwia oszacowanie ich FLOP.

Oprócz uzyskania najlepszych wyników w porównaniu ze wszystkimi konkurencyjnymi systemami, badacze przeprowadzili jakościowe badanie użytkowników, podczas którego filmy przetworzone pięcioma reprezentatywnymi metodami pokazano indywidualnie dwudziestu ochotnikom, których poproszono o ocenę ich pod względem jakości wizualnej.

Oś pionowa przedstawia odsetek uczestników, którzy woleli wyniki E2FGVI pod względem jakości wizualnej.

Oś pionowa przedstawia odsetek uczestników, którzy woleli szczepionkę E²Wyniki FGVI pod względem jakości wizualnej.

Autorzy zauważają, że pomimo jednomyślnej preferencji dla ich metody, jeden z wyników, FGVC, nie odzwierciedla wyników ilościowych i sugerują, że oznacza to, że E²FGVI może, pozornie, generować „przyjemniejsze wizualnie rezultaty”.

Jeśli chodzi o wydajność, autorzy zauważają, że ich system znacznie zmniejsza liczbę operacji zmiennoprzecinkowych na sekundę (FLOP) i czas wnioskowania na pojedynczym procesorze graficznym Titan w zestawie danych DAVIS i zauważają, że wyniki pokazują E²FGVI działa x15 szybciej niż metody oparte na przepływie.

Komentują:

'[MI²FGVI] utrzymuje najniższe FLOPy w przeciwieństwie do wszystkich innych metod. Oznacza to, że proponowana metoda jest bardzo skuteczna w przypadku malowania wideo”.

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*Moja konwersja cytatów autorów w tekście na hiperłącza.

Opublikowano po raz pierwszy 19 maja 2022 r.

W przyszłym

Wykrywanie „profesjonalnych” złośliwych recenzji w Internecie za pomocą uczenia maszynowego

Nie przegap

Technologia sprzętowa AI imituje zmiany w topologii sieci neuronowej

Martin Anderson

Pisarz na temat uczenia maszynowego, sztucznej inteligencji i dużych zbiorów danych.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai

Zjednoczyć.AI

Efektywne usuwanie obiektów z wideo dzięki uczeniu maszynowemu

Artificial Intelligence