Sztuczna inteligencja

Spójna edycja filmów AI z wejściem sterowanym tekstem

Published April 7, 2022

Updated April 28, 2026

Martin Anderson

Podczas gdy profesjonalna społeczność efektów wizualnych jest zaintrygowana – i czasami czuje się nieco zagrożona – nowymi innowacjami w syntezie obrazu i wideo, brak ciągłości czasowej w większości projektów edycji wideo opartych na AI sprowadza wiele tych wysiłków do sfery “psychedelicznej”, z lśniącymi i szybko zmieniającymi się teksturami i strukturami, niespójnymi efektami i rodzajem prymitywnej technologii, która przypomina erę fotochemiczną efektów wizualnych.

Jeśli chcesz zmienić coś bardzo konkretnego w filmie, co nie mieści się w zakresie deepfakes (tj. nakładania nowej tożsamości na istniejące nagranie osoby), większość obecnych rozwiązań działa pod bardzo surowymi ograniczeniami, jeśli chodzi o precyzję wymaganą do produkcji efektów wizualnych o wysokiej jakości.

Jednym z wyjątków jest nieustanne prace luźnego stowarzyszenia akademików z Instytutu Nauki Weizmann. W 2021 roku trzej z jego badaczy, we współpracy z Adobe, ogłosili nową metodę dekompozycji wideo i nakładania spójnego wewnętrznego mapowania – warstwowej mapy neuronalnej – do komponowanego wyjścia, wraz z kanałami alfa i czasowo spójnym wyjściem.

Z pracy z 2021 roku: oszacowanie całkowitego przejścia drogi w źródłowym klipie jest edytowane za pomocą sieci neuronowej w sposób, który tradycyjnie wymagałby obszernego rotoskopingowania i dopasowywania. Ponieważ tło i elementy pierwszoplanowe są obsługiwane przez różne sieci, maski są naprawdę “automatyczne”. Źródło: https://layered-neural-atlases.github.io/

Chociaż mieści się to gdzieś w zakresie objętym przez optyczny przepływ w potokach VFX, warstwowa mapa nie ma bezpośredniego odpowiednika w tradycyjnych potokach CGI, ponieważ w zasadzie stanowi “mapę tekstury czasowej”, która może być wytwarzana i edytowana za pomocą tradycyjnych metod oprogramowania. Na drugim obrazie w powyższym ilustracji tło powierzchni drogi jest reprezentowane (figuratywnie) w całym czasie trwania wideo. Zmiana tego obrazu bazowego (trzeci obraz z lewej w powyższym ilustracji) powoduje spójną zmianę tła.

Obrazy “rozłożonej” mapy powyżej reprezentują tylko poszczególne interpretowane klatki; spójne zmiany w dowolnej klatce docelowej są mapowane z powrotem do oryginalnej klatki, zachowując wszelkie niezbędne nakładania się i inne wymagane efekty sceny, takie jak cienie lub odbicia.

Główna architektura wykorzystuje wielowarstwowy perceptron (MLP) do reprezentowania rozłożonych map, kanałów alfa i mapowań, wszystkich optymalizowanych jednocześnie, a całkowicie w 2D, eliminując wiedzę wstępną o punktach geometrii 3D, mapach głębi i podobnych CGI-style trappings.

Odwołanie do mapy poszczególnych obiektów może być również niezawodnie zmienione:

Spójna zmiana poruszającego się obiektu w ramach ramy z 2021 roku. Źródło: https://www.youtube.com/watch?v=aQhakPFC4oQ

Zasadniczo system z 2021 roku łączy w sobie wyśrodkowanie geometrii, dopasowywanie, mapowanie, ponowne teksturyzowanie i rotoskoping w dyskretny proces neuronalny.

Text2Live

Trzej pierwotni badacze pracy z 2021 roku, wraz z NVIDIA Research, są wśród współautorów nowej innowacji w technice, która łączy moc warstwowych map z rodzajem technologii CLIP kierowanej tekstem, która wróciła do sławy w tym tygodniu wraz z wydaniem DALL-E 2 przez OpenAI.

Nowa architektura, zatytułowana Text2Live, pozwala użytkownikowi końcowemu tworzyć lokalne edycje rzeczywistego zawartości wideo na podstawie podpowiedzi tekstowych:

Dwa przykłady edycji pierwszoplanu. Dla lepszej rozdzielczości i definicji sprawdź oryginalne filmy na https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live oferuje semantyczną i wysoko zlokalizowaną edycję bez użycia wstępnie wytrenowanego generatora, poprzez wykorzystanie wewnętrznej bazy danych, która jest specyficzna dla edytowanego klipu wideo.

Transformacje tła i pierwszoplanu (obiektu) w Text2Live. Źródło: https://text2live.github.io/sm/pages/video_results_atlases.html

Technika nie wymaga od użytkownika podpowiedzi maski, takich jak typowy potok rotoskopingowy lub green-screen, ale raczej szacuje mapy istotności za pomocą techniki bootstrapowania opartej na badaniach z 2021 roku ze Szkoły Informatyki na Uniwersytecie w Tel Awiwie i Facebook AI Research (FAIR).

Wygenerowane mapy za pomocą modelu uwagi ogólnego przeznaczenia opartego na transformatorze.

Nowy artykuł nosi tytuł Text2LIVE: Edycja warstwowa obrazu i wideo sterowana tekstem. Oryginalny zespół z 2021 roku dołączył do niego Omer Bar-Tal z Weizmann oraz Yoni Kasten z NVIDIA Research.

Architektura

Text2Live składa się z generatora wytrenowanego na jednym wejściowym obrazie i docelowych podpowiedziach tekstowych. Model CLIP wstępnie wytrenowany na 400 milionach par tekstowych i obrazowych dostarcza powiązanego materiału wizualnego, z którego mogą być interpretowane transformacje wprowadzane przez użytkownika.

Generator akceptuje wejściowy obraz (klatkę) i wytwarza docelowy kanał RGBA zawierający informacje o kolorze i przezroczystości. Ten kanał jest następnie komponowany do oryginalnego materiału wideo z dodatkowymi augmentacjami.

Kanał alfa w wygenerowanym kanale RGBA zapewnia wewnętrzną funkcję komponowania bez odwoływania się do tradycyjnych potoków z oprogramowaniem opartym na pikselach, takim jak After Effects.

Poprzez szkolenie na wewnętrznych obrazach istotnych dla docelowego wideo lub obrazu, Text2Live unika wymogu odwrotnego przekształcenia wejściowego obrazu w przestrzeń latentną sieci generatywnej (GAN), co obecnie jest daleko od wystarczająco dokładnego dla wymagań edycji wideo o wysokiej jakości, lub użycia modelu dyfuzyjnego, który jest bardziej precyzyjny i konfigurowalny, ale nie może utrzymać wierności docelowemu wideo.

Różne edycje transformacyjne na podstawie podpowiedzi z Text2Live.

Poprzednie podejścia wykorzystywały metody oparte na propagacji lub oparte na optycznym przepływie. Ponieważ te techniki są w pewnym stopniu oparte na klatkach, żadna z nich nie jest w stanie utworzyć spójnego wyglądu zmian w wyjściowym wideo. Warstwowa mapa neuronalna zapewnia natomiast pojedynczą przestrzeń, w której można wprowadzać zmiany, które mogą pozostać wiernymi wprowadzonej zmianie w trakcie postępu wideo.

Brak “sizzling” lub losowych halucynacji: Text2Live uzyskuje interpretację podpowiedzi tekstowej “zardzewiały jeep” i stosuje ją raz do warstwowej mapy neuronalnej samochodu w wideo, zamiast ponownie rozpoczynać transformację dla każdej interpretowanej klatki.

Przepływ pracy Text2Live przy spójnej transformacji Jeepa w zardzewiały relikt.

Text2Live jest bliżej przełomu w komponowaniu opartym na AI niż w płodnym obszarze tekst-do-obraz, który przyciągnął tak dużą uwagę w tym tygodniu wraz z wydaniem drugiej generacji ramy DALL-E OpenAI (która może uwzględniać obrazy docelowe jako część procesu transformacji, ale nadal jest ograniczona w swojej zdolności do bezpośredniego interweniowania w zdjęciu, oprócz cenzurowania danych szkoleniowych i nakładania filtrów, zaprojektowanych w celu zapobiegania nadużyciom przez użytkowników).

Zamiast tego, Text2Live pozwala użytkownikowi końcowemu wyodrębnić mapę i edytować ją w jednym przejściu w środowiskach o wysokiej kontroli, opartych na pikselach, takich jak Photoshop (i można nawet powiedzieć, bardziej abstrakcyjnych ramach syntezy obrazu, takich jak NeRF), przed ponownym wprowadzeniem jej do środowiska, które jest prawidłowo zorientowane, ale nie opiera się na estymacji 3D ani podejściach opartych na CGI.

Ponadto, twórcy twierdzą, że Text2Live jest pierwszą porównywalną ramą, która osiąga maskowanie i komponowanie w całkowicie automatyczny sposób.

Pierwotnie opublikowane 7 kwietnia 2022.