Andersonin kulma
Videoiden muokkaus ÀlykkÀillÀ menetelmillÀ

Uusi älykäs viitekehyksellä voidaan muokata, poistaa tai lisätä henkilön sanat videossa ilman uudelleenkuvaamista yhden loppuun asti integroidun järjestelmän avulla.
Kolme vuotta sitten internet olisi ollut hämmästynyt kullakin 20-30 älykkään videomuokkausjärjestelmistä, jotka julkaistaan akateemisissa porteissa viikoittain; nykyään tämä suosittu tutkimuksen suunta on jo niin runsas, että se on melkein erillinen “älykkään roskan” haara, ja kattelen vähemmän näistä julkaisuista kuin olisin kaksi tai kolme vuotta sitten.
Toisaalta yksi nykyinen julkaisu tällä alalla kiinnitti huomioni: integroitu järjestelmä, joka voi puuttua todellisiin videoklippiin ja asettaa uuden puheen olemassaolevaan videoon (eikä luoda koko generatiivista klippiä kasvoista tai kehyksestä, mikä on paljon yleisempää).
Esimerkeissä alla, jotka olen editoinut useista näytevideosta, jotka ovat saatavilla julkaisun projektisivustolla, näemme ensin todellisen lähdeklipin, ja sitten sen alla, asetetun älykkään puheen keskellä klippiä, mukaan lukien äänen synteesi ja huulien syncronisointi:
Klikkaa toistamaan. Paikallinen editointi ompelemalla – yksi useista malleista, jotka FacEDiT tarjoaa. Katso lähdeweb-sivu paremman resoluution vuoksi. Lähde – https://facedit.github.io/
Tämä lähestymistapa on yksi kolmesta kehitetystä menetelmästä, ja se on nimeltään “paikallinen editointi ompelemalla”, ja se kiinnostaa eniten kirjoittajia (sekä minua). Periaatteessa klippi laajennetaan käyttämällä yhtä keskimmäisistä kehyksistä aloituspisteenä uudelle älykkäälle tulkinnalle, ja sen jälkeisen (oikean) kehyksen tavoitteena, johon generatiivisesti lisätty klippi pyrkii sopimaan. Klipeissä, jotka näkyvät yllä, nämä “siemen”- ja “kohde”-kehykset ovat edustettuina ylempänä videon pysähtyessä, kun taas muutettu video alla antaa generatiivisen täytön.
Kirjoittajat kuvaavat tämän kasvojen ja äänen synteesin lähestymistavan ensimmäisenä täysin integroiduna loppuun asti menetelmänä älykkäille videomuokkauksille, ja havaitsevat tämän kaltaisen kehittyneen kehyksen potentiaalia TV- ja elokuvatuotannolle:
‘Elokuvantekijät ja medialle tuottajat usein tarvitsevat muuttaa tiettyjä osia tallennetuista videoista – ehkä sana on väärin puhuttu tai käsikirjoitus muuttui kuvaamisen jälkeen. Esimerkiksi ikonisessa kohtauksessa Titanic (1997) jossa Rose sanoo, “En koskaan anna periksi, Jack,” ohjaaja saattaa myöhemmin päättää, että se pitäisi olla “En koskaan unohda sinua, Jack”.
‘Perinteisesti tällaiset muutokset vaativat koko kohtauksen uudelleenkuvaamista, mikä on kallista ja aikaa vievää. Puhuvan kasvojen synteesi tarjoaa käytännöllisen vaihtoehdon automaattisesti muokkaamalla kasvojen liikkeitä muutetun puheen mukaan, poistamalla tarpeen uudelleenkuvaamiselle.’
Vaikka tällaiset älykkään interposiotio voivat kohtaa kulttuurista tai teollisuuden vastarintaa, ne voivat myös muodostaa uudenlaisen toiminnallisuuden ihmisten johtamissa VFX-järjestelmissä ja työkalupaketeissa. Millä tahansa tapauksella, haasteet ovat nyt teknisiä.
Lisäksi klipin laajentamisen älykkäiden dialogien kautta, uusi järjestelmä voi myös muuttaa olemassaolevaa puhetta:
Klikkaa toistamaan. Esimerkki olemassaolevan dialogin muuttamisesta uuden dialogin sijaan. Katso lähdeweb-sivu paremman resoluution vuoksi.
Viimeisin kehitys
Tällä hetkellä ei ole olemassa loppuun asti integroituja järjestelmiä, jotka tarjoavat tällaista synteesin kykyä; vaikka useat generatiiviset älykkäät alustat, kuten Google Veo-sarja, voivat generoida ääntä, ja useat muut kehykset voivat luoda deepfaked-ääntä, yhden täytyy luoda melko monimutkainen putki erilaisista arkkitehtuureista ja temppuista, jotta voidaan puuttua todelliseen kuvamateriaaliin tavalla, jolla uusi järjestelmä – nimeltään FacEDiT – voi saavuttaa.
Järjestelmä käyttää Diffusion Transformers (DiT) yhdistettynä Flow Matching luomaan kasvojen liikkeitä, jotka ovat ehdollisia ympäröivien (kontekstuaalisten) liikkeiden ja puheen äänen sisällön mukaan. Järjestelmä hyödyntää olemassaolevia suosittuja paketteja, jotka käsittelevät kasvojen rekonstruktioita, mukaan lukien LivePortrait (jonka Kling on vastikään ottanut haltuunsa).
Lisäksi tämän menetelmän, koska heidän lähestymistapansa on ensimmäinen, joka integroi nämä haasteet yhteen ratkaisuun, kirjoittajat ovat luoneet uuden vertailuohjelman nimeltä FacEDiTBench, sekä useita uusia arviointimittareita, jotka ovat sovellettavissa tähän erityiseen tehtävään.
Uusi tutkimus tutkimus on nimeltään FacEDiT: Yhdistetty puhuvan kasvojen editointi ja generointi kasvojen liikkeen täyttämisen kautta, ja se tulee neljältä tutkijalta Korean Pohangin tiede- ja teknologiayliopistosta (POSTECH), Korean edistyneestä tieteellisestä ja teknillisestä instituutista (KAIST) ja Texasin yliopistosta Austinissa.
Menetelmä
FacEDiT on koulutettu rekonstruoimaan kasvojen liikkeitä oppimalla, miten täytetään puuttuvat osat näyttelijän alkuperäisestä suorituksesta, perustuen ympäröivään liikkeeseen ja puheen ääneen. Kuten alla olevassa skeemassa näkyy, tämä prosessi mahdollistaa mallin toimimisen kuin “välikappaleena” koulutuksen aikana, ennustamalla kasvojen liikkeitä, jotka vastaavat ääntä ja pysyvät yhdenmukaisina alkuperäisen videon kanssa:

FacEDiT-järjestelmän yleiskatsaus, jossa näkyy, miten kasvojen liikkeet opitaan itseohjautuvasti täyttämällä koulutuksen aikana, johdattuna editoiduilla puheilla johtopäätöksessä, ja lopulta renderöidään takaisin videoon uudelleen käyttämällä alkuperäisen kuvamateriaalin ulkonäköä, korvaamalla vain kohdennetun liikkeen. Lähde
Johtopäätöksessä sama arkkitehtuuri tukee kahta eri tulostetta, riippuen siitä, kuinka paljon videota on maskattu: osittaiset editoinnit, joissa vain lause muutetaan ja loput jätetään koskemattomaksi; tai koko lauseen generointi, jossa uusi liike syntetisoidaan kokonaan alusta alkaen.
Malli on koulutettu Flow Matching menetelmällä, joka käsittää videomuokkaukset tietynlaisena polkuna kahden kasvojen liikkeen version välillä.
Sen sijaan, että oppisimme arvaamaan, miltä editoitu kasvo pitäisi näyttää alusta alkaen, Flow Matching oppii siirtymään tasaisesti ja sileästi väliaikaisen välikappaleen ja oikean liikkeen välillä. Tämän mahdollistamiseksi järjestelmä edustaa kasvojen liikettä tiiviinä joukkona lukuja, jotka on poimittu kustakin kehyksestä versiolla edellä mainitusta LivePortrait-järjestelmästä (ks. yllä oleva skeema).
Nämä liikkevektorit on suunniteltu kuvaamaan ilmeitä ja pään asentoa ilman sekoittamista identiteettiin, jotta puheen muutokset voidaan lokaloida vaikuttamatta henkilön yleiseen ulkonäköön.
FacEDiT-koulutus
FacEDiT:n kouluttamiseksi jokainen videoklippi jaettiin sarjaan kasvojen liikkeen otoksia, ja kunkin kehyksen pariutettiin vastaavaan äänen palaseen. Satunnaiset osat liikkeen datasta piilotettiin, ja malli pyydettiin arvaamaan, miltä ne puuttuvat liikkeet pitäisivät näyttää, käyttäen sekä puhetta että ympäröivää maskittamatonta liikettä kontekstina.
Koska maskattavat osat ja niiden sijainti vaihtelevat koulutus-esimerkistä toiseen, malli oppii vähitellen, miten käsitellä sekä pieniä sisäisiä editointeja että pidempiä aukkoja, koko sekvenssin generointia varten, riippuen siitä, kuinka paljon tietoa sille annetaan.
Järjestelmän edellä mainittu Diffusion Transformer oppii palauttamaan maskatun liikkeen viimeistelemällä meluisia syötteitä ajan myötä. Sen sijaan, että puhe ja liike syötetään malliin kaikki kerran, ääni syötetään kunkin prosessointiblokin läpi rinnakkaisen huomion avulla, auttaen järjestelmää sopimaan huulien liikkeet ääneen tarkemmin.
Jotta realismi säilytetään editoinneissa, huomio on vinoutunut lähimmän kehyksen suuntaan eikä koko aikajanaa, pakottaen mallin keskittymään paikalliseen jatkuvuuteen ja estämään vilkkuvia liikkeitä muokatun alueen reunoilla. Paikalliset upotukset (jotka kertovat mallille, missä kehyksessä kunkin kehys on sekvenssissa) auttavat mallia ylläpitämään luonnollista aikajanaa ja kontekstia.
Koulutuksen aikana järjestelmä oppii ennustamaan puuttuvan kasvojen liikkeen rekonstruoimalla maskattuja aukkoja puheen ja lähellä olevan maskittamattoman liikkeen perusteella. Johtopäätöksessä sama asettelu uudelleen käytetään, mutta maskit ohjataan nyt puheen muutoksilla.
Kun sana tai lause lisätään, poistetaan tai muutetaan, järjestelmä sijaittaa vaikuttavan alueen, maskittaa sen ja regeneroi liikettä, joka vastaa uutta ääntä. Koko sekvenssin generointi käsittellään erityistapauksena, jossa koko alue maskataan ja syntetisoidaan alusta alkaen.
Data ja testit
Järjestelmän runko koostuu 22 kerroksesta Diffusion Transformerille, kullakin 16 huomion päästä ja syötteen eteenpäin kulkevia ulottuvuuksia 1024 ja 2024px. Liikkeen ja ulkonäön piirteet poimitaan jäädytettyjen LivePortrait-komponenttien avulla, ja puhe koodataan WavLM:n avulla ja muokataan VoiceCraft:n avulla.
Omistettu projektiokerroksella on karttunut 786- ulottuvuuden äänipiirteet DiT:n latenttiavaruuteen, ja ainoastaan DiT ja projektiomodulit on koulutettu alusta alkaen.
Koulutus suoritettiin AdamW -optimoinnin avulla, jossa kohdeoppimisnopeus oli 1e-4, miljoonan askeleen ajan, kahdella A6000-grafiikkakortilla (kummallakin 48GB VRAM), yhteisellä eräkoolle kahdeksan.
FacEDiTBench
FacEDiTBench-aineisto sisältää 250 esimerkkiä, kustakin videoklipin alkuperäisestä ja editoidusta puheesta, sekä transkriptit molemmista. Videot tulevat kolmesta lähteestä, 100 klippiä HDTF:stä, 100 Hallo3:sta ja 50 CelebV-Dub:sta. Kunkin on tarkastettu manuaalisesti varmistamaan, että sekä ääni että video olivat selkeät arvioinnin vuoksi.
GPT-4o käytettiin kääntämään kunkin transkriptiin luomaan kieliopillisesti oikein editoitujen muutoksia. Nämä muutetut transkriptit, sekä alkuperäinen puhe, annettiin VoiceCraftille tuottamaan uutta ääntä; ja kunkin vaiheen jälkeen sekä transkripti että generoitu puhe tarkastettiin manuaalisesti laadun varmistamiseksi.
Kunkin näytteen on merkitty muutoksen tyyppi, muutoksen ajoitus ja muutetun aukon pituus, ja muutokset on luokiteltu lisäyksiksi, poistoksi tai korvaaviksi. Sanamäärä, joka muutettiin, vaihteli lyhyistä 1-3 sanan muutoksista, keskivertaisista 4-6 sanan muutoksista, ja pidemmistä 7-10 sanan muutoksista.
Kolme mukautettua mittaria määriteltiin arvioimaan editointilaatua. Valaistuksen jatkuvuus, jotta mitataan, miten hyvin editoitu segmentti sulautuu ympäröivään videoon, vertaamalla pikselitasoista eroa reunassa; liikkeen jatkuvuus, jotta arvioida kasvojen liikkeen jatkuvuutta, mitataan optisen virran muutoksia editoiduissa ja editoimattomissa kehyksissä; ja identiteetin säilyttäminen, jotta arvioida, säilyykö kohteen ulkonäkö editoinnin jälkeen, vertaamalla kasvojen upotuksia alkuperäisestä ja generoidusta sekvenssistä ArcFace -kasvontunnistusmallin avulla.
Testit
Testijärjestelmä koulutettiin aineistosta, joka koostui kolmesta edellä mainitusta aineistosta, yhteensä noin 200 tuntia videomateriaalia, mukaan lukien vlogeja ja elokuvia, sekä korkearesoluutioisia YouTube-videoita.
Arvioidakseen puhuvan kasvojen editointia, FacEDiTBenchiä käytettiin, lisäksi HDTF:n testijakoa, josta on tullut viitekehys tämän tehtävän sarjalle.
Koska ei ollut suoria vertailukelpoisia järjestelmiä, jotka voisivat kattaa tämänkaltaisen loppuun asti toiminnallisuuden, kirjoittajat valitsivat useita kehyksiä, jotka toistivat ainakin osan kohdejärjestelmän toiminnallisuutta, ja joita voitiin käyttää vertailuina; nimittäin, KeyFace; EchoMimic; EchoMimicV2; Hallo; Hallo2; Hallo3; V-Express; AniPortrait; ja SadTalker.
Useita vakiintuneita mittareita käytettiin myös arvioidakseen generoinnin ja editoinnin laatua, ja huulien syncronisoinnin tarkkuutta arvioitiin SyncNet:n avulla, ilmoittamalla sekä absoluuttisen virheen huulien liikkeiden ja äänen välillä (LSE-D) että luottamusluokan (LSE-C); Fréchet Video Distance (FVD) mittaamalla, kuinka realistinen video näytti yleisesti; ja Learned Perceptual Similarity Metrics (LPIPS), mitataksesi havainnollisen samankaltaisuuden generoidun ja alkuperäisen kehysien välillä.
Arvioinnissa kaikki mittarit, paitsi LPIPS, sovellettiin ainoastaan muutettuun segmenttiin; generoinnissa koko video arvioitiin, ja reunan jatkuvuus poistettiin.
Kunkin mallin pyydettiin syntetisoimaan vastaava videosekvenssi, joka sitten liitettiin alkuperäiseen klippiin (tutkijat huomauttavat, että tämä menetelmä usein aiheutti näkyviä epäjatkuvuuksia, jossa editoitu osa kohtasi ympäröivän kuvamateriaalin). Toinen lähestymistapa testattiin myös, jossa koko video generoitiin uudelleen muutetun äänen perusteella – mutta tämä poisti vääristämättömät alueet ja epäonnistui alkuperäisen suorituksen säilyttämisessä:
<img class=" wp-image-229583" src="https://www.unite.ai/wp-content/uploads/2025/12/table-3-1.jpg" alt="Järjestelmien editointisuorituskyvyn vertailu, joita on alun perin suunniteltu puhuvan kasvojen generoinniksi, FacEDiT ylittää kaikki vertailukohdat jokaisessa mittarissa, saavuttaen alempaa huulien syncronisointivirhettä (LSE-D), korkeampaa syncronisointiluottamusta (LSE-C), vahvempaa identiteetin säilyttämistä (IDSIM), suurempaa havainnollista realismia (FVD) ja sileämpää siirtymistä editointirajojen yli (Pcontinuity, Mcontinuity). Harmaat sarakkeet korostavat avainkriteerejä reunan laadun arvioimiseksi; lihavoitu ja alleviivattu arvo osoittaa parhaan ja toiseksi parhaan tuloksen.
Tähän liittyen kirjoittajat kommentoivat:
‘[Meidän] malli suorittaa merkittävästi paremmin kuin olemassaolevat menetelmät editointitehtävässä. Se saavuttaa vahvan reunan jatkuvuuden ja korkean identiteetin säilyttämisen, osoittaen kykynsä ylläpitää aikajanaa ja visuaalista jatkuvuutta editoinnissa. Lisäksi sen ylivoimainen huulien syncronisointitarkkuus ja alhainen FVD heijastavat generoidun videon realismia.’
Klikkaa toistamaan. Tulokset, jotka olen koonnut julkaistuista videoista tukevan projektisivustolla. Katso lähdeweb-sivu paremman resoluution vuoksi.
Lisäksi suoritettiin ihmiskohtainen tutkimus arvioidakseen havaitun laadun sekä editoinnissa että generoinnissa.
Kunkin vertailun kohdalla osallistujat katsoivat kuusi videota ja luokittelivat ne yleislaadun mukaan, ottaen huomioon huulien syncronisointitarkkuuden, luonnollisuuden ja realismia pään liikkeessä. Editointikokeissa osallistujat myös arvioivat siirtymien sileyyttä editoiduista ja editoimattomista segmenteistä:

Ihmisen antamat keskimääräiset arviot, joissa alempi tulos on parempi. Sekä editoinnissa että generoinnissa osallistujat arvioivat, kuinka luonnollinen ja syncronoitu kunkin video näytti. Editoinnissa he myös arvioivat, kuinka sileä siirtyminen editoidusta ja editoimattomasta puheesta oli.
Tutkimuksessa FacEDiT sai johdonmukaisesti korkeimman arvion sekä editoinnin laadussa että siirtymän sileyydessä, ja se sai myös vahvat arviot generoinnissa, osoittaen, että sen mitatut edut kääntyvät havainnoituun etuun.
Tilattomuuden vuoksi emme pysty esittämään tässä tarkastelua poistojen tutkimuksista ja lisätutkimuksista, jotka on raportoitu uudessa tutkimuksessa. Totuudenmukaisesti, tällaiset perustutkimuksen tarjoukset kamppailevat usein luomalla merkityksellisiä testituloksia, koska itse tarjous on potentiaalinen vertailukohta myöhempään työhön.
Johtopäätös
Vaikka järjestelmät, kuten tämä, voivat edellyttää merkittäviä laskentaresursseja johtopäätöksessä, mikä tekee siitä haasteen alihankkijoille – tässä tapauksessa VFX-puolelle – pitää työ paikallisesti, ollen velvollisia suojella asiakkaiden kuvamateriaalia ja yleistä immateriaalioikeutta.
Se ei kuitenkaan ole arvostelua uudelle tarjoukselle, joka saattaa toimia täydellisesti kvantituoituilla painoarvoilla tai muilla optimoinneilla, ja joka on ensimmäinen tarjous, joka on houkutellut minut takaisin tähän tutkimuksen suuntaan pitkään aikaan.
Julkaistu ensimmäisen kerran keskiviikkona, 17. joulukuuta 202. Muokattu 20.10 EET, samana päivänä, ensimmäisen kehon virkaaikaisen aukon vuoksi.












