Andersons vinkel
Legge til dialog i ekte video med AI

Et nytt AI-rammeverk kan omskrive, fjerne eller legge til en persons ord i video uten Ä mÄtte filme pÄ nytt, i et enkelt ende-til-ende-system.
For tre Ă„r siden ville internett blitt forblĂžffet over et hvilket som helst av de 20â30 AI-videoredigeringsrammeverkene som publiseres ukentlig i akademiske portaler. Slik det er nĂ„, har denne populĂŠre forskningsstrengen blitt sĂ„ produktiv at den nesten utgjĂžr en annen gren av «AI Slop», og jeg dekker langt fĂŠrre slike utgivelser enn jeg ville ha gjort for to eller tre Ă„r siden.
Men én nÄvÊrende utgivelse i denne serien fanget oppmerksomheten min: et integrert system som kan gripe inn i ekte videoklipp og sette inn ny tale i den eksisterende videoen (i stedet for Ä lage et helt generativt klipp fra et ansikt eller en ramme, noe som er langt mer vanlig).
I eksemplene nedenfor, som jeg redigerte sammen fra en rekke eksempelvideoer tilgjengelig pÄ utgivelsesstedet prosjekt nettsted, ser vi fÞrst det virkelige kildeklippet, og deretter, under, den pÄlagte AI-talen midt i klippet, inkludert stemmesyntese og leppesynkronisering:
Klikk for Ă„ spille. Lokal redigering med sammenfĂžyning â en av flere modaliteter som tilbys av FacEDiT. Se kildenettstedet for bedre opplĂžsning. Kilde â https://facedit.github.io/
Denne tilnÊrmingen er en av tre som er utviklet for den nye metoden, denne med tittelen «lokal redigering med stitching», og den som interesserer forfatterne (sÄ vel som meg selv) mest. I hovedsak forlenges klippet ved Ä bruke en av de midterste rammene som et utgangspunkt for en ny AI-tolkning, og den pÄfÞlgende (virkelige) rammen som et mÄl som det generative innsatte klippet skal sikte pÄ Ä matche. I klippene vist ovenfor er disse «frÞ»- og «mÄl»-rammene representert ved at den Þverste videoen pauserer, mens den endrede videoen nedenfor gir generativ utfylling.
Forfatterne rammer inn denne ansikts- og vokalsyntesetilnĂŠrmingen som den fĂžrste fullintegrerte ende-til-ende-metoden for AI-videoredigering av denne typen, og observerer potensialet til et fullutviklet rammeverk som dette for TV- og filmproduksjon:
«Filmskapere og medieprodusenter mĂ„ ofte revidere spesifikke deler av innspilte videoer â kanskje et ord ble sagt feil, eller manuset ble endret etter innspillingen. For eksempel i den ikoniske scenen fra Titanic (1997) hvor Rose sier, «Jeg slipper aldri taket, Jack» regissĂžren kan senere bestemme at det skal vĂŠre «Jeg vil aldri glemme deg, Jack».
«Tradisjonelt sett krever slike endringer at hele scenen filmes pÄ nytt, noe som er kostbart og tidkrevende. Syntese av talende ansikter tilbyr et praktisk alternativ ved automatisk Ä modifisere ansiktsbevegelser for Ä matche revidert tale, noe som eliminerer behovet for nye filminger.»
Selv om slike AI-tiltak kan mÞte kulturell eller motstand fra industrien, kan de ogsÄ utgjÞre en ny type funksjonalitet i menneskestyrte VFX-systemer og verktÞypakker. Uansett er utfordringene for Þyeblikket strengt tekniske.
I tillegg til Ä forlenge et klipp med ekstra AI-generert dialog, kan det nye systemet ogsÄ endre eksisterende tale:
Klikk for Ä spille. Et eksempel pÄ Ä endre eksisterende dialog i stedet for Ä legge inn ytterligere dialog. Se kildesiden for bedre opplÞsning.
State of the Art
Det finnes for Ăžyeblikket ingen ende-til-ende-systemer som tilbyr denne typen syntesekapasitet; selv om et Ăžkende antall generative AI-plattformer som Googles Veo-serien, kan generere lyd, og diverse andre rammeverk kan lage dypforfalsket lyd, mĂ„ man for tiden lage en ganske komplisert prosess med forskjellige arkitekturer og triks for Ă„ kunne forstyrre ekte opptak pĂ„ den mĂ„ten det nye systemet â med tittelen FaceEDiT â kan oppnĂ„.
Systemet bruker Diffusjonstransformatorer (DiT) i kombinasjon med Flow Matching Ă„ lage ansiktsbevegelser betinget av omgivende (kontekstuelle) bevegelser og tale- og lydinnhold. Systemet utnytter eksisterende populĂŠre pakker som omhandler ansiktsrekonstruksjon, inkludert LivePortrett (nylig overtatt av Kling).
I tillegg til denne metoden, gitt at deres tilnÊrming er den fÞrste som integrerer disse utfordringene i én enkelt lÞsning, har forfatterne laget en ny referanse som kalles FaceEDiTBench, sammen med flere helt nye evalueringsmÄlinger som er relevante for denne svÊrt spesifikke oppgaven.
Ocuco ny jobb har tittelen FacEDiT: Enhetlig redigering og generering av talende ansikter via ansiktsbevegelsesfylling, og kommer fra fire forskere ved Koreas Pohang University of Science and Technology (POSTECH), Korea Advanced Institute of Science & Technology (KAIST) og University of Texas i Austin.
Metode
FacEDiT er trent til Ä rekonstruere ansiktsbevegelser ved Ä lÊre Ä fylle inn manglende deler av en skuespillers originale opptreden, basert pÄ bevegelsen rundt og talelyden. Som vist i skjemaet nedenfor, lar denne prosessen modellen fungere som en gap-fyller under trening, og forutsi ansiktsbevegelser som samsvarer med stemmen samtidig som de forblir konsistente med den originale videoen:

Oversikt over FacEDiT-systemet, som viser hvordan ansiktsbevegelse lÊres gjennom selvovervÄket utfylling under trening, veiledes av redigert tale ved slutning, og til slutt gjengis tilbake til video ved Ä gjenbruke utseendet til det originale opptaket, samtidig som bare den mÄlrettede bevegelsen erstattes. Kilde
Ved slutningstidspunktet stĂžtter den samme arkitekturen to forskjellige utganger avhengig av hvor mye av videoen som er maskert: delvise redigeringer, der bare en frase endres og resten forblir urĂžrt; eller generering av full setning, der ny bevegelse syntetiseres helt fra bunnen av.
Modellen trenes via flyt matching, som behandler videoredigeringer som en slags bane mellom to versjoner av ansiktsbevegelse.
I stedet for Ă„ lĂŠre Ă„ gjette hvordan et redigert ansikt skal se ut fra bunnen av, lĂŠrer flytmatching Ă„ bevege seg gradvis og jevnt mellom en stĂžyende plassholder og riktig bevegelse. For Ă„ legge til rette for dette representerer systemet ansiktsbevegelse som et kompakt sett med tall hentet fra hver ramme ved hjelp av en versjon av det nevnte LivePortrait-systemet (se skjemaet ovenfor).
Disse bevegelsesvektorene er utformet for Ä beskrive ansiktsuttrykk og hodepositur uten sammenfiltring identitet, slik at taleendringer kan lokaliseres uten Ä pÄvirke personens helhetlige utseende.
FaceEDiT-opplĂŠring
For Ä trene FacEDiT ble hvert videoklipp delt inn i en serie med ansiktsbevegelsesbilder, og hver ramme ble paret med den tilsvarende lydbiten. Tilfeldige deler av bevegelsesdataene ble deretter skjult, og modellen ble bedt om Ä gjette hvordan de manglende bevegelsene skulle se ut, ved Ä bruke bÄde talen og den omkringliggende, avmaskerte bevegelsen som kontekst.
Fordi de maskerte spennene og deres posisjoner varierer fra ett treningseksempel til det neste, lÊrer modellen gradvis hvordan den skal hÄndtere bÄde smÄ interne redigeringer og lengre mellomrom for generering av fullsekvenser, i henhold til hvor mye informasjon den fÄr.
Systemets nevnte diffusjonstransformator lĂŠrer Ă„ gjenopprette maskert bevegelse ved Ă„ raffinere stĂžyende innganger over tid. I stedet for Ă„ mate tale og bevegelse inn i modellen samtidig, blir lyden tredd inn i hver prosesseringsblokk gjennom kryssoppmerksomhet, noe som hjelper systemet med Ă„ matche leppebevegelser mer presist med lydtalen.
For Ä bevare realismen pÄ tvers av redigeringer, rettes oppmerksomheten mot nÊrliggende rammer i stedet for hele tidslinjen, noe som tvinger modellen til Ä fokusere pÄ lokal kontinuitet og forhindrer flimring eller bevegelseshopp i kantene av endrede omrÄder. Posisjonelle innebygginger (som forteller modellen hvor hvert ramme vises i sekvensen) hjelper modellen ytterligere med Ä opprettholde naturlig tidsflyt og kontekst.
Under trening lÊrer systemet Ä forutsi manglende ansiktsbevegelse ved Ä rekonstruere maskerte spenn basert pÄ tale og nÊrliggende umaskert bevegelse. Ved inferenstidspunktet brukes det samme oppsettet pÄ nytt, men maskene styres nÄ av redigeringer i talen.
NÄr et ord eller en frase settes inn, fjernes eller endres, lokaliserer systemet det berÞrte omrÄdet, maskerer det og regenererer bevegelse som samsvarer med den nye lyden. Generering av fullsekvens behandles som et spesialtilfelle, der hele omrÄdet maskeres og syntetiseres fra bunnen av.
Data og tester
Systemets ryggrad bestÄr av 22 lag for diffusjonstransformatoren, hvert med 16 oppmerksomhet hoder og feedforward-dimensjoner pÄ 1024 og 2024 piksler. Bevegelses- og utseendefunksjoner ekstraheres ved hjelp av frossen LivePortrait-komponenter og tale kodet via WavLM og modifisert ved hjelp av VoiceCraft.
Et dedikert projeksjonslag kartlegger de 786-dimensjonale talefunksjonene inn i DiTs latente rom, med bare DiT- og projeksjonsmodulene trent fra bunnen av.
Treningen ble gjennomfĂžrt under AdamW optimaliserer med en mĂ„lrettet lĂŠringshastighet pĂ„ 1eâ4, for en million trinn, pĂ„ to A6000 GPU-er (hver med 48 GB VRAM), med en total PartistĂžrrelse, GruppestĂžrrelse av Ă„tte.
FaceEDiTBench
FacEDiTBench-datasettet inneholder 250 eksempler, hvert med et videoklipp av den originale og redigerte talen, og transkripsjoner av begge. Videoene kommer fra tre kilder, med 100 klipp fra HDTF, 100 fra Hallo3, og 50 fra CelebV-DubHver av dem ble manuelt kontrollert for Ä bekrefte at bÄde lyd og bilde var tydelige nok til evaluering.
GPT-4o ble brukt til Ä revidere hver transkripsjon for Ä lage grammatisk gyldige redigeringer. Disse reviderte transkripsjonene, sammen med den opprinnelige talen, ble sendt til VoiceCraft for Ä produsere ny lyd; og pÄ hvert trinn ble bÄde transkripsjonen og den genererte talen manuelt gjennomgÄtt for kvalitet.
Hvert eksempel ble merket med type redigering, tidspunktet for endringen og lengden pÄ det modifiserte tidsrommet, og redigeringer klassifisert som innsett, slettingereller erstatningerAntall ord som ble endret varierte fra korte redigeringer pÄ 1 til 3 ord, mellomstore redigeringer pÄ 4 til 6 ord og lengre redigeringer pÄ 7 til 10 ord.
Tre tilpassede mÄlinger ble definert for Ä evaluere redigeringskvaliteten. Fotometrisk kontinuitet, for Ä mÄle hvor godt belysningen og fargen i et redigert segment passer inn i den omkringliggende videoen, ved Ä sammenligne pikselnivÄforskjeller ved grensene; bevegelseskontinuitet, for Ä vurdere konsistensen av ansiktsbevegelser, ved Ä mÄle endringer i optisk flyt pÄ tvers av redigerte og uredigerte bilder; og identitetsbevaring, for Ä anslÄ om motivets utseende forblir konsistent etter redigering, ved Ä sammenligne ansiktsinnlegg fra originalen og genererte sekvenser ved hjelp av ArcFace modell for ansiktsgjenkjenning.
Tester
Testmodellen ble trent pÄ materiale fra de tre ovennevnte datasettene, til sammen rundt 200 timer med videoinnhold, inkludert vlogger og filmer, samt YouTube-videoer i hÞy opplÞsning.
For Ă„ evaluere redigering av talende ansikter ble FacEDiTBench brukt, i tillegg til HDTF-testdelingen, som har blitt en referansestandard for denne oppgaveserien.
Siden det ikke fantes direkte sammenlignbare systemer som var i stand til Ä innkapsle denne typen ende-til-ende-funksjonalitet, valgte forfatterne en rekke rammeverk som reproduserte i det minste noe av mÄlfunksjonaliteten, og som kunne fungere som grunnlinjer; nemlig, NÞkkelansikt; EchoMimic; EchoMimicV2; Hallo; Hallo2; Hallo3; V-Express; AniPortrett, Og TristTalker.
Flere etablerte mÄlinger ble ogsÄ brukt til Ä vurdere genererings- og redigeringskvalitet, med leppesynkroniseringsnÞyaktighet evaluert gjennom SyncNet, som rapporterer bÄde den absolutte feilen mellom leppebevegelser og lyd (LSE-D) og en konfidenspoengsum (LSE-C); Fréchet videoavstand (FVD) kvantifisere hvor realistisk videoen virket totalt sett; og LÊrte perseptuelle likhetsmetrikker (LPIPS), som mÄler perseptuell likhet mellom genererte og originale bilder.
For redigering ble alle mÄlinger unntatt LPIPS kun brukt pÄ det modifiserte segmentet; for generering ble hele videoen evaluert, uten grensekontinuitet.
Hver modell ble laget for Ă„ syntetisere et matchende videosegment, som deretter ble skjĂžtet inn i det originale klippet (forskerne bemerker at denne metoden ofte introduserte synlige diskontinuiteter, der den redigerte delen mĂžtte det omkringliggende opptaket). En annen tilnĂŠrming ble ogsĂ„ testet, der hele videoen ble regenerert fra den modifiserte lyden â men dette overskrev uunngĂ„elig uredigerte omrĂ„der og klarte ikke Ă„ bevare den originale ytelsen:

Sammenligning av redigeringsytelse pÄ tvers av systemer som opprinnelig var utviklet for generering av talende ansikter, der FacEDiT overgikk alle grunnlinjer pÄ tvers av alle mÄlinger, og oppnÄdde lavere leppesynkroniseringsfeil (LSE-D), hÞyere synkroniseringstillit (LSE-C), sterkere identitetsbevaring (IDSIM), stÞrre perseptuell realisme (FVD) og jevnere overganger pÄ tvers av redigeringsgrenser (Pcontinuity, Mcontinuity). GrÄskyggelagte kolonner fremhever nÞkkelkriteriene for Ä vurdere grensekvalitet; fet skrift og understrekede verdier indikerer henholdsvis de beste og nest beste resultatene.
AngÄende disse resultatene kommenterer forfatterne:
«[VÄr] modell overgÄr eksisterende metoder betydelig i redigeringsoppgaven. Den oppnÄr sterk grensekontinuitet og hÞy identitetsbevaring, noe som demonstrerer dens evne til Ä opprettholde tidsmessig og visuell konsistens under redigering. I tillegg gjenspeiler den overlegne leppesynkroniseringsnÞyaktigheten og lave FVD realismen til den syntetiserte videoen.»
Klikk for Ä spille. Resultater, satt sammen av denne forfatteren fra de publiserte videoene pÄ nettstedet til det stÞttende prosjektet. Se kildenettstedet for bedre opplÞsning.
Videre ble det utfÞrt en studie pÄ mennesker for Ä evaluere opplevd kvalitet pÄ tvers av bÄde redigering og generering.
For hver sammenligning sÄ deltakerne seks videoer og rangerte dem etter generell kvalitet, med tanke pÄ nÞyaktighet i leppesynkronisering, naturlighet og realisme i hodebevegelser. I redigeringstester vurderte deltakerne ogsÄ hvor jevne overgangene mellom redigerte og uredigerte segmenter var:

Gjennomsnittsrangeringer tildelt av menneskelige evaluatorer, der lavere betyr bedre. BÄde i redigering og generering vurderte deltakerne hvor naturlig og godt synkronisert hver video sÄ ut. For redigering vurderte de ogsÄ hvor jevn overgangen var mellom redigert og uredigert tale. Uthevede og understrekede tall indikerer de to hÞyeste poengsummene.
I studien ble FacEDiT konsekvent rangert hÞyest med en klar ledelse, bÄde for redigeringskvalitet og sÞmlÞshet i overganger, og fikk ogsÄ sterke poengsummer i genereringssammenheng, noe som tyder pÄ at de mÄlte fordelene oversettes til perceptuelt foretrukne resultater.
PÄ grunn av plassmangel henviser vi leseren til kildeartikkelen for ytterligere detaljer om ablasjonsstudier og tilleggstester som ble utfÞrt og rapportert i det nye arbeidet. I sannhet sliter prototypiske forskningstilbud av denne typen med Ä generere meningsfulle testresultater, siden selve kjernetilbudet uunngÄelig er et potensielt utgangspunkt for senere arbeid.
Konklusjon
Selv for inferens kan systemer som dette kreve betydelige dataressurser pĂ„ inferenstidspunktet, noe som gjĂžr det vanskelig for nedstrĂžmsbrukere â her antagelig VFX-butikker â Ă„ holde arbeidet lokalt. Derfor vil tilnĂŠrminger som kan tilpasses realistiske lokale ressurser alltid bli foretrukket av leverandĂžrer, som er juridisk forpliktet til Ă„ beskytte kundens opptak og generelle IP.
Det er ikke for Ä kritisere det nye tilbudet, som godt kan fungere perfekt under kvantiserte vekter eller andre optimaliseringer, og som er det fÞrste tilbudet i sitt slag som tiltrekker meg tilbake til denne forskningsveien pÄ ganske lenge.
FĂžrst publisert onsdag 17. desember 202. Redigert 20.10 EET, samme dag, for ekstra plass i fĂžrste avsnitt.












