Følg os

Andersons vinkel

Eksponering af små, men betydelige AI-redigeringer i ægte video

mm
Montage af illustrationer fra papiret 'Detecting Localized Deepfake Manipulations Using Action Unit-Guided Video Representations' (https://arxiv.org/pdf/2503.22121)

I 2019 var formanden for det amerikanske Repræsentanternes Hus, Nancy Pelosi, genstand for et målrettet og ret lavteknologisk angreb i deepfake-stil, da ægte video af hende blev redigeret for at få hende til at virke fuld – en uvirkelig hændelse, der var delt flere millioner gange før sandheden om det kom frem (og potentielt efter nogle stædige skader på hendes politiske kapital blev begået af dem, der ikke holdt kontakten med historien).

Selvom denne misrepræsentation kun krævede en simpel audiovisuel redigering snarere end enhver AI, er den stadig et nøgleeksempel på, hvordan subtile ændringer i ægte audiovisuelt output kan have en ødelæggende effekt.

På det tidspunkt var deepfake-scenen domineret af autoencoder-baseret ansigtserstatningssystemer, som havde debut i slutningen af ​​2017, og som ikke var blevet væsentligt forbedret i kvalitet siden da. Sådanne tidlige systemer ville have været hårdt presset til at skabe denne form for små, men betydelige ændringer eller realistisk at forfølge moderne forskningsstrenge som f.eks. redigering af udtryk:

Den nylige 'Neural Emotion Director'-ramme ændrer stemningen i et berømt ansigt. Kilde: https://www.youtube.com/watch?v=Li6W8pRDMJQ

2022-rammeværket 'Neural Emotion Director' ændrer stemningen hos et berømt ansigt. Kilde: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Tingene er nu helt anderledes. Film- og tv-industrien er seriøst interesseret i postproduktionsændring af virkelige præstationer ved hjælp af maskinlæringsmetoder og AI's facilitering af post fact perfektionisme har endda kommet under nylig kritik.

Foregribende (eller muligvis skabende) denne efterspørgsel har forskningsmiljøet inden for billed- og videosyntese frembragt en bred vifte af projekter, der tilbyder 'lokale redigeringer' af ansigtsbilleder snarere end direkte erstatninger: projekter af denne art omfatter Diffusion Video Autoencodere; Sy det i tid; ChatFace; MagicFaceOg DISCO, Blandt andre.

Udtryksredigering med januar 2025-projektet MagicFace. Kilde: https://arxiv.org/pdf/2501.02260

Udtryksredigering med januar 2025-projektet MagicFace. Kilde: https://arxiv.org/pdf/2501.02260

Nye ansigter, nye rynker

Imidlertid udvikler støtteteknologierne sig langt hurtigere end metoder til at detektere dem. Næsten alle de deepfake-detektionsmetoder, der dukker op i litteraturen, jagter gårsdagens deepfake-metoder med gårsdagens datasæt. Indtil i denne uge havde ingen af ​​dem adresseret AI-systemers snigende potentiale til at skabe små og aktuelle lokale ændringer i video.

Nu har et nyt blad fra Indien rettet op på dette med et system, der søger at identificere ansigter, der har været redigeret (i stedet for at blive erstattet) gennem AI-baserede teknikker:

Registrering af subtile lokale redigeringer i Deepfakes: En ægte video er ændret til at producere forfalskninger med nuancerede ændringer såsom hævede øjenbryn, ændrede kønstræk og skift i udtryk i retning af afsky (illustreret her med et enkelt billede). Kilde: https://arxiv.org/pdf/2503.22121

Registrering af subtile lokale redigeringer i Deepfakes: En ægte video er ændret til at producere forfalskninger med nuancerede ændringer såsom hævede øjenbryn, ændrede kønstræk og skift i udtryk i retning af afsky (illustreret her med et enkelt billede). Kilde: https://arxiv.org/pdf/2503.22121

Forfatternes system har til formål at identificere deepfakes, der involverer subtile, lokaliserede ansigtsmanipulationer – en ellers forsømt type forfalskning. I stedet for at fokusere på globale uoverensstemmelser eller identitetsafvigelser, fokuserer tilgangen på finkornede ændringer såsom små ændringer i ansigtsudtryk eller små redigeringer af specifikke ansigtstræk.

Metoden gør brug af Action Units (AUs) afgrænseren i Kodesystem for ansigtshandling (FACS), som definerer 64 mulige individuelle foranderlige områder i ansigtet, som tilsammen danner udtryk.

Nogle af de konstituerende 64 ekspressionsdele i FACS. Kilde: https://www.cs.cmu.edu/~face/facs.htm

Nogle af de konstituerende 64 ekspressionsdele i FACS. Kilde: https://www.cs.cmu.edu/~face/facs.htm

Forfatterne evaluerede deres tilgang i forhold til en række nyere redigeringsmetoder og rapporterer konsekvente præstationsgevinster, både med ældre datasæt og med meget nyere angrebsvektorer:

'Ved at bruge AU-baserede funktioner til at guide videorepræsentationer lært gennem Masked Autoencoders [(MAE)], fanger vores metode effektivt lokaliserede ændringer, der er afgørende for at detektere subtile ansigtsredigeringer.

"Denne tilgang gør det muligt for os at konstruere en samlet latent repræsentation, der koder både lokaliserede redigeringer og bredere ændringer i ansigtscentrerede videoer, hvilket giver en omfattende og tilpasningsdygtig løsning til deepfake-detektion."

nyt papir er titlen Detektering af lokaliserede Deepfake-manipulationer ved hjælp af handlingsenheds-guidede videorepræsentationer, og kommer fra tre forfattere ved Indian Institute of Technology i Madras.

Metode

I tråd med den tilgang, som VideoMAE, begynder den nye metode med at anvende ansigtsgenkendelse på en video og tage prøver med jævnt fordelte billeder centreret om de registrerede ansigter. Disse rammer opdeles derefter i små 3D-inddelinger (dvs. midlertidigt aktiverede patches), der hver især fanger lokale rumlige og tidsmæssige detaljer.

Skema for den nye metode. Indgangsvideoen behandles med ansigtsdetektion for at udtrække jævnt fordelte, ansigtscentrerede rammer, som derefter opdeles i rørformede patches og føres gennem en encoder, der fusionerer latente repræsentationer fra to forudtrænede prætekst-opgaver. Den resulterende vektor bruges derefter af en klassifikator til at bestemme, om videoen er ægte eller falsk.

Skema for den nye metode. Inputvideoen behandles med ansigtsgenkendelse for at udtrække jævnt fordelte, ansigtscentrerede billeder, som derefter opdeles i 'rørformede' patches og sendes gennem en encoder, der fusionerer latente repræsentationer fra to forudtrænede prætekstopgaver. Den resulterende vektor bruges derefter af en klassifikator til at bestemme, om videoen er ægte eller falsk.

Hver 3D-patch indeholder et vindue med fast størrelse af pixels (dvs. 16×16) fra et lille antal på hinanden følgende rammer (dvs. 2). Dette lader modellen lære kortvarige bevægelses- og udtryksændringer - ikke kun hvordan ansigtet ser ud, men hvordan den bevæger sig.

Plastrene er indlejret og positionskodet før det sendes ind i en encoder designet til at udtrække funktioner, der kan skelne ægte fra falsk.

Forfatterne anerkender, at dette er særligt vanskeligt, når de beskæftiger sig med subtile manipulationer, og løser dette problem ved at konstruere en encoder, der kombinerer to separate typer indlærte repræsentationer ved hjælp af en krydsopmærksomhed mekanisme til at smelte dem sammen. Dette er beregnet til at producere en mere følsom og generaliserbar feature plads til at detektere lokaliserede redigeringer.

Påskud opgaver

Den første af disse repræsentationer er en indkoder trænet med en maskeret autoindkodningsopgave. Med videoen opdelt i 3D-patches (hvoraf de fleste er skjulte), lærer koderen derefter at rekonstruere de manglende dele, hvilket tvinger den til at fange vigtige rumlige mønstre, såsom ansigtsbevægelser eller konsistens over tid.

Pretext opgavetræning involverer maskering af dele af videoinputtet og brug af en encoder-dekoder-opsætning til at rekonstruere enten de originale frames eller per-frame handlingsenhedskort, afhængigt af opgaven.

Pretext opgavetræning involverer maskering af dele af videoinputtet og brug af en encoder-dekoder-opsætning til at rekonstruere enten de originale frames eller per-frame handlingsenhedskort, afhængigt af opgaven.

Imidlertid bemærker papiret, at dette alene ikke giver nok følsomhed til at detektere finkornede redigeringer, og forfatterne introducerer derfor en anden encoder, der er trænet til at detektere ansigtshandlingsenheder (AU'er). Til denne opgave lærer modellen at rekonstruere tætte AU-kort for hver frame, igen fra delvist maskerede input. Dette tilskynder den til at fokusere på lokaliseret muskelaktivitet, hvilket er hvor mange subtile deepfake-redigeringer forekommer.

Yderligere eksempler på ansigtshandlingsenheder (FAU'er eller AU'er). Kilde: https://www.eiagroup.com/the-facial-action-coding-system/

Yderligere eksempler på ansigtshandlingsenheder (FAU'er eller AU'er). Kilde: https://www.eiagroup.com/the-facial-action-coding-system/

Når begge indkodere er fortrænede, kombineres deres udgange ved hjælp af krydsopmærksomhed. I stedet for blot at slå de to sæt funktioner sammen, bruger modellen de AU-baserede funktioner som forespørgsler der leder opmærksomheden hen over de rumlige-tidsmæssige træk, som er lært fra maskeret autoencoding. Faktisk fortæller handlingsenhedens indkoder modellen, hvor den skal kigge.

Resultatet er en sammensmeltet latent repræsentation, der er beregnet til at fange både den bredere bevægelseskontekst og den lokaliserede detalje på udtryksniveau. Denne kombinerede feature plads bruges derefter til den endelige klassificeringsopgave: forudsige om en video er ægte eller manipuleret.

Data og test

Implementering

Forfatterne implementerede systemet ved at forbehandle inputvideoer med FaceXZoo PyTorch-baseret ansigtsgenkendelsesramme, der opnår 16 ansigtscentrerede rammer fra hvert klip. De påskudsopgaver, der er skitseret ovenfor, blev derefter trænet på CelebV-HQ datasæt, der omfatter 35,000 ansigtsvideoer i høj kvalitet.

Fra kildepapiret, eksempler fra CelebV-HQ-datasættet brugt i det nye projekt. Kilde: https://arxiv.org/pdf/2207.12393

Fra kildepapiret, eksempler fra CelebV-HQ-datasættet brugt i det nye projekt. Kilde: https://arxiv.org/pdf/2207.12393

Halvdelen af ​​dataeksemplerne var maskeret, hvilket tvang systemet til at lære generelle principper i stedet for overmontering til kildedata.

Til rekonstruktionsopgaven med maskeret frame blev modellen trænet til at forudsige manglende områder af videoframes ved hjælp af en L1 tab, hvilket minimerer forskellen mellem det originale og rekonstruerede indhold.

Til den anden opgave blev modellen trænet til at generere kort for 16 ansigtshandlingsenheder, der hver repræsenterer subtile muskelbevægelser i områder såsom øjenbryn, øjenlåg, næse og læber, igen overvåget af L1-tab.

Efter fortræning blev de to indkodere smeltet sammen og finjusteret til deepfake-detektion ved hjælp af FaceForensics ++ datasæt, som indeholder både rigtige og manipulerede videoer.

FaceForensics++-datasættet har været den centrale prøvesten i deepfake-detektion siden 2017, selvom det nu er betydeligt forældet med hensyn til de nyeste ansigtssynteseteknikker. Kilde: https://www.youtube.com/watch?v=x2g48Q2I2ZQ

FaceForensics++-datasættet har været hjørnestenen i deepfake-detektion siden 2017, selvom det nu er betydeligt forældet med hensyn til de nyeste ansigtssynteseteknikker. Kilde: https://www.youtube.com/watch?v=x2g48Q2I2ZQ

At redegøre for klasse ubalance, brugte forfatterne Fokalt tab (en variant af krydsentropitab), som lægger vægt på mere udfordrende eksempler under træning.

Al træning blev udført på en enkelt RTX 4090 GPU med 24 Gb VRAM, med en batch størrelse af 8 for 600 epoker (komplet gennemgang af dataene), vha foruddannet kontrolpunkter fra VideoMAE for at initialisere vægtene for hver af påskudsopgaverne.

Tests

Kvantitative og kvalitative evalueringer blev udført mod en række forskellige deepfake-detektionsmetoder: FTCN; RealForensics; Lip Forensics; EfficientNet+ViT; Ansigtsrøntgen; Alt-frysning;  CADMM; LAANetog BlendFace's SBI. I alle tilfælde var kildekode tilgængelig for disse rammer.

Testene centrerede sig om lokalt redigerede deepfakes, hvor kun en del af et kildeklip blev ændret. De anvendte arkitekturer var Diffusion Video Autoencoders (DVA); Stitch It In Time (STIT); Redigeret ansigtsredigering (DFE); Tokenflow; VideoP2P; Text2LiveOg FateZero. Disse metoder anvender en mangfoldighed af tilgange (diffusion for DVA og StyleGAN2 for STIT og DFE, for eksempel)

Forfatterne siger:

'For at sikre omfattende dækning af forskellige ansigtsmanipulationer indarbejdede vi en bred vifte af ansigtstræk og attributredigeringer. Til redigering af ansigtstræk ændrede vi øjenstørrelse, øjen-øjenbrynsafstand, næseforhold, næse-mundafstand, læbeforhold og kindforhold. Til redigering af ansigtsegenskaber varierede vi udtryk som smil, vrede, afsky og tristhed.

"Denne diversitet er afgørende for at validere robustheden af ​​vores model over en bred vifte af lokaliserede redigeringer. I alt genererede vi 50 videoer for hver af de ovennævnte redigeringsmetoder og validerede vores metodes stærke generalisering til deepfake-detektion."

Ældre deepfake-datasæt indgik også i runderne, nemlig Celeb-DFv2 (CDF2); DeepFake Detection (DFD); DeepFake Detection Challenge (DFDC); og WildDeepfake (DFW).

Evalueringsmålinger var Område under kurve (AUC); Gennemsnitlig præcision; og Middel F1 score.

Fra papiret: sammenligning af nylige lokaliserede deepfakes viser, at den foreslåede metode overgik alle andre, med en stigning på 15 til 20 procent i både AUC og gennemsnitlig præcision i forhold til den næstbedste tilgang.

Fra papiret: sammenligning af nylige lokaliserede deepfakes viser, at den foreslåede metode overgik alle andre, med en stigning på 15 til 20 procent i både AUC og gennemsnitlig præcision i forhold til den næstbedste tilgang.

Forfatterne giver desuden en visuel detekteringssammenligning for lokalt manipulerede visninger (kun delvist gengivet nedenfor på grund af pladsmangel):

En rigtig video blev ændret ved hjælp af tre forskellige lokaliserede manipulationer for at producere forfalskninger, der forblev visuelt lig originalen. Her vises repræsentative rammer sammen med de gennemsnitlige falske detektionsresultater for hver metode. Mens eksisterende detektorer kæmpede med disse subtile redigeringer, tildelte den foreslåede model konsekvent høje falske sandsynligheder, hvilket indikerer større følsomhed over for lokaliserede ændringer.

En rigtig video blev ændret ved hjælp af tre forskellige lokaliserede manipulationer for at producere forfalskninger, der forblev visuelt lig originalen. Her vises repræsentative rammer sammen med de gennemsnitlige falske detektionsresultater for hver metode. Mens eksisterende detektorer kæmpede med disse subtile redigeringer, tildelte den foreslåede model konsekvent høje falske sandsynligheder, hvilket indikerer større følsomhed over for lokaliserede ændringer.

Forskerne kommenterer:

'[De] eksisterende SOTA-detektionsmetoder, [LAANet], [SBI], [AltFreezing] og [CADMM], oplever et betydeligt fald i ydeevnen på de seneste deepfake-genereringsmetoder. De nuværende SOTA-metoder udviser AUC'er så lave som 48-71%, hvilket viser deres dårlige generaliseringsevner til de seneste deepfakes.

"På den anden side demonstrerer vores metode robust generalisering og opnår en AUC i intervallet 87-93 %. En lignende tendens ses også i tilfælde af gennemsnitlig præcision. Som vist [nedenfor] opnår vores metode også konsekvent høj ydeevne på standarddatasæt, der overstiger 90 % AUC, og er konkurrencedygtig med nyere deepfake-detektionsmodeller."

Ydeevne på traditionelle deepfake-datasæt viser, at den foreslåede metode forblev konkurrencedygtig med førende tilgange, hvilket indikerer stærk generalisering på tværs af en række manipulationstyper.

Ydeevne på traditionelle deepfake-datasæt viser, at den foreslåede metode forblev konkurrencedygtig med førende tilgange, hvilket indikerer stærk generalisering på tværs af en række manipulationstyper.

Forfatterne observerer, at disse sidste test involverer modeller, der med rimelighed kunne ses som forældede, og som blev introduceret før 2020.

Som en mere omfattende visuel skildring af den nye models ydeevne giver forfatterne til sidst en omfattende tabel, hvoraf kun en del har plads til at gengive her:

I disse eksempler blev en rigtig video ændret ved hjælp af tre lokaliserede redigeringer for at producere forfalskninger, der visuelt lignede originalen. De gennemsnitlige konfidensscore på tværs af disse manipulationer viser, siger forfatterne, at den foreslåede metode opdagede forfalskninger mere pålideligt end andre førende tilgange. Se venligst den sidste side af kilde-PDF'en for de komplette resultater.

I disse eksempler blev en rigtig video ændret ved hjælp af tre lokaliserede redigeringer for at producere forfalskninger, der visuelt lignede originalen. De gennemsnitlige konfidensscore på tværs af disse manipulationer viser, siger forfatterne, at den foreslåede metode opdagede forfalskninger mere pålideligt end andre førende tilgange. Se venligst den sidste side af kilde-PDF'en for de komplette resultater.

Forfatterne hævder, at deres metode opnår konfidensscore over 90 procent for påvisning af lokaliserede redigeringer, mens eksisterende detektionsmetoder forblev under 50 procent på den samme opgave. De fortolker dette hul som bevis på både følsomheden og generaliserbarheden af ​​deres tilgang og som en indikation af de udfordringer, som de nuværende teknikker står over for i håndteringen af ​​denne slags subtile ansigtsmanipulationer.

For at vurdere modellens pålidelighed under virkelige forhold, og i henhold til den metode, der er etableret af CADMM, testede forfatterne dens ydeevne på videoer modificeret med almindelige forvrængninger, herunder justeringer af mætning og kontrast, Gaussisk sløring, pixelering og blokbaserede kompressionsartefakter samt additiv støj.

Resultaterne viste, at detektionsnøjagtigheden forblev stort set stabil på tværs af disse forstyrrelser. Det eneste bemærkelsesværdige fald skete med tilføjelsen af ​​Gaussisk støj, som forårsagede et beskedent fald i ydeevnen. Andre ændringer havde minimal effekt.

En illustration af, hvordan detektionsnøjagtigheden ændres under forskellige videoforvrængninger. Den nye metode forblev modstandsdygtig i de fleste tilfælde med kun et lille fald i AUC. Det mest markante fald opstod, da Gaussisk støj blev introduceret.

En illustration af, hvordan detektionsnøjagtigheden ændres under forskellige videoforvrængninger. Den nye metode forblev modstandsdygtig i de fleste tilfælde med kun et lille fald i AUC. Det mest markante fald opstod, da Gaussisk støj blev introduceret.

Disse resultater, foreslår forfatterne, tyder på, at metodens evne til at opdage lokaliserede manipulationer ikke let forstyrres af typiske forringelser i videokvalitet, hvilket understøtter dens potentielle robusthed i praktiske omgivelser.

Konklusion

AI-manipulation findes i den offentlige bevidsthed primært i den traditionelle opfattelse af deepfakes, hvor en persons identitet påtvinges en anden persons krop, som muligvis udfører handlinger, der er i modstrid med identitetsindehaverens principper. Denne opfattelse bliver langsomt opdateret for at anerkende de mere snigende muligheder i generative videosystemer (i den nye generation af ...). video deepfakes), og til mulighederne for latente diffusionsmodeller (LDM'er) generelt.

Det er derfor rimeligt at forvente, at den slags lokal redigering, som den nye avis beskæftiger sig med, måske ikke når offentlighedens opmærksomhed, før en afgørende begivenhed i Pelosi-stil indtræffer, da folk bliver distraheret fra denne mulighed af lettere overskriftsgribende emner som f.eks. video deepfake svindel.

Ikke desto mindre meget som skuespilleren Nic Cage har udtrykte konsekvent bekymring om muligheden for, at postproduktionsprocesser 'reviderer' en skuespillers præstation, bør vi måske også opfordre til større bevidsthed om denne form for 'subtil' videojustering – ikke mindst fordi vi af natur er utroligt følsomme over for meget små variationer i ansigtsudtryk, og fordi kontekst kan ændre virkningen af ​​små ansigtsbevægelser betydeligt (overvej f.eks. den forstyrrende effekt af selv at smøre et smiskende smil ved en begravelse).

 

Først offentliggjort onsdag den 2. april 2025

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai