Andersonin kulma

Pienet mutta merkittävät tekoälymuokkaukset todellisissa videoissa paljastettuina

Published April 2, 2025

Updated April 26, 2026

Martin Anderson

Montage of illustrations from the paper 'Detecting Localized Deepfake Manipulations Using Action Unit-Guided Video Representations' (https://arxiv.org/pdf/2503.22121)

Vuonna 2019 Yhdysvaltain edustajainhuoneen puhemies Nancy Pelosi oli kohteena kohdennettua ja melko vanhanaikaista deepfake-tyyppistä hyökkäystä, kun hänen todellista videotaan muokattiin tekemään häneltä humalainen olo – epätodellinen tapahtuma, jota jaettiin useita miljoonia kertoja ennen kuin totuus siitä selvisi (ja mahdollisesti jonkin verran poliittista pääomaa vahingoitettiin niiden taholta, jotka eivät pysyneet tarinan mukana).

Vaikka tämä vääristäminen vaati vain jonkin verran yksinkertaista audiovisuaalista editointia eikä mitään tekoälyä, se on edelleen avainesimerkki siitä, miten pienet muutokset todellisessa audiovisuaalisessa tulosteessa voivat olla tuhoisia.

Tuolloin deepfake-kenttä oli hallinnut autoencoder-pohjaiset kasvojen korvausjärjestelmät, jotka olivat debytoineet vuoden 2017 lopulla eivätkä olleet merkittävästi parantaneet laatuaan siitä lähtien. Nämä varhaiset järjestelmät olisivat olleet vaikeassa tilanteessa luodakseen tällaisia pieniä mutta merkittäviä muutoksia tai seuraamaan realistisesti moderneja tutkimussuuntia, kuten esimerkiksi tunteen editointi:

The recent 'Neural Emotion Director' framework changes the mood of a famous face. Source: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Vuoden 2022 ‘Neural Emotion Director’ -kehys muuttaa kuuluisan kasvon tunnelmaa. Source: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Asiat ovat nyt aivan toisin. Elokuvateollisuus on kiinnostunut vakavasti jälkituotannon muokkauksesta käyttäen koneoppimismenetelmiä, ja tekoälyn mahdollistama “jälkikäteen” täydellisyys on jopa saanut viimeaikaisen kritiikin.

Ennustamalla (tai väittäen) tämän kysynnän, kuvan ja videon synteesitutkimuksen kohtaus on heittänyt eteenpäin laajan joukon projekteja, jotka tarjoavat “paikallisia muokkauksia” kasvojen kaappaamisesta, sen sijaan, että korvaavat ne kokonaan: tällaisiin projekteihin kuuluvat Diffusion Video Autoencoders; Stitch it in Time; ChatFace; MagicFace; ja DISCO, muun muassa.

Expression-editing with the January 2025 project MagicFace. Source: https://arxiv.org/pdf/2501.02260

Ilmaisun editointi tammikuun 2025 projektissa MagicFace. Source: https://arxiv.org/pdf/2501.02260

Uudet kasvot, uudet ryppyset

Kuitenkin mahdollistavat teknologiat kehittyvät paljon nopeammin kuin niiden havaitsemismenetelmät. Melkein kaikki deepfake-havaitsemismenetelmät, jotka ilmestyvät kirjallisuudessa, ajavat eilisen deepfake-menetelmiä eilisen aineistojen kanssa. Viime viikkojen ajan kukaan heistä ei ollut osoittanut piileväksi potentiaaliksi AI-järjestelmiin luoda pieniä ja paikallisia muutoksia videoissa.

Nyt uusi tutkimuspaperi Intiasta on korjannut tämän, järjestelmällä, joka pyrkii tunnistamaan kasvot, jotka on muokattu (sen sijaan, että ne on korvattu) tekoälymenetelmillä:

Detection of Subtle Local Edits in Deepfakes: A real video is altered to produce fakes with nuanced changes such as raised eyebrows, modified gender traits, and shifts in expression toward disgust (illustrated here with a single frame). Source: https://arxiv.org/pdf/2503.22121

Hienojen paikallisten muokkausten havaitseminen deepfakeissa: Todellinen video muutetaan tuottamaan väärennöksiä hienoisilla muutoksilla, kuten kohotetuilla kulmilla, muutetuilla sukupuolipiirteillä ja ilmeen muutoksilla inhon suuntaan (kuvattu yhdellä kehyksellä). Source: https://arxiv.org/pdf/2503.22121

Tutkijoiden järjestelmä on suunniteltu tunnistamaan deepfakeit, jotka sisältävät hienoisia, paikallisia kasvonmanipulaatioita – toistaiseksi laiminlyöty väärennösten luokka. Sen sijaan, että keskittyisivät globaaleihin epäjohdonmukaisuuksiin tai identiteetin epäilyyn, lähestymistapa kohdistuu hienoihin muutoksiin, kuten pieniin ilmeen muutoksiin tai pieniin muutoksiin tiettyihin kasvonpiirteisiin.

Menetelmä hyödyntää Toimintayksiköiden (AUs) erottinta Kasvojen Ilmeen Koodausjärjestelmässä (FACS), joka määrittelee 64 mahdollista yksittäistä muunneltavaa aluetta kasvoissa, jotka yhdessä muodostavat ilmeitä.

Some of the constituent 64 expression parts in FACS. Source: https://www.cs.cmu.edu/~face/facs.htm

Jotkut FACS:n 64:sta ilmeen osasta. Source: https://www.cs.cmu.edu/~face/facs.htm

Tutkijat arvioivat lähestymistapaansa useiden viimeaikaisen muokkausmenetelmien kanssa ja raportoivat johdonmukaisia suoritusparannuksia, sekä vanhemmilla aineistoilla että paljon uudemmilla hyökkäysvektoreilla:

‘Käyttämällä AU-pohjaisia ominaisuuksia videon esitysten opettamiseen Masked Autoencodersin (MAE) kautta, menetelmämme havaitsee tehokkaasti paikalliset muutokset, jotka ovat olennaisia hienojen kasvonmuokkausten havaitsemiseksi.

‘Tämä lähestymistapa mahdollistaa meille yhtenäisen latentin esityksen rakentamisen, joka koodaa sekä paikalliset muokkaukset että laajemmat muutokset kasvoihin keskittyvissä videoissa, tarjoten kattavan ja sopeutuvan ratkaisun deepfake-havaitsemiseen.’

Uusi tutkimuspaperi on nimeltään Detecting Localized Deepfake Manipulations Using Action Unit-Guided Video Representations, ja se tulee Intian teknillisen instituutin Madrasin kolmelta tutkijalta.

Menetelmä

Linjassa VideoMAE:n kanssa, uusi menetelmä aloittaa soveltamalla kasvon havaitsemista videoon ja ottaa tasaisesti aikaisemmin valitut kehykset, jotka on keskitetty havaittuun kasvoihin. Nämä kehykset jaetaan pieniin 3D-jaksoihin (eli aikaisesti mahdollistettuihin palasiin), jotka kaikki havaitsevat paikallisen tilan ja aikaisen yksityiskohdan.

Schema for the new method. The input video is processed with face detection to extract evenly spaced, face-centered frames, which are then divided into tubular patches and passed through an encoder that fuses latent representations from two pretrained pretext tasks. The resulting vector is then used by a classifier to determine whether the video is real or fake.

Uuden menetelmän schema. Sisääntulovideo käsitellään kasvon havaitsemisella, jotta voidaan poimia tasaisesti aikaisemmin valitut, kasvoihin keskittyvät kehykset, jotka jaetaan sitten putkilomaisiin palasiin ja ohjataan kooderin läpi, joka yhdistää latentit esitykset kahdesta esikoulutetusta esitaskusta. Tuloksena oleva vektori käytetään luokittelijan kanssa määrittämään, onko video aito vai väärennetty.

Kukin 3D-pala sisältää kiinteän kokoisen pikselien ikkunan (esim. 16×16) muutamasta peräkkäisestä kehyksestä (esim. 2). Tämä antaa mallille mahdollisuuden oppia lyhytaikaisen liikkeen ja ilmeen muutosten – ei vain sitä, miltä kasvo näyttää, vaan miten se liikkuu.

Palaset upotetaan ja asiallisesti koodattu ennen kuin ne ohjataan kooderiin, joka on suunniteltu havaitsemaan ominaisuuksia, jotka voivat erottaa aitoa väärennöksestä.

Tutkijat myöntävät, että tämä on erityisen haasteellista silloin, kun on kyse hienoista muokkauksista, ja ratkaisevat tämän ongelman rakentamalla kooderin, joka yhdistää kaksi erilaista opittua esitystapaa, käyttäen rinnakkaisen huomion mekanismia yhdistämään ne. Tämä on tarkoitus tuottaa herkempi ja yleisempi ominaisuuden avaruus hienojen kasvonmuokkausten havaitsemiseen.

Esitaskut

Ensimmäinen näistä esityksistä on kooderi, joka on koulutettu maskattujen kehysten uudelleenrakentamistehtävällä. Kun video on jaettu 3D-palasiin (joista useimmat on piilotettu), kooderi oppii rakentamaan puuttuvat osat, mikä pakottaa sen havaitsemaan tärkeitä aikais-avaruksellisia malleja, kuten kasvon liikkeen tai johdonmukaisuuden ajan kuluessa.

Pretext task training involves masking parts of the video input and using an encoder-decoder setup to reconstruct either the original frames or per-frame action unit maps, depending on the task.

Esitaskun koulutus sisältää osittaisen maskauksen videon sisääntulosta ja kooderin-dekooderin asetelman käytön joko alkuperäisten kehysten tai kehykohtaisen toimintayksikkökarttojen uudelleenrakentamiseen, riippuen tehtävästä.

Kuitenkin tutkimus huomauttaa, että tämä yksin ei tarjoa riittävää herkkyyttä hienojen muokkausten havaitsemiseen, ja tutkijat esittävät toisen kooderin, joka on koulutettu kasvojen toimintayksiköiden havaitsemiseen: tässä tehtävässä malli oppii generoimaan tiheitä toimintayksikkökarttoja jokaiselle kehykselle, jälleen osittain maskattujen sisääntulon kanssa, mikä rohkaisee sitä keskittymään paikalliseen lihasaktiivisuuteen, jossa usein tapahtuu monia hienoja deepfake-muokkauksia.

Further examples of Facial Action Units (FAUs, or AUs). Source: https://www.eiagroup.com/the-facial-action-coding-system/

Lisäksi esimerkkejä Kasvojen Toimintayksiköistä (FAU:sta, tai AU:sta). Source: https://www.eiagroup.com/the-facial-action-coding-system/

Kun molemmat kooderit on esikoulutettu, niiden tulokset yhdistetään rinnakkaisen huomion avulla. Sen sijaan, että yksinkertaisesti yhdistettäisiin kaksi ominaisuusjoukkoa, malli käyttää toimintayksikköpohjaisia ominaisuuksia kyselyinä, jotka ohjaavat huomion aikais-avaruksellisten ominaisuuksien ylle, jotka on opittu maskatun autoenkoodauksesta. Toimintayksikkökooderi kertoo mallille, mihin se pitäisi kiinnittää huomiota.

Tuloksena on yhdistetty latentti esitys, joka on tarkoitus havaita sekä laajemman liikkeen kontekstin että paikallisen ilmeen yksityiskohtaisuuden. Tämä yhdistetty ominaisuusavaruus käytetään lopullisessa luokittelutehtävässä: ennustamaan, onko video aito vai muokattu.

Tiedot ja testit

Toteutus

Tutkijat toteuttivat järjestelmän esikäsitellessään sisääntulovideoita FaceXZoo PyTorch-pohjaisella kasvonhavaitsemisraamikkojärjestelmällä, saaden 16 kasvoihin keskittyvää kehykset jokaisesta klipistä. Edellä mainitut esitaskut koulutettiin CelebV-HQ -aineistolla, joka koostuu 35 000 laadukkaasta kasvovideosta.

From the source paper, examples from the CelebV-HQ dataset used in the new project. Source: https://arxiv.org/pdf/2207.12393

Lähdepaperista, esimerkkejä uuden projektin käyttämästä CelebV-HQ -aineistosta. Source: https://arxiv.org/pdf/2207.12393

Related Topics:AI video deepfake deepfake detection DeepFakes