Andersonin kulma
Pienet mutta merkittävät tekoälymuokkaukset todellisissa videoissa paljastettuina

Vuonna 2019 Yhdysvaltain edustajainhuoneen puhemies Nancy Pelosi oli kohteena kohdennettua ja melko vanhanaikaista deepfake-tyyppistä hyökkäystä, kun hänen todellista videotaan muokattiin tekemään häneltä humalainen olo – epätodellinen tapahtuma, jota jaettiin useita miljoonia kertoja ennen kuin totuus siitä selvisi (ja mahdollisesti jonkin verran poliittista pääomaa vahingoitettiin niiden taholta, jotka eivät pysyneet tarinan mukana).
Vaikka tämä vääristäminen vaati vain jonkin verran yksinkertaista audiovisuaalista editointia eikä mitään tekoälyä, se on edelleen avainesimerkki siitä, miten pienet muutokset todellisessa audiovisuaalisessa tulosteessa voivat olla tuhoisia.
Tuolloin deepfake-kenttä oli hallinnut autoencoder-pohjaiset kasvojen korvausjärjestelmät, jotka olivat debytoineet vuoden 2017 lopulla eivätkä olleet merkittävästi parantaneet laatuaan siitä lähtien. Nämä varhaiset järjestelmät olisivat olleet vaikeassa tilanteessa luodakseen tällaisia pieniä mutta merkittäviä muutoksia tai seuraamaan realistisesti moderneja tutkimussuuntia, kuten esimerkiksi tunteen editointi:

Vuoden 2022 ‘Neural Emotion Director’ -kehys muuttaa kuuluisan kasvon tunnelmaa. Source: https://www.youtube.com/watch?v=Li6W8pRDMJQ
Asiat ovat nyt aivan toisin. Elokuvateollisuus on kiinnostunut vakavasti jälkituotannon muokkauksesta käyttäen koneoppimismenetelmiä, ja tekoälyn mahdollistama “jälkikäteen” täydellisyys on jopa saanut viimeaikaisen kritiikin.
Ennustamalla (tai väittäen) tämän kysynnän, kuvan ja videon synteesitutkimuksen kohtaus on heittänyt eteenpäin laajan joukon projekteja, jotka tarjoavat “paikallisia muokkauksia” kasvojen kaappaamisesta, sen sijaan, että korvaavat ne kokonaan: tällaisiin projekteihin kuuluvat Diffusion Video Autoencoders; Stitch it in Time; ChatFace; MagicFace; ja DISCO, muun muassa.

Ilmaisun editointi tammikuun 2025 projektissa MagicFace. Source: https://arxiv.org/pdf/2501.02260
Uudet kasvot, uudet ryppyset
Kuitenkin mahdollistavat teknologiat kehittyvät paljon nopeammin kuin niiden havaitsemismenetelmät. Melkein kaikki deepfake-havaitsemismenetelmät, jotka ilmestyvät kirjallisuudessa, ajavat eilisen deepfake-menetelmiä eilisen aineistojen kanssa. Viime viikkojen ajan kukaan heistä ei ollut osoittanut piileväksi potentiaaliksi AI-järjestelmiin luoda pieniä ja paikallisia muutoksia videoissa.
Nyt uusi tutkimuspaperi Intiasta on korjannut tämän, järjestelmällä, joka pyrkii tunnistamaan kasvot, jotka on muokattu (sen sijaan, että ne on korvattu) tekoälymenetelmillä:

Hienojen paikallisten muokkausten havaitseminen deepfakeissa: Todellinen video muutetaan tuottamaan väärennöksiä hienoisilla muutoksilla, kuten kohotetuilla kulmilla, muutetuilla sukupuolipiirteillä ja ilmeen muutoksilla inhon suuntaan (kuvattu yhdellä kehyksellä). Source: https://arxiv.org/pdf/2503.22121
Tutkijoiden järjestelmä on suunniteltu tunnistamaan deepfakeit, jotka sisältävät hienoisia, paikallisia kasvonmanipulaatioita – toistaiseksi laiminlyöty väärennösten luokka. Sen sijaan, että keskittyisivät globaaleihin epäjohdonmukaisuuksiin tai identiteetin epäilyyn, lähestymistapa kohdistuu hienoihin muutoksiin, kuten pieniin ilmeen muutoksiin tai pieniin muutoksiin tiettyihin kasvonpiirteisiin.
Menetelmä hyödyntää Toimintayksiköiden (AUs) erottinta Kasvojen Ilmeen Koodausjärjestelmässä (FACS), joka määrittelee 64 mahdollista yksittäistä muunneltavaa aluetta kasvoissa, jotka yhdessä muodostavat ilmeitä.

Jotkut FACS:n 64:sta ilmeen osasta. Source: https://www.cs.cmu.edu/~face/facs.htm
Tutkijat arvioivat lähestymistapaansa useiden viimeaikaisen muokkausmenetelmien kanssa ja raportoivat johdonmukaisia suoritusparannuksia, sekä vanhemmilla aineistoilla että paljon uudemmilla hyökkäysvektoreilla:
‘Käyttämällä AU-pohjaisia ominaisuuksia videon esitysten opettamiseen Masked Autoencodersin (MAE) kautta, menetelmämme havaitsee tehokkaasti paikalliset muutokset, jotka ovat olennaisia hienojen kasvonmuokkausten havaitsemiseksi.
‘Tämä lähestymistapa mahdollistaa meille yhtenäisen latentin esityksen rakentamisen, joka koodaa sekä paikalliset muokkaukset että laajemmat muutokset kasvoihin keskittyvissä videoissa, tarjoten kattavan ja sopeutuvan ratkaisun deepfake-havaitsemiseen.’
Uusi tutkimuspaperi on nimeltään Detecting Localized Deepfake Manipulations Using Action Unit-Guided Video Representations, ja se tulee Intian teknillisen instituutin Madrasin kolmelta tutkijalta.
Menetelmä
Linjassa VideoMAE:n kanssa, uusi menetelmä aloittaa soveltamalla kasvon havaitsemista videoon ja ottaa tasaisesti aikaisemmin valitut kehykset, jotka on keskitetty havaittuun kasvoihin. Nämä kehykset jaetaan pieniin 3D-jaksoihin (eli aikaisesti mahdollistettuihin palasiin), jotka kaikki havaitsevat paikallisen tilan ja aikaisen yksityiskohdan.

Uuden menetelmän schema. Sisääntulovideo käsitellään kasvon havaitsemisella, jotta voidaan poimia tasaisesti aikaisemmin valitut, kasvoihin keskittyvät kehykset, jotka jaetaan sitten putkilomaisiin palasiin ja ohjataan kooderin läpi, joka yhdistää latentit esitykset kahdesta esikoulutetusta esitaskusta. Tuloksena oleva vektori käytetään luokittelijan kanssa määrittämään, onko video aito vai väärennetty.
Kukin 3D-pala sisältää kiinteän kokoisen pikselien ikkunan (esim. 16×16) muutamasta peräkkäisestä kehyksestä (esim. 2). Tämä antaa mallille mahdollisuuden oppia lyhytaikaisen liikkeen ja ilmeen muutosten – ei vain sitä, miltä kasvo näyttää, vaan miten se liikkuu.
Palaset upotetaan ja asiallisesti koodattu ennen kuin ne ohjataan kooderiin, joka on suunniteltu havaitsemaan ominaisuuksia, jotka voivat erottaa aitoa väärennöksestä.
Tutkijat myöntävät, että tämä on erityisen haasteellista silloin, kun on kyse hienoista muokkauksista, ja ratkaisevat tämän ongelman rakentamalla kooderin, joka yhdistää kaksi erilaista opittua esitystapaa, käyttäen rinnakkaisen huomion mekanismia yhdistämään ne. Tämä on tarkoitus tuottaa herkempi ja yleisempi ominaisuuden avaruus hienojen kasvonmuokkausten havaitsemiseen.
Esitaskut
Ensimmäinen näistä esityksistä on kooderi, joka on koulutettu maskattujen kehysten uudelleenrakentamistehtävällä. Kun video on jaettu 3D-palasiin (joista useimmat on piilotettu), kooderi oppii rakentamaan puuttuvat osat, mikä pakottaa sen havaitsemaan tärkeitä aikais-avaruksellisia malleja, kuten kasvon liikkeen tai johdonmukaisuuden ajan kuluessa.

Esitaskun koulutus sisältää osittaisen maskauksen videon sisääntulosta ja kooderin-dekooderin asetelman käytön joko alkuperäisten kehysten tai kehykohtaisen toimintayksikkökarttojen uudelleenrakentamiseen, riippuen tehtävästä.
Kuitenkin tutkimus huomauttaa, että tämä yksin ei tarjoa riittävää herkkyyttä hienojen muokkausten havaitsemiseen, ja tutkijat esittävät toisen kooderin, joka on koulutettu kasvojen toimintayksiköiden havaitsemiseen: tässä tehtävässä malli oppii generoimaan tiheitä toimintayksikkökarttoja jokaiselle kehykselle, jälleen osittain maskattujen sisääntulon kanssa, mikä rohkaisee sitä keskittymään paikalliseen lihasaktiivisuuteen, jossa usein tapahtuu monia hienoja deepfake-muokkauksia.

Lisäksi esimerkkejä Kasvojen Toimintayksiköistä (FAU:sta, tai AU:sta). Source: https://www.eiagroup.com/the-facial-action-coding-system/
Kun molemmat kooderit on esikoulutettu, niiden tulokset yhdistetään rinnakkaisen huomion avulla. Sen sijaan, että yksinkertaisesti yhdistettäisiin kaksi ominaisuusjoukkoa, malli käyttää toimintayksikköpohjaisia ominaisuuksia kyselyinä, jotka ohjaavat huomion aikais-avaruksellisten ominaisuuksien ylle, jotka on opittu maskatun autoenkoodauksesta. Toimintayksikkökooderi kertoo mallille, mihin se pitäisi kiinnittää huomiota.
Tuloksena on yhdistetty latentti esitys, joka on tarkoitus havaita sekä laajemman liikkeen kontekstin että paikallisen ilmeen yksityiskohtaisuuden. Tämä yhdistetty ominaisuusavaruus käytetään lopullisessa luokittelutehtävässä: ennustamaan, onko video aito vai muokattu.
Tiedot ja testit
Toteutus
Tutkijat toteuttivat järjestelmän esikäsitellessään sisääntulovideoita FaceXZoo PyTorch-pohjaisella kasvonhavaitsemisraamikkojärjestelmällä, saaden 16 kasvoihin keskittyvää kehykset jokaisesta klipistä. Edellä mainitut esitaskut koulutettiin CelebV-HQ -aineistolla, joka koostuu 35 000 laadukkaasta kasvovideosta.

Lähdepaperista, esimerkkejä uuden projektin käyttämästä CelebV-HQ -aineistosta. Source: https://arxiv.org/pdf/2207.12393










