Tekoäly
Deepfake-videopuhelujen havaitseminen näytön valaistuksen kautta

Yhdysvaltain National Security Agencyn tutkijan ja Kalifornian yliopiston Berkeleyn välisen uuden yhteistyön ansiosta on kehitetty uusi menetelmä syvänvalheen sisällön havaitsemiseksi live-videokontekstissa – havainnoimalla näytön valaistuksen vaikutusta henkilön ulkonäköön videopuhelun toisessa päässä.

Suosittu DeepFaceLive-käyttäjä Druuzil Tech & Games kokeilee oman Christian Bale DeepFaceLab-malliaan live-istunnossa seuraajiensa kanssa, kun valonlähteet muuttuvat. Lähde: https://www.youtube.com/watch?v=XPQLDnogLKA
Järjestelmä toimii asettamalla graafinen elementti käyttäjän näytölle, joka muuttaa kapean väriskaalan nopeammin kuin tyypillinen deepfake-järjestelmä voi reagoida – vaikka se, kuten DeepFaceLive (kuva yllä), kykenee ylläpitämään live-värisiirtoa ja huomioimaan ympäristön valaistusta.
Yhdenmukainen värikuvan, joka näkyy henkilön toisessa päässä olevalla näytöllä (ts. potentiaalisella deepfake-petollisella), kierrätetään rajoitettu määrä sävy-vaihteluja, jotka on suunniteltu siten, ettei ne laukaise web-kameran automaattista valkotasapainoa ja muita ad hoc-valaistuskompensointijärjestelmiä, jotka vaarantaisivat menetelmän.

Tutkimuksesta, valaistusolosuhteiden muutos näytöltä edessä olevan käyttäjän, joka toimii tehokkaasti hajavalona. Lähde: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
Lähestymistavan teoria perustuu siihen, että live-deepfake-järjestelmät eivät voi reagoida ajoissa näytöllä oleviin muutoksiin, mikä lisää “viivettä” deepfake-vaikutuksessa tietyissä osissa värispektriä, paljastaen sen läsnäolon.
Jotta voidaan mitata heijastunutta näytön valoa tarkasti, järjestelmän on otettava huomioon ja poistettava yleisen ympäristövalaistuksen vaikutus, joka ei liity näytön valoon. Tällöin se pystyy erottamaan puutteita aktiivisen valaistuksen ja käyttäjien kasvojen värin mittauksessa, edustaen 1-4 kehyksen välimuutosta kummassakin:

Rajoittamalla sävy-vaihteluita näytöllä olevassa “havainto”-grafiikassa ja varmistamalla, ettei käyttäjän web-kameraa pyydetä muuttamaan automaattisesti tallennusasetuksiaan liiallisen muutoksen kautta näytön valaistuksessa, tutkijat ovat pystyneet erottamaan ilmiselvän viiveen deepfake-järjestelmän mukautumisessa valaistusmuutoksiin.
Tutkimus johtaa siihen, että:
‘Koska asetamme luonnollisen luottamuksen live-videopuheluihin, ja videopuheluiden kasvava yleisyys henkilökohtaisissa ja ammatillisissa elämässämme, esitämme, että videoiden (ja äänen) todentamismenetelmien kehittäminen tulee kasvamaan tärkeydessään.’
Tutkimus tutkimus on otsikoitu Deepfake-videoiden havaitseminen aktiivisen valaistuksen avulla, ja se on tehty Candice R. Gerstnerin, soveltavan matematiikan tutkijan, ja Berkeleyn yliopiston professori Hany Faridin toimesta.
Luottamuksen Eroosio
Anti-deepfake-tutkimus on muuttunut merkittävästi viimeisen kuuden kuukauden aikana, siirtymällä yleisestä deepfake-havaitsemisesta (ts. ennalta tallennettujen videoiden ja pornografisen sisällön kohdalla) “elävyyden” havaitsemiseen, vastauksena kasvavaan aaltoon deepfake-käyttötapauksia videoneuvottelupuhelussa ja FBI:n viimeaikaisiin varoituksiin tällaisten teknologioiden kasvavasta käytöstä etätyösovelluksissa.
Vaikka videopuhelu ei välttämättä ole deepfaked, AI-vetoinen videoiden matkiminen on alkamassa aiheuttamaan paranoiaa.
Uusi tutkimus toteaa:
‘Reaaliaikaiset deepfake-tuotokset [aiheuttavat] ainutlaatuisia uhkia, johtuen yleisestä luottamuksesta live-videopuheluihin ja haasteista deepfake-havaitsemisessa reaaliajassa, kun puhelu kehittyy.’
Tutkimusyhteisö on jo pitkään asettanut itselleen tavoitteeksi löytää virheettömiä merkkejä deepfake-sisällöstä, joita ei voida helposti korvata. Vaikka media on usein kuvannut tätä teknologisen sodan välisenä turvallisuustutkijoiden ja deepfake-kehittäjien välillä, useimmat varhaisista lähestymistavoista (kuten silmien räpäytysanalyysi, pään asennon määrittäminen ja käyttäytymisen analyysi) on kuitattu yksinkertaisesti siksi, että kehittäjät ja käyttäjät yrittivät tehdä realistisempia deepfake-kuvia yleensä, eikä erityisesti osoittaa turvallisuusyhteisön viimeisintä “merkkiä”.
Valaistus Live-Deepfake-Videossa
Deepfake-havaitseminen live-videoympäristössä kantaa taakan huonon videoyhteyden huomioon ottamisesta, mikä on hyvin yleistä videoneuvottelutilanteissa. Jopa ilman välikäsisen deepfake-kertaa videosisältö voi olla altis NASA-tyyliselle viiveelle, renderöintiartefakteille ja muiden ääni- ja videodegradaatiomuotojen vaikutukselle. Nämä voivat piilottaa karkeat reunat live-deepfaking-arkkitehtuurissa, sekä videossa että äänessä.
Tutkijoiden uusi järjestelmä parantaa tuloksia ja menetelmiä, jotka sisältyvät julkaisuun vuodelta 2020 Temple Universityn verkostoituneen laskennan keskuksesta Philadelphiassa.

Vuoden 2020 tutkimuksesta, voidaan havaita muutos “täytetyn” kasvojen valaistuksessa, kun näytön sisältö muuttuu. Lähde: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf
Uuden työn ero on, että se ottaa huomioon, miten web-kamerat reagoivat valaistusmuutoksiin. Tutkijat selittävät:
‘Koska kaikki modernit web-kamerat suorittavat automaattista valotusasetusta, korkean intensiteetin aktiivinen valaistus [käytetty aiemmassa työssä] on todennäköisesti laukaisee kameran automaattisen valotusasetuksen, joka puolestaan sekoittaa tallennetun kasvojen ulkonäön. Välttääksemme tämän, käytämme aktiivista valaistusta, joka koostuu isoluminantista sävyn muutoksesta.
‘Vaikka tämä välttää kameran automaattisen valotusasetuksen, se voi laukaise kameran valkotasoituksen, joka puolestaan sekoittaa tallennetun kasvojen ulkonäön. Välttääksemme tämän, toimimme sävyalueella, jonka olemme empiirisesti määritelleet ei laukaise valkotasoitusta.’
Tässä aloitteessa tutkijat ottivat myös huomioon samankaltaisia aiempia pyrkimyksiä, kuten LiveScreen, joka pakottaa huomaamattoman valaistusmallin käyttäjän näytölle deepfake-sisällön paljastamiseksi.
Vaikka järjestelmä saavutti 94,8 prosentin osumatarkkuuden, tutkijat toteavat, että valaistusmallien hienostuneisuus tekee tämänkaltaisen salattavan lähestymistavan haasteelliseksi toteuttaa valaistuissa ympäristöissä, ja ehdottavat, että heidän järjestelmänsä tai siihen perustuva järjestelmä voisi olla sisällytetty julkisesti ja oletusarvoisesti suosittuihin videoneuvotteluohjelmiin:
‘Meidän ehdottamamme väliintulo voisi toteutua joko puhelukumppanin, joka jakaa vain näytönsä ja näyttää aikariippuvan kuvion, tai, ihanteellisesti, se voisi olla suoraan integroitu videopuheluasiakasohjelmaan.’
Testit
Tutkijat käyttivät sekoitusta synteettisiä ja todellisia koehenkilöitä testatakseen Dlib-ohjaimen deepfake-havaintajärjestelmäänsä. Synteettisessä tilanteessa he käyttivät Mitsubaa, eteen- ja takaisinrenderöintiohjelmaa Sveitsin liittopäivien teknillisestä korkeakoulusta Lausannessa.

Simuloitujen datanäytteiden otokset, joissa on vaihteleva iho, valonlähteen koko, ympäristövalon voimakkuus ja etäisyys kameraan.
Kuvaus sisältää parametrinen CGI-pää, joka on tallennettu virtuaalikamerasta 90 asteen näkökulmalla. Päät ovat Lambertin heijastusominaisuudet ja neutraalit ihonvärit, ja ne sijaitsevat 2 jalkaa virtuaalikameran edessä.
Testatakseen kehysraamia erilaisissa mahdollisissa asetelmissa, tutkijat suorittivat sarjan testejä, muuttaen eri puolia peräkkäin. Muutetut puolet sisälsivät ihonväriä, etäisyyttä ja valaistuksen kokoisia.
Tutkijat toteavat:
‘Simulaatiossa, jossa otimme huomioon useammat oletuksemme, ehdottamamme tekniikka on erittäin vankka laajalle valikoimalle kuvauksellisille asetelmille.’
Todellisessa tilanteessa tutkijat käyttivät 15 vapaaehtoista, joilla oli erilaisia ihonvärejä, eri ympäristöissä. Kukin joutui kahden rajoitetun sävy-vaihtelun kierrätyskierroksen alaiseksi, olosuhteissa, joissa 30 Hz:n näytön virkistystaajuus oli synchronoitu web-kameraan, mikä tarkoitti, että aktiivinen valaistus kestäisi vain yhden sekunnin kerrallaan. Tulokset olivat laajasti verrannollisia synteettisten testien kanssa, vaikka korrelaatiot kasvoivat merkittävästi suuremmilla valaistusarvoilla.
Tulevaisuuden Suuntaukset
Järjestelmä, tutkijat myöntävät, ei ota huomioon tyypillisiä kasvojen peittämisiä, kuten hiuksia, silmälaseja tai partaa. Kuitenkin he huomauttavat, että tällaiset maskaukset voidaan lisätä myöhempään järjestelmiin (merkintöjen ja myöhemmän semanttisen segmentoinnin kautta), jotka voidaan kouluttaa ottamaan arvoja vain havaituista ihonalueista kohdehenkilössä.
Tutkijat ehdottavat myös, että samankaltainen paradigma voidaan soveltaa deepfake-äänipuheluiden havaitsemiseen, ja että tarvittava ääni voidaan soittaa taajuudessa, joka on ulottumattomissa ihmisäänen kuulovaroista.
Tutkijat ehdottavat myös, että arviointialueen laajentaminen kasvojen ulkopuolelle rikkaammassa kaappaustilassa voisi parantaa deepfake-havaitsemisen mahdollisuuksia:
‘Monimutkaisempi 3D-valaistuksen arviointi tarjoaisi todennäköisesti rikkaamman ulkonäön mallin, joka olisi vaikeampi väärentäjälle kiertää. Vaikka keskityimme vain kasvoihin, tietokoneen näyttö valaisee myös kaulan, ylävartalon ja ympäröivää taustaa, joista voidaan tehdä samankaltaisia mittauksia.
‘Nämä lisämääräiset mittaukset pakottaisivat väärentäjän huomioimaan koko 3D-kohtauksen, ei vain kasvoja.’
* Minun muutos tutkijoiden sisäisten viittauksien hyperlinkeiksi.
Julkaistu ensimmäisen kerran 6. heinäkuuta 2022.












