Andersonin kulma

Syvyyden tiedot voivat paljastaa deepfake-kuvat reaaliajassa

mm

Italialaisen tutkimuksen mukaan syvyyden tiedot, jotka voidaan hakea kuvista, voivat olla hyödyllinen työkalu deepfake-kuvien havaitsemiseen – jopa reaaliajassa.

Viiden viime vuoden aikana suurin osa deepfake-havaitsemiseen liittyvistä tutkimuksista on keskittynyt jäljen tunnistamiseen (jota voidaan lieventää parantamalla tekniikoita tai sekoittaa huonoon videokooderin pakkaamiseen), ympäristön valaistukseen, biometrisiin ominaisuuksiin, aikajärjestelmän häiriintymiseen ja jopa ihmisen vaiston, uusi tutkimus on ensimmäinen, joka ehdottaa, että syvyyden tiedot voivat olla arvokas salasana deepfake-sisällölle.

Esimerkkejä johdettuista syvyyden kartista ja havainnollistus syvyyden tiedon eroista oikeiden ja väärennettyjen kuvien välillä. Lähde: https://arxiv.org/pdf/2208.11074.pdf

Esimerkkejä johdettuista syvyyden kartista ja havainnollistus syvyyden tiedon eroista oikeiden ja väärennettyjen kuvien välillä. Lähde: https://arxiv.org/pdf/2208.11074.pdf

Kriittisesti, uuden tutkimuksen kehittämät havaitsemisraamit toimivat erittäin hyvin kevyellä verkolla, kuten Xception, ja hyväksytysti MobileNet:llä, ja uusi tutkimus tunnustaa, että näiden verkkojen tarjoama alhainen viive voi mahdollistaa reaaliaikaisen deepfake-havaitsemisen uutta suuntausta kohti live-deepfake-huijauksia, joista esimerkkinä on vastikään hyökkäys Binancea vastaan.

Syvyyden tiedojen avulla voidaan saavuttaa suurempi taloudellisuus johtuen siitä, että järjestelmä ei tarvitse täysivärisiä kuvia, vaan voi toimia tehokkaasti pelkästään syvyyden tiedon harmaasävykuvilla.

Tutkijat toteavat: ‘Tämä tulos osoittaa, että syvyyden tiedot ovat tärkeämpää kuin värikartat.’

Tulokset edustavat uuden aallon deepfake-havaitsemiseen liittyvää tutkimusta, joka on suunnattu reaaliaikaisia kasvojen synteesijärjestelmiä vastaan, kuten DeepFaceLive – järjestelmää, joka on kohdistettu viimeisten 3-4 kuukauden aikana, FBI:n varoituksen jälkeen reaaliaikaisista videota ja ääniä koskevista deepfake-uhanalaisuuksista.

Tutkimus paperi on nimeltään DepthFake: syvyyden perusteella toimiva deepfake-videoiden havaitsemisjärjestelmä, ja se on tehty viidelle tutkijalle Sapienza-yliopistosta Roomassa.

Reuna tapaukset

Koulutuksen aikana, autoencoder-pohjaiset deepfake-mallit priorisoivat kasvojen sisäisiä alueita, kuten silmiä, nenää ja suuta. Useimmissa tapauksissa, avoimien lähteiden jakelujen kuten DeepFaceLab ja FaceSwap (molemmat haaroittuvat alkuperäisestä 2017 Reddit-koodista ennen sen poistamista), kasvojen ulkopuoliset piirteet eivät yleensä kehity vakaiksi kunnes myöhäisessä vaiheessa koulutuksessa, ja ne eivät todennäköisesti vastaa sisäisen kasvoalueen synteesin laatua.

Aiemman tutkimuksen mukaan, kasvojen 'saliency-kartat'. Lähde: https://arxiv.org/pdf/2203.01318.pdf

Aiemman tutkimuksen mukaan, kasvojen ‘saliency-kartat’. Lähde: https://arxiv.org/pdf/2203.01318.pdf

Normaalisti, tämä ei ole tärkeää, koska meidän taipumuksemme on keskittyä ensin silmiin ja priorisoida ‘ulos’, vähenevien tarkkuuden tasojen mukaan, mikä tarkoittaa, että meidän ei tarvitse olla häiriintyneitä näiden laadun laskujen vuoksi – erityisesti, jos puhumme suoraan henkilölle, joka tekee toisen identiteetin, mikä laukaisee sosiaaliset konventiot ja prosessorin rajoitukset, jotka eivät ole läsnä, kun arvioimme ‘renderöityä’ deepfake-kuvaa.

Kuitenkin, deepfaked-kasvojen reunamaisilla alueilla olevan yksityiskohtaisuuden tai tarkin puute voidaan havaita algoritmien avulla. Maaliskuussa, järjestelmä, joka keskittyy kasvojen ulkopuoliseen alueeseen, ilmoitettiin. Kuitenkin, koska se vaatii yli keskivertaisen määrän koulutusdataa, se on tarkoitettu vain julkkiksille, jotka ovat todennäköisesti mukana suosituissa kasvojen tietokannoissa (kuten ImageNet), joilla on todistusvoimaa nykyisissä tietokoneen näön ja deepfake-havaitsemisen tekniikoissa.

Sen sijaan, uusi järjestelmä, nimeltään DepthFake, voi toimia geneerisesti jopa vähemmän tunnettuja tai tuntemattomia identiteettejä vastaan, erottamalla arvioidun syvyyden kartan laadun oikeasta ja väärennetystä videomateriaalista.

Menevä syvemmälle

Syvyyden kartan tietoja on yhä enemmän sisällytetty älypuhelimien valokuvausominaisuuksiin, mukaan lukien AI-tukea stereo-toteutuksiin, jotka ovat erityisen hyödyllisiä tietokoneen näön tutkimuksille. Uudessa tutkimuksessa, tutkijat ovat käyttäneet Irlannin kansallisen yliopiston FaceDepth-mallia, joka on konvoluutio-encoder/decoder-verkko, joka voi tehokkaasti arvioida syvyyden kartan yhdestä lähteestä.

FaceDepth-malli toiminnassa. Lähde: https://tinyurl.com/3ctcazma

FaceDepth-malli toiminnassa. Lähde: https://tinyurl.com/3ctcazma

Seuraavaksi, uuden tutkimuksen putken kehys poimii 224×224 pikselin kohtauksen kohteen kasvoista sekä alkuperäisestä RGB-kuvasta että johdetusta syvyyden kartasta. Kriittisesti, tämä mahdollistaa prosessin kopioida ydin sisällön ilman sen muuttamista; tämä on tärkeää, koska koko standardin muuttamisalgoritmit vaikuttavat kohdennettujen alueiden laatuun.

Tästä tiedosta, sekä oikeista että deepfaked-lähteistä, tutkijat kouluttivat konvoluutio-neuraaliverkon (CNN), joka pystyy erottamaan oikeat ja väärennettyjä tapauksia, perustuen eroihin vastaavien syvyyden karttojen havainnollistuslaadussa.

Käsitteellinen putki DepthFake:lle.

Käsitteellinen putki DepthFake:lle.

FaceDepth-malli on koulutettu realistisilla ja syntetisillä tiedoilla hybridi-funktiolla, joka tarjoaa enemmän yksityiskohtia kasvojen ulkopuolisilla reunoilla, mikä tekee siitä hyvin soveltuvan DepthFakeen. Se käyttää MobileNet-ekstraktoria ja koulutettiin 480×640-kokoisilla kuvilla, jotka tuottivat 240×320 syvyyden kartan. Jokainen syvyyden kartta edustaa neljännesosaa neljästä sisääntulokanavasta, jotka käytetään uuden projektin diskriminaattorissa.

Syvyyden kartta upotetaan automaattisesti alkuperäiseen RGB-kuvaan, jotta saadaan RGBD-kuva, joka sisältää syvyyden tiedon, jonka modernit älypuhelimien kameralaitteet voivat tuottaa.

Koulutus

Malli koulutettiin Xception-verkolla, joka oli jo koulutettu ImageNetissä, vaikka arkkitehtuuri vaati joitakin sopeutumisia, jotta se voisi ottaa huomioon lisätyn syvyyden tiedon ja samalla säilyttää oikean painojen aloituksen.

Lisäksi, syvyyden tiedon ja sen odottaman arvon välisen epäsymmetrian vuoksi tutkijoiden oli normalisoida arvot 0-255.

Koulutuksen aikana, vain kääntäminen ja kierto sovellettiin. Monissa tapauksissa, useat visuaaliset häiriöt esiteltiin mallille, jotta se voisi kehittää robustin inference-ominaisuuden, mutta tarve säilyttää rajoitettu ja hyvin haavoittuvainen reunan syvyyden kartan tiedot alkuperäisissä kuvissa pakotti tutkijat omaksumaan yksinkertaistamisstrategian.

Järjestelmä koulutettiin myös yksinkertaisella 2-kanavaisella harmaasävyllä, jotta voidaan määrittää, kuinka monimutkaisia lähdetiedot ovat tarpeen, jotta voidaan saavuttaa toimiva algoritmi.

Koulutus tapahtui TensorFlow API:lla NVIDIA GTX 1080:lla, jossa on 8 GB VRAM, ADAMAX-optimoinnilla, 25 epochilla, 32:n batch-koon kanssa. Sisääntuloresoluutio oli kiinnitetty 224×224:een rajauksen aikana, ja kasvojen havaitseminen ja poiminta toteutettiin dlib-kirjastolla.

Tulokset

Tulosten tarkkuutta testattiin Deepfakea, Face2Facea, FaceSwapia, Neural Texturea ja koko tietokantaa, sekä RGB- ja RGBD-syötteillä, käyttäen FaceForensic++-kehystä.

Tulokset neljän deepfake-menetelmän tarkkuudesta ja koko jaettamattomasta tietokannasta. Tulokset on jaettu alkuperäisten RGB-kuvien ja samojen kuvien kanssa upotetun arvioidun syvyyden kartan analyysiin. Parhaat tulokset on merkitty lihavoinnilla, ja prosenttiluvut alla osoittavat, kuinka paljon syvyyden kartan tiedot parantavat lopputulosta.

Tulokset neljän deepfake-menetelmän tarkkuudesta ja koko jaettamattomasta tietokannasta. Tulokset on jaettu alkuperäisten RGB-kuvien ja samojen kuvien kanssa upotetun arvioidun syvyyden kartan analyysiin. Parhaat tulokset on merkitty lihavoinnilla, ja prosenttiluvut alla osoittavat, kuinka paljon syvyyden kartan tiedot parantavat lopputulosta.

Kaikissa tapauksissa, syvyyden kanava parantaa mallin suorituskykyä kaikissa konfiguraatioissa. Xception saa parhaat tulokset, ja MobileNet on lähellä. Tästä tutkijat kommentoivat:

‘On mielenkiintoista huomata, että MobileNet on hieman heikompi kuin Xception ja ylittää syvemmän ResNet50:n. Tämä on merkittävä tulos, kun tarkastellaan inference-aikojen vähentämistä reaaliaikaisiin sovelluksiin. Vaikka tämä ei ole tämän työn pääpanostus, pidämme sitä rohkaisevana tuloksena tulevaisuuden kehitykselle.’

Tutkijat huomauttavat myös johdonmukaisen edun RGBD- ja 2-kanavaisen harmaasävyn syötteen ja RGB- ja suoran harmaasävyn syötteen välillä, ja huomauttavat, että syvyyden arvioiden harmaasävykäännökset, jotka ovat laskennallisesti erittäin edullisia, sallivat mallin saavuttaa parannettuja tuloksia hyvin rajoitetuilla paikallisilla resursseilla, helpottaen reaaliaikaisen deepfake-havaitsemisen kehittymistä syvyyden tiedon perusteella.

 

Julkaistu ensimmäisen kerran 24. elokuuta 2022.

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]