Liity verkostomme!

Kyberturvallisuus

Videokonferenssin syväväärennösten havaitseminen älypuhelimen värinätoiminnolla

mm
Tekoälyn luoma kuva: 'upea panoraamakuva miehestä, joka istuu toimistossa ja katsoo älypuhelintaan, jota hän pitelee; miehellä on yllään Guy Fawkesin naamio; fotorealistinen, UHQ' - ChatGPT 3, tiistai, 24. syyskuuta 2024 13:27:31

Uusi singaporelainen tutkimus on ehdottanut uutta menetelmää sen havaitsemiseksi, käyttääkö joku älypuhelimen videoneuvottelutyökalun toisessa päässä menetelmiä, kuten DeepFaceLive esiintyä jonkun muuna.

nimeltään Sfakeuusi lähestymistapa hylkää useimpien järjestelmien käyttämät passiiviset menetelmät ja aiheuttaa käyttäjän puhelimen värisemään (käyttäen samoja 'värähtely'-mekanismeja yhteinen älypuhelimissa) ja sumentaa heidän kasvonsa hienovaraisesti.

Vaikka live-deepfaking-järjestelmät pystyvät monin eri tavoin replikoimaan liikkeen epäterävyyttä, niin kauan kuin sumentunutta materiaalia sisältyi harjoitustietoihin tai ainakin harjoitusta edeltäviin tietoihin, ne eivät pysty reagoimaan riittävän nopeasti tällaiseen odottamattomaan epätarkkuuteen ja jatkavat tulostamista. kasvojen epäselvät osat paljastaen syvän fake-neuvottelupuhelun olemassaolon.

DeepFaceLive ei voi reagoida tarpeeksi nopeasti simuloidakseen kameran tärinän aiheuttamaa epäterävyyttä. Lähde: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive ei voi reagoida tarpeeksi nopeasti simuloidakseen kameran tärinän aiheuttamaa epäterävyyttä. Lähde: https://arxiv.org/pdf/2409.10889v1

Tutkijoiden itse kuratoiman tietojoukon testitulokset (koska aktiivista kameran tärinää sisältäviä tietojoukkoja ei ole olemassa) osoittivat, että SFake suoriutui kilpailevia videopohjaisia ​​deepfake-tunnistusmenetelmiä paremmin jopa haastavissa olosuhteissa, kuten luonnollisessa käden liikkeessä, joka tapahtuu, kun videoneuvottelun toinen henkilö pitää kameraa kädessään staattisen puhelintelineen käytön sijaan.

Kasvava tarve videopohjaiseen syväväärennösten tunnistukseen

Videopohjaisen syväväärennösten tunnistuksen tutkimus on lisääntynyt viime aikoina. Useiden vuosien menestyksekkään äänipohjaisen syvät väärennökset, aiemmin tänä vuonna oli taloustyöntekijä huijasi siirtää 25 miljoonaa dollaria huijarille, joka esiintyi talousjohtajana syvästi väärennetyssä videoneuvottelupuhelussa.

Vaikka tämänkaltainen järjestelmä vaatii paljon laitteistoyhteyksiä, monet älypuhelinten käyttäjät ovat jo tottuneet taloudellisiin ja muihin vahvistuspalveluihin, jotka pyytävät meitä tallentamaan kasvonpiirteemme kasvopohjaista todennusta varten (itse asiassa tämä on jopa osa LinkedInin vahvistusprosessia).

Sen vuoksi näyttää todennäköiseltä, että tällaisia ​​menetelmiä käytetään yhä enemmän videoneuvottelujärjestelmissä, koska tämäntyyppiset rikokset ovat edelleen otsikoissa.

Useimmat reaaliaikaisen videoneuvottelun deepfaking-ratkaisut olettavat hyvin staattisen tilanteen, jossa kommunikoija käyttää paikallaan pysyvää web-kameraa eikä odoteta liikettä tai liiallisia ympäristön tai valaistuksen muutoksia. Älypuhelinpuhelu ei tarjoa tällaista "kiinteää" tilannetta.

Sen sijaan SFake käyttää useita havaitsemismenetelmiä kompensoidakseen suuren määrän visuaalisia muunnelmia kädessä pidettävissä älypuhelinpohjaisissa videoneuvotteluissa, ja se näyttää olevan ensimmäinen tutkimusprojekti, joka käsittelee ongelmaa käyttämällä älypuhelimiin sisäänrakennettuja tavallisia tärinälaitteita.

- paperi on otsikko Shaking the Fake: Deepfake-videoiden tunnistaminen reaaliajassa aktiivisten antureiden avulla, ja tulee kahdelta tutkijalta Nanyangin teknologisesta yliopistosta Singaporesta.

Menetelmä

SFake on suunniteltu pilvipohjaiseksi palveluksi, jossa paikallinen sovellus lähettäisi dataa API-etäpalveluun käsiteltäväksi ja tulokset palautettaisiin.

Kuitenkin sen pelkkä 450 megatavun jalanjälki ja optimoitu menetelmä mahdollistavat sen, että se voi käsitellä syväväärennösten havaitsemisen kokonaan itse laitteessa tapauksissa, joissa verkkoyhteys saattaisi aiheuttaa lähetettyjen kuvien liiallisen pakkaamisen, mikä vaikuttaa diagnostiikkaprosessiin.

'All local' -toiminnon käyttäminen tällä tavalla tarkoittaa, että järjestelmällä olisi suora pääsy käyttäjän kamerasyötteeseen ilman koodekki häiriöitä, jotka usein liittyvät videoneuvotteluihin.

Keskimääräinen analyysiaika vaatii neljän sekunnin videonäytteen, jonka aikana käyttäjää pyydetään pysymään paikallaan ja jonka aikana SFake lähettää "antureita" aiheuttamaan kameran tärinää valikoivasti satunnaisin väliajoin, joihin järjestelmät, kuten DeepFaceLive, eivät pysty reagoimaan ajoissa.

(On syytä korostaa uudelleen, että hyökkääjä, joka ei ole sisällyttänyt sumennettua sisältöä harjoitusdataan, ei todennäköisesti pysty tuottamaan mallia, joka pystyy luomaan sumennusta edes paljon suotuisammissa olosuhteissa, ja että DeepFaceLive ei voi vain "lisätä" tätä toimintoa malliin, joka on koulutettu alikurotetulla datajoukolla.)

Järjestelmä valitsee tietyt kasvojen alueet alueiksi, joissa voi olla syvää väärennössisältöä, pois lukien silmät ja kulmakarvat (koska räpyttely ja muu kasvojen liikkuvuus kyseisellä alueella ei kuulu epäterävyyden havaitsemisen piiriin, eikä se ole ihanteellinen indikaattori).

Käsitteellinen skeema SFakelle.

Käsitteellinen skeema SFakelle.

Kuten yllä olevassa käsitteellisessä kaaviossa näemme, sen jälkeen, kun olet valinnut sopivat ja arvaamattomat värinäkuviot, päätynyt parhaaseen polttoväliin ja suorittanut kasvojentunnistuksen (mukaan lukien maamerkkien tunnistus Dlib komponentti, joka arvioi standardin 68 kasvojen maamerkkiä), SFake johtaa gradientit syöttöpinnasta ja keskittyy näiden gradienttien valittuihin alueisiin.

Varianssisekvenssi saadaan analysoimalla peräkkäin tutkittavan lyhyen leikkeen jokainen ruutu, kunnes keskimääräinen tai "ihanteellinen" sekvenssi saavutetaan, ja loput jätetään huomiotta.

Tämä tarjoaa uutettua piirteet jota voidaan käyttää kvantisoijana syväfake-sisällön todennäköisyydelle, perustuen koulutettuun tietokantaan (josta hetkellisemmin).

Järjestelmä vaatii 1920×1080 pikselin kuvan resoluution sekä vähintään 2x zoomausvaatimuksen objektiivilta. Paperi toteaa, että tällaisia ​​resoluutioita (ja jopa korkeampia resoluutioita) tuetaan Microsoft Teamsissa, Skypessä, Zoomissa ja Tencent Meetingissä.

Useimmissa älypuhelimissa on etu- ja itsekamera, ja usein vain yhdellä näistä on SFaken vaatimat zoomausominaisuudet; sovellus vaatisi siksi kommunikaattoria käyttämään kumpaa tahansa kahdesta kamerasta, joka täyttää nämä vaatimukset.

Tavoitteena tässä on saada a oikea suhde käyttäjän kasvojen videokuvaan, jota järjestelmä analysoi. Tutkimuksessa todetaan, että naisten mobiililaitteiden keskimääräinen käyttöetäisyys on 34.7 cm ja miesten 38.2 cm (kuten raportoitu in Journal of Optometry), ja että SFake toimii erittäin hyvin näillä etäisyyksillä.

Koska vakautus on ongelma käsivaralta kuvatussa videossa ja koska käden liikkeestä johtuva epäterävyys haittaa SFaken toimintaa, tutkijat kokeilivat useita menetelmiä kompensoidakseen sitä. Näistä onnistunein oli laskea arvioitujen maamerkkien keskipiste ja käyttää sitä "ankkurina" – käytännössä algoritminen vakautustekniikka. Tällä menetelmällä saavutettiin 92 %:n tarkkuus.

Tiedot ja testit

Koska tähän tarkoitukseen ei ollut olemassa sopivia tietojoukkoja, tutkijat kehittivät oman:

"[Käytämme] 8 eri merkkiä älypuhelinta tallentaaksemme 15 eri sukupuolta ja ikäistä osallistujaa rakentaaksemme oman tietojoukon. Asetamme älypuhelimen puhelintelineeseen 20 cm:n etäisyydelle osallistujasta ja zoomaamme sisään kahdesti, kohdistaen osallistujan kasvoihin peittääksemme kaikki hänen kasvojensa piirteet ja samalla väristämme älypuhelinta eri kuvioin.

"Puhelimissa, joiden etukamera ei tue zoomausta, käytämme takakameraa. Tallentamme 150 pitkää videota, joista jokainen on 20 sekuntia pitkä. Oletusarvoisesti oletamme, että tunnistusjakso kestää 4 sekuntia. Leikkaamme yhdestä pitkästä videosta 10 4 sekunnin pituista pätkää satunnaistamalla aloitusajan. Näin ollen saamme yhteensä 1500 aitoa pätkää, joista jokainen on 4 sekuntia pitkä."

Vaikka DeepFaceLive (GitHub-linkki) oli tutkimuksen keskeinen kohde, koska se on tällä hetkellä laajimmin käytetty avoimen lähdekoodin live-deepfaking-järjestelmä, joten tutkijat sisällyttivät neljä muuta menetelmää perustunnistusmallinsa kouluttamiseen: Hififace; FS-GANV2; RemakerAI, Ja MobileFaceSwap – viimeinen näistä on erityisen sopiva valinta kohdeympäristöön nähden.

Koulutukseen käytettiin 1500 väärennettyä videota sekä vastaava määrä oikeita ja muuttamattomia videoita.

SFakea testattiin useiden eri luokkien, mukaan lukien SBI; FaceAF; CnnDetect; LRNet; DefakeHop muunnelmat; ja ilmainen online-deepfake-tunnistuspalvelu Deepaware. Jokaiselle näistä deepfake-menetelmistä opetettiin 1500 väärennettyä ja 1500 oikeaa videota.

Perustestiluokittimeksi yksinkertainen kaksikerroksinen neuroverkkomallien kanssa ReLU aktivointitoiminto käytettiin. 1000 oikeaa ja 1000 väärennettyä videota valittiin satunnaisesti (vaikka valevideot olivat yksinomaan DeepFaceLive-esimerkkejä).

Alue vastaanottimen toimintakäyrän alla (AUC/AUROC) ja Tarkkuus (ACC) käytettiin mittareina.

Koulutukseen ja päättelyyn käytettiin NVIDIA RTX 3060:tä ja testit suoritettiin Ubuntun alla. Testivideot on tallennettu Xiaomi Redmi 10x:llä, Xiaomi Redmi K50:llä, OPPO Find x6:lla, Huawei Nova9:llä, Xiaomi 14 Ultralla, Honor 20:llä, Google Pixel 6a:lla ja Huawei P60:llä.

Nykyisten havainnointimenetelmien mukaisesti testit toteutettiin PyTorchissa. Ensisijaiset testitulokset on kuvattu alla olevassa taulukossa:

Tulokset haulle SFake kilpailevia menetelmiä vastaan.

Tulokset haulle SFake kilpailevia menetelmiä vastaan.

Tässä kirjoittajat kommentoivat:

"Kaikissa tapauksissa SFaken tunnistustarkkuus ylitti 95%. Viiden syvän väärennösalgoritmin joukossa Hififacea lukuun ottamatta SFake toimii paremmin muita syväväärennösalgoritmeja vastaan ​​kuin muut kuusi tunnistusmenetelmää. Koska luokittelijamme on koulutettu käyttämällä DeepFaceLiven luomia väärennettyjä kuvia, se saavuttaa korkeimman 98.8 prosentin tarkkuuden havaitessaan DeepFaceLiven.

"RemakerAI:n luomien väärennettyjen kasvojen havaitsemisessa muut tunnistusmenetelmät toimivat heikosti. Arvelemme, että tämä voi johtua videoiden automaattisesta pakkaamisesta internetistä ladattaessa, mikä johtaa kuvan yksityiskohtien menetykseen ja siten tunnistustarkkuuden heikkenemiseen. Tämä ei kuitenkaan vaikuta SFaken tunnistukseen, jonka tarkkuus RemakerAI:ta vastaan ​​on 96.8 %."

Kirjoittajat huomauttavat lisäksi, että SFake on tehokkain järjestelmä skenaariossa, jossa sieppausobjektiiviin sovelletaan 2x zoomia, koska tämä liioittelee liikettä ja on uskomattoman haastava mahdollisuus. Jopa tässä tilanteessa SFake pystyi saavuttamaan 84 %:n ja 83 %:n tunnistustarkkuuden 2.5 ja 3 suurennuskertoimella.

Yhteenveto

Projekti, joka käyttää live-deepfake-järjestelmän heikkouksia itseään vastaan, on virkistävä tarjonta vuonna, jolloin deepfake-detektiota ovat hallinneet paperit, jotka ovat vain heränneet. kunnioitettava taajuusanalyysiin liittyviä lähestymistapoja (joka ei ole kaukana immuuni deepfake-avaruuden innovaatioille).

Vuoden 2022 lopussa käytössä oli toinen järjestelmä näytön kirkkauden vaihtelu ilmaisimen koukuna; ja samana vuonna oma demonstraationi DeepFaceLiven kyvyttömyydestä käsitellä tiukkoja 90 asteen profiilinäkymiä sai jonkin verran yhteisön etu.

DeepFaceLive on oikea kohde tällaiselle projektille, sillä se on lähes varmasti rikollisen kiinnostuksen kohteena videoneuvottelupetoksista.

Olen kuitenkin viime aikoina nähnyt joitakin anekdoottisia todisteita siitä, että LivePortrait järjestelmä, joka on tällä hetkellä erittäin suosittu VFX-yhteisössä, käsittelee profiilinäkymät paljon paremmin kuin DeepFaceLive; olisi ollut mielenkiintoista, jos se olisi otettu mukaan tähän tutkimukseen.

 

Julkaistu ensimmäisen kerran tiistaina 24

Koneoppimisen kirjoittaja, ihmiskuvan synteesin asiantuntija. Entinen tutkimussisällön johtaja Metaphysic.ai:ssa.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai