Tekoäly
Deepfakes voi tehokkaasti huijata monia tärkeitä kasvojen "elävyyden" sovellusliittymiä

Uusi tutkimusyhteistyö Yhdysvaltojen ja Kiinan välillä on tutkinut joidenkin maailman suurimpien kasvopohjaisten todennusjärjestelmien alttiutta syväväärennöksille ja todennut, että useimmat niistä ovat haavoittuvia kehittyville ja nouseville syväfake-hyökkäysmuodoille.
Tutkimus suoritti syväväärennöksiin perustuvia tunkeutumisia käyttämällä mukautettua kehystä, joka on otettu käyttöön FLV (Facial Liveness Verification) -järjestelmiä vastaan, joita suuret tavarantoimittajat yleensä toimittavat ja joita myydään palveluna jatkojalostusasteen asiakkaille, kuten lentoyhtiöille ja vakuutusyhtiöille.

Paperi sisältää yleiskatsauksen Facial Liveness Verification (FLV) -sovellusliittymien toiminnasta tärkeimpien palveluntarjoajien kesken. Lähde: https://arxiv.org/pdf/2202.10673.pdf
Facial Liveness on tarkoitettu torjumaan tekniikoiden käyttöä, kuten vastakkaiset kuvahyökkäykset, Käyttö naamarit ja valmiiksi tallennettu video, ns "mestarikasvot"ja muut muodot visuaalisen tunnuksen kloonaus.
Tutkimuksessa todetaan, että näissä järjestelmissä, joista monet palvelevat miljoonia asiakkaita, käytetty rajallinen määrä syväväärennösten havaitsemismoduuleja, ei ole läheskään erehtymätöntä, ja ne on saatettu konfiguroida Deep Fake -tekniikoilla, jotka ovat nyt vanhentuneita tai saattavat olla liian arkkitehtuurikohtaisia. .
Kirjailijat huomauttavat:
"[Eri] syväväärennösmenetelmät osoittavat myös eroja eri toimittajien välillä... Ilman pääsyä kohteena olevien FLV-toimittajien teknisiin yksityiskohtiin spekuloimme, että tällaiset vaihtelut johtuvat eri toimittajien käyttämistä puolustustoimenpiteistä. Esimerkiksi tietyt toimittajat voivat ottaa käyttöön suojan tiettyjä syvähyökkäyksiä vastaan.
Ja jatka:
"[Useimmat] FLV-sovellusliittymät eivät käytä deepfake-tunnistusta; jopa niille, joilla on tällainen puolustus, niiden tehokkuus on huolestuttava (esim. se voi havaita korkealaatuisia syntetisoituja videoita, mutta ei havaitse heikkolaatuisia).
Tutkijat huomauttavat tässä suhteessa, että "aitoisuus" on suhteellista:
"[Vaikka] syntetisoitu video olisi epätodellinen ihmisille, se voi silti ohittaa nykyisen deepfake-tunnistusmekanismin erittäin suurella onnistumisprosentilla."

Yllä näyte syväväärennöskuvista, jotka pystyivät todentamaan tekijöiden kokeissa. Alla ilmeisesti paljon realistisempia väärennettyjä kuvia, jotka epäonnistuivat todentamisessa.
Toinen havainto oli, että yleisten kasvojen todentamisjärjestelmien nykyiset kokoonpanot ovat puolueellisia valkoisia miehiä kohtaan. Myöhemmin nais- ja ei-valkoisten henkilöllisyyksien havaittiin olevan tehokkaampia todentamisjärjestelmien ohittamisessa, jolloin näihin luokkiin kuuluvat asiakkaat olivat suuremmassa vaarassa murtautua syväväärennöspohjaisten tekniikoiden kautta.

Raportissa todetaan, että suositut kasvojen elävyyden todentamisrajapinnat arvioivat valkoisten miesten identiteetit tiukimmin ja tarkimmin. Yllä olevassa taulukossa näemme, että nais- ja ei-valkoisia identiteettejä voidaan käyttää helpommin ohittamaan järjestelmät.
Lehti huomauttaa sen "[Facial Liveness Verification] -toiminnossa on harhoja, jotka voivat aiheuttaa merkittäviä turvallisuusriskejä tietylle ihmisryhmälle."
Kirjoittajat suorittivat myös eettisiä kasvojentunnistushyökkäyksiä Kiinan hallitusta, suurta kiinalaista lentoyhtiötä, yhtä Kiinan suurimmista henkivakuutusyhtiöistä, ja R360, joka on yksi maailman suurimmista yksisarvissijoitusryhmistä, ja raportoi onnistuneesta ohittaa näiden organisaatioiden tutkittujen sovellusliittymien myöhemmän käytön.
Jos kiinalaisen lentoyhtiön autentikoinnin ohitus onnistui, loppupään API edellytti käyttäjää "ravistelemaan päätään" todisteena mahdollisesta syväväärennösmateriaalista, mutta tämä ei osoittautunut toimivan tutkijoiden suunnittelemaa kehystä vastaan, joka sisältää kuusi deepfake-arkkitehtuurit.

Huolimatta lentoyhtiön arviosta käyttäjän pään pudistamisesta, syväfake-sisältö läpäisi testin.
Lehti toteaa, että kirjoittajat ottivat yhteyttä mukana oleviin myyjiin, jotka ovat kuulemma tunnustaneet työn.
Kirjoittajat tarjoavat joukon suosituksia FLV:n nykyisen tekniikan parantamiseksi, mukaan lukien yhden kuvan todennuksen ("Image-based FLV") luopuminen, jossa todennus perustuu yhteen ruutuun asiakkaan kamerasyötteestä. syvän väärennösten havaitsemisjärjestelmien joustavampi ja kattavampi päivitys kuva- ja äänialueilla; vaaditaan, että äänipohjainen todennus käyttäjän videossa on synkronoitava huulten liikkeiden kanssa (mitä ne eivät nyt yleensä ole); ja vaatia käyttäjiä suorittamaan eleitä ja liikkeitä, joita syvän väärennösjärjestelmien on tällä hetkellä vaikea toistaa (esim. profiilinäkymät ja kasvojen osittainen hämärtyminen).
- paperi on otsikko Näkeminen on elämistä? Kasvojen elävyyden todentamisen turvallisuuden uudelleenarviointi Deepfake-aikakaudella, ja tulee yhteisiltä pääkirjoittajilta Changjiang Li ja Li Wang sekä viideltä muulta kirjailijalta Pennsylvania State Universitystä, Zhejiangin yliopistosta ja Shandongin yliopistosta.
Ydintavoitteet
Tutkijat keskittyivät "kuuteen edustavimpaan" Facial Liveness Verification (FLV) -toimittajaan, jotka on tutkimuksessa anonymisoitu kryptonyymeillä.
Myyjät ovat edustettuina seuraavasti: "BD" ja "TC" edustaa monialatoimittajaa, jolla on eniten kasvoihin liittyviä API-puheluita ja suurin osuus Kiinan tekoälypilvipalveluista; "HW" on "yksi toimittajista, jolla on [Kiinan] suurimmat julkiset pilvimarkkinat"; "CW" sillä on nopein kasvuvauhti tietokonenäön alalla ja se saavuttaa johtavan markkina-aseman”; "ST" on yksi suurimmista tietokonenäön toimittajista; ja 'jos T' on yksi Kiinan suurimmista tekoälyohjelmistojen toimittajista.
Data ja arkkitehtuuri
Projektin taustalla olevat tiedot sisältävät 625,537 XNUMX kuvan tietojoukon kiinalaisen aloitteen perusteella CelebA-huijaus, sekä live-videoita Michigan State Universityn vuoden 2019 tapahtumasta SiW-M aineisto.
Kaikki kokeet suoritettiin palvelimella, jossa oli kaksi 2.40 GHz Intel Xeon E5-2640 v4 -suoritinta, jotka toimivat 256 Gt:n RAM-muistilla ja 4 Tt:n kiintolevyllä, ja neljä orkestroitua 1080Ti NVIDIA GPU:ta, yhteensä 44 Gt operatiivista VRAM-muistia.
Kuusi yhdessä
Paperin tekijöiden suunnittelema viitekehys on ns LiveBugger, ja se sisältää kuusi viimeisintä syväfake-kehystä, jotka vaihtelevat FLV-järjestelmien neljää pääpuolustusta vastaan.

LiveBugger sisältää erilaisia deepfake-lähestymistapoja, ja se keskittyy FLV-järjestelmien neljään päähyökkäysvektoriin.
Kuusi käytettyä deepfake-kehystä ovat: Oxford Universityn 2018 X2 Face; Yhdysvaltain akateeminen yhteistyö ICface; kaksi muunnelmaa 2019 Israelin projektista FSGAN; italialainen Ensimmäisen tilauksen menetelmämalli (FOMM), vuoden 2020 alusta; ja Pekingin yliopiston Microsoft Research -yhteistyö FaceShifter (tosin koska FaceShifter ei ole avoin lähdekoodi, tekijöiden oli rekonstruoitava se julkaistujen arkkitehtuuritietojen perusteella).
Näissä kehyksissä käytettyjä menetelmiä olivat esirenderoidun videon käyttö, jossa huijausvideon kohteet suorittavat oikeita toimintoja, jotka on poimittu LiveBuggerin aikaisemman arviointimoduulin API-todennusvaatimuksista, sekä tehokkaan "deepfake-nukketeatterin" käyttö. ', joka muuntaa yksilön suorat liikkeet syvälle väärennetyksi streamiksi, joka on lisätty yhteiskäyttöön valittuun verkkokameravirtaan.
Esimerkki jälkimmäisestä on DeepFaceLive, Joka debytoi viime kesänä suositun lisäohjelmana DeepFaceLab, mahdollistaa reaaliaikainen syväfake-suoratoisto, mutta joka ei sisälly tekijöiden tutkimukseen.
Hyökkääminen neljää vektoria vastaan
Neljä hyökkäysvektoria tyypillisessä FLV-järjestelmässä ovat: kuvapohjainen FLV, joka käyttää yhtä käyttäjän toimittamaa valokuvaa todennustunnuksena järjestelmän tallentamaa kasvotunnusta vastaan; hiljaisuuteen perustuva FLV, joka edellyttää, että käyttäjä lataa videoleikkeen itsestään; toimintapohjainen FLV, joka vaatii käyttäjää suorittamaan alustan sanelemia toimintoja; ja äänipohjainen FLV, joka vastaa käyttäjän kehottamaa puhetta järjestelmän tietokantamerkintään kyseisen käyttäjän puhemallille.
Ensimmäinen haaste järjestelmälle on määrittää, missä määrin API paljastaa vaatimuksensa, koska ne voidaan sitten ennakoida ja ottaa huomioon syväfaking-prosessissa. Tämän hoitaa LiveBuggerin Intelligence Engine, joka kerää tietoja vaatimuksista julkisesti saatavilla olevista API-dokumentaatioista ja muista lähteistä.
Koska julkaistut vaatimukset saattavat puuttua (eri syistä) API:n todellisista rutiineista, Intelligence Engine sisältää luotain, joka kerää implisiittistä tietoa tutkivien API-kutsujen tulosten perusteella. Tutkimusprojektissa tätä auttoivat kehittäjien hyödyksi tarjotut viralliset offline-testausrajapinnat sekä vapaaehtoiset, jotka tarjoutuivat käyttämään omia live-tilejään testaamiseen.
Intelligence Engine etsii todisteita siitä, käyttääkö API tällä hetkellä tiettyä lähestymistapaa, joka voisi olla hyödyllinen hyökkäyksissä. Tällaisia ominaisuuksia voivat olla mm koherenssin havaitseminen, joka tarkistaa, ovatko videon kehykset ajallisesti jatkuvia – vaatimus, joka voidaan määrittää lähettämällä salattuja videokehyksiä ja tarkkailemalla, vaikuttaako tämä todennusvirheeseen.
Moduuli etsii myös Huulikielen tunnistus, jossa API saattaa tarkistaa, kuuluuko videon ääni synkronoidaan käyttäjän huulten liikkeisiin (harvoin – katso 'Tulokset' alla).
tulokset
Kirjoittajat havaitsivat, että kaikki kuusi arvioitua sovellusliittymää eivät käyttäneet koherenssin havaitsemista kokeiden aikana, minkä ansiosta LiveBuggerin deepfaker-moottori pystyi yksinkertaisesti yhdistämään syntetisoidun äänen deepfake-videon kanssa vapaaehtoisten toimittaman materiaalin perusteella.
Joidenkin myöhempien sovellusten (eli API-kehysten asiakkaiden) havaittiin kuitenkin lisänneen prosessiin koherenssin havaitsemista, mikä vaati tämän kiertämiseen räätälöidyn videon esitallentamisen.
Lisäksi vain muutama API-toimittajista käyttää huulten kielen tunnistusta; Useimmissa niistä video ja ääni analysoidaan erillisinä määrinä, eikä siinä ole toimintoja, jotka yrittäisivät sovittaa huulten liikettä tarjottuun ääneen.

Monipuoliset tulokset kattavat LiveBuggerissa saatavilla olevat väärennetyt tekniikat FLV-sovellusliittymien monipuolisia hyökkäysvektoreita vastaan. Suuremmat luvut osoittavat suuremman onnistumisasteen FLV:n tunkeutumisessa syväväärennöstekniikoilla. Kaikki API:t eivät sisällä kaikkia mahdollisia FLV-suojauksia; Esimerkiksi monet eivät tarjoa mitään suojaa syväväärennösten varalta, kun taas toiset eivät tarkista huulten liikkeen ja äänen yhteensopivuutta käyttäjän lähettämässä videossa todennuksen aikana.
Yhteenveto
Paperin tulokset ja viitteet FLV-sovellusliittymien tulevaisuudesta ovat sokkeloisia, ja kirjoittajat ovat yhdistäneet ne toiminnalliseksi "haavoittuvuuksien arkkitehtuuriksi", joka voisi auttaa FLV-kehittäjiä ymmärtämään paremmin joitain paljastuneita ongelmia.

Paperin suositusverkosto koskien kasvopohjaisten videoiden tunnistusrutiinien olemassa olevaa ja mahdollista alttiutta deepfake-hyökkäykselle.
Suosituksissa huomautetaan:
"FLV:n turvallisuusriskit esiintyvät laajalti monissa tosielämän sovelluksissa ja uhkaavat siten miljoonien loppukäyttäjien turvallisuutta"
Kirjoittajat huomauttavat myös, että toimintapohjaisen FLV:n käyttö on "marginaalista" ja että käyttäjien suorittamien toimintojen määrän lisääminen "ei voi tuoda mitään turvallisuushyötyä".
Lisäksi kirjoittajat huomauttavat, että äänentunnistuksen ja ajallisen kasvojentunnistuksen yhdistäminen (videossa) on hedelmätön puolustus, elleivät API-palveluntarjoajat ala vaatimaan, että huulten liikkeet synkronoidaan äänen kanssa.
Paperi perustuu FBI:n äskettäiseen varoittamiseen yrityksille syvän väärennöspetoksen vaaroista, melkein vuosi sen jälkeen, kun he ennustivat teknologian käytöstä ulkomaisten vaikutusvaltaoperaatioissa. yleisiä pelkoja että elävä deepfake-teknologia mahdollistaa uudenlaisen rikosaallon yleisölle, joka edelleen luottaa videoiden todentamisen suojausarkkitehtuureihin.
Nämä ovat edelleen Deepfaken alkuaikoja todennushyökkäyksen alustana; vuonna 2020 se oli 35 miljoonaa dollaria petollisesti poimittu Yhdistyneiden arabiemiirikuntien pankista käyttämällä deepfake-äänitekniikkaa, ja Yhdistyneen kuningaskunnan johtaja huijattiin myös maksamaan 243,000 XNUMX dollaria vuonna 2019.
Julkaistu ensimmäisen kerran 23.