Dirbtinis intelektas

Deepfakes gali veiksmingai apgauti daugelį pagrindinių veido „gyvumo“ API

Atnaujinta on Gruodis 9, 2022

Iš „DeepFace Live“ – Arnoldas Schwarzeneggeris 224 3.03 mln. kartojimų | RTX A6000' – https://www.youtube.com/watch?v=9tr35y-yQRY

Naujas JAV ir Kinijos bendradarbiavimas tyrime ištyrė kai kurių didžiausių pasaulyje veido autentifikavimo sistemų jautrumą giliajam klastojimui ir nustatė, kad dauguma jų yra pažeidžiamos besivystančių ir atsirandančių giliųjų klastotės atakų formų.

Tyrimo metu buvo atlikti giliomis klastotėmis pagrįsti įsibrovimai naudojant tinkintą sistemą, įdiegtą prieš veido gyvumo patikrinimo (FLV) sistemas, kurias dažniausiai tiekia pagrindiniai pardavėjai ir kurios parduodamos kaip paslauga tolesniems klientams, pvz., oro linijoms ir draudimo bendrovėms.

Straipsnyje pateikiama pagrindinių tiekėjų veido gyvumo patvirtinimo (FLV) API veikimo apžvalga. Šaltinis: https://arxiv.org/pdf/2202.10673.pdf

Veido gyvumas skirtas atbaidyti tokių technikų kaip priešiškų įvaizdžių atakos, Naudojimas kaukės ir iš anksto įrašytas vaizdo įrašas, vadinamasis "šeimininkų veidai"ir kitos formos vizualinio ID klonavimas.

Tyrime daroma išvada, kad ribotas šiose sistemose įdiegtų giliųjų padirbinėjimo aptikimo modulių skaičius, iš kurių daugelis aptarnauja milijonus klientų, toli gražu nėra neklystantys ir gali būti sukonfigūruoti naudojant giliųjų padirbinėjimo metodus, kurie dabar yra pasenę arba gali būti pernelyg specifiniai architektūrai. .

Autoriai pažymi:

„[Skirtingi] giluminio klastojimo metodai taip pat rodo skirtumus tarp skirtingų tiekėjų... Neturėdami prieigos prie tikslinių FLV pardavėjų techninės informacijos, spėliojame, kad tokie skirtumai priskiriami skirtingų pardavėjų naudojamoms gynybos priemonėms. Pavyzdžiui, tam tikri pardavėjai gali panaudoti apsaugą nuo konkrečių padirbtų atakų.

Ir tęskite:

„[Dauguma] FLV API nenaudoja anti-deepfake aptikimo; Net ir turintiems tokią apsaugą, jų efektyvumas kelia nerimą (pvz., gali aptikti aukštos kokybės sintezuotus vaizdo įrašus, bet neaptikti žemos kokybės).

Šiuo atžvilgiu mokslininkai pastebi, kad „autentiškumas“ yra santykinis:

„[Net] jei susintetintas vaizdo įrašas žmonėms yra nerealus, jis vis tiek gali apeiti dabartinį anti-deepfake aptikimo mechanizmą su labai dideliu sėkmės rodikliu.

Aukščiau pavaizduokite netikrus vaizdus, kurių autentiškumą pavyko patvirtinti autorių eksperimentuose. Žemiau, matyt, kur kas tikroviškesni suklastoti vaizdai, kurių autentifikavimas nepavyko.

Kita išvada buvo ta, kad dabartinė bendrųjų veido tikrinimo sistemų konfigūracija yra nukreipta į baltuosius vyrus. Vėliau buvo nustatyta, kad moteriškos ir ne baltosios tapatybės yra veiksmingesnės apeinant tikrinimo sistemas, todėl šių kategorijų klientams kyla didesnė rizika, kad jie bus pažeisti naudojant giliai padirbtus metodus.

Ataskaitoje nustatyta, kad baltųjų vyrų tapatybę griežčiausiai ir tiksliausiai įvertina populiarios veido gyvumo tikrinimo API. Aukščiau esančioje lentelėje matome, kad moterų ir ne baltųjų tapatybės gali būti lengviau naudojamos apeiti sistemas.

Laikraštis tai pastebi „[Facial Liveness Verification] yra šališkumo, dėl kurio tam tikrai žmonių grupei gali kilti didelė rizika saugumui“.

Autoriai taip pat atliko etiškas veido autentifikavimo atakas prieš Kinijos vyriausybę, didelę Kinijos oro bendrovę, vieną didžiausių gyvybės draudimo bendrovių Kinijoje ir R360, viena didžiausių investicinių į vienaragius grupių pasaulyje, ir praneša apie sėkmingą šių organizacijų sėkmę aplenkiant tiriamų API naudojimą.

Sėkmingo Kinijos aviakompanijos autentifikavimo apėjimo atveju, naudojant paskesnę API, vartotojas turėjo „papurtyti galvą“ kaip įrodymą dėl galimos padirbtos medžiagos, tačiau paaiškėjo, kad tai neveikė prieš tyrėjų sukurtą sistemą, kurią sudaro šešios. Deepfake architektūros.

Nepaisant to, kad aviakompanija įvertino naudotojo galvos purtymą, netikras turinys sugebėjo išlaikyti testą.

Straipsnyje pažymima, kad autoriai susisiekė su susijusiais pardavėjais, kurie, kaip pranešama, pripažino darbą.

Autoriai siūlo daugybę rekomendacijų, kaip patobulinti dabartinę FLV techniką, įskaitant vieno vaizdo autentifikavimo („Vaizdo pagrindu FLV“) atsisakymą, kai autentifikavimas pagrįstas vienu kadru iš kliento fotoaparato tiekimo; lankstesnis ir išsamesnis giliųjų klastotės aptikimo sistemų atnaujinimas vaizdo ir balso srityse; reikalaujama, kad balsu pagrįstas autentifikavimas vartotojo vaizdo įraše būtų sinchronizuotas su lūpų judesiais (ko dabar apskritai nėra); ir reikalauti, kad vartotojai atliktų gestus ir judesius, kuriuos šiuo metu sunku atkurti giliai padirbtoms sistemoms (pvz., profilio peržiūros ir dalinis veido aptemimas).

Šios popierius yra tituluojamas Matyti yra gyventi? Pergalvokite apie veido gyvumo patikrinimo saugumą gilios klastotės eroje, ir yra iš bendrų pagrindinių autorių Changjiang Li ir Li Wang bei penkių kitų autorių iš Pensilvanijos valstijos universiteto, Džedziango universiteto ir Šandongo universiteto.

Pagrindiniai tikslai

Tyrėjai nusitaikė į „šešis reprezentatyviausius“ veido gyvumo patikrinimo (FLV) pardavėjus, kurie tyrime buvo anonimizuoti naudojant kriptonimus.

Pardavėjai atstovaujami taip: "BD" ir "TC" atstovauja konglomerato tiekėjui, turinčiam didžiausią su veidu susijusių API skambučių skaičių ir didžiausią Kinijos AI debesijos paslaugų dalį; "HW" yra „vienas iš tiekėjų, turinčių didžiausią [Kinijos] viešąją debesijos rinką“; "CW" sparčiausiai auga kompiuterinio matymo srityje ir užima pirmaujančią poziciją rinkoje“; "ST" yra vienas didžiausių kompiuterinės vizijos pardavėjų; ir "iFT" yra tarp didžiausių AI programinės įrangos pardavėjų Kinijoje.

Duomenys ir architektūra

Pagrindiniai projekto duomenys apima 625,537 XNUMX vaizdų iš Kinijos iniciatyvos duomenų rinkinį CelebA-Spoof, kartu su tiesioginiais vaizdo įrašais iš Mičigano valstijos universiteto 2019 m SiW-M duomenų rinkinys.

Visi eksperimentai buvo atlikti serveryje su dviem 2.40 GHz Intel Xeon E5-2640 v4 procesoriais, veikiančiais 256 GB RAM ir 4 TB HDD, ir keturiais orkestruotais 1080Ti NVIDIA GPU, iš viso 44 GB operatyviosios VRAM.

Šeši viename

Straipsnio autorių sukurta sistema vadinama LiveBugger, ir apima šešias pažangiausias giliųjų klastojimo sistemas, kurios skiriasi nuo keturių pagrindinių FLV sistemų apsaugos priemonių.

„LiveBugger“ siūlo įvairius „deepfake“ metodus ir sutelkia dėmesį į keturis pagrindinius atakų vektorius FLV sistemose.

Naudojamos šešios „deepfake“ sistemos: Oksfordo universiteto 2018 m X2Face; JAV akademinis bendradarbiavimas ICface; du 2019 m. Izraelio projekto variantai FSGAN; italas Pirmojo užsakymo metodo modelis (FOMM), nuo 2020 m. pradžios; ir Pekino universiteto „Microsoft Research“ bendradarbiavimas „FaceShifter“. (nors kadangi „FaceShifter“ nėra atvirojo kodo, autoriai turėjo jį atkurti pagal paskelbtas architektūros detales).

Tarp šių sistemų naudojami metodai apėmė iš anksto pateikto vaizdo įrašo naudojimą, kuriame apgaulingo vaizdo įrašo subjektai atlieka paprastus veiksmus, kurie buvo išgauti iš API autentifikavimo reikalavimų ankstesniame LiveBugger vertinimo modulyje, taip pat veiksmingos „giliosios lėlės“ naudojimas. “, kuris tiesioginius asmens judesius paverčia suklastotu srautu, kuris buvo įterptas į bendrai pasirinktą internetinės kameros srautą.

Pastarojo pavyzdys yra DeepFaceLive, kuris debiutavo praėjusią vasarą kaip papildoma programa populiariai DeepFaceLab, kad būtų galima įgalinti tikrojo laiko padirbtų duomenų srautinį perdavimą, bet kuris nėra įtrauktas į autorių tyrimą.

Keturių vektorių puolimas

Keturi atakų vektoriai tipiškoje FLV sistemoje yra šie: vaizdų pagrindu sukurtas FLV, kurioje naudojama viena naudotojo pateikta nuotrauka kaip autentifikavimo atpažinimo ženklas su veido ID, kuris yra įrašytas sistemoje; tyla pagrįstas FLV, kuri reikalauja, kad vartotojas įkeltų savo vaizdo klipą; veiksmu pagrįstas FLV, kuri reikalauja, kad vartotojas atliktų platformos padiktuotus veiksmus; ir balsu pagrįstas FLV, kuris atitinka vartotojo ragintą kalbą su sistemos duomenų bazės įrašu, skirtu to vartotojo kalbos modeliui.

Pirmasis sistemos iššūkis yra nustatyti, kokiu mastu API atskleis savo reikalavimus, nes tada juos galima numatyti ir į juos atsižvelgti gilaus klastojimo procese. Tai tvarko „LiveBugger“ „Intelligence Engine“, kuris renka informaciją apie reikalavimus iš viešai prieinamų API dokumentų ir kitų šaltinių.

Kadangi paskelbtų reikalavimų gali nebūti (dėl įvairių priežasčių) faktinėje API įprastoje veikloje, „Intelligence Engine“ apima zondą, kuris renka numanomą informaciją, pagrįstą tiriamųjų API iškvietimų rezultatais. Tyrimo projekte tai palengvino oficialios neprisijungus veikiančios „bandymo“ API, skirtos kūrėjams, taip pat savanoriai, kurie pasiūlė naudoti savo tiesiogines paskyras testavimui.

„Intelligence Engine“ ieško įrodymų, ar API šiuo metu naudoja konkretų metodą, kuris gali būti naudingas atakoms. Tokio tipo ypatybės gali apimti darnos aptikimas, kuri tikrina, ar vaizdo įrašo kadrai yra laikinai ištisiniai – reikalavimas, kurį galima nustatyti siunčiant užšifruotus vaizdo kadrus ir stebint, ar tai neprisideda prie autentifikavimo gedimo.

Modulis taip pat ieško Lūpų kalbos aptikimas, kur API gali patikrinti, ar vaizdo įraše yra garsas sinchronizuojama su vartotojo lūpų judesiais (retai – žr. „Rezultatai“ žemiau).

rezultatai

Autoriai nustatė, kad visos šešios įvertintos API eksperimentų metu nenaudojo darnos aptikimo, o tai leido „LiveBugger“ „deepfaker“ varikliui tiesiog sujungti sintezuotą garsą su giliai padirbtu vaizdo įrašu, remiantis savanorių pateikta medžiaga.

Tačiau buvo nustatyta, kad kai kurios paskesnės programos (ty API sistemų klientai) į procesą įtraukė darnos aptikimą, todėl reikėjo iš anksto įrašyti vaizdo įrašą, pritaikytą tai apeiti.

Be to, tik keli API pardavėjai naudoja lūpų kalbos aptikimą; daugumos jų vaizdo ir garso įrašai analizuojami kaip atskiri kiekiai ir nėra funkcionalumo, kuris bandytų lūpų judesį suderinti su pateiktu garsu.

Įvairūs rezultatai, apimantys daugybę suklastotų „LiveBugger“ metodų, palyginti su įvairiais atakų vektoriais FLV API. Didesni skaičiai rodo, kad užpuolikas sėkmingai įsiskverbė į autentifikavimą naudodamas giliosios klastojimo metodus. Ne visose API yra visos galimos FLV apsaugos priemonės; Pavyzdžiui, kai kurie nesiūlo jokios apsaugos nuo gilių klastočių, o kiti netikrina, ar lūpų judesiai ir garsas sutampa vartotojo pateiktame vaizdo įraše autentifikavimo metu.

Įvairūs rezultatai, apimantys daugybę suklastotų „LiveBugger“ metodų, palyginti su įvairiais atakų vektoriais FLV API. Didesni skaičiai rodo didesnį sėkmingo įsiskverbimo į FLV rodiklį naudojant giluminio padirbinėjimo metodus. Ne visose API yra visos galimos FLV apsaugos priemonės; Pavyzdžiui, kai kurie nesiūlo jokios apsaugos nuo gilių klastočių, o kiti netikrina, ar lūpų judesiai ir garsas sutampa vartotojo pateiktame vaizdo įraše autentifikavimo metu.

Išvada

Straipsnio rezultatai ir nuorodos dėl FLV API ateities yra labirintinės, o autoriai juos sujungė į funkcinę „pažeidžiamumo architektūrą“, kuri galėtų padėti FLV kūrėjams geriau suprasti kai kurias atskleistas problemas.

Straipsnyje pateiktas rekomendacijų tinklas dėl esamo ir galimo vaizdo atpažinimo pagal veidą procedūrų jautrumo giliai klastojamai atakai.

Rekomendacijose pažymima:

„FLV saugumo rizika plačiai egzistuoja daugelyje realaus pasaulio taikomųjų programų, todėl kelia grėsmę milijonų galutinių vartotojų saugumui“

Autoriai taip pat pastebi, kad veiksmais pagrįsto FLV naudojimas yra „ribinis“ ir kad naudotojų privalomų atlikti veiksmų skaičiaus padidinimas „negali duoti jokios saugumo naudos“.

Be to, autoriai pažymi, kad balso atpažinimo ir laikinio veido atpažinimo derinimas (vaizdo įraše) yra bevaisė gynyba, nebent API teikėjai pradėtų reikalauti, kad lūpų judesiai būtų sinchronizuojami su garsu.

Straipsnis pateikiamas atsižvelgiant į naujausią FTB įspėjimas verslui pavojaus, susijusio su klastojimu, praėjus beveik metams nuo jų pranašystės apie technologiją naudojimas užsienio įtakos operacijose, Ir bendros baimės kad gyva „deepfake“ technologija palengvins naują nusikalstamumo bangą visuomenėje, kuri vis dar pasitiki vaizdo autentifikavimo saugos architektūra.

Tai vis dar ankstyvosios „deepfake“, kaip autentifikavimo atakos paviršiaus, dienos; 2020 m. buvo 35 milijonai dolerių apgaule išgautas iš banko JAE naudojant gilią padirbtą garso technologiją, o JK vadovas taip pat buvo apgautas ir išmokėjo 243,000 XNUMX USD. į 2019.

Pirmą kartą paskelbta 23 m. vasario 2022 d.

Kitas

Emocijų išreiškimas naudojant tipografiją naudojant AI

Nepraleiskite

Kompiuterio komponentas imituoja žmogaus smegenų sinapses

Martinas Andersonas

Rašytojas apie mašininį mokymąsi, dirbtinį intelektą ir didelius duomenis.
Asmeninė svetainė: Martinanderson.ai
Kontaktai: [apsaugotas el. paštu]
Twitter: @manders_ai

Susivienyti.AI

Deepfakes gali veiksmingai apgauti daugelį pagrindinių veido „gyvumo“ API

Dirbtinis intelektas