Anslut dig till vÄrt nÀtverk!

CybersÀkerhet

UpptÀcka videokonferenser Deepfakes med en smartphones "vibrera"-funktion

mm

publicerade

 on

En AI-genererad illustration: 'en underbar panoramabild av en man som sitter pÄ ett kontor och tittar in i sin smartphone, som han hÄller i; mannen bÀr en Guy Fawkes-mask; fotorealistisk, UHQ' - ChatGPT 3, tisdag 24 september 2024 13:27:31

Ny forskning frÄn Singapore har föreslagit en ny metod för att upptÀcka om nÄgon i andra Ànden av ett smarttelefonvideokonferensverktyg anvÀnder metoder som t.ex. DeepFaceLive att utge sig för nÄgon annan.

Betitlad SFake, det nya tillvÀgagÄngssÀttet överger de passiva metoder som anvÀnds av de flesta system, och orsakar anvÀndarens telefon att vibrera (med samma "vibrerings"-mekanismer gemensam över smartphones) och gör ansiktet suddigt.

Även om live-deepfaking-system pĂ„ olika sĂ€tt Ă€r kapabla att replikera rörelseoskĂ€rpa, sĂ„ lĂ€nge som suddiga bilder inkluderades i trĂ€ningsdata, eller Ă„tminstone i data före trĂ€ning, kan de inte reagera tillrĂ€ckligt snabbt pĂ„ ovĂ€ntad oskĂ€rpa av detta slag och fortsĂ€tter att mata ut icke suddiga delar av ansikten som avslöjar förekomsten av ett djupt falskt konferenssamtal.

DeepFaceLive kan inte svara tillrÀckligt snabbt för att simulera oskÀrpan som orsakas av kameravibrationerna. KÀlla: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive kan inte svara tillrÀckligt snabbt för att simulera oskÀrpan som orsakas av kameravibrationerna. KÀlla: https://arxiv.org/pdf/2409.10889v1

Testresultat pÄ forskarnas sjÀlvkurerade datamÀngd (eftersom det inte finns nÄgra datauppsÀttningar med aktiv kameraskakning) fann att SFake övertrÀffade konkurrerande videobaserade metoder för deepfake-detektering, Àven nÀr de stod inför utmanande omstÀndigheter, sÄsom den naturliga handrörelsen som uppstÄr nÀr den andra person i en videokonferens hÄller kameran med handen istÀllet för att anvÀnda ett statiskt telefonfÀste.

Det vÀxande behovet av videobaserad Deepfake-detektion

Forskningen om videobaserad deepfake-detektion har ökat pÄ senare tid. I kölvattnet av flera Ärs framgÄngsrika röstbaserade deepfake rÄn, tidigare i Är var en finansarbetare luras till att överföra 25 miljoner dollar till en bedragare som utgav sig för att vara en finanschef i ett djupt falskt videokonferenssamtal.

Även om ett system av detta slag krĂ€ver en hög nivĂ„ av hĂ„rdvaruĂ„tkomst, Ă€r mĂ„nga smartphoneanvĂ€ndare redan vana vid finansiella och andra typer av verifieringstjĂ€nster som ber oss att registrera vĂ„ra ansiktsegenskaper för ansiktsbaserad autentisering (det Ă€r faktiskt till och med en del av LinkedIns verifiering behandla).

Det verkar dÀrför troligt att sÄdana metoder i allt högre grad kommer att tillÀmpas för videokonferenssystem, eftersom denna typ av brott fortsÀtter att skapa rubriker.

De flesta lösningar som tar itu med djupförfalskning av videokonferenser i realtid utgÄr frÄn ett mycket statiskt scenario, dÀr kommunikatanten anvÀnder en stationÀr webbkamera och inga rörelser eller överdrivna miljö- eller ljusförÀndringar förvÀntas. Ett smartphonesamtal erbjuder ingen sÄdan "fast" situation.

IstÀllet anvÀnder SFake ett antal detekteringsmetoder för att kompensera för det stora antalet visuella varianter i en handhÄllen smartphone-baserad videokonferens, och verkar vara det första forskningsprojektet som tar itu med problemet genom att anvÀnda standard vibrationsutrustning inbyggd i smartphones.

Ocuco-landskapet papper har titeln Shaking the Fake: UpptÀck Deepfake-videor i realtid via Active Probes, och kommer frÄn tvÄ forskare frÄn Nanyang Technological University i Singapore.

Metod

SFake Àr designad som en molnbaserad tjÀnst, dÀr en lokal app skulle skicka data till en fjÀrransluten API-tjÀnst för att bearbetas och resultaten skickas tillbaka.

Dess blotta 450 MB fotavtryck och optimerade metod gör att den kan bearbeta deepfake-detektering helt och hÄllet pÄ sjÀlva enheten, i fall dÀr nÀtverksanslutning kan göra att skickade bilder blir alltför komprimerade, vilket pÄverkar diagnostikprocessen.

Att köra "all local" pÄ detta sÀtt innebÀr att systemet skulle ha direkt tillgÄng till anvÀndarens kameraflöde, utan codec störningar som ofta förknippas med videokonferenser.

Genomsnittlig analystid krÀver ett videoprov pÄ fyra sekunder, under vilket anvÀndaren uppmanas att förbli stilla, och under vilken SFake skickar "sonder" för att orsaka kameravibrationer, med selektivt slumpmÀssiga intervall som system som DeepFaceLive inte kan svara pÄ i tid .

(Det bör Äterigen betonas att alla angripare som inte har inkluderat suddiga innehÄll i trÀningsdataset Àr osannolikt att kunna producera en modell som kan generera oskÀrpa Àven under mycket gynnsammare omstÀndigheter, och att DeepFaceLive inte bara kan "lÀgga till" denna funktionalitet till en modell trÀnad pÄ en underkurerad datauppsÀttning)

Systemet vÀljer utvalda omrÄden i ansiktet som omrÄden med potentiellt djupt falskt innehÄll, exklusive ögon och ögonbryn (eftersom blinkande och annan ansiktsrörlighet i det omrÄdet ligger utanför omfattningen av oskÀrpa, och inte en idealisk indikator).

Konceptuellt schema för SFake.

Konceptuellt schema för SFake.

Som vi kan se i det konceptuella schemat ovan, efter att ha valt lÀmpliga och oförutsÀgbara vibrationsmönster, bestÀmt sig för den bÀsta brÀnnvidden och utfört ansiktsigenkÀnning (inklusive landmÀrkesdetektion via en Dlib komponent som uppskattar en standard 68 ansikts landmÀrken), hÀrleder SFake gradienter frÄn ingÄngsytan och koncentrerar sig pÄ utvalda omrÄden av dessa gradienter.

Varianssekvensen erhÄlls genom att sekventiellt analysera varje bildruta i det korta klippet som studeras, tills den genomsnittliga eller "ideala" sekvensen har kommit fram, och resten ignoreras.

Detta ger extraheras pass som kan anvÀndas som en kvantifierare för sannolikheten för djupförfalskade innehÄll, baserat pÄ den trÀnade databasen (varav mer momentant).

Systemet krĂ€ver en bildupplösning pĂ„ 1920×1080 pixlar, samt minst 2x zoomkrav för objektivet. Tidningen noterar att sĂ„dana resolutioner (och Ă€nnu högre upplösningar) stöds i Microsoft Teams, Skype, Zoom och Tencent Meeting.

De flesta smartphones har en front- och sjÀlvvÀnd kamera, och ofta har bara en av dessa de zoommöjligheter som krÀvs av SFake; appen skulle dÀrför krÀva att kommunikatören anvÀnder vilken av de tvÄ kamerorna som uppfyller dessa krav.

MÄlet hÀr Àr att fÄ en rÀtt proportion av anvÀndarens ansikte i videoströmmen som systemet kommer att analysera. Tidningen konstaterar att det genomsnittliga avstÄndet som kvinnor anvÀnder mobila enheter Àr 34.7 cm och för mÀn 38.2 cm (som rapporterade in Journal of Optometri), och att SFake fungerar mycket bra pÄ dessa avstÄnd.

Eftersom stabilisering Ă€r ett problem med handhĂ„llen video, och eftersom oskĂ€rpan som uppstĂ„r frĂ„n handrörelser Ă€r ett hinder för SFakes funktion, försökte forskarna flera metoder för att kompensera. Det mest framgĂ„ngsrika av dessa var att berĂ€kna centralpunkten för de uppskattade landmĂ€rkena och anvĂ€nda detta som ett "ankare" – i praktiken en algoritmisk stabiliseringsteknik. Genom denna metod erhölls en noggrannhet pĂ„ 92 %.

Data och tester

Eftersom det inte fanns nÄgra lÀmpliga datauppsÀttningar för ÀndamÄlet utvecklade forskarna sina egna:

"[Vi] anvÀnder 8 olika mÀrken av smartphones för att spela in 15 deltagare av olika kön och Äldrar för att bygga vÄr egen datauppsÀttning. Vi placerar smarttelefonen pÄ telefonhÄllaren 20 cm frÄn deltagaren och zoomar in tvÄ gÄnger, och siktar mot deltagarens ansikte för att omsluta alla hans ansiktsdrag samtidigt som vi vibrerar smartphonen i olika mönster.

"För telefoner vars frÀmre kameror inte kan zooma, anvÀnder vi de bakre kamerorna som ett substitut. Vi spelar in 150 lÄnga videor, vardera 20 sekunder lÄnga. Som standard antar vi att upptÀcktsperioden varar i 4 sekunder. Vi trimmar 10 klipp pÄ 4 sekunder frÄn en lÄng video genom att slumpvisa starttiden. DÀrför fÄr vi totalt 1500 riktiga klipp, vart och ett 4 sekunder lÄngt.'

Även DeepFaceLive (GitHub-lĂ€nk) var det centrala mĂ„let för studien, eftersom det för nĂ€rvarande Ă€r det mest anvĂ€nda open source live deepfaking-systemet, inkluderade forskarna fyra andra metoder för att trĂ€na sin basdetekteringsmodell: Hififace; FS-GANV2; RemakerAI; Och MobileFaceSwap – den sista av dessa ett sĂ€rskilt lĂ€mpligt val med tanke pĂ„ mĂ„lmiljön.

1500 falska videor anvÀndes för utbildning, tillsammans med motsvarande antal riktiga och oförÀndrade videor.

SFake testades mot flera olika klassificerare, inklusive SBI; FaceAF; CnnDetect; LRNet; DefakeHop varianter; och den kostnadsfria onlinetjÀnsten för deepfake-detektion Deepaware. För var och en av dessa deepfake-metoder trÀnades 1500 falska och 1500 riktiga videor.

För bastestklassificeraren, ett enkelt tvÄskikt neurala nÀtverk med en ReLU aktiveringsfunktion anvÀndes. 1000 riktiga och 1000 falska videor valdes slumpmÀssigt ut (Àven om de falska videorna uteslutande var DeepFaceLive-exempel).

OmrÄde under mottagarens funktionskurva (AUC/AUROC) och noggrannhet (ACC) anvÀndes som mÄtt.

För trÀning och slutledning anvÀndes en NVIDIA RTX 3060, och testerna körs under Ubuntu. Testvideorna spelades in med en Xiaomi Redmi 10x, en Xiaomi Redmi K50, en OPPO Find x6, en Huawei Nova9, en Xiaomi 14 Ultra, en Honor 20, en Google Pixel 6a och en Huawei P60.

För att överensstÀmma med befintliga detektionsmetoder implementerades testerna i PyTorch. PrimÀra testresultat illustreras i tabellen nedan:

Resultat för SFake mot konkurrerande metoder.

Resultat för SFake mot konkurrerande metoder.

HÀr kommenterar författarna:

"I alla fall översteg SFakes detektionsnoggrannhet 95 %. Bland de fem deepfake-algoritmerna, förutom Hififace, presterar SFake bÀttre mot andra deepfake-algoritmer Àn de andra sex detektionsmetoderna. Eftersom vÄr klassificerare trÀnas med att anvÀnda falska bilder genererade av DeepFaceLive, nÄr den den högsta noggrannhetsgraden pÄ 98.8 % nÀr den detekterar DeepFaceLive.

"NÀr man möter falska ansikten som genererats av RemakerAI, fungerar andra detekteringsmetoder dÄligt. Vi spekulerar att detta kan bero pÄ den automatiska komprimeringen av videor vid nedladdning frÄn internet, vilket resulterar i förlust av bilddetaljer och dÀrigenom minskad upptÀcktsnoggrannhet. Detta pÄverkar dock inte detekteringen av SFake som uppnÄr en noggrannhet pÄ 96.8 % vid detektion mot RemakerAI.'

Författarna noterar vidare att SFake Ă€r det mest presterande systemet i scenariot med en 2x zoom som appliceras pĂ„ fĂ„ngstobjektivet, eftersom detta överdriver rörelsen och Ă€r en otroligt utmanande möjlighet. Även i denna situation kunde SFake uppnĂ„ en igenkĂ€nningsnoggrannhet pĂ„ 84 % respektive 83 % för 2.5 respektive 3 förstoringsfaktorer.

Slutsats

Ett projekt som anvÀnder svagheterna i ett levande deepfake-system mot sig sjÀlvt Àr ett uppfriskande erbjudande under ett Är dÀr deepfake-detektering har dominerats av tidningar som bara har rört upp sig Àrevördig tillvÀgagÄngssÀtt kring frekvensanalys (som Àr lÄngt ifrÄn immun mot innovationer i deepfake-utrymmet).

I slutet av 2022 anvÀndes ett annat system bildskÀrmens ljusstyrkevariation som en detektorkrok; och samma Är, min egen demonstration av DeepFaceLives oförmÄga att hantera hÄrda 90-graders profilvyer fick en del samhÀllsintresse.

DeepFaceLive Àr det korrekta mÄlet för ett sÄdant projekt, eftersom det nÀstan sÀkert Àr i fokus för brottsligt intresse nÀr det gÀller videokonferensbedrÀgerier.

Men jag har nyligen sett nÄgra anekdotiska bevis för att LivePortrÀtt System, som för nÀrvarande Àr mycket populÀrt i VFX-communityt, hanterar profilvyer mycket bÀttre Àn DeepFaceLive; det hade varit intressant om det hade kunnat inkluderas i denna studie.

 

Första gÄngen publicerad tisdagen den 24 september 2024

Skribent pÄ maskininlÀrning, domÀnspecialist pÄ mÀnsklig bildsyntes. Tidigare chef för forskningsinnehÄll pÄ Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai