Connect with us

Cybersäkerhet

Att detektera Videokonferens Deepfakes Med En Smartphones “Vibrationsfunktion”

mm
An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, September 24, 2024 13:27:31

Ny forskning från Singapore har föreslagit en ny metod för att upptäcka om någon på andra sidan en smartphone-videokonferensverktyg använder metoder som DeepFaceLive för att imitera någon annan.

Titled SFake, den nya metoden överger de passiva metoderna som används av de flesta system, och får användarens telefon att vibrera (med hjälp av samma “vibrationsmekanismer” som är vanliga i smartphones), och subtilt suddar ut deras ansikte.

Även om live-deepfaking-system är olika kapabla att replikera rörelseoskärpa, så länge suddig footage var inkluderad i träningsdata, eller åtminstone i förträningsdata, kan de inte svara tillräckligt snabbt på oväntad oskärpa av detta slag, och fortsätter att producera icke-oskärpa delar av ansikten, vilket avslöjar existensen av en deepfake-konferenssamtal.

DeepFaceLive kan inte svara tillräckligt snabbt för att simulera oskärpan som orsakas av kameravibrationer. Källa: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive kan inte svara tillräckligt snabbt för att simulera oskärpan som orsakas av kameravibrationer. Källa: https://arxiv.org/pdf/2409.10889v1

Testresultat på forskarnas egen kuraterade dataset (eftersom inga dataset med aktiva kamerarörelser finns) visade att SFake presterade bättre än andra video-baserade deepfake-detektionsmetoder, även när de ställdes inför utmanande omständigheter, såsom den naturliga handrörelse som sker när den andra personen i en videokonferens håller kameran med sin hand, istället för att använda en statisk telefonhållare.

Det Ökande Behovet Av Video-baserad Deepfake-detektion

Forskning om video-baserad deepfake-detektion har ökat nyligen. I kölvattnet av flera års framgångsrika röst-baserade deepfake-rån, tidigare i år blev en finansarbetare lurad att överföra 25 miljoner dollar till en bedragare som imiterade en CFO i en deepfaked videokonferenssamtal.

Även om ett system av detta slag kräver en hög nivå av hårdvarutillgång, är många smartphone-användare redan vana vid finansiella och andra typer av verifikationstjänster som ber oss att spela in våra ansiktsdrag för ansiktsbaserad autentisering (i själva verket är detta en del av LinkedIns verifikationsprocess).

Det verkar därför troligt att sådana metoder kommer att bli allt mer vanliga för videokonferenssystem, eftersom denna typ av brott fortsätter att hamna i rubrikerna.

De flesta lösningar som hanterar realtidsvideokonferens-deepfaking antar en mycket statisk scenario, där kommunikanten använder en stationär webbkamera, och ingen rörelse eller överdriven miljö- eller belysningsförändring förväntas. Ett smartphonesamtal erbjuder ingen sådan “fast” situation.

Istället använder SFake en mängd differentieringsmetoder för att kompensera för det stora antalet visuella varianter i en handhållen smartphone-baserad videokonferens, och verkar vara det första forskningsprojektet som hanterar problemet med hjälp av standardvibrationsutrustning som byggts in i smartphones.

Den artikeln heter Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes, och kommer från två forskare från Nanyang Technological University i Singapore.

Metod

SFake är utformad som en molnbaserad tjänst, där en lokal app skickar data till en fjärr-API-tjänst för att bearbetas, och resultaten skickas tillbaka.

Men dess ringa 450mb fotavtryck och optimerad metodik gör att den kan bearbeta deepfake-detektion helt på enheten själv, i fall där nätverksanslutning kan orsaka att skickade bilder blir alltför komprimerade, vilket påverkar diagnostikprocessen.

Att köra “all lokal” på detta sätt innebär att systemet skulle ha direkt tillgång till användarens kameradata, utan codec-störningar som ofta är förknippade med videokonferenser.

Genomsnittlig analys tid kräver en fyra sekunders videoklipp, under vilken användaren ombeds att stanna stilla, och under vilken SFake skickar “prober” för att orsaka kameravibrationer, vid selektivt slumpmässiga intervall som system som DeepFaceLive inte kan svara på i tid.

(Det bör åter betonas att någon angripare som inte har inkluderat suddig innehåll i träningsdataset är osannolikt att kunna producera en modell som kan generera suddighet, även under mycket gynnsammare omständigheter, och att DeepFaceLive inte kan “lägga till” denna funktion till en modell som tränats på ett underkuraterat dataset)

Systemet väljer utvalda områden av ansiktet som områden med potentiellt deepfake-innehåll, med undantag för ögonen och ögonbrynen (eftersom blinkning och annan ansiktsrörelse i det området ligger utanför suddighetsdetekteringens område, och inte är en ideal indikator).

Konceptuell schema för SFake.

Konceptuell schema för SFake.

Som vi kan se i den konceptuella schemat ovan, efter att ha valt lämpliga och oförutsägbara vibrationsmönster, fastställt den bästa brännvidden och genomfört ansiktsigenkänning (inklusive landmärkesdetektering via en Dlib-komponent som uppskattar standard 68 ansiktslandmärken), SFake härleder gradienter från indataansiktet och koncentrerar sig på utvalda områden av dessa gradienter.

Varianssekvensen erhålls genom att sekventiellt analysera varje ram i den korta klippet under studien, tills den genomsnittliga eller “ideala” sekvensen nås, och resten förkastas.

Detta ger extraherade funktioner som kan användas som en kvantifierare för sannolikheten för deepfaked-innehåll, baserat på den tränade databasen (av vilken, mer strax).

Systemet kräver en bildupplösning på 1920×1080 pixlar, samt minst en 2x zoomkrav för objektiv. Artikeln noterar att sådana upplösningar (och ännu högre upplösningar) stöds i Microsoft Teams, Skype, Zoom och Tencent Meeting.

De flesta smartphones har en främre och självständig kamera, och ofta endast en av dessa har zoomförmågan som krävs av SFake; appen skulle därför kräva att kommunikanten använder vilken av de två kamerorna som uppfyller dessa krav.

Målet här är att få en korrekt proportion av användarens ansikte i videostreamen som systemet kommer att analysera. Artikeln observerar att den genomsnittliga avståndet som kvinnor använder mobila enheter är 34,7 cm, och för män, 38,2 cm (som rapporterats i Journal of Optometry), och att SFake fungerar mycket bra på dessa avstånd.

Eftersom stabilisering är ett problem med handhållen video, och eftersom oskärpan som uppstår från handrörelse är ett hinder för SFakes funktion, försökte forskarna flera metoder för att kompensera. Den mest framgångsrika av dessa var att beräkna den centrala punkten av de uppskattade landmärkena och använda denna som en “ankare” – effektivt en algoritmisk stabiliseringsteknik. Med denna metod uppnåddes en noggrannhet på 92%.

Data Och Tester

Eftersom inga lämpliga dataset fanns för ändamålet, utvecklade forskarna sitt eget:

‘[Vi] använder 8 olika märken av smartphones för att spela in 15 deltagare av varierande kön och ålder för att bygga vår egen dataset. Vi placerar smartphone på telefonhållaren 20 cm bort från deltagaren och zoomar in två gånger, riktat mot deltagarens ansikte för att omfatta alla ansiktsdrag medan vi vibrerar smartphone i olika mönster.

‘För telefoner vars främre kameror inte kan zooma, använder vi bakre kameror som ersättning. Vi spelar in 150 långa videor, var och en 20 sekunder lång. Som standard antar vi att detekteringsperioden varar 4 sekunder. Vi klipper 10 klipp av 4 sekunder långa från en lång video genom att slumpmässigt välja starttiden. Därför får vi totalt 1500 riktiga klipp, var och en 4 sekunder lång.’

Även om DeepFaceLive (GitHub-länk) var det centrala målet för studien, eftersom det för närvarande är det mest använda öppna källkods-livesystemet för deepfaking, inkluderade forskarna fyra andra metoder för att träna deras basdetektionsmodell: Hififace; FS-GANV2; RemakerAI; och MobileFaceSwap – den sista av dessa en särskilt lämplig val, med tanke på målmiljön.

1500 fejkade videor användes för träning, tillsammans med motsvarande antal riktiga och oförändrade videor.

SFake testades mot flera olika klassificerare, inklusive SBI; FaceAF; CnnDetect; LRNet; DefakeHop-varianter; och den kostnadsfria online-deepfake-detektionstjänsten Deepaware. För var och en av dessa deepfake-metoder tränades 1500 fejkade och 1500 riktiga videor.

För bas-test-klassificeren användes ett enkelt två-lagers neuronnät med en ReLU-aktiveringsfunktion. 1000 riktiga och 1000 fejkade videor valdes slumpmässigt (även om de fejkade videorna uteslutande var DeepFaceLive-exempel).

Area Under Receiver Operating Characteristic Curve (AUC/AUROC) och Noggrannhet (ACC) användes som mått.

För träning och inferens användes en NVIDIA RTX 3060, och testerna kördes under Ubuntu. Testvideorna spelades in med en Xiaomi Redmi 10x, en Xiaomi Redmi K50, en OPPO Find x6, en Huawei Nova9, en Xiaomi 14 Ultra, en Honor 20, en Google Pixel 6a och en Huawei P60.

För att följa befintliga detektionsmetoder implementerades testerna i PyTorch. Primära testresultat visas i tabellen nedan:

Resultat för SFake mot andra metoder.

Resultat för SFake mot andra metoder.

Här kommenterar författarna:

‘I alla fall översteg SFakes detekteringsnoggrannhet 95%. Bland de fem deepfake-algoritmerna, utom Hififace, presterar SFake bättre mot andra deepfake-algoritmer än de andra sex detektionsmetoderna. Eftersom vår klassificerare tränats med fejkade bilder genererade av DeepFaceLive, nådde den den högsta noggrannhetsgraden på 98,8% när den detekterade DeepFaceLive.

‘När det gäller fejkade ansikten genererade av RemakerAI presterar andra detektionsmetoder dåligt. Vi spekulerar att detta kan bero på den automatiska komprimeringen av videor när de laddas ner från internet, vilket resulterar i förlust av bildinformation och därmed minskar detekteringsnoggrannheten. Men detta påverkar inte SFakes detektion, som uppnår en noggrannhet på 96,8% vid detektion mot RemakerAI.’

Författarna noterar vidare att SFake är det mest presterande systemet i scenariot med en 2x-zoom tillämpad på objektiv, eftersom detta förstärker rörelse, och är ett oerhört utmanande perspektiv. Även i denna situation kunde SFake uppnå igenkänningsnoggrannhet på 84% och 83%, respektive för 2,5 och 3 förstoringfaktorer.

Slutsats

Ett projekt som använder svagheterna i ett live-deepfakesystem mot sig själv är ett välkommet bidrag i ett år då deepfake-detektion har dominerats av artiklar som har rört upp väletablerade metoder runt frekvensanalys (vilket är långt ifrån immunt mot innovationer i deepfake-området).

I slutet av 2022 använde ett annat system skärmens ljusstyrka som en detektorhook; och samma år visade min egen demonstration av DeepFaceLives oförmåga att hantera hårda 90-graders profilvyer en viss gemenskapsintresse.

DeepFaceLive är det riktiga målet för ett sådant projekt, eftersom det med all sannolikhet är fokus för kriminellt intresse i fråga om videokonferensbedrägeri.

Men jag har nyligen sett vissa anekdotiska bevis på att LivePortrait-systemet, som för närvarande är mycket populärt i VFX-gemenskapen, hanterar profilvyer mycket bättre än DeepFaceLive; det hade varit intressant om det kunde ha ingått i denna studie.

 

Publicerad första gången tisdagen den 24 september 2024

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.