Connect with us

Cyberbezpieczeństwo

Wykrywanie głębokich fałszerstw w wideokonferencjach za pomocą funkcji „wibracja” smartfona

mm
An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, September 24, 2024 13:27:31

Nowe badania z Singapuru zaproponowały nową metodę wykrywania, czy osoba na drugim końcu narzędzia do wideokonferencji na smartphone’u używa metod takich jak DeepFaceLive do podszywania się pod kogoś innego.

Tytuł SFake, nowy podejście porzuca metody bierne stosowane przez większość systemów i powoduje, że telefon użytkownika wibruje (korzystając z tych samych mechanizmów wspólnych we wszystkich smartphone’ach), i delikatnie rozmywa twarz.

Chociaż systemy live deepfaking są w różny sposób zdolne do replikowania rozmycia ruchu, o ile tylko rozmyte nagrania były uwzględnione w danych szkoleniowych, lub przynajmniej w danych wstępnych, nie mogą zareagować wystarczająco szybko na nieoczekiwane rozmycie tego rodzaju i nadal generują nie rozmyte fragmenty twarzy, ujawniając istnienie fałszywej wideokonferencji.

DeepFaceLive nie może odpowiednio szybko symulować rozmycia spowodowanego przez wibracje kamery. Źródło: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive nie może odpowiednio szybko symulować rozmycia spowodowanego przez wibracje kamery. Źródło: https://arxiv.org/pdf/2409.10889v1

Wyniki testów na własnym zestawie danych stworzonym przez badaczy (ponieważ nie istnieją zestawy danych zawierające aktywne drgania kamery) wykazały, że SFake przewyższa konkurencyjne metody wykrywania głębokich fałszerstw opartych na wideokonferencjach, nawet w przypadku trudnych okoliczności, takich jak naturalne ruchy ręki, które występują, gdy osoba na wideokonferencji trzyma kamerę ręką, zamiast używać statywu.

Rosnące zapotrzebowanie na wykrywanie głębokich fałszerstw w wideokonferencjach

Badania nad wykrywaniem głębokich fałszerstw w wideokonferencjach wzrosły ostatnio. W następstwie kilku lat udanych głębokich fałszerstw głosowych, wcześniej w tym roku pracownik finansowy został oszukany przez fałszerza, który podszywał się pod dyrektora finansowego w fałszywej wideokonferencji.

Chociaż system tego rodzaju wymaga wysokiego poziomu dostępu do sprzętu, wielu użytkowników smartphone’ów jest już przyzwyczajonych do usług weryfikacji finansowych i innych typów, które proszą nas o nagranie naszych cech twarzy do uwierzytelniania opartego na twarzy (w rzeczywistości jest to nawet część procesu weryfikacji na LinkedIn).

Wygląda na to, że takie metody będą coraz częściej egzekwowane w systemach wideokonferencyjnych, ponieważ tego rodzaju przestępstwa nadal pojawiają się w nagłówkach.

Większość rozwiązań, które zajmują się głębokimi fałszerstwami w wideokonferencjach w czasie rzeczywistym, zakłada bardzo statyczny scenariusz, w którym komunikant używa stacjonarnej kamery internetowej, a nie występują ruchy ani nadmierne zmiany środowiskowe lub oświetlenia. Wideokonferencja na smartphone’u nie oferuje takiej „stałej” sytuacji.

Zamiast tego SFake używa kilku metod wykrywania, aby skompensować wysoką liczbę wariantów wizualnych w wideokonferencji na smartphone’u, i wydaje się być pierwszym projektem badawczym, który zajmuje się tym problemem za pomocą standardowego sprzętu wibracyjnego wbudowanego w smartfony.

Artykuł artykuł nosi tytuł Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes, i pochodzi od dwóch badaczy z Nanyang Technological University w Singapurze.

Metoda

SFake jest zaprojektowany jako usługa oparta na chmurze, gdzie lokalna aplikacja wysyła dane do usługi API, aby zostały przetworzone, a wyniki są wysyłane z powrotem.

Jednakże jego niewielki rozmiar 450 MB i zoptymalizowana metodyka pozwalają na przetwarzanie wykrywania głębokich fałszerstw całkowicie na urządzeniu, w przypadkach, gdy połączenie sieciowe może spowodować, że wysłane obrazy staną się nadmiernie skompresowane, wpływając na proces diagnostyczny.

Uruchamianie „wszystkiego lokalnie” w ten sposób oznacza, że system ma bezpośredni dostęp do strumienia kamery użytkownika, bez kodera often associated z wideokonferencjami.

Średni czas analizy wymaga próbki wideo o długości czterech sekund, podczas której użytkownik jest proszony o pozostanie nieruchomo, a podczas której SFake wysyła „sondy”, aby spowodować wibracje kamery w selektywnie losowych interwałach, których systemy takie jak DeepFaceLive nie mogą odpowiednio szybko zareagować.

(Powinno się ponownie podkreślić, że każdy atakujący, który nie uwzględnił treści rozmytej w zestawie danych szkoleniowych, jest mało prawdopodobny, aby mógł wyprodukować model, który może generować rozmycie, nawet w znacznie korzystniejszych okolicznościach, i że DeepFaceLive nie może po prostu „dodać” tej funkcjonalności do modelu przeszkolonego na nieodpowiednio przygotowanym zestawie danych)

System wybiera wybrane obszary twarzy jako obszary potencjalnego głębokiego fałszerstwa, wykluczając oczy i brwi (ponieważ mruganie i inne motoryczność twarzy w tym obszarze są poza zakresem wykrywania rozmycia, i nie są idealnymi wskaźnikami).

Konceptualny schemat SFake.

Konceptualny schemat SFake.

Jak widać na powyższym schemacie konceptualnym, po wyborze odpowiednich i nieprzewidywalnych wzorów wibracji, ustaleniu najlepszej ogniskowej, i wykonaniu rozpoznania twarzy (w tym wykrywania punktów charakterystycznych za pomocą komponentu Dlib, który szacuje standardowe 68 punktów charakterystycznych twarzy), SFake wyznacza gradienty z wejściowej twarzy i koncentruje się na wybranych obszarach tych gradientów.

Sekwencja wariancji jest uzyskiwana przez sekwencyjną analizę każdego klatki w krótkim klipie poddanym badaniu, aż do uzyskania średniej lub „idealnej” sekwencji, a reszta jest ignorowana.

To dostarcza wyodrębnione cechy, które mogą być użyte jako miernik prawdopodobieństwa zawartości głębokiego fałszerstwa, na podstawie przeszkolonej bazy danych (o której więcej wkrótce).

System wymaga rozdzielczości obrazu 1920×1080 pikseli, a także co najmniej 2-krotnego powiększenia obiektywu. Artykuł zauważa, że takie rozdzielczości (i nawet wyższe) są obsługiwane w Microsoft Teams, Skype, Zoom i Tencent Meeting.

Większość smartphone’ów ma kamerę przednią i tylną, i często tylko jedna z nich ma możliwości powiększania wymagane przez SFake; aplikacja wymagałaby więc od komunikującego się użytkownika użycia kamery, która spełnia te wymagania.

Celem jest uzyskanie poprawnej proporcji twarzy użytkownika w strumieniu wideo, który system będzie analizował. Artykuł obserwuje, że średnia odległość, z której kobiety używają urządzeń mobilnych, wynosi 34,7 cm, a dla mężczyzn 38,2 cm (jak zgłoszono w Journal of Optometry), i że SFake działa bardzo dobrze na tych odległościach.

Ponieważ stabilizacja jest problemem w wideokonferencjach na urządzeniach przenośnych, a rozmycie, które występuje z ruchem ręki, jest przeszkodą w funkcjonowaniu SFake, badacze próbowali kilku metod, aby skompensować. Najbardziej skuteczna z nich była obliczanie centralnego punktu oszacowanych punktów charakterystycznych i użycie go jako „ kotwicy” – skutecznie techniki stabilizacji algorytmicznej. Za pomocą tej metody uzyskano dokładność 92%.

Dane i testy

Ponieważ nie istniały odpowiednie zestawy danych, badacze stworzyli własne:

„Używamy 8 różnych marek smartphone’ów, aby nagrać 15 uczestników różnych płci i wieku, aby stworzyć własny zestaw danych. Umieszczamy smartphone na podstawie 20 cm od uczestnika i powiększamy dwukrotnie, celując w twarz uczestnika, aby objąć wszystkie jego cechy twarzy, podczas gdy wibrujemy smartphone w różnych wzorach.

„Dla telefonów, których przednie kamery nie mogą powiększać, używamy tylnych kamer jako zamienników. Nagrywamy 150 długich filmów, każdy 20 sekund długości. Domyślnie zakładamy, że okres wykrywania trwa 4 sekundy. Przycinamy 10 klipów o długości 4 sekund z jednego długiego filmu, losując czas startu. Uzyskujemy więc łącznie 1500 prawdziwych klipów, każdy 4 sekundy długości”.

Chociaż DeepFaceLive (odnośnik do GitHub) był głównym celem badania, ponieważ jest obecnie najbardziej popularnym otwartym systemem live deepfaking, badacze uwzględnili cztery inne metody, aby przeszkolić swój podstawowy model wykrywania: Hififace; FS-GANV2; RemakerAI; i MobileFaceSwap – ostatni z nich był szczególnie odpowiednim wyborem, biorąc pod uwagę docelowe środowisko.

1500 fałszywych filmów wideo zostało użytych do szkolenia, wraz z równą liczbą prawdziwych i niezmienionych filmów.

SFake został przetestowany wobec kilku różnych klasyfikatorów, w tym SBI; FaceAF; CnnDetect; LRNet; DefakeHop warianty; oraz bezpłatną usługę wykrywania głębokich fałszerstw online Deepaware. Dla każdej z tych metod głębokich fałszerstw 1500 fałszywych i 1500 prawdziwych filmów wideo zostało użytych do szkolenia.

Dla podstawowego testowego klasyfikatora użyto prostą sieć neuronową dwuwarstwową z funkcją aktywacji ReLU. 1000 prawdziwych i 1000 fałszywych filmów wideo zostało wybranych losowo (chociaż fałszywe filmy wideo były wyłącznie przykładami DeepFaceLive).

Powierzchnia pod krzywą charakterystyki odbioru (AUC/AUROC) i dokładność (ACC) zostały użyte jako miary.

Do szkolenia i inferencji użyto NVIDIA RTX 3060, a testy zostały uruchomione pod Ubuntu. Filmy testowe zostały nagrane za pomocą Xiaomi Redmi 10x, Xiaomi Redmi K50, OPPO Find x6, Huawei Nova9, Xiaomi 14 Ultra, Honor 20, Google Pixel 6a i Huawei P60.

Aby dostosować się do istniejących metod wykrywania, testy zostały zaimplementowane w PyTorch. Główne wyniki testowe są ilustrowane w poniższej tabeli:

Wyniki dla SFake w porównaniu z metodami konkurencyjnymi.

Wyniki dla SFake w porównaniu z metodami konkurencyjnymi.

Tu autorzy komentują:

„We wszystkich przypadkach dokładność wykrywania SFake przekracza 95%. Spośród pięciu algorytmów głębokich fałszerstw, z wyjątkiem Hififace, SFake działa lepiej przeciwko innym algorytmom głębokich fałszerstw niż inne sześć metod wykrywania. Ponieważ nasz klasyfikator jest szkolony przy użyciu fałszywych obrazów wygenerowanych przez DeepFaceLive, osiąga najwyższy wskaźnik dokładności 98,8%, gdy wykrywa DeepFaceLive.

„Gdy mamy do czynienia z fałszywymi twarzami wygenerowanymi przez RemakerAI, inne metody wykrywania działają słabo. Spekulujemy, że może to być spowodowane automatycznym kompresowaniem filmów wideo podczas pobierania z Internetu, co powoduje utratę szczegółów obrazu i w konsekwencji obniża dokładność wykrywania. Jednakże to nie wpływa na wykrywanie przez SFake, który osiąga dokładność 96,8% w wykrywaniu RemakerAI”.

Autorzy zauważają ponadto, że SFake jest najbardziej efektywnym systemem w scenariuszu, w którym zastosowano 2-krotne powiększenie obiektywu, ponieważ to powiększenie ruchu, i jest to niezwykle trudne. Nawet w tej sytuacji SFake był w stanie osiągnąć dokładność rozpoznawania 84% i 83%, odpowiednio dla czynników powiększenia 2,5 i 3.

Wnioski

Projekt, który wykorzystuje słabości systemu live deepfaking przeciwko sobie, to odświeżająca oferta w roku, w którym wykrywanie głębokich fałszerstw było dominowane przez artykuły, które po prostu wymieszały stare podejścia wokół analizy częstotliwości (która jest daleko od odporności na innowacje w przestrzeni głębokich fałszerstw).

Na koniec 2022 roku inny system używał zmiany jasności monitora jako hak wykrywania; i w tym samym roku moja własna demonstracja niezdolności DeepFaceLive do radzenia sobie z trudnymi widokami bocznymi zyskała pewne zainteresowanie społeczności.

DeepFaceLive jest odpowiednim celem dla takiego projektu, ponieważ jest prawdopodobnie celem zainteresowania przestępczego w odniesieniu do oszustw wideokonferencyjnych.

Jednak ostatnio zobaczyłem pewne anegdotyczne dowody, że system LivePortrait radzi sobie lepiej z widokami bocznymi niż DeepFaceLive; byłoby interesujące, gdyby można było go uwzględnić w tym badaniu.

 

Pierwotnie opublikowane we wtorek, 24 września 2024

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.