Вештачка интелигенција

Deepfakes може ефикасно да измами многу главни API-и за „животност“ на лицето

Ажурирани on Декември 9, 2022

Од 'DeepFace Live - Арнолд Шварценегер 224 3.03M Итерации | RTX A6000' - https://www.youtube.com/watch?v=9tr35y-yQRY

Новата истражувачка соработка меѓу САД и Кина ја испита подложноста на длабоки фалсификати на некои од најголемите системи за автентикација засновани на лице во светот и откри дека повеќето од нив се ранливи на развивање и појавување на форми на длабоко лажни напади.

Истражувањето спроведе упади засновани на длабоки фалсификат користејќи прилагодена рамка распоредена против системите за верификација на живост на лицето (FLV) кои вообичаено се обезбедуваат од големите продавачи и се продаваат како услуга на надолните клиенти, како што се авиокомпаниите и осигурителните компании.

Од трудот, преглед на функционирањето на API-ите за верификација на живост на лицето (FLV) кај главните провајдери. Извор: https://arxiv.org/pdf/2202.10673.pdf

Facial Liveness е наменет да одбие употреба на техники како што се напади на противнички слики, Употребата на маски и претходно снимено видео, т.н „мајсторски лица“, и други форми на клонирање на визуелна идентификација.

Студијата заклучува дека ограничениот број на модули за откривање длабоко лажни распоредени во овие системи, од кои многу им служат на милиони клиенти, се далеку од непогрешливи и можеби се конфигурирани на техники за длабоко лажни кои сега се застарени или можеби се премногу специфични за архитектурата .

Авторите забележуваат:

„[Различни] методи за длабоко лажни, исто така, покажуваат варијации кај различни продавачи...Без пристап до техничките детали на целните продавачи на FLV, шпекулираме дека таквите варијации се припишуваат на мерките за одбрана што ги применуваат различни продавачи. На пример, одредени продавачи може да распоредат одбрана од специфични напади со длабоки лажни напади.'

И продолжи:

„[Повеќето] FLV API не користат детекција против длабоко лажирање; дури и за оние со таква одбрана, нивната ефикасност е загрижувачка (на пр., може да открие висококвалитетни синтетизирани видеа, но не успева да открие неквалитетни).'

Истражувачите забележуваат, во овој поглед, дека „автентичноста“ е релативна:

„[Дури и] ако синтетизираното видео е нереално за луѓето, сепак може да го заобиколи тековниот механизам за откривање анти-дипфејк со многу висока стапка на успех“.

Погоре, примерете длабоки лажни слики што можеа да се потврдат во експериментите на авторите. Подолу, очигледно многу пореални лажни слики кои не успеаја да се автентицираат.

Друго откритие беше дека сегашната конфигурација на генеричките системи за верификација на лицето е пристрасна кон белите мажи. Последователно, беше откриено дека женскиот и не-белиот идентитет се поефективни во заобиколувањето на системите за верификација, ставајќи ги клиентите во тие категории на поголем ризик од прекршување преку техники засновани на длабоко лажни.

Извештајот открива дека идентитетите на белите мажи најригорозно и најпрецизно се оценуваат од популарните API за проверка на живоста на лицето. Во горната табела, гледаме дека женските и небелите идентитети можат полесно да се користат за да се заобиколат системите.

Весникот забележува дека „Постојат предрасуди во [Верификацијата на живоста на лицето], што може да донесе значителни безбедносни ризици за одредена група луѓе.

Авторите, исто така, спроведоа етички напади за автентикација на лицето против кинеската влада, голема кинеска авиокомпанија, една од најголемите компании за осигурување на живот во Кина и R360, една од најголемите инвестициски групи на еднорог во светот и известуваат за успех во заобиколувањето на користењето на испитуваните API од овие организации.

Во случај на успешен бајпас за автентикација за кинеската авиокомпанија, низводното API бараше од корисникот „да се тресат со главата“ како доказ против потенцијалниот длабок лажен материјал, но тоа се покажа дека не функционира против рамката смислена од истражувачите, која вклучува шест длабоко лажни архитектури.

И покрај проценката на авиокомпанијата за тресењето на главата на корисникот, содржината со длабока фејк можеше да го помине тестот.

Весникот забележува дека авторите контактирале со вклучените продавачи, кои наводно ја признале работата.

Авторите нудат листа на препораки за подобрувања во моменталната состојба на уметноста во FLV, вклучително и напуштање на автентикацијата со една слика („FLV базирана на слика“), каде што автентикацијата се заснова на една рамка од доводот на камерата на клиентот; пофлексибилно и посеопфатно ажурирање на системите за откривање длабоко лажни низ домени на слики и гласови; наметнување на потребата гласовната автентикација во корисничкото видео да се синхронизира со движењата на усните (што не се сега, генерално); и бара од корисниците да вршат гестови и движења кои во моментов се тешки за репродукција на длабоко лажни системи (на пример, прегледи на профили и делумна заматување на лицето).

на хартија е насловен Гледањето е живеење? Преиспитување на безбедноста на верификацијата на живоста на лицето во ерата на Deepfake, и доаѓа од заедничките водечки автори Чанџијанг Ли и Ли Ванг, и пет други автори од Државниот универзитет во Пенсилванија, Универзитетот Жеџијанг и Универзитетот Шандонг.

Главните цели

Истражувачите беа насочени кон „шестте најрепрезентативни“ продавачи на верификација на живост на лицето (FLV), кои беа анонимизирани со криптоними во истражувањето.

Продавачите се претставени вака: 'BD' 'TC' претставуваат конгломерат добавувач со најголем број повици за API поврзани со лице и најголем удел од кинеските облак услуги за вештачка интелигенција; 'HW' е „еден од продавачите со најголем [кинески] јавен облак пазар“; 'CW' има најбрза стапка на раст во компјутерската визија и постигнува водечка позиција на пазарот'; 'ST' е меѓу најголемите продавачи на компјутерски визии; и 'iFT' број меѓу најголемите продавачи на софтвер со вештачка интелигенција во Кина.

Податоци и архитектура

Основните податоци кои го напојуваат проектот вклучуваат база на податоци од 625,537 слики од кинеската иницијатива CelebA-Spoof, заедно со видеа во живо од Државниот универзитет во Мичиген 2019 година SiW-M база на податоци.

Сите експерименти беа спроведени на сервер со двојни 2.40 GHz Intel Xeon E5-2640 v4 процесори кои работат на 256 GB RAM со 4TB HDD и четири оркестрирани 1080Ti NVIDIA графички процесори, за вкупно 44 GB оперативен VRAM.

Шест во едно

Рамката што ја смислиле авторите на трудот се нарекува LiveBugger, и вклучува шест најсовремени длабоки фејк рамки кои се движат против четирите главни одбрани во FLV системите.

LiveBugger содржи различни пристапи за длабоко лажни и се фокусира на четирите главни вектори на напад во FLV системите.

Шесте длабоки фејк рамки што се користат се: Универзитетот Оксфорд 2018 година X2Face; американската академска соработка ICface; две варијации на израелскиот проект од 2019 година FSGAN; италијанскиот Модел на метод за прв ред (FOMM), од почетокот на 2020 година; и соработката на Microsoft Research на Универзитетот во Пекинг FaceShifter (иако бидејќи FaceShifter не е со отворен код, авторите мораа да го реконструираат врз основа на објавените детали за архитектурата).

Методите користени меѓу овие рамки вклучуваа употреба на претходно рендерирано видео во кое субјектите на видеото за измама извршуваат дејствија на памет кои се извлечени од барањата за автентикација на API во претходен модул за евалуација на LiveBugger, како и употреба на ефективни „длабоко лажни кукли“ ', што ги преведува движењата во живо на поединецот во длабоко фалсификуван пренос кој е вметнат во кооптираниот пренос на веб-камера.

Пример за второто е DeepFaceLive, Која дебитираше минатото лето како дополнителна програма на популарната DeepFaceLab, за да се овозможи стриминг во реално време за длабоко фејк, но кој не е вклучен во истражувањето на авторите.

Напаѓање на четирите вектори

Четирите вектори на напад во типичен FLV систем се: FLV базиран на слика, кој користи една фотографија обезбедена од корисникот како токен за автентикација со лична карта што е заведена во системот; FLV базиран на тишина, што бара корисникот да прикачи видео клип од себе; FLV базиран на акција, што бара од корисникот да изврши дејства диктирани од платформата; и FLV базиран на глас, што се совпаѓа со говорот побаран од корисникот со записот во базата на податоци на системот за говорната шема на тој корисник.

Првиот предизвик за системот е утврдување на степенот до кој API ќе ги открие своите барања, бидејќи тие потоа може да се предвидат и да се погрижат во процесот на длабоко фалсификување. Со ова управува Intelligence Engine во LiveBugger, кој собира информации за барањата од јавно достапна документација за API и други извори.

Бидејќи објавените барања може да отсуствуваат (од различни причини) од вистинските рутини на API, Intelligence Engine инкорпорира истрага што собира имплицитни информации врз основа на резултатите од истражувачките повици на API. Во истражувачкиот проект, ова беше олеснето со официјалните офлајн „тест“ API обезбедени во корист на програмерите, а исто така и од волонтери кои понудија да користат свои сметки во живо за тестирање.

Intelligence Engine бара докази во врска со тоа дали API моментално користи одреден пристап што може да биде корисен при напади. Карактеристиките од овој вид може да вклучуваат откривање на кохерентност, кој проверува дали фрејмовите во видеото се привремено континуирани - услов што може да се утврди со испраќање скршени видео рамки и со набљудување дали тоа придонесува за неуспех на автентикацијата.

Модулот исто така бара Откривање на јазикот на усните, каде што API може да провери дали е звукот во видеото синхронизирано со движењата на усните на корисникот (поретко - видете „Резултати“ подолу).

Резултати

Авторите откриле дека сите шест оценети API не користеле откривање на кохерентност во времето на експериментите, дозволувајќи му на моторот deepfaker во LiveBugger едноставно да го спои синтетизираниот аудио со длабоко фалсификувано видео, врз основа на придонесот на материјалот од волонтери.

Како и да е, беше откриено дека некои надолни апликации (т.е. клиенти на рамки на API) додале откривање на кохерентност во процесот, што бара претходно снимање на видео приспособено да го заобиколи ова.

Дополнително, само неколку од продавачите на API користат откривање на јазикот на усните; за повеќето од нив, видеото и аудиото се анализираат како посебни количини и нема функционалност што се обидува да го усогласи движењето на усните со даденото аудио.

Различни резултати кои го опфаќаат опсегот на лажни техники достапни во LiveBugger наспроти разновидна низа на вектори за напад во FLV API. Поголемите бројки покажуваат дека напаѓачот успешно продрел во автентикацијата со помош на техники за длабоко лажни. Не сите API ги вклучуваат сите можни одбрани за FLV; на пример, неколку не нудат никаква одбрана од длабоки фејкови, додека други не проверуваат дали движењето на усните и звукот се совпаѓаат во видеото испратено од корисникот за време на автентикацијата.

Различни резултати кои го опфаќаат опсегот на лажни техники достапни во LiveBugger наспроти разновидна низа на вектори за напад во FLV API. Повисоките бројки укажуваат на поголема стапка на успех во навлегувањето во FLV со помош на техники за длабоко фејк. Не сите API ги вклучуваат сите можни одбрани за FLV; на пример, неколку не нудат никаква одбрана од длабоки фејкови, додека други не проверуваат дали движењето на усните и звукот се совпаѓаат во видеото испратено од корисникот за време на автентикацијата.

Заклучок

Резултатите и индикациите на трудот за иднината на FLV API се лавиринтски, а авторите ги споиле во функционална „архитектура на ранливости“ што може да им помогне на развивачите на FLV подобро да разберат некои од откриените прашања“.

Мрежата на препораки на трудот во врска со постоечката и потенцијалната подложност на рутините за видео идентификација врз основа на лица за длабоко лажни напади.

Препораките забележуваат:

„Безбедносните ризици на FLV нашироко постојат во многу апликации од реалниот свет, и на тој начин ја загрозуваат безбедноста на милиони крајни корисници“

Авторите, исто така, забележуваат дека употребата на FLV базирана на акција е „маргинална“ и дека зголемувањето на бројот на дејства што се бара од корисниците да ги извршат „не може да донесе никаква безбедносна добивка“.

Понатаму, авторите забележуваат дека комбинирањето на препознавање глас и времено препознавање лице (во видео) е бесплодна одбрана, освен ако давателите на API не почнат да бараат движењата на усните да се синхронизираат со аудио.

Весникот доаѓа во светло на една неодамнешна ФБИ предупредување до бизнисот за опасностите од длабоко фејк измами, речиси една година по нивната најава за технологијата употреба во операции со странско влијание, И на општи стравови таа жива длабока фејк технологија ќе го олесни новиот бран на криминал во јавноста која сè уште има доверба во безбедносните архитектури за видео автентикација.

Сè уште се првите денови на deepfake како површина за напад за автентикација; во 2020 година беа 35 милиони долари со измама извлечена од банка во Обединетите Арапски Емирати со употреба на длабока фејк аудио технологија, а извршен директор од ОК исто така бил измамен да исплати 243,000 долари во 2019.

Прво објавено на 23 февруари 2022 година.

Следно

Изразување емоции преку типографија со вештачка интелигенција

Не ја пропуштајте

Компонентата на компјутерот ги имитира синапсите на човечкиот мозок

Мартин Андерсон

Писател за машинско учење, вештачка интелигенција и големи податоци.
Лична страница: martinanderson.ai
Контакт: [заштитена по е-пошта]
Твитер: @manders_ai

Обединете се.AI

Deepfakes може ефикасно да измами многу главни API-и за „животност“ на лицето

Вештачка интелигенција