Штучний Інтелект
Deepfakes може ефективно обдурити багато основних API «Жвавості» обличчя

Нова дослідницька співпраця між США та Китаєм дослідила сприйнятливість до deepfake деяких із найбільших систем автентифікації на основі обличчя у світі та виявила, що більшість із них уразливі до нових форм атак deepfake.
Дослідження проводили вторгнення на основі глибоких фейків з використанням спеціального фреймворку, розгорнутого проти систем Facial Liveness Verification (FLV), які зазвичай постачаються великими постачальниками та продаються як послуга клієнтам на нижчому рівні, таким як авіакомпанії та страхові компанії.

У документі наведено огляд функціонування API перевірки живості обличчя (FLV) у основних постачальників. Джерело: https://arxiv.org/pdf/2202.10673.pdf
Жвавість обличчя призначена для того, щоб відбити використання таких технік, як агресивні імідж-атаки, Використання маски і попередньо записане відео, т. зв «майстерні обличчя»та інших форм клонування візуального ідентифікатора.
У дослідженні зроблено висновок, що обмежена кількість модулів виявлення глибоких фейків, розгорнутих у цих системах, багато з яких обслуговують мільйони клієнтів, далеко не безпомилкові та, можливо, були налаштовані на методи глибокого фейку, які зараз застаріли, або можуть бути надто специфічними для архітектури. .
Автори зазначають:
«[Різні] методи deepfake також демонструють варіації у різних постачальників… Не маючи доступу до технічних деталей цільових постачальників FLV, ми припускаємо, що такі варіації пов’язані із захисними заходами, що застосовуються різними постачальниками. Наприклад, деякі постачальники можуть застосовувати захист від певних deepfake-атак».
І продовжуйте:
«[Більшість] FLV API не використовують засоби виявлення дипфейків; навіть для тих, хто має такий захист, їхня ефективність викликає занепокоєння (наприклад, вони можуть виявляти високоякісні синтезовані відео, але не виявляти низькоякісні).»
Дослідники зазначають у цьому відношенні, що «автентичність» є відносним поняттям:
«[Навіть] якщо синтезоване відео здається людям нереальним, воно все одно може обійти поточний механізм виявлення дипфейків з дуже високим рівнем успіху».

Вище наведено приклади дипфейкових зображень, які вдалося автентифікувати в експериментах авторів. Нижче – явно набагато реалістичніші підроблені зображення, які не пройшли автентифікацію.
Ще один висновок полягав у тому, що поточна конфігурація загальних систем перевірки обличчя упереджена до білих чоловіків. Згодом виявилося, що особи жіночої та небілої особи ефективніші в обході систем перевірки, піддаючи клієнтам цих категорій більший ризик злому за допомогою методів на основі deepfake.

У звіті встановлено, що ідентифікація білих чоловіків найсуворіше й найточніше оцінюється популярними API перевірки живості обличчя. У таблиці вище ми бачимо, що ідентифікацію жінок і не білих можна легше використовувати для обходу систем.
Газета зауважує це «[У перевірці живості обличчя] існують упередження, які можуть створювати значні ризики для безпеки певної групи людей».
Автори також провели етичні атаки автентифікації обличчя проти китайського уряду, великої китайської авіакомпанії, однієї з найбільших компаній зі страхування життя в Китаї та R360, однієї з найбільших інвестиційних груп-єдинорогів у світі, та повідомляють про успіх в обході використання досліджуваних API цими організаціями на нижчих етапах виробництва.
У випадку успішного обходу автентифікації для китайської авіакомпанії, API нижче за течією вимагав від користувача «похитати головою» як доказ проти потенційного діпфейкового матеріалу, але це виявилося не працювало проти фреймворку, розробленого дослідниками, який включає шість архітектур діпфейків.

Незважаючи на оцінку авіакомпанією похитання головою користувача, діпфейковий контент зміг пройти тест.
Видання зазначає, що автори зв’язалися з залученими постачальниками, які, як повідомляється, визнали роботу.
Автори пропонують низку рекомендацій щодо покращення поточного стану FLV, включаючи відмову від автентифікації на основі одного зображення («FLV на основі зображення»), де автентифікація базується на одному кадрі з камери клієнта; більш гнучке та комплексне оновлення систем виявлення дипфейків у сферах зображення та голосу; встановлення необхідності синхронізації голосової автентифікації у відео користувача з рухами губ (чого зараз, загалом, немає); та вимогу до користувачів виконувати жести та рухи, які наразі важко відтворити системам дипфейків (наприклад, перегляди профілю і часткове затемнення обличчя).
Команда папір має титул Бачити – це жити? Переосмислення безпеки перевірки живості обличчя в епоху Deepfake, і походить від спільних провідних авторів Чанцзяна Лі та Лі Ванга та п’яти інших авторів з Університету штату Пенсільванія, Університету Чжецзяна та Університету Шаньдуна.
Основні цілі
Дослідники зосередилися на «шістьох найрепрезентативніших» постачальниках послуг перевірки живості обличчя (FLV), яких у дослідженні анонімізували за допомогою криптонімів.
Продавці представлені таким чином: «БД» та «ТК» представляють конгломерат-постачальника з найбільшою кількістю викликів API, пов'язаних з розпізнаванням обличчя, та найбільшою часткою хмарних сервісів штучного інтелекту в Китаї; «ГВ» є «одним із постачальників з найбільшим [китайським] ринком публічних хмарних технологій»; «Чорноморське море» має найшвидші темпи зростання в галузі комп'ютерного зору та займає лідируючі позиції на ринку; 'СТ' входить до числа найбільших постачальників комп’ютерного зору; і «iFT» номери серед найбільших постачальників програмного забезпечення ШІ в Китаї.
Дані та архітектура
Основні дані, що лежать в основі проекту, включають набір даних із 625,537 XNUMX зображень із китайської ініціативи CelebA-Spoof, разом із відео з прямої трансляції з Мічиганського державного університету 2019 року SiW-M набір даних.
Усі експерименти проводилися на сервері з подвійними процесорами Intel Xeon E2.40-5 v2640 4 ГГц, які працюють на 256 ГБ оперативної пам’яті з жорстким диском 4 ТБ, і чотирма організованими графічними процесорами 1080Ti NVIDIA, загалом 44 ГБ оперативної відеопам’яті.
Шість в одному
Структура, розроблена авторами статті, називається LiveBugger, і включає шість найсучасніших фреймворків deepfake проти чотирьох основних засобів захисту в системах FLV.

LiveBugger містить різноманітні підходи deepfake і зосереджується на чотирьох основних векторах атак у системах FLV.
Шість використаних фреймворків для глибоких фейків: Оксфордський університет, 2018 рік X2Face; академічна співпраця США ICface; дві варіації ізраїльського проекту 2019 року ФСГАН; італієць Модель методу першого порядку (ФОММ), з початку 2020 року; та колаборація Пекінського університету з дослідженнями Microsoft FaceShifter (хоча, оскільки FaceShifter не є відкритим кодом, авторам довелося реконструювати його на основі опублікованих деталей архітектури).
Методи, що використовувалися в цих фреймворках, включали використання попередньо відрендереного відео, в якому суб'єкти пародійного відео виконують механічні дії, вилучені з вимог автентифікації API в попередньому модулі оцінки LiveBugger, а також використання ефективного «deepfake puppetry», яке перетворює рухи людини в реальному часі на deepfaked потік, який був вставлений у кооптований потік веб-камери.
Прикладом останнього є DeepFaceLive, Яка дебютував минулого літа як додаткова програма до популярної DeepFaceLab, щоб забезпечити потокову передачу дипфейків у реальному часі, але яка не включена до дослідження авторів.
Атака чотирьох векторів
Чотири вектори атаки в типовій системі FLV: FLV на основі зображень, який використовує одну надану користувачем фотографію як токен автентифікації за допомогою ідентифікатора обличчя, записаного в системі; FLV на основі мовчання, яка вимагає, щоб користувач завантажував відеокліп із собою; FLV на основі дії, що вимагає від користувача виконання дій, продиктованих платформою; і голосовий FLV, який зіставляє мовленнєві запити користувача з записом у базі даних системи для мовленнєвого шаблону цього користувача.
Першим завданням для системи є встановлення ступеня, до якого API розкриватиме свої вимоги, оскільки тоді їх можна передбачити та задовольнити в процесі deepfaking. Це обробляється Intelligence Engine у LiveBugger, який збирає інформацію про вимоги з загальнодоступної документації API та інших джерел.
Оскільки опубліковані вимоги можуть бути відсутніми (з різних причин) у фактичних процедурах API, Intelligence Engine включає зонд, який збирає неявну інформацію на основі результатів дослідницьких викликів API. У дослідницькому проєкті цьому сприяли офіційні офлайн-тестові API, надані розробникам, а також волонтери, які запропонували використовувати власні реальні облікові записи для тестування.
Intelligence Engine шукає докази того, чи API наразі використовує певний підхід, який може бути корисним під час атак. Особливості такого роду можуть включати виявлення когерентності, який перевіряє, чи є кадри у відео тимчасово безперервними – вимога, яку можна встановити, надсилаючи зашифровані відеокадри та спостерігаючи, чи це сприяє збою автентифікації.
Модуль також шукає Виявлення мови губ, де API може перевірити, чи є звук у відео синхронізовано з рухами губ користувача (рідко трапляється – див. «Результати» нижче).
Результати
Автори виявили, що всі шість оцінених API не використовували виявлення когерентності під час експериментів, що дозволило механізму deepfaker у LiveBugger просто з’єднувати синтезоване аудіо з deepfaked відео на основі матеріалів, наданих волонтерами.
Однак було виявлено, що деякі прикладні програми (тобто клієнти інфраструктури API) додали до процесу виявлення когерентності, що потребувало попереднього запису відео, призначеного для обходу цього.
Крім того, лише деякі постачальники API використовують визначення мови губ; для більшості з них відео та аудіо аналізуються як окремі величини, і немає жодної функції, яка намагається зіставити рух губ із наданим аудіо.

Різноманітні результати, що охоплюють низку підроблених методів, доступних у LiveBugger, проти різноманітних векторів атак у FLV API. Вищі цифри вказують на більший рівень успіху в проникненні FLV за допомогою методів deepfake. Не всі API містять усі можливі засоби захисту для FLV; наприклад, деякі з них не пропонують жодного захисту від глибоких фейків, тоді як інші не перевіряють, чи збігаються рухи губ і звук у надісланому користувачем відео під час автентифікації.
Висновок
Результати статті та вказівки щодо майбутнього FLV API є лабіринтними, і автори об'єднали їх у функціональну «архітектуру вразливостей», яка може допомогти розробникам FLV краще зрозуміти деякі виявлені проблеми.

Мережа рекомендацій у статті щодо існуючої та потенційної вразливості процедур відеоідентифікації на основі облич до атаки з використанням дипфейків.
У рекомендаціях зазначено:
«Ризики безпеки FLV широко існують у багатьох реальних додатках і таким чином загрожують безпеці мільйонів кінцевих користувачів»
Автори також зазначають, що використання FLV на основі дій є «незначним», і що збільшення кількості дій, які користувачі повинні виконувати, «не може принести жодного покращення безпеки».
Крім того, автори зазначають, що поєднання розпізнавання голосу та тимчасового розпізнавання обличчя (у відео) є марним захистом, якщо постачальники API не почнуть вимагати, щоб рухи губ синхронізувалися зі звуком.
Ця стаття з'явилася у світлі нещодавнього попередження ФБР для бізнесу про небезпеку шахрайства з використанням глибоких фейків, майже через рік після того, як вони передбачили використання цієї технології в операціях впливу за кордоном, а також про... загальні страхи що технологія live deepfake сприятиме новій хвилі злочинності серед громадськості, яка все ще довіряє архітектурі безпеки відеоавтентифікації.
Це все ще перші дні deepfake як поверхні атаки автентифікації; у 2020 році було 35 мільйонів доларів видобуто шахрайським шляхом з банку в ОАЕ за допомогою аудіотехнології deepfake, а керівник Великобританії також був обманом, щоб виплатити 243,000 XNUMX доларів США У 2019.
Вперше опубліковано 23 лютого 2022 р.