Штучний Інтелект

Deepfakes може ефективно обдурити багато основних API «Жвавості» обличчя

оновлений on 9 Грудня, 2022

З 'DeepFace Live - Арнольд Шварценеггер 224 3.03 млн ітерацій | RTX A6000' - https://www.youtube.com/watch?v=9tr35y-yQRY

Нова дослідницька співпраця між США та Китаєм дослідила сприйнятливість до deepfake деяких із найбільших систем автентифікації на основі обличчя у світі та виявила, що більшість із них уразливі до нових форм атак deepfake.

Дослідження проводили вторгнення на основі глибоких фейків з використанням спеціального фреймворку, розгорнутого проти систем Facial Liveness Verification (FLV), які зазвичай постачаються великими постачальниками та продаються як послуга клієнтам на нижчому рівні, таким як авіакомпанії та страхові компанії.

У документі наведено огляд функціонування API перевірки живості обличчя (FLV) у основних постачальників. Джерело: https://arxiv.org/pdf/2202.10673.pdf

Жвавість обличчя призначена для того, щоб відбити використання таких технік, як агресивні імідж-атаки, Використання маски і попередньо записане відео, т. зв "головні обличчя"та інших форм клонування візуального ідентифікатора.

У дослідженні зроблено висновок, що обмежена кількість модулів виявлення глибоких фейків, розгорнутих у цих системах, багато з яких обслуговують мільйони клієнтів, далеко не безпомилкові та, можливо, були налаштовані на методи глибокого фейку, які зараз застаріли, або можуть бути надто специфічними для архітектури. .

Автори зазначають:

«[Різні] методи deepfake також демонструють відмінності між різними постачальниками… Не маючи доступу до технічних деталей цільових постачальників FLV, ми припускаємо, що такі варіації пояснюються заходами захисту, які застосовуються різними постачальниками. Наприклад, певні постачальники можуть розгорнути засоби захисту від конкретних атак deepfake.

І продовжуйте:

«[Більшість] API FLV не використовують виявлення DeepFake; навіть для тих, хто має такі засоби захисту, їх ефективність викликає занепокоєння (наприклад, він може виявляти високоякісні синтезовані відео, але не може виявляти низькоякісні).'

У цьому відношенні дослідники зауважують, що «автентичність» є відносною:

«[Навіть] якщо синтезоване відео є нереальним для людей, воно все одно може обійти поточний механізм виявлення глибоких фейків із дуже високим рівнем успішності».

Вище наведені приклади зображень deepfake, які вдалося автентифікувати в експериментах авторів. Нижче, очевидно, набагато реалістичніші підроблені зображення, які не пройшли автентифікацію.

Ще один висновок полягав у тому, що поточна конфігурація загальних систем перевірки обличчя упереджена до білих чоловіків. Згодом виявилося, що особи жіночої та небілої особи ефективніші в обході систем перевірки, піддаючи клієнтам цих категорій більший ризик злому за допомогою методів на основі deepfake.

У звіті встановлено, що ідентифікація білих чоловіків найсуворіше й найточніше оцінюється популярними API перевірки живості обличчя. У таблиці вище ми бачимо, що ідентифікацію жінок і не білих можна легше використовувати для обходу систем.

Газета зауважує це "існують упередження в [перевірці живості обличчя], що може створити значні ризики для безпеки певної групи людей".

Автори також провели етичні атаки автентифікації обличчя проти китайського уряду, великої китайської авіакомпанії, однієї з найбільших компаній зі страхування життя в Китаї та R360, однієї з найбільших інвестиційних груп єдинорогів у світі, і повідомили про успіхи в обході цими організаціями використання досліджуваних API.

У разі успішного обходу автентифікації для китайської авіакомпанії API низхідного потоку вимагав від користувача «похитати головою» як доказ проти потенційного глибокого фейку, але це виявилося непрацездатним проти структури, розробленої дослідниками, яка включає шість архітектури deepfake.

Незважаючи на оцінку авіакомпанією хитання головою користувача, контент deepfake зміг пройти тест.

Видання зазначає, що автори зв’язалися з залученими постачальниками, які, як повідомляється, визнали роботу.

Автори пропонують низку рекомендацій щодо вдосконалення поточного рівня техніки у FLV, включаючи відмову від автентифікації за одним зображенням («FLV на основі зображення»), де автентифікація базується на одному кадрі з каналу камери клієнта; більш гнучке та комплексне оновлення систем виявлення глибоких фейків у доменах зображення та голосу; нав’язування необхідності, щоб голосова автентифікація у відео користувача була синхронізована з рухами губ (чого зараз, загалом, не є); і вимагати від користувачів виконувати жести та рухи, які зараз важко відтворити системам deepfake (наприклад, перегляди профілю і часткове затемнення обличчя).

Команда папір має титул Бачити – це жити? Переосмислення безпеки перевірки живості обличчя в епоху Deepfake, і походить від спільних провідних авторів Чанцзяна Лі та Лі Ванга та п’яти інших авторів з Університету штату Пенсільванія, Університету Чжецзяна та Університету Шаньдуна.

Основні цілі

Дослідники вибрали «шість найбільш репрезентативних» постачальників Facial Liveness Verification (FLV), які були анонімні за допомогою криптонімів у дослідженні.

Продавці представлені таким чином: "BD" та "TC" представляти конгломерат-постачальника з найбільшою кількістю викликів API, пов’язаних із обличчям, і найбільшою часткою китайських хмарних сервісів ШІ; "HW" є «одним із постачальників з найбільшим [китайським] публічним хмарним ринком»; "CW" має найшвидший темп розвитку комп’ютерного зору та займає лідируючі позиції на ринку»; 'ST' входить до числа найбільших постачальників комп’ютерного зору; і "iFT" номери серед найбільших постачальників програмного забезпечення ШІ в Китаї.

Дані та архітектура

Основні дані, що лежать в основі проекту, включають набір даних із 625,537 XNUMX зображень із китайської ініціативи CelebA-Spoof, а також живі відео з Університету штату Мічиган у 2019 році SiW-M набір даних.

Усі експерименти проводилися на сервері з подвійними процесорами Intel Xeon E2.40-5 v2640 4 ГГц, які працюють на 256 ГБ оперативної пам’яті з жорстким диском 4 ТБ, і чотирма організованими графічними процесорами 1080Ti NVIDIA, загалом 44 ГБ оперативної відеопам’яті.

Шість в одному

Фреймворк, розроблений авторами статті, називається LiveBugger, і включає шість найсучасніших фреймворків deepfake проти чотирьох основних засобів захисту в системах FLV.

LiveBugger містить різноманітні підходи deepfake і зосереджується на чотирьох основних векторах атак у системах FLV.

Шість використаних фреймворків deepfake: Оксфордський університет 2018 X2Face; академічна співпраця США ICface; дві варіації ізраїльського проекту 2019 року ФСГАН; італієць Модель методу першого порядку (ФОММ), з початку 2020 року; та співробітництво Microsoft Research Пекінського університету FaceShifter (хоча, оскільки FaceShifter не є відкритим кодом, авторам довелося реконструювати його на основі опублікованих деталей архітектури).

Методи, які використовувалися серед цих фреймворків, включали використання попередньо відрендереного відео, у якому суб’єкти підробленого відео виконують напам’ять дії, які були витягнуті з вимог автентифікації API у попередньому модулі оцінки LiveBugger, а також використання ефективного «deepfake lutkарства». », який перетворює живі рухи особи в глибоко підроблений потік, який було вставлено в кооптований потік веб-камери.

Прикладом останнього є DeepFaceLive, Яка дебютував минулого літа як додаткова програма до популярної DeepFaceLab, щоб увімкнути потокове передавання глибоких фейків у реальному часі, але це не включено в дослідження авторів.

Атака чотирьох векторів

Чотири вектори атаки в типовій системі FLV: FLV на основі зображень, який використовує окрему фотографію, надану користувачем, як маркер автентифікації проти ідентифікатора обличчя, який записується в системі; FLV на основі мовчання, яка вимагає, щоб користувач завантажував відеокліп із собою; FLV на основі дії, що вимагає від користувача виконання дій, продиктованих платформою; і голосовий FLV, який зіставляє підказку користувача із записом бази даних системи для шаблону мовлення цього користувача.

Першим завданням для системи є встановлення ступеня, до якого API розкриватиме свої вимоги, оскільки тоді їх можна передбачити та задовольнити в процесі deepfaking. Це обробляється Intelligence Engine у LiveBugger, який збирає інформацію про вимоги з загальнодоступної документації API та інших джерел.

Оскільки опубліковані вимоги можуть бути відсутні (з різних причин) у фактичних процедурах API, Intelligence Engine містить зонд, який збирає неявну інформацію на основі результатів пошукових викликів API. У дослідницькому проекті цьому сприяли офіційні офлайнові «тестові» API, надані для розробників, а також волонтери, які пропонували використовувати для тестування свої власні облікові записи.

Intelligence Engine шукає докази того, чи API наразі використовує певний підхід, який може бути корисним під час атак. Особливості такого роду можуть включати виявлення когерентності, який перевіряє, чи є кадри у відео тимчасово безперервними – вимога, яку можна встановити, надсилаючи зашифровані відеокадри та спостерігаючи, чи це сприяє збою автентифікації.

Модуль також шукає Виявлення мови губ, де API може перевірити, чи є звук у відео синхронізовані з рухами губ користувача (рідко – дивіться «Результати» нижче).

результати

Автори виявили, що всі шість оцінених API не використовували виявлення когерентності під час експериментів, що дозволило механізму deepfaker у LiveBugger просто з’єднувати синтезоване аудіо з deepfaked відео на основі матеріалів, наданих волонтерами.

Однак було виявлено, що деякі прикладні програми (тобто клієнти інфраструктури API) додали до процесу виявлення когерентності, що потребувало попереднього запису відео, призначеного для обходу цього.

Крім того, лише деякі постачальники API використовують визначення мови губ; для більшості з них відео та аудіо аналізуються як окремі величини, і немає жодної функції, яка намагається зіставити рух губ із наданим аудіо.

Різноманітні результати, що охоплюють низку підроблених методів, доступних у LiveBugger, проти різноманітних векторів атак у FLV API. Вищі цифри вказують на більший рівень успіху в проникненні FLV за допомогою методів deepfake. Не всі API містять усі можливі засоби захисту для FLV; наприклад, деякі з них не пропонують жодного захисту від глибоких фейків, тоді як інші не перевіряють, чи збігаються рухи губ і звук у надісланому користувачем відео під час автентифікації.

Висновок

Результати статті та вказівки щодо майбутнього FLV API є лабіринтом, і автори об’єднали їх у функціональну «архітектуру вразливостей», яка може допомогти розробникам FLV краще зрозуміти деякі з виявлених проблем».

Мережа рекомендацій у документі щодо наявної та потенційної вразливості процедур ідентифікації відео на основі обличчя до атаки deepfake.

У рекомендаціях зазначено:

«Ризики безпеці FLV широко існують у багатьох реальних програмах і, таким чином, загрожують безпеці мільйонів кінцевих користувачів»

Автори також відзначають, що використання FLV на основі дій є «незначним» і що збільшення кількості дій, які повинні виконувати користувачі, «не може принести ніякої безпеки».

Крім того, автори зазначають, що поєднання розпізнавання голосу та тимчасового розпізнавання обличчя (у відео) є марним захистом, якщо постачальники API не почнуть вимагати, щоб рухи губ синхронізувалися зі звуком.

Стаття виходить у світлі нещодавнього ФБР попереджає бізнесу про небезпеки глибокого шахрайства, майже через рік після того, як вони передвіщали цю технологію використання в операціях зовнішнього впливу, А також загальні страхи що технологія live deepfake сприятиме новій хвилі злочинності серед громадськості, яка все ще довіряє архітектурі безпеки відеоавтентифікації.

Це все ще перші дні deepfake як поверхні атаки автентифікації; у 2020 році було 35 мільйонів доларів видобуто шахрайським шляхом з банку в ОАЕ за допомогою аудіотехнології deepfake, а керівник Великобританії також був обманом, щоб виплатити 243,000 XNUMX доларів США У 2019.

Вперше опубліковано 23 лютого 2022 р.

Схожі теми:злочин кіберзлочинність кібератак кібербезпека глибокий розбір DeepFakes дослідження

Вгору Далі

Вираження емоцій за допомогою типографіки за допомогою ШІ

Не пропустіть

Комп’ютерний компонент імітує синапси людського мозку

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai

Об'єднуйтесь.AI

Deepfakes може ефективно обдурити багато основних API «Жвавості» обличчя

Штучний Інтелект