Штучний інтелект
Виявлення відеодзвінків Deepfake через підсвічування монітора

Нове співробітництво між дослідником Національного агентства безпеки США (NSA) та Каліфорнійського університету в Берклі пропонує новий метод виявлення контенту Deepfake в прямому відеоконтексті – шляхом спостереження за впливом підсвічування монітора на зовнішній вигляд людини на іншому кінці відеодзвінка.

Popular DeepFaceLive user Druuzil Tech & Games tries out his own Christian Bale DeepFaceLab model in a live session with his followers, while lighting sources change. Source: https://www.youtube.com/watch?v=XPQLDnogLKA
Система працює шляхом розміщення графічного елемента на екрані користувача, який змінює вузький діапазон свого кольору швидше, ніж типова система Deepfake може відреагувати – навіть якщо, як реалізована система Deepfake в режимі реального часу DeepFaceLive (зображено вище), вона має деяку можливість підтримувати живий колор-трасфер і облік навколишнього освітлення.
Однокольорове зображення, відображене на моніторі людини на іншому кінці (тобто потенційного шахрая Deepfake), циклічно проходить через обмежену варіацію зміни кольору, призначену для того, щоб не активувати автоматичний баланс білого кольору веб-камери та інші системи компенсації освітлення, які могли б скомпрометувати метод.

From the paper, an illustration of change in lighting conditions from the monitor in front of a user, which effectively operates as a diffuse ‘area light’. Source: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
Теорія цієї підходу полягає в тому, що живі системи Deepfake не можуть відреагувати вчасно на зміни, зображені в графічному елементі на екрані, збільшуючи “затримку” ефекту Deepfake в певних частинах спектру кольору, розкриваючи його присутність.
Щоб точно виміряти відбите світло монітора, система повинна враховувати та потім виключати вплив загального навколишнього освітлення, яке не пов’язане зі світлом монітора. Тоді вона може розрізнити недоліки в вимірюванні активного освітлення та кольору обличчя користувача, представляючи тимчасову зміну 1-4 кадрів різниці між кожним:

By limiting the hue variations in the on-screen ‘detector’ graphic, and ensuring that the user’s webcam is not prompted to auto-adjust its capture settings by excessive changes in levels of monitor illumination, the researchers have been able to discern a tell-tale lag in the deepfake system’s adjustment to the lighting changes.
Папера закінчується:
‘Через довірливе ставлення до живих відеодзвінків, і зростаючу універсальність відеодзвінків у нашому особистому та професійному житті, ми пропонуємо, що техніки аутентифікації відео (і аудіо) дзвінків будуть тільки зростати в важливості.’
Дослідження стаття називається Виявлення відео Deepfake в режимі реального часу за допомогою активного освітлення, і здійснюється Кендіс Р. Герстнер, прикладним дослідним математиком Міністерства оборони США, та професором Хані Фарідом з Берклі.
Ерозія довіри
Сцена анти-Deepfake-досліджень значно змінилася за останні шість місяців, від загального виявлення Deepfake (тобто націленого на попередньо записані відео та порнографічний контент) до виявлення “живих” дзвінків, у відповідь на зростаючу хвилю інцидентів використання Deepfake у відеоконференційних дзвінках, і до недавнього попередження ФБР щодо зростаючого використання таких технологій у додатках для віддаленої роботи.
Дажи якщо відеодзвінок не був Deepfake, зростаючі можливості для відеоімітаторів, керованих штучним інтелектом, починають генерувати параною.
Нова стаття заявляє:
‘Створення відео Deepfake в режимі реального часу становить унікальні загрози через загальне відчуття довіри, оточуюче живий відео- або телефонний дзвінок, і виклик виявлення Deepfake в режимі реального часу, коли дзвінок відбувається.’
Дослідницька спільнота вже давно поставила собі мету знайти невідворотні ознаки контенту Deepfake, які не можуть бути легко компенсовані. Хоча ЗМІ зазвичай характеризують це як технологічну війну між дослідниками безпеки та розробниками Deepfake, більшість спростувань ранніх підходів (таких як аналіз моргання очей, визначення положення голови та аналіз поведінки) відбулися просто тому, що розробники та користувачі намагалися зробити більш реалістичні Deepfake загалом, а не конкретно адресувати останню “ознаку”, визначену спільнотою безпеки.
Освітлення живих відео Deepfake
Виявлення Deepfake у живих відеосередовищах несе тягар обліку поганих відеозв’язків, які дуже поширені у відеоконференційних сценаріях. Навіть без втручання шару Deepfake, відеоконтент може бути підданий впливу лагу, артефактів та інших типів погіршення аудіо та відео. Це може приховати грубі краї живої архітектури Deepfake, як у відео, так і в аудіо Deepfake.
Система авторів покращує результати та методи, представлені у публікації 2020 року Центру мережевого обчислення Темпльського університету у Філадельфії.

From the 2020 paper, we can observe the change in ‘in-filled’ facial illumination as the content of the user’s screen changes. Source: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf
Різниця у новій роботі полягає в тому, що вона враховує, як веб-камери реагують на зміни освітлення. Автори пояснюють:
‘Через те, що всі сучасні веб-камери виконують автоматичну експозицію, тип високої інтенсивності активного освітлення [використовуваний у попередній роботі] найімовірніше спровокує автоматичну експозицію камери, яка в свою чергу скомпрометує записаний вигляд обличчя. Щоб уникнути цього, ми використовуємо активне освітлення, що складається з ізолюмінантної зміни кольору.
‘Хоча це уникне автоматичної експозиції камери, це міг би спровокувати баланс білого кольору камери, який знову скомпрометує записаний вигляд обличчя. Щоб уникнути цього, ми працюємо у діапазоні кольору, який ми емпірично визначили як той, який не спровокує баланс білого кольору.’
Для цієї ініціативи автори також розглянули подібні попередні спроби, такі як LiveScreen, який примусово накладає непомітний узор освітлення на монітор кінцевого користувача в спробі розкрити контент Deepfake.
Хоча ця система досягла рівня точності 94,8%, дослідники висновують, що тонкість світлових узорів зробить такий прихований підхід важким для реалізації у яскраво освітлених середовищах, і натомість пропонують, що їхня власна система, або система, створена за подібними лініями, могла б бути публічно та за умовчанням інтегрована у популярне програмне забезпечення для відеоконференцій:
‘Наше запропоноване втручання могло бути реалізовано учасником дзвінка, який просто поділився своїм екраном і відображає тимчасово змінюваний узор, або, ідеально, воно могло бути безпосередньо інтегровано у клієнт відеодзвінка.’
Тести
Автори використали суміш синтетичних та реальних суб’єктів для тестування свого детектора Deepfake, керованого Dlib. Для синтетичного сценарію вони використали Mitsuba, форвардний і інверсний рендерер Швейцарської федерації технологій у Лозанні.

Samples from the simulated environment tests, featuring varying skin tone, light source size, ambient light intensity, and proximity to camera.
Сцена, зображена на малюнку, включає параметричний CGI-голову, захоплену віртуальною камерою з кутом огляду 90°. Голови мають Ламбертове відображення та нейтральні тони шкіри, і розташовані на відстані 2 футів від віртуальної камери.
Щоб протестувати каркас через ряд можливих тонів шкіри та налаштувань, дослідники провели ряд тестів, змінюючи різні аспекти послідовно. Аспекти, які змінилися, включали тон шкіри, близькість та розмір джерела освітлення.
Автори коментують:
‘У симуляції, з нашими різними припущеннями, виконаними, наш запропонований метод є високою мірою стійким до широкого діапазону конфігурацій зображення.’
Для реального сценарію дослідники використали 15 добровольців з різними тонами шкіри, у різних середовищах. Кожен був підданий двом циклам обмеженої зміни кольору, у умовах, коли частота оновлення дисплея 30 Гц синхронізувалася з веб-камерою, що означало, що активне освітлення триватиме лише одну секунду за раз. Результати були загалом порівняними з синтетическими тестами, хоча кореляції збільшувалися суттєво з більшим освітленням.
Майбутні напрями
Система, яку дослідники визнають, не враховує типових обличних окулювань, таких як чуби, окуляри або волосся на обличчі. Однак вони відзначають, що маскування цього типу можна додати до пізніших систем (через маркування та подальшу семантичну сегментацію), які могли б бути навчені приймати значення виключно з перцепованих областей шкіри в цільовому суб’єкті.
Автори також пропонують, що подібний парадигма могла б бути використана для виявлення аудіодзвінків Deepfake, і що необхідний звук міг би бути відіграний у частоті поза нормальним людським слуховим діапазоном.
Можливо, найцікавіше, дослідники також пропонують, що розширення області оцінки за межі обличчя у багатшому каркасі захоплення могло б суттєво покращити можливість виявлення Deepfake*:
‘Більш складна 3-D оцінка освітлення найімовірніше забезпечила б багатшу модель вигляду, яку було б ще важче обійти фальсифікатору. Хоча ми зосередилися лише на обличчі, комп’ютерний дисплей також освітлює шию, верхню частину тіла та навколишній фон, з яких подібні вимірювання могли бути зроблені.
‘Ці додаткові вимірювання змусили б фальсифікатора розглянути весь 3-D сценарій, а не тільки обличчя.’
* Моя конвертація внутрішніх цитат авторів у гіперпосилання.
Вперше опубліковано 6 липня 2022 року.












