Штучний інтелект
Невловима визначення “Deepfake”

Переконливе нове дослідження з Німеччини критикує визначення терміну “deepfake” в законопроєкті ЄС про штучний інтелект як надто розпливчасте, особливо в контексті маніпуляції цифровими зображеннями. Автори стверджують, що акцент Закону на вмісті, що нагадує реальних людей або події – але потенційно видається фальшивим – не має ясності.
Автори також підкреслюють, що винятки Закону для “стандартної редакції” (тобто передбачуваної незначної модифікації зображень за допомогою штучного інтелекту) не враховують як широкий вплив штучного інтелекту на споживчі додатки, так і суб’єктивний характер художніх конвенцій, що передують появі штучного інтелекту.
Недостатньо чітке законодавство щодо цих питань призводить до двох основних ризиків: “охолоджувального ефекту”, коли широкий інтерпретаційний потенціал законодавства гальмує інновації та впровадження нових систем; і “скупового ефекту”, коли законодавство ігнорується як надмірне або нерелевантне.
У будь-якому випадку, розпливчасті закони фактично перекладають відповідальність за встановлення практичних юридичних визначень на майбутні судові рішення – це обережний і ризикозмінний підхід до законодавства.
Технології маніпуляції зображеннями на основі штучного інтелекту залишаються помітно попереду законодавчої здатності їх адресувати, здається. Наприклад, одним з помітних прикладів зростаючої еластичності концепції штучного інтелекту, керованого “автоматичним” пост-процесом, є функція “Оптимізатор сцени” в останніх камерах Samsung, яка може замінити зображення місяця, зроблене користувачем (це складна тема), на штучне інтелектуальне “відполіроване” зображення:
[…]
[…]
У нижньому лівому куті зображення вище, ми бачимо два зображення місяця. Зображення ліворуч – це фото, зроблене користувачем Reddit. Тут зображення було свідомо розмито та зменшено користувачем.
Праворуч ми бачимо фото того самого погіршеного зображення, зробленого камерою Samsung з увімкненою обробкою за допомогою штучного інтелекту. Камера автоматично “оформила” визнане “місяць” об’єкт, хоча це не був справжній місяць.
Дослідження критикує функцію “Найкращий кадр” у останніх смартфонах Google – суперечливу функцію штучного інтелекту, яка редагує найкращі частини групового фото, скануючи кілька секунд фотографічної послідовності, так що посмішки переміщуються вперед або назад у часі за необхідності – і ніхто не показується посеред моргання.
Дослідження стверджує, що такий композитний процес має потенціал спотворити події:
‘[У] типовому груповому фото налаштуванні середній глядач, ймовірно, все одно вважатиме результативне фото автентичним. Посмішка, яка вставляється, існувала в межах кількох секунд від часу, коли було зроблено решту фото.
‘З іншого боку, десять секунд часу функції найкращого кадру достатньо для зміни настрою. Людина могла перестати посміхатися, тоді як решта групи сміється з жарту на її рахунок.
‘Як наслідок, ми припускаємо, що така груповий фотографія може становити глибоку підробку.’
Нове дослідження називається Що становить глибоку підробку? Розмитий кордон між законною обробкою та маніпуляцією згідно з законом ЄС про штучний інтелект, і походять від двох дослідників з Комп’ютерної юридичної лабораторії в університеті Тюбінгена та Саарландському університеті.
Старі трюки
Маніпуляція часом у фотографії значно старша за споживчий штучний інтелект. Автори нового дослідження відзначають існування набагато старших технік, які можна вважати “неавтентичними”, таких як конкатенація кількох послідовних зображень у фотографію з високим динамічним діапазоном (HDR) або “зшитому” панорамному зображенні.
Дійсно, деякі з найдавніших та найбільш забавних фотографічних підробок традиційно створювалися школярами, які бігали з одного кінця шкільної групи до іншого, попереду траєкторії спеціальних панорамних камер, які раніше використовувалися для спортивної та шкільної фотографії – що дозволяло учню з’явитися двічі в одному зображенні:
[…]
[…]
Окрім того, якщо ви не робите фото у форматі RAW, який фактично вивантажує датчик об’єктива камери до великого файлу без будь-якої інтерпретації, ваші цифрові фотографії, ймовірно, не зовсім автентичні. Системи камер регулярно застосовують алгоритми “поліпшення”, такі як різкість зображення та баланс білого, за замовчуванням – і робили це з початку споживчої цифрової фотографії.
Автори дослідження стверджують, що навіть ці старіші види цифрової фотографічної обробки не представляють “реальність”, оскільки такі методи призначені для того, щоб зробити фотографії більш привабливими, а не більш “реальними”.
Дослідження припускає, що закон ЄС про штучний інтелект, навіть з пізнішими поправками, такими як рецитали 123-127, розміщує весь фотографічний вихід у доказовому рамках, що не підходить до контексту, у якому фотографії зараз виробляються, на відміну від (номінально об’єктивної) природи відеозапису безпеки чи судової фотографії. Більшість зображень, адресованих законом про штучний інтелект, найімовірніше походять з контекстів, у яких виробники та онлайн-платформи активно просувають творчу інтерпретацію фотографій, включаючи використання штучного інтелекту.
Дослідники припускають, що фотографії “ніколи не були об’єктивним зображенням реальності”. Розгляди, такі як місце розташування камери, вибір глибини поля та вибір освітлення, всі внесли свій внесок у те, щоб зробити фотографію глибоко суб’єктивною.
Дослідження відзначає, що регулярні завдання “очищення” – такі як видалення пилу датчика або нежаданих ліній електропередачі з інакше добре скомпонованої сцени – були лише напівавтоматизовані до появи штучного інтелекту: користувачі повинні були вручну вибрати область або ініціювати процес для досягнення бажаного результату.
Сьогодні ці операції часто запускаються текстовими запитами користувача, особливо в інструментах, таких як Photoshop. На споживчому рівні такі функції все частіше автоматизуються без введення користувачем – результат, який, як здається, виробники та платформи вважають “очевидно бажаним”.
Розбавлений зміст “Deepfake”
Одним із центральних викликів законодавства щодо штучно змінених та згенерованих зображень є неоднозначність терміну “deepfake”, який мав свою значну розширення за останні два роки.
Спочатку термін застосовувався лише до відеовмісту з автокодувальними системами, такими як DeepFaceLab і FaceSwap, обидва похідні від анонімного коду, опублікованого на Reddit у кінці 2017 року.
З 2022 року поява моделей дифузії (LDM) таких як Stable Diffusion і Flux, а також текстово-відео систем, таких як Sora, також дозволили заміну ідентичності та налаштування, з покращеною роздільною здатністю, гнучкістю та вірогідністю. Тепер стало можливим створювати моделі дифузії, які можуть зображувати знаменитостей та політиків. Оскільки термін “deepfake” вже був скарбом, який приваблює заголовки для виробників медіа, його розширили, щоб охопити ці системи.
Пізніше, як у ЗМІ, так і в дослідницькій літературі, термін також включав текстову імперсонацію. На цьому етапі оригінальне значення “deepfake” було майже втрачено, тоді як його розширене значення постійно еволюціонувало та ставало дедалі більш розбавленим.
Але оскільки слово було так запальною і галванізуючою, і стало потужним політичним та медійним токеном, воно виявилося неможливим відмовитися від нього. Воно приваблювало читачів на веб-сайти, фінансування дослідникам та увагу політикам. Ця лексична неоднозначність є основним фокусом нового дослідження.
Як відзначають автори, стаття 3(60) Закону ЄС про штучний інтелект викладає чотири умови, які визначають “deepfake”.
1: Істинний місяць
По-перше, вміст повинен бути згенерований або маніпульований, тобто створений з нуля за допомогою штучного інтелекту (генерація) або змінений з існуючих даних (маніпуляція). Дослідження підкреслює складність у розрізенні між “прийнятними” результатами редагування зображень та маніпулятивними глибокими підробками, враховуючи, що цифрові фотографії в будь-якому випадку ніколи не є справжніми зображеннями реальності.
Дослідження стверджує, що зображення місяця, згенероване Samsung, можна вважати автентичним, оскільки місяць малоймовірно змінить свій вигляд, і оскільки штучно згенерований вміст, навчений на реальних зображеннях місяця, ймовірно, буде точним.
Однак автори також зазначають, що оскільки система Samsung була показана як здатна генерувати “поліпшене” зображення місяця в разі, коли вихідне зображення не було місяцем, це буде вважатися “глибокою підробкою”.
Було б недоцільно складати всебічний список різних випадків використання навколо цього типу ад-хок функціональності. Тому тягар визначення знову здається, що передається суду.
2: Текстові підробки
По-друге, вміст повинен бути у формі зображення, аудіо чи відео. Текстовий вміст, хоча й підлягає іншим зобов’язанням щодо прозорості, не вважається глибокою підробкою згідно з законом про штучний інтелект. Це не розглядається у деталі в новому дослідженні, хоча це може мати значний вплив на ефективність візуальних глибоких підробок (див. нижче).
3: Реальні проблеми
По-третє, вміст повинен нагадувати існуючих осіб, об’єкти, місця, сутності чи події. Ця умова встановлює зв’язок з реальним світом, що означає, що чисто фабриковані зображення, навіть якщо вони фотorealістичні, не будуть вважатися глибокими підробками. Рецитал 134 Закону ЄС про штучний інтелект підкреслює аспект “нагадування” додаванням слова “значно” (очевидна відставка до подальших юридичних суджень).
Автори, посилаючись на попередню роботу, розглядають, чи потрібно, щоб штучно згенероване обличчя належало реальній особі, чи чи потрібно, щоб воно було лише достатньо схожим на реальну особу, щоб задовольнити це визначення.
Наприклад, як можна визначити, чи має намір послідовність фотореалістичних зображень, що зображують політика Дональда Трампа, бути підробкою, якщо зображення (або додані тексти) не згадують його явно? Розпізнавання облич? Опитування користувачів? Визначення судді “здоровим глуздом”?
Повертаючись до питання “Текстових підробок” (див. вище), слова часто становлять значну частку акту візуальної глибокої підробки. Наприклад, можна взяти (незмінене) зображення або відео “особи а” і сказати в підписі або соціальному медійному пості, що зображення належить “особі б” (припускаючи, що ці дві особи схожі).
У такому випадку немає потреби в штучному інтелекті, а результат може бути вражаючим – але чи така низькотехнологічна підхід також становить “глибоку підробку”?
4: Ретуш, переробка
По-четверте, вміст повинен виглядати автентичним або правдивим для людини. Ця умова підкреслює сприйняття людськими глядачами. Вміст, який розпізнається лише алгоритмом як представляючий реальну особу або об’єкт, не буде вважатися глибокою підробкою.
З усіх умов у 3(60) ця найочевидніше передає визначення суду, оскільки не дозволяє жодної інтерпретації через технічні або механічні засоби.
Є очевидні труднощі у досягненні консенсусу щодо такого суб’єктивного положення. Автори відзначають, наприклад, що різні люди, і різні типи людей (наприклад, діти та дорослі), можуть бути по-різному налаштовані вірити в конкретну глибоку підробку.
Автори далі зазначають, що розширені можливості штучного інтелекту інструментів, таких як Photoshop, викликають традиційні визначення “глибокої підробки”. Хоча ці системи можуть включати базові заходи безпеки проти суперечливих або заборонених контентів, вони драматично розширюють концепцію “ретушування”. Користувачі тепер можуть додавати або видаляти об’єкти у висококонвінгованому, фотореалістічному вигляді, досягнувши професійного рівня автентичності, який переозначає межі маніпуляції зображеннями.
Автори заявляють:
‘Ми стверджуємо, що поточне визначення глибоких підробок у законі про штучний інтелект та відповідні зобов’язання не достатньо визначені, щоб подолати виклики, пов’язані з глибокими підробками. Аналізуючи життєвий цикл цифрової фотографії від датчика камери до цифрових функцій редагування, ми знаходимо, що:
‘(1.) Глибокі підробки погано визначені в законі ЄС про штучний інтелект. Визначення залишає занадто багато місця для того, що таке глибока підробка.
‘(2.) Неп清楚, як функції редагування, такі як функція “Найкращий кадр” Google, можуть бути розглянуті як виняток з зобов’язань щодо прозорості.
‘(3.) Виняток для суттєво відредагованих зображень піднімає питання про те, що становить суттєве редагування вмісту та чи потрібно, щоб це редагування було сприйнятним людиною.’
Виняток
Закон ЄС про штучний інтелект містить винятки, які, на думку авторів, можуть бути досить перmissive. Стаття 50(2), зазначають вони, пропонує виняток у випадках, коли більша частина оригінального джерельного зображення не змінюється. Автори відзначають:
‘Що можна вважати вмістом у сенсі статті 50(2) у випадках цифрового аудіо, зображень та відео? Наприклад, у випадку зображень, потрібно考虑увати простір пікселів або видимий простір, сприйнятний людьми? Суттєві маніпуляції у просторі пікселів можуть не змінити сприйняття людини, а з іншого боку, малі порушення у просторі пікселів можуть драматично змінити сприйняття.’
Дослідники наводять приклад додавання пістолета до фотографії людини, яка вказує на когось. Додаванням пістолета ви змінюєте лише 5% зображення; однак семантичне значення зміненого фрагмента є суттєвим.
Стаття 50(2) також дозволяє винятки для “асистивної функції стандартної редакції”. Оскільки Закон не визначає, що означає “стандартна редакція”, навіть пост-процесорні функції, такі як функція “Найкращий кадр” Google, здається, будуть захищені цим винятком, відзначають автори.
Висновок
Заявленою метою нового дослідження є заохочення міжгалузевих досліджень щодо регулювання глибоких підробок та виступити як початкова точка для нових діалогів між вченими-комп’ютерниками та юридичними вченими.
Однак, сама робота піддається тавтології на декількох пунктах: вона часто використовує термін “глибока підробка” так, як якщо б його значення було самодостатнім, тоді як критикує закон ЄС про штучний інтелект за те, що він не визначає, що становить глибоку підробку.
Перше опубліковано понеділок, 16 грудня 2024












