Штучний інтелект

Реальні ідентичності можна відновити з синтетичних наборів даних

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

Якщо 2022 рік став моментом, коли деструктивний потенціал генеративного ІІ вперше привернув широку увагу громадськості, то 2024 рік став роком, коли питання про законність даних, що лежать в його основі, зайняли центральне місце для бізнесу, який прагне використовувати його силу.

У США доктрина «справедливого використання» разом з імпліцитною вченою ліцензією, яка довгий час дозволяла академічному та комерційному дослідницькому секторам вивчати генераційний ІІ, ставала все більш неприйнятною, оскільки з’явилися все більше доказів плагіату. Надалі США тимчасово заборонили реєстрацію авторських прав на вміст, згенерований ІІ.

Ці питання ще далеко не вирішені і не будуть вирішені в найближчому майбутньому; у 2023 році, частково через зростаючу увагу ЗМІ та громадськості до юридичного статусу виводу ІІ, Управління з питань авторських прав США розпочало тривале розслідування цього аспекту генераційного ІІ, опублікувавши перший розділ (щодо цифрових реплік) у липні 2024 року.

У той же час бізнес-інтереси залишаються розчарованими можливістю того, що дорогі моделі, які вони хочуть використовувати, можуть піддати їх юридичним наслідкам, коли врешті-решт з’являться законодавчі акти та визначення.

Дорогим короткостроковим рішенням стало легітимізація генераційних моделей шляхом їх навчання на даних, які компанії мають право використовувати. Архітектура Adobe Firefly для генерації тексту в зображення (і тепер тексту в відео) працює в основному завдяки придбанню фонду зображень Fotolia в 2014 році, доповненої використанням даних публічного домену, термін охорони авторських прав на які закінчився*. Одночасно з цим постачальники фонду фотографій, такі як Getty та Shutterstock, скористалися новою цінністю своїх ліцензованих даних, укладаючи все більше угод про ліцензування вмісту або розробку власних систем генераційного ІІ, які відповідають вимогам ІП.

Синтетичні рішення

Оскільки видалення даних, захищених авторським правом, з навчального латентного простору моделі ІІ пов’язано з проблемами, помилки в цій галузі можуть бути досить дорогостоящими для компаній, які експериментують з рішеннями для споживачів та бізнесу, які використовують машинне навчання.

Альтернативним і значно дешевшим рішенням для систем комп’ютерного зору (і також великих мовних моделей, або LLM) є використання синтетичних даних, де набір даних складається з випадково згенерованих прикладів цільової області (наприклад, обличчя, котів, церков або ще більш загального набору даних).

Сайти, такі як thispersondoesnotexist.com, давно популяризували ідею про те, що фотографічні зображення «нереальних» людей можна синтезувати (у цьому конкретному випадку за допомогою генераційних суперницьких мереж, або GAN) без будь-якої пов’язаності з людьми, які насправді існують у реальному світі.

Отже, якщо ви тренуєте систему розпізнавання обличчя або генераційної системи на таких абстрактних і нереальних прикладах, ви можете теоретично досягти фотореалістичного стандарту продуктивності моделі ІІ без необхідності考虑 того, чи є дані юридично використовними.

Баланс

Проблема полягає в тому, що системи, які генерують синтетичні дані, самі тренуються на реальних даних. Якщо сліди цих даних просочуються у синтетичні дані, це потенційно надає доказів того, що обмежені або інакше неавторизовані матеріали були використані для фінансової вигоди.

Щоб уникнути цього, а також для виробництва дійсно «випадкових» зображень, такі моделі повинні забезпечити, щоб вони були добре узагальнені. Узагальнення – це міра здатності тренованої моделі ІІ внутрішньо зрозуміти високорівневі концепції (наприклад, «обличчя», «чоловік» або «жінка») без звернення до реплікування фактичних навчальних даних.

На жаль, може бути важко для тренованих систем виробляти (або розпізнавати) деталі, якщо вони не тренуються досить обширно на наборі даних. Це піддає систему ризику пам’яті: тенденції до відтворення, до певної міри, прикладів фактичних навчальних даних.

Це можна пом’якшити, встановивши більш розслаблений темп навчання, або закінчивши навчання на етапі, коли основні концепції ще гнучкі і не пов’язані з якимось конкретним дані (наприклад, конкретним зображенням людини в разі набору даних облич).

Розкриття особи

Це приводить нас до цікавої нової роботи з Швейцарії, яка стверджує, що вона вперше демонструє, що оригінальні, реальні зображення, які живлять синтетичні дані, можна відновити з згенерованих зображень, які, теоретично, повинні бути цілком випадковими:

[…]

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]