Искусственный интеллект

Реальные Идентичности Можно Восстановить Из Синтетических Датасетов

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

Если 2022 год ознаменовал момент, когда разрушительный потенциал генеративного ИИ впервые привлёк широкое внимание общественности, то 2024 год стал годом, когда вопросы о законности лежащих в основе этого данных заняли центральное место для бизнеса, стремящегося использовать его силу.

Доктрина справедливого использования США, а также неявная учёная лицензия, которая долгое время позволяла академическим и коммерческим исследовательским секторам изучать генеративный ИИ, стала всё более неприемлемой, поскольку появлялись всё больше доказательств плагиата. В результате США, по крайней мере на данный момент, не допускают авторского права на контент, сгенерированный ИИ.

Эти вопросы ещё далеки от разрешения и не будут решены в ближайшее время; в 2023 году, частично из-за растущей обеспокоенности средств массовой информации и общества по поводу юридического статуса выходных данных ИИ, Управление по авторским правам США начало многолетнее расследование этого аспекта генеративного ИИ, опубликовав первую часть (относящуюся к цифровым репликам) в июле 2024 года.

Тем временем бизнес-интересы остаются разочарованными возможностью того, что дорогие модели, которые они хотят использовать, могут подвергнуть их юридическим последствиям, когда в конечном итоге появятся окончательные законы и определения.

Дорогим краткосрочным решением стало легитимизация генеративных моделей путём их обучения на данных, которые компании имеют право использовать. Архитектура Firefly от Adobe, которая преобразует текст в изображение (и теперь в видео), работает в основном на основе приобретённого ею в 2014 году датасета изображений Fotolia, дополненного использованием данных из общественного достояния, сроки авторских прав которых истекли*. В то же время такие поставщики стоковых фотографий, как Getty и Shutterstock, воспользовались новой ценностью своих лицензированных данных, заключив ряд сделок по лицензированию контента или разработке собственных систем GenAI, соответствующих требованиям интеллектуальной собственности.

Синтетические Решения

Поскольку удаление данных, защищённых авторским правом, из обучающего латентного пространства модели ИИ является проблематичным, ошибки в этой области могут быть очень дорогостоящими для компаний, экспериментирующих с потребительскими и деловыми решениями, которые используют машинное обучение.

Альтернативным, и намного более дешёвым решением для систем компьютерного зрения (и также для больших языковых моделей, или LLM), является использование синтетических данных, где датасет состоит из случайно сгенерированных примеров целевой области (такой как лица, кошки, церкви или даже более обобщённый датасет).

Сайты, такие как thispersondoesnotexist.com, уже давно популяризировали идею о том, что аутентичные фотографии “нереальных” людей могут быть синтезированы (в данном случае с помощью генеративных противостоящих сетей, или GAN) без какой-либо связи с людьми, которые действительно существуют в реальном мире.

Следовательно, если вы обучаете систему распознавания лиц или генеративную систему на таких абстрактных и нереальных примерах, вы можете в теории получить фотографически реалистичный стандарт производительности модели ИИ без необходимости учитывать, является ли данный материал юридически пригодным для использования.

Баланс

Проблема заключается в том, что системы, которые производят синтетические данные, сами обучаются на реальных данных. Если следы этих данных просачиваются в синтетические данные, это потенциально предоставляет доказательства того, что ограниченные или иначе неавторизованные материалы были использованы для получения прибыли.

Чтобы избежать этого и для производства действительно “случайных” изображений, такие модели должны обеспечить, чтобы они были хорошо обобщены. Обобщение — это мера способности обученной модели ИИ внутренне понимать высокоуровневые концепции (такие как “лицо”, “мужчина” или “женщина”) без копирования фактических данных обучения.

К сожалению, может быть трудно для обученных систем производить (или распознавать) детали, если они не обучатся достаточно обширно на датасете. Это подвергает систему риску запоминания: тенденции воспроизводить, в некоторой степени, примеры фактических данных обучения.

Это можно смягчить, установив более расслабленный темп обучения или завершив обучение на этапе, когда основные концепции ещё пластичны и не связаны с какими-либо конкретными точками данных (такими как конкретное изображение человека в случае датасета лиц).

Однако оба этих средства, вероятно, приведут к моделям с менее детальными деталями, поскольку система не имела возможности продвинуться за пределы “основ” целевой области и до конкретных деталей.

Следовательно, в научной литературе обычно применяются очень высокие темпы обучения и всесторонние графики обучения. Хотя исследователи обычно пытаются найти компромисс между широкой применимостью и детальностью в окончательной модели, даже слегка “запомнившиеся” системы могут часто выдавать себя за хорошо обобщённые – даже в первоначальных тестах.

Раскрытие Лица

Это приводит нас к интересной новой работе из Швейцарии, которая утверждает, что она является первой, демонстрирующей, что оригинальные, реальные изображения, которые обеспечивают синтетические данные, могут быть восстановлены из сгенерированных изображений, которые, в теории, должны быть совершенно случайными:

[подпись id=”attachment_208400″ align=”alignnone” width=”890″] Пример лица, просочившегося из данных обучения. В верхнем ряду мы видим оригинальные (реальные) изображения; в нижнем ряду мы видим изображения, сгенерированные случайным образом, которые значительно совпадают с реальными изображениями. Источник: https://arxiv.org/pdf/2410.24015 Пример лица, просочившегося из данных обучения. В верхнем ряду мы видим оригинальные (реальные) изображения; в нижнем ряду мы видим изображения, сгенерированные случайным образом, которые значительно совпадают с реальными изображениями. Источник: https://arxiv.org/pdf/2410.24015[/caption]

Результаты, по мнению авторов, указывают на то, что “синтетические” генераторы действительно запомнили большое количество точек данных обучения в своей поисках большей детализации. Они также указывают на то, что системы, которые полагаются на синтетические данные для защиты производителей ИИ от юридических последствий, могут быть очень ненадёжными в этом отношении.

Исследователи провели обширное исследование шести синтетических датасетов, продемонстрировав, что во всех случаях оригинальные (потенциально защищённые авторским правом или защищённые) данные могут быть восстановлены. Они комментируют:

‘Наши эксперименты демонстрируют, что современные синтетические датасеты распознавания лиц содержат образцы, очень близкие к образцам в данных обучения их генераторных моделей. В некоторых случаях синтетические образцы содержат небольшие изменения исходного изображения, однако, мы также можем наблюдать в некоторых случаях, что сгенерированный образец содержит больше вариаций (например, другую позу, условия освещения и т. д.), в то время как идентичность сохраняется.

‘Это говорит о том, что генераторные модели учатся и запоминают информацию, связанную с идентичностью, из данных обучения и могут генерировать подобные идентичности. Это вызывает критические опасения по поводу применения синтетических данных в задачах, чувствительных к конфиденциальности, таких как биометрия и распознавание лиц.’

Статья называется Раскрытие Синтетических Лиц: Как Синтетические Датасеты Могут Раскрыть Реальные Идентичности, и исходит от двух исследователей из Института исследований Idiap в Мартиньи, École Polytechnique Fédérale de Lausanne (EPFL) и Université de Lausanne (UNIL) в Лозанне.

Метод, Данные и Результаты

Запомнившиеся лица в исследовании были раскрыты с помощью Атаки на определение членства. Хотя концепция звучит сложно, она довольно自одостаточна: определение членства в данном случае относится к процессу вопросов системы, пока она не раскроет данные, которые либо совпадают с данными, которые вы ищете, либо значительно похожи на них.

[подпись id=”attachment_208401″ align=”alignnone” width=”978″] Дальнейшие примеры выведенных источников данных, из исследования. В данном случае источниковые синтетические изображения из датасета DCFace. Дальнейшие примеры выведенных источников данных, из исследования. В данном случае источниковые синтетические изображения из датасета DCFace.[/caption]

Исследователи изучили шесть синтетических датасетов, для которых был известен (реальный) источник данных. Поскольку и реальные, и фальшивые датасеты, о которых идёт речь, содержат очень большое количество изображений, это по сути похоже на поиск иголки в стоге сена.

Следовательно, авторы использовали готовую модель распознавания лиц^† с ResNet100 в качестве основы, обученной на AdaFace функции потерь (на WebFace12M датасете).

Шесть синтетических датасетов, использованных в исследовании, были: DCFace (латентная диффузионная модель); IDiff-Face (Униформ — диффузионная модель на основе FFHQ); IDiff-Face (Двухэтапная — вариант, использующий другой метод выборки); GANDiffFace (основанная на генеративных противостоящих сетях и диффузионных моделях, использующая StyleGAN3 для генерации начальных идентичностей и затем DreamBooth для создания разнообразных примеров); IDNet (метод, основанный на генеративных противостоящих сетях, основанный на StyleGAN-ADA); и SFace (рамка, защищающая идентичность).

Поскольку GANDiffFace использует как методы генеративных противостоящих сетей, так и диффузионные методы, его сравнивают с данными обучения StyleGAN — наиболее близким к “реальному лицу” источнику, который эта сеть предоставляет.

Авторы исключили синтетические датасеты, которые используют CGI, а не методы ИИ, и при оценке результатов не учитывали совпадения для детей из-за аномалий распределения в этом отношении, а также изображений, не являющихся лицами (которые могут часто встречаться в датасетах лиц, где системы веб-скрапинга производят ложные положительные результаты для объектов или артефактов, имеющих качества, похожие на лицо).

Косинусная подобие была рассчитана для всех полученных пар и объединена в гистограммы, проиллюстрированные ниже:

[подпись id=”attachment_208402″ align=”alignnone” width=”419″] Гистограммное представление для косинусных коэффициентов подобия, рассчитанных по различным датасетам, вместе с их соответствующими значениями подобия для топ-k пар (пунктирные вертикальные линии). Гистограммное представление для косинусных коэффициентов подобия, рассчитанных по различным датасетам, вместе с их соответствующими значениями подобия для топ-k пар (пунктирные вертикальные линии).[/caption]

Количество подобий представлено в пиках на графике выше. Статья также включает образцы сравнений из шести датасетов и их соответствующие оцененные изображения в исходных (реальных) датасетах, из которых некоторые выборки представлены ниже:

[подпись id=”attachment_208403″ align=”alignnone” width=”782″] Образцы из многих экземпляров, воспроизведённых в исходной статье, на которую читателю рекомендуется обратить внимание для более полного представления. Образцы из многих экземпляров, воспроизведённых в исходной статье, на которую читателю рекомендуется обратить внимание для более полного представления.[/caption]

Статья комментирует:

‘[Сгенерированные] синтетические датасеты содержат очень похожие изображения из данных обучения их генераторных моделей, что вызывает опасения по поводу генерации таких идентичностей.’

Авторы отмечают, что для этого подхода масштабирование до более объёмных датасетов, вероятно, будет неэффективным, поскольку необходимые вычисления будут чрезвычайно обременительными. Они также отмечают, что визуальное сравнение было необходимо для вывода совпадений, и что автоматическое распознавание лиц в одиночку, вероятно, не будет достаточным для более крупной задачи.

Что касается последствий исследования и с точки зрения будущих направлений, работа гласит:

‘[Мы] хотим подчеркнуть, что основной мотивацией для генерации синтетических датасетов является решение проблем конфиденциальности при использовании крупномасштабных веб-скрапированных датасетов лиц.

‘Следовательно, утечка любой конфиденциальной информации (такой как идентичности реальных изображений в данных обучения) в синтетический датасет вызывает критические опасения по поводу применения синтетических данных для задач, чувствительных к конфиденциальности, таких как биометрия. Наше исследование проливает свет на проблемы конфиденциальности при генерации синтетических датасетов распознавания лиц и открывает путь для будущих исследований по созданию ответственных синтетических датасетов лиц.’

Хотя авторы обещают выпустить код для этой работы на странице проекта, в настоящее время нет ссылки на репозиторий.

Заключение

В последнее время внимание средств массовой информации было сосредоточено на уменьшающихся доходах, получаемых от обучения моделей ИИ на данных, сгенерированных ИИ.

Однако новое швейцарское исследование привлекает внимание к вопросу, который может быть более актуальным для растущего числа компаний, желающих использовать и получать прибыль от генеративного ИИ — сохранению законодательно защищённых или неавторизованных закономерностей данных, даже в датасетах, предназначенных для борьбы с этой практикой. Если бы мы должны были дать ему определение, в данном случае это можно назвать “очисткой лица”.

* Однако решение Adobe разрешить пользователям загружать изображения, сгенерированные ИИ, в Adobe Stock, фактически подорвало юридическую “чистоту” этих данных. Bloomberg утверждало в апреле 2024 года, что пользовательские изображения из генеративной системы ИИ MidJourney были включены в возможности Firefly.

^† Эта модель не идентифицируется в статье.

Опубликовано впервые в среду, 6 ноября 2024 года