Искусственный интеллект

Пластическая хирургия для лиц, сгенерированных GAN

Published April 14, 2021

Updated April 5, 2026

Martin Anderson

Improvements in synthetically generated (GAN) images

Новые исследования из Южной Кореи обещают улучшить качество синтетических данных лиц, созданных с помощью генеративных противостоящих сетей (GAN).

Система способна выявлять артефакты изображений, произведенные процессами GAN, и исправлять их, даже до степени замены волос, которые были закрыты шапкой, замены частей лица, полностью отсутствующих в оригинале, и удаления заслонений, таких как руки и солнцезащитные очки, и также хорошо работает на пейзажных и архитектурных выводах.

Слева для каждой колонки, исходный вывод GAN с дефектами, за которым следуют два других подхода к артефактам, и, наконец, метод, используемый южнокорейскими исследователями. Источник: https://arxiv.org/pdf/2104.06118.pdf

Большинство недавних подходов к улучшению качества изображений, сгенерированных GAN, заняли позицию, что артефакты являются профессиональным заболеванием процесса, рассматривая методологию как “сила природы”, и более психоделические или аномальные результаты, которые она может произвести, как неизбежный побочный продукт.

Вместо этого южнокорейские исследования предлагают фактически “исправлять” поврежденные изображения так, чтобы не мешать продолжению генеративной цепочки, выявляя аспекты, которые вызывают артефакты, и снижая или устраняя их влияние в сети GAN на полуприведенном уровне, который превышает и расширяет родные самоисправляющие механизмы в архитектуре GAN.

Для проекта было необходимо создать широко применимый рукописный набор данных изображений, которые сильно пострадали от артефактов GAN. Первоначально исследователи использовали расстояние Фрехета-Инсепшн (FID), метрику, которая оценивает качество вывода GAN, сравнивая особенности в изображениях, в качестве квалифицирующей единицы. 10 000 изображений с наивысшими баллами FID среди запуска 200 000 изображений были использованы в качестве дискретных “единиц артефактов”. Затем исследователи手описали 2000 сгенерированных изображений, классифицируя каждый как “нормальный” или пострадавший от артефактов FID. Затем была создана модель для классификации набора данных на артефакт, нормальные и случайные реальные образцы.

После этого был использован Gradient-weighted Class Activation Mapping (Grad-CAM), чтобы сгенерировать маски для областей, пораженных артефактами, эффективно автоматизируя маркировку дефектов.

На изображении выше маски Grad-CAM были применены к выводу из набора данных LSUN-Church outdoor и набора данных CelebA-HQ.

Анализируя 20 самых пораженных результатов из запуска 20 000 изображений, генерируются маски сегментации, в которые можно заменить представительные результаты по поколениям (которые, вероятно, будут более точными или убедительными, чем артефакты), снижая активацию единиц, производящих артефакты, в последующих поколениях.

Оценка исправлений людьми привела к тому, что 53% “исправленных” изображений были помечены как “нормальные”, в то время как 97% исходных изображений все еще демонстрируют значительные улучшения по сравнению с оригиналами.

Исследователи утверждают, что этот метод, с некоторыми незначительными переделками, также может быть адаптирован для NVIDIA’s StyleGAN2.

Преимущества синтетических данных

Примarily в отношении данных лиц, общая нехватка реальных наборов данных для компьютерного зрения является препятствием для разнообразных исследований в важных исследовательских секторах, таких как распознавание лиц, распознавание эмоций, медицинские исследования и изучение более детальной сегментации топологии лица, среди различных других областей.

Текущая реакция против бесплатного использования веб-ориентированных данных и ад хок сбора реальных изображений лиц для включения в базы данных лиц является дополнительным препятствием для исследований, с растущим числом государств и наций которые ужесточают веб-скрейпинг и присвоение социальных сетей изображений для этих целей.

За последние десять лет ограниченное количество высоко отобранных наборов данных лиц предлагали убежище от такого рода неопределенности, с различными ежегодными публичными исследовательскими задачами, центрированными вокруг них. Однако это, вероятно, привело к тому, что исследовательские проекты наклоняли свои методологии конкретно к этим наборам данных, с последовательными и сопоставимыми результатами, полученными год за годом, при высокой стоимости отсутствия разнообразия в исходном материале – ситуация, которая становится хуже каждый год, когда новые исследования ограничивают себя этими пределами.

Кроме того, некоторые из этих “традиционных” наборов данных подвергались критике за отсутствие расового разнообразия, что предполагает, что эти эталоны могут не быть рассмотрены как подходящие ресурсы в ближайшем будущем.

Это означает необходимость высококачественных данных лиц, которые являются реалистичными, но где вносящие “реальные” изображения были преобразованы далеко за пределы распознавания. Даже если это использование реальных данных лиц “на расстоянии” может само по себе в конечном итоге вызвать проблемы с происхождением лиц, сгенерированных GAN, это препятствие, которое вряд ли возникнет до тех пор, пока не будут установлены юридические и технические механизмы для сбора данных этого типа; и, касаясь возможных изменений в юридических рамках вокруг этого вопроса, это все еще меньший риск, чем использование изображений реальных людей.