Искусственный интеллект

Неожиданная выгода от картографирования潜在ного пространства GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

При попытке улучшить качество и достоверность изображений, сгенерированных с помощью ИИ, группа исследователей из Китая и Австралии непреднамеренно открыла метод интерактивного управления潜在ным пространством сети генеративных противостояний (GAN) – загадочной вычислительной матрицы, стоящей за новой волной техник синтеза изображений, которые готовы революционизировать кино, игры и социальные сети, а также многие другие сектора развлечений и исследований.

Их открытие, побочный продукт основной цели проекта, позволяет пользователю произвольно и интерактивно исследовать潜在ное пространство GAN с помощью мыши, как будто просматривая видео или листая книгу.

Отрывок из сопровождающего видео исследователей (см. встроенный видео в конце статьи). Обратите внимание, что пользователь манипулирует преобразованиями с помощью курсора 'grab' (вверху слева).

Отрывок из сопровождающего видео исследователей (см. встроенный видео в конце статьи для многих других примеров). Обратите внимание, что пользователь манипулирует преобразованиями с помощью курсора ‘grab’ (вверху слева). Источник: https://www.youtube.com/watch?v=k7sG4XY5rIc

Метод использует ‘тепловые карты’, чтобы указать, какие области изображения следует улучшить, пока GAN проходит через один и тот же набор данных тысячи (или сотни тысяч) раз. Тепловые карты предназначены для улучшения качества изображения, указывая GAN, где он ошибается, чтобы его следующая попытка была лучше; но, совпадение, это также предоставляет ‘карту’ всего潜在ного пространства, которое можно просматривать, перемещая мышь.

Пространственная визуальная внимательность, подчеркнутая с помощью GradCAM, которая указывает области, требующие внимания, путем наложения ярких цветов. Источник: https://arxiv.org/pdf/2112.00718.pdf

Статья называется Улучшение равновесия GAN за счет повышения пространственной осведомленности, и исходит от исследователей Китайского университета Гонконга и Австралийского национального университета. Помимо статьи, видео и другой материал можно найти на странице проекта.

Работа еще находится на начальном этапе, и в настоящее время ограничена изображениями низкого разрешения (256×256), но это доказательство концепции, которое обещает открыть ‘черный ящик’潜在ного пространства и приходит в то время, когда несколько исследовательских проектов работают над этой проблемой в поисках большего контроля над синтезом изображений.

Хотя такие изображения привлекательны (и вы можете увидеть больше из них, в лучшем разрешении, в видео, встроенном в конце этой статьи), то, что, возможно, еще более значимо, заключается в том, что проект нашел способ создать улучшенное качество изображения и, потенциально, сделать это быстрее, указывая GAN конкретно, где он ошибается во время обучения.

Но, как Противостояние указывает, GAN не является единой сущностью, а rather неравным конфликтом между властью и трудом. Чтобы понять, какие улучшения исследователи внесли в этом отношении, давайте посмотрим, как эта война была охарактеризована до сих пор.

Жалкая участь Генератора

Если вы когда-либо были преследуемы мыслью, что некоторый великолепный новый предмет одежды, который вы купили, был произведен в потогонном цеху в эксплуатируемой стране, или имели начальника или клиента, который постоянно говорил вам ‘Сделайте еще раз!’ без указания, что было не так с вашей последней попыткой, пожалейте немного Генератор, часть сети генеративных противостояний.

Генератор – это работник, который радовал вас в течение последних пяти лет или около того, помогая GAN создавать фотореалистичных людей, которых не существует, масштабировать старые видеоигры до разрешения 4K и превращать century-old кадры в полноцветное видео с разрешением HD 60fps, среди других чудесных новинок ИИ.

От создания фотореалистичных лиц несуществующих людей до восстановления древних кадров и оживления архивных видеоигр, GAN был занят в последние годы.

Генератор проходит через все обучающие данные снова и снова (например, картинки лиц, чтобы создать GAN, который может создавать фотографии случайных, несуществующих людей), одну фотографию за раз, в течение дней или даже недель, пока он не сможет создавать изображения, которые так же убедительны, как и настоящие фотографии, которые он изучал.

Итак, как Генератор знает, что он делает какой-либо прогресс, каждая vez, когда он пытается создать изображение, которое лучше, чем его предыдущая попытка?

Генератор имеет начальника из ада.

Безжалостная непрозрачность Дискриминатора

Задача Дискриминатора – сказать Генератору, что он не сделал достаточно хорошо в создании изображения, аутентичного для исходных данных, и чтобы Сделать еще раз. Дискриминатор не говорит Генератору что было не так с последней попыткой Генератора; он просто берет частный взгляд на него, сравнивает сгенерированное изображение с исходными изображениями (снова, частным образом) и присваивает изображению оценку.

Оценка никогда не достаточно хороша. Дискриминатор не перестанет говорить ‘Сделайте еще раз’, пока исследователи не выключат его (когда они решат, что дополнительное обучение не улучшит выходные данные).

В этом смысле, в отсутствие конструктивной критики, и вооруженный только оценкой, чья метрика является загадкой, Генератор должен случайно угадывать, какие части или аспекты изображения вызвали более высокую оценку, чем раньше. Это приведет его по многим дальнейшим неудовлетворительным путям, прежде чем он изменит что-то достаточно положительно, чтобы получить более высокую оценку.

Дискриминатор как наставник и учитель

Инновация, предоставленная новым исследованием, заключается в том, что Дискриминатор теперь указывает Генератору какие части изображения были неудовлетворительными, чтобы Генератор мог сосредоточиться на этих областях в своей следующей итерации, и не выбрасывать разделы, которые были оценены выше. Природа отношений изменилась от конфронтационной до сотруднической.

Чтобы исправить несоответствие между Дискриминатором и Генератором, исследователи использовали GradCAM как механизм, способный сформулировать прозрения Дискриминатора в визуальную обратную связь для следующей попытки Генератора.

Новый метод обучения равновесия называется EqGAN. Для максимальной воспроизводимости исследователи включили существующие техники и методы по умолчанию, включая использование архитектуры StyleGan2.

Архитектура EqGAN. Пространственная кодировка Генератора выравнивается с пространственной осведомленностью Дискриминатора, с случайными образцами пространственных тепловых карт (см. предыдущее изображение), закодированными обратно в Генератор через слой пространственной кодировки (SEL). GradCAM – это механизм, с помощью которого карты внимания Дискриминатора становятся доступными Генератору.

GradCAM производит тепловые карты (см. выше изображения), которые отражают критику Дискриминатора последней итерации, и делают это доступным для Генератора.

Как только модель обучена, карта остается как артефакт этого кооперативного процесса, но также может быть использована для интерактивного исследования окончательного潜在ного кода, как это демонстрируется в видео исследователей (см. ниже).

EqGAN

Проект использовал несколько популярных наборов данных, включая наборы данных LSUN Cat и Churches, а также набор данных FFHQ. Видео ниже также включает примеры манипуляции лицом и кошкой с помощью EqGAN.

Все изображения были изменены до размера 256×256 перед обучением EqGAN на официальной реализации StyleGAN2. Модель была обучена с размером пакета 64 на 8 GPU до тех пор, пока Дискриминатор не был подвергнут более чем 25 миллионам изображений.

Тестируя результаты системы на выбранных образцах с помощью расстояния Фриче-Инсепшн (FID), авторы установили метрику, называемую Disequilibrium Indicator (DI) – степень, в которой Дискриминатор сохраняет свое знание над Генератором, с целью сужения этого разрыва.

На трех обученных наборах данных новая метрика показала полезное снижение после кодирования пространственной осведомленности в Генератор, с улучшенным равновесием, продемонстрированным как FID, так и DI.

Исследователи заключили:

‘Мы надеемся, что эта работа может вдохновить больше исследований по пересмотру равновесия GAN и разработке новых методов для улучшения качества синтеза изображений путем маневрирования равновесием GAN. Мы также будем проводить больше теоретических исследований по этому вопросу в будущей работе.’

И продолжили:

‘Качественные результаты показывают, что наш метод успешно заставляет Генератор сосредоточиться на конкретных регионах. Эксперименты на различных наборах данных подтверждают, что наш метод смягчает дисбаланс в обучении GAN и существенно улучшает общее качество синтеза изображений. Полученная модель с пространственной осведомленностью также позволяет интерактивно манипулировать выходным изображением.’

Взгляните на видео ниже для более подробной информации о проекте и дальнейших примерах динамического и интерактивного исследования潜在ного пространства GAN.