Artificial Intelligence

Непреднамеренная выгода от отображения скрытого пространства GAN

обновленный on 9 декабря 2022

Пытаясь улучшить качество и точность изображений, сгенерированных искусственным интеллектом, группа исследователей из Китая и Австралии случайно обнаружила метод интерактивного управления скрытым пространством изображения. Генеративная Состязательная Сеть (GAN) — загадочная вычислительная матрица, стоящая за новой волной методов синтеза изображений, призванных произвести революцию в кино, играх, социальных сетях и многих других областях развлечений и исследований.

Их открытие, побочный продукт центральной цели проекта, позволяет пользователю произвольно и интерактивно исследовать скрытое пространство GAN с помощью мыши, как если бы он пролистывал видео или листал книгу.

Отрывок из сопроводительного видео исследователей (см. вставку в конце статьи). Обратите внимание, что пользователь манипулирует преобразованиями с помощью курсора захвата (вверху слева). Источник: https://www.youtube.com/watch?v=k7sG4XY5rIc

Отрывок из сопроводительного видео исследователей (см. вставку в конце статьи для многих других примеров). Обратите внимание, что пользователь манипулирует преобразованиями с помощью курсора захвата (вверху слева). Источник: https://www.youtube.com/watch?v=k7sG4XY5rIc

Метод использует «тепловые карты», чтобы указать, какие области изображения следует улучшить, поскольку GAN обрабатывает один и тот же набор данных тысячи (или сотни тысяч) раз. Тепловые карты предназначены для улучшения качества изображения, сообщая GAN, где что-то идет не так, чтобы его следующая попытка была лучше; но, по совпадению, это также обеспечивает «карту» всего скрытого пространства, которую можно просматривать, перемещая мышь.

Пространственное визуальное внимание усиливается с помощью GradCAM, который указывает области, требующие внимания, с помощью ярких цветов. Эти образцы создаются в проекте исследователей с реализацией StyleGan2 по умолчанию. Источник: https://arxiv.org/pdf/2112.00718.pdf

Пространственное визуальное внимание усиливается с помощью GradCAM, который указывает области, требующие внимания, с помощью ярких цветов. Источник: https://arxiv.org/pdf/2112.00718.pdf

Ассоциация бумаги называется Улучшение равновесия GAN за счет повышения пространственной осведомленности, и исходит от исследователей из Китайского университета Гонконга и Австралийского национального университета. Помимо статьи, на странице проекта можно найти видео и другие материалы.

Работа находится в зачаточном состоянии и в настоящее время ограничена изображениями с низким разрешением (256 × 256), но является доказательством концепции, которая обещает взломать «черный ящик» скрытого пространства, и происходит в то время, когда несколько исследовательских проектов работают. в эту дверь в погоне за большим контролем над синтезом изображения.

Хотя такие изображения привлекают внимание (и вы можете увидеть больше из них в лучшем разрешении в видеоролике, встроенном в конце этой статьи), возможно, более важным является то, что проект нашел способ создать улучшенное качество изображения и, возможно, чтобы сделать это быстрее, сообщая GAN конкретно, где что-то идет не так во время обучения.

Но состязательный указывает, что GAN — это не единое целое, а неравный конфликт между властью и рутиной. Чтобы понять, какие улучшения внесли исследователи в этом отношении, давайте посмотрим, как эта война характеризовалась до сих пор.

Жалкое положение генератора

Если вас когда-либо преследовала мысль о том, что какой-то новый великолепный предмет одежды, который вы купили, был произведен в потогонной мастерской в эксплуатируемой стране, или что ваш босс или клиент постоянно говорил вам: «Сделай это снова!» ни разу не сказав вам, что не так с вашей последней попыткой, пожалеть Генератор часть генеративно-состязательной сети.

Генератор — это рабочая лошадка, которая радовала вас в течение последних пяти или около того лет, помогая GAN создавать фотореалистичные люди, которых не существует, высококлассные старые видеоигры до разрешения 4k, и превратить кадры вековой давности в полноцветный HD-выход со скоростью 60 кадров в секунду, среди других удивительных новинок ИИ.

От создания фотореалистичных лиц нереальных людей до восстановления древних кадров и возрождения архивных видеоигр, GAN был занят последние несколько лет.

Генератор снова и снова просматривает все обучающие данные (например, изображения лиц, чтобы создать GAN, который может создавать фотографии случайных, несуществующих людей), по одной фотографии за раз, в течение нескольких дней или даже недель. пока он не сможет создавать изображения, столь же убедительные, как и подлинные фотографии, которые он изучал.

Так как же Генератор узнает, что он делает какой-то прогресс, каждый раз, когда он пытается создать изображение, которое лучше, чем его предыдущая попытка?

У Генератора есть босс из ада.

Безжалостная непрозрачность дискриминатора

Работа Дискриминатор заключается в том, чтобы сообщить Генератору, что он недостаточно хорошо создал изображение, аутентичное по отношению к исходным данным, и Сделай это снова. Дискриминатор не сообщает Генератору почему ошибся с последней попыткой Генератора; он просто просматривает его, сравнивает сгенерированное изображение с исходными изображениями (опять же, в частном порядке) и присваивает изображению оценку.

Оценка никогда достаточно хорошо. Дискриминатор не перестанет говорить «Сделай это снова» пока ученые-исследователи не выключат его (когда они решат, что дополнительное обучение больше не улучшит результат).

Таким образом, в отсутствие какой-либо конструктивной критики и вооружившись только оценкой, метрика которой является загадкой, Генератор должен случайным образом угадать, какие части или аспекты изображения вызвали более высокую оценку, чем раньше. Это приведет его к еще многим неудовлетворительным маршрутам, прежде чем он изменит что-то достаточно положительно, чтобы получить более высокий балл.

Дискриминатор как наставник и наставник

Нововведение, обеспечиваемое новым исследованием, по сути, заключается в том, что Дискриминатор теперь указывает Генератору. какие части изображения были неудовлетворительными, чтобы Генератор мог сосредоточиться на этих областях в своей следующей итерации, а не отбрасывать разделы, получившие более высокий рейтинг. Характер отношений превратился из воинственного в сотрудничество.

Чтобы устранить несоответствие понимания между Дискриминатором и Генератором, исследователи использовали ГрадКАМ как механизм, способный сформулировать понимание Дискриминатора в помощь визуальной обратной связи для следующей попытки Генератора.

Новый метод тренировки равновесия называется EqGAN. Для максимальной воспроизводимости исследователи включили существующие методы и методы с настройками по умолчанию, включая использование СтильГан2 архитектура.

Архитектура EqGAN. Пространственное кодирование Генератора согласуется с пространственным пониманием Дискриминатора, при этом случайные выборки пространственных тепловых карт (см. предыдущее изображение) кодируются обратно в генератор через слой пространственного кодирования (SEL). GradCAM — это механизм, с помощью которого карты внимания Дискриминатора становятся доступными для генератора.

GradCAM создает тепловые карты (см. изображения выше), отражающие критику Дискриминатором последней версии, и делает их доступными для Генератора.

После обучения модели сопоставление остается артефактом этого совместного процесса, но его также можно использовать для изучения окончательного скрытого кода в интерактивном режиме, продемонстрированном в видео проекта исследователей (см. ниже).

ЭкГАН

В проекте использовался ряд популярных наборов данных, в том числе наборы данных LSUN Cat и Churches, а также ФФШК набор данных. В видео ниже также представлены примеры манипуляций с лицом и кошачьими с помощью EqGAN.

Размер всех изображений был изменен до 256×256 перед обучением EqGAN официальной реализации StyleGAN2. Модель обучалась с размером партии 64 на 8 графических процессорах, пока Дискриминатор не обработал более 25 миллионов изображений.

Тестирование результатов системы на выбранных образцах с начальным расстоянием Фреше (FID), авторы установили показатель под названием Индикатор неравновесия (DI) — степень, в которой Дискриминатор сохраняет свое преимущество в знаниях над Генератором, с целью сокращения этого разрыва.

По трем обученным наборам данных новая метрика показала полезное снижение после кодирования пространственной осведомленности в Генератор, с улучшенным равновесием, продемонстрированным как FID, так и DI.

Исследователи приходят к выводу:

«Мы надеемся, что эта работа может вдохновить на новые работы по пересмотру равновесия GAN и разработке новых методов улучшения качества синтеза изображений за счет маневрирования равновесия GAN. Мы также проведем более теоретические исследования по этому вопросу в будущей работе».

И продолжайте:

«Качественные результаты показывают, что наш метод успешно [заставляет Генератор] концентрироваться на конкретных регионах. Эксперименты с различными наборами данных подтверждают, что наш метод смягчает неравновесие при обучении GAN и существенно улучшает общее качество синтеза изображений. Полученная модель с пространственным пониманием также позволяет интерактивно манипулировать выходным изображением».

Посмотрите видео ниже, чтобы узнать больше о проекте и других примерах динамического и интерактивного исследования скрытого пространства в GAN.

Улучшение равновесия GAN за счет повышения пространственной осведомленности

Improving GAN Equilibrium by Raising Spatial Awareness

Watch this video on YouTube

11:12, 4 декабря 2021 г. — исправлен URL для GradCAM и приведена в порядок окружающая ссылка.

Новый подход к машинному обучению может ускорить разработку лекарств

Не пропустите

Изменение эмоций в видеоматериалах с помощью ИИ

Мартин Андерсон

Автор статей о машинном обучении, искусственном интеллекте и больших данных.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai