Искусственный интеллект

Новый инструмент может показать исследователям, что GANs оставляют вне изображения

Published November 10, 2019

Updated April 28, 2026

Daniel Nelson

Недавно команда исследователей из MIT-IBM Watson AI Lab создала метод отображения того, что Generative Adversarial Network оставляет вне изображения, когда запрашивается генерация изображений. Исследование было названо Seeing What a GAN Cannot Generate, и оно было недавно представлено на Международной конференции по компьютерному зрению.

Generative Adversarial Networks стали более прочными, сложными и широко используемыми в последние годы. Они стали довольно хорошими в рендеринге изображений, полных деталей, пока это изображение ограничено относительно небольшой областью. Однако, когда GANs используются для генерации изображений более крупных сцен и сред, они не работают так хорошо. В сценариях, когда GANs запрашиваются для рендеринга сцен, полных многих объектов и предметов, таких как оживленная улица, GANs часто оставляют многие важные аспекты изображения.

Согласно MIT News, исследование было разработано в частности Дэвидом Бау, аспирантом отделения электротехники и компьютерных наук в MIT. Бау объяснил, что исследователи обычно сосредотачиваются на усовершенствовании того, на что системы машинного обучения обращают внимание, и на определении того, как определенные входные данные могут быть сопоставлены с определенными выходными данными. Однако Бау также объяснил, что понимание того, какие данные игнорируются моделями машинного обучения, часто столь же важно, и что команда исследователей надеется, что их инструменты вдохновят исследователей обращать внимание на игнорируемые данные.

Интерес Бау к GANs был вызван тем, что они могут быть использованы для изучения черного ящика нейронных сетей и для получения интуиции о том, как сети могут рассуждать. Бау ранее работал над инструментом, который мог идентифицировать конкретные кластеры искусственных нейронов, помечая их как ответственные за представление реальных объектов, таких как книги, облака и деревья. Бау также имел опыт работы с инструментом под названием GANPaint, который позволяет художникам удалять и добавлять определенные функции из фотографий с помощью GANs. Согласно Бау, приложение GANPaint показало потенциальную проблему с GANs, проблему, которая стала очевидной, когда Бау проанализировал изображения. Как Бау сказал MIT News:

“Мой руководитель всегда поощрял нас смотреть за пределы цифр и изучать фактические изображения. Когда мы посмотрели, явление сразу же стало очевидным: Люди были выброшены избирательно.”

Хотя системы машинного обучения предназначены для извлечения закономерностей из изображений, они также могут игнорировать релевантные закономерности. Бау и другие исследователи экспериментировали с обучением GANs на различных внутренних и внешних сценах, но во всех типах сцен GANs оставили важные детали в сценах, такие как машины, дорожные знаки, люди, велосипеды и т. д. Это было верно даже тогда, когда объекты, оставленные вне, были важны для сцены в вопросе.

Команда исследователей предположила, что когда GAN обучается на изображениях, GAN может найти более легкий способ захватить закономерности изображения, которые легче представить, такие как крупные стационарные объекты, такие как пейзажи и здания. Он учит эти закономерности над другими, более трудными для интерпретации закономерностями, такими как машины и люди. Это было общим знанием, что GANs часто опускают важные, осмысленные детали при генерации изображений, но исследование команды MIT может быть первым случаем, когда GANs были продемонстрированы как опускающие целые классы объектов внутри изображения.

Команда исследователей отмечает, что GANs могут достигать своих числовых целей, даже когда они оставляют объекты, которые люди заботятся о них при просмотре изображений. Если изображения, сгенерированные GANs, будут использоваться для обучения сложных систем таких как автономные транспортные средства, изображения должны быть внимательно изучены, поскольку существует реальная обеспокоенность, что критические объекты, такие как знаки, люди и другие машины, могут быть оставлены вне изображений. Бау объяснил, что их исследование показывает, почему производительность модели не должна основываться только на точности:

“Нам нужно понять, что сети делают и не делают, чтобы убедиться, что они делают выбор, который мы хотим, чтобы они сделали.”

Daniel Nelson

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.

Unite.AI

Новый инструмент может показать исследователям, что GANs оставляют вне изображения

You may like