Искусственный интеллект
Улучшение фотореализма симуляторов вождения с помощью генеративных состязательных сетей

Новый исследовательский проект между США и Китаем предложил использовать генеративные состязательные сети (GAN) для увеличения реализма симуляторов вождения.
В новом подходе к задаче создания фотореализма с точки зрения водителя, исследователи разработали гибридный метод, который сочетает более фотореалистичный вывод систем на основе CycleGAN с более традиционно сгенерированными элементами, которые требуют более высокого уровня детализации и последовательности, таких как дорожные знаки и сами транспортные средства, видимые с точки зрения водителя.

Гибридная генеративная нейронная графика (HGNG) предлагает новое направление для симуляций вождения, которое сохраняет точность 3D-моделей для важных элементов (таких как дорожные знаки и транспортные средства), одновременно используя сильные стороны GAN в генерации интересных и неповторяющихся фонов и окружающих деталей. Источник
Система, называемая гибридной генеративной нейронной графикой (HGNG), вводит сильно ограниченный вывод из традиционного, основанного на CGI симулятора вождения в pipeline GAN, где фреймворк NVIDIA SPADE берет на себя работу по генерации окружающей среды.
Преимущество, по мнению авторов, заключается в том, что среды вождения могут стать потенциально более разнообразными, создавая более погружающий опыт. Как это стоит сейчас, даже преобразование вывода CGI в фотореалистичный нейронный рендеринг не может решить проблему повторения, поскольку исходный материал, поступающий в нейронную трубу, ограничен ограничениями моделей окружающей среды и их тенденцией повторять текстуры и сетки.

Преобразованный материал из статьи 2021 года paper ‘Улучшение фотореализма’, который остается зависим от CGI-рендеринга, включая фон и общую окружающую среду, ограничивая разнообразие окружающей среды в симулированном опыте. Источник: https://www.youtube.com/watch?v=P1IcaBn3ej0
В статье говорится*:
‘Верность традиционного симулятора вождения зависит от качества его графического конвейера, который состоит из 3D-моделей, текстур и рендерингового движка. Высококачественные 3D-модели и текстуры требуют художественного мастерства, тогда как рендеринговый движок должен выполнять сложные физические расчеты для реалистичного представления освещения и затенения.’
Новая статья* под названием Фотореализм в симуляциях вождения: сочетание генеративной состязательной синтеза изображений с рендерингом, и исходит от исследователей из департамента электротехники и информатики в Университете штата Огайо, и Chongqing Changan Automobile Co Ltd в Чунцине, Китай.
Фоновая информация
HGNG преобразует семантическую структуру входной сцены, сгенерированной CGI, смешивая частично отрендеренный фон с GAN-генерированными окружающими средами. Хотя исследователи экспериментировали с различными наборами данных для обучения моделей, наиболее эффективным оказался KITTI Vision Benchmark Suite, который в основном содержит кадры с точки зрения водителя из немецкого города Карлсруэ.

HGNG генерирует семантическую структуру из вывода CGI, а затем вставляет SPADE с различными стилями кодирования, чтобы создать случайные и разнообразные фотореалистичные фоновые изображения, включая ближайшие объекты в городских сценах. Новая статья гласит, что повторяющиеся закономерности, которые являются общими для ограниченных ресурсами CGI-пайплайнов, ‘нарушают погружение’ для человеческих водителей, использующих симулятор, и что более разнообразные фоны, которые может обеспечить GAN, смягчают эту проблему.
Исследователи экспериментировали с условными GAN (cGAN) и CYcleGAN (CyGAN) в качестве генеративных сетей, обнаружив в конечном итоге, что каждая имеет сильные и слабые стороны: cGAN требует парных наборов данных, а CyGAN не требует. Однако CyGAN в настоящее время не может превзойти состояние дел в традиционных симуляторах, в ожидании дальнейших улучшений в адаптации домена и циклической последовательности. Поэтому cGAN, с его дополнительными требованиями к парным данным, получает лучшие результаты на данный момент.

Концептуальная архитектура HGNG.
В нейронной графической трубе HGNG формируются 2D-представления из сцен, сгенерированных CGI. Объекты, которые передаются в GAN, ограничиваются ‘важными’ элементами, включая дорожные знаки и транспортные средства, которые GAN сам по себе в настоящее время не может отрендерить с достаточной временной последовательностью и целостностью для симулятора вождения. cGAN-синтезированное изображение затем смешивается с частично физически основанным рендером.
Тесты
Чтобы протестировать систему, исследователи использовали SPADE, обученную на Cityscapes, чтобы преобразовать семантическую структуру сцены в фотореалистичный вывод. Источник CGI исходил из открытого симулятора вождения CARLA, который использует Unreal Engine 4 (UE4).

Вывод из открытого симулятора вождения CARLA. Источник: https://arxiv.org/pdf/1711.03938.pdf
Движок затенения и освещения UE4 обеспечил семантическую структуру и частично отрендеренные изображения, с только транспортными средствами и дорожными знаками на выводе. Смешивание было достигнуто с помощью GP-GAN экземпляра, обученного на Transient Attributes Database, и все эксперименты проводились на NVIDIA RTX 2080 с 8 ГБ GDDR6 VRAM.
Исследователи протестировали на семантическое сохранение – способность вывода соответствовать исходной семантической маске, предназначенной в качестве шаблона для сцены.
В тестовых изображениях выше мы видим, что в ‘только рендере’ (внизу слева) полный рендер не получает правдоподобных теней. Исследователи отмечают, что здесь (желтый круг) тени деревьев, падающие на тротуар, были ошибочно классифицированы DeepLabV3 (семантической сетью, использованной для этих экспериментов) как ‘дорожное’ содержимое.
В средней колонке мы видим, что cGAN-созданные транспортные средства не имеют достаточной последовательной определенности, чтобы быть использованными в симуляторе вождения (красный круг). В правой колонке смешанное изображение соответствует исходной семантической определению, сохраняя при этом важные элементы CGI.
Чтобы оценить реализм, исследователи использовали Frechet Inception Distance (FID) в качестве метрики производительности, поскольку он может работать с парными данными или непарными данными.
Три набора данных были использованы в качестве эталона: Cityscapes, KITTI и ADE20K.
Выводные изображения были сравнены друг с другом с помощью FID-оценок, и с физически основанным (т.е. CGI) конвейером, а также оценивалось семантическое сохранение.

В результатах выше, которые относятся к семантическому сохранению, более высокие оценки лучше, с подходом на основе пирамиды cGAN (одним из нескольких конвейеров, протестированных исследователями) получившим наивысший балл.

Результаты, изображенные выше, относятся к FID-оценкам, с HGNG, получившим наивысший балл с использованием набора данных KITTI.
Метод ‘Только рендер’ (обозначенный как [23]) относится к выводу из CARLA, CGI-потоку, который не ожидается быть фотореалистичным.
Качественные результаты на традиционном рендеринговом движке (‘c’ в изображении выше) демонстрируют нереалистичную дальнюю фоническую информацию, такую как деревья и растительность, требуя при этом подробных моделей и загрузки сеток, а также других процессорно-интенсивных процедур. В средней части (b) мы видим, что cGAN не может получить достаточную определенность для важных элементов, автомобилей и дорожных знаков. В предложенном смешанном выводе (a) определение транспортных средств и дорог хорошее, а окружающая среда разнообразна и фотореалистична.
Статья заключает, что временная последовательность GAN-генерированной части рендерингового конвейера может быть увеличена с помощью более крупных городских наборов данных, и что будущая работа в этом направлении может предложить реальную альтернативу дорогостоящим нейронным преобразованиям CGI-основанных потоков, обеспечивая при этом более высокий реализм и разнообразие.
* Мое преобразование внутренних цитат авторов в гиперссылки.
Опубликовано впервые 23 июля 2022 года.














