заглушки Улучшение фотореализма моделирования вождения с помощью генеративно-состязательных сетей — Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Улучшение фотореализма моделирования вождения с помощью генеративно-состязательных сетей

mm
обновленный on

В рамках новой исследовательской инициативы США и Китая предлагается использовать генеративно-состязательные сети (GAN) для повышения реалистичности симуляторов вождения.

В новом подходе к задаче создания фотореалистичных сценариев вождения от первого лица исследователи разработали гибридный метод, который использует сильные стороны различных подходов, смешивая более фотореалистичные выходные данные систем на основе CycleGAN с более традиционными элементами, которые требуют более высокий уровень детализации и последовательности, например, дорожная разметка и фактические транспортные средства, наблюдаемые с точки зрения водителя.

Гибридная генеративная нейронная графика (HGNG) предлагает новое направление для моделирования вождения, которое сохраняет точность 3D-моделей для основных элементов (таких как дорожная разметка и транспортные средства), в то же время используя сильные стороны GAN в создании интересных и неповторяющихся фона и окружающей среды. деталь. Источник

Гибридная генеративная нейронная графика (HGNG) предлагает новое направление для моделирования вождения, которое сохраняет точность 3D-моделей для основных элементов (таких как дорожная разметка и транспортные средства), в то же время используя сильные стороны GAN в создании интересных и неповторяющихся фона и окружающей среды. деталь. Источник

Система под названием Hybrid Generative Neural Graphics (HGNG) вводит крайне ограниченные выходные данные обычного симулятора вождения на основе CGI в конвейер GAN, где NVIDIA ШПАГИ framework берет на себя работу по генерации окружения.

Преимущество, по мнению авторов, заключается в том, что условия вождения станут потенциально более разнообразными, создавая более захватывающий опыт. В нынешнем виде даже преобразование Вывод CGI в фотореалистичный вывод нейронного рендеринга не может решить проблему повторения, поскольку исходный материал, поступающий в нейронный конвейер, ограничен ограничениями среды модели и их тенденцией к повторению текстур и сеток.

Источник: https://www.youtube.com/watch?v=0fhUJT21-bs

Конвертированные кадры из 2021 года бумаги «Улучшение фотореализма», которое по-прежнему зависит от отснятого материала с компьютерной графикой, включая фон и общие детали окружения, что ограничивает разнообразие окружающей среды в моделируемом опыте. Источник: https://www.youtube.com/watch?v=P1IcaBn3ej0

В документе указано*:

«Точность обычного симулятора вождения зависит от качества его конвейера компьютерной графики, который состоит из 3D-моделей, текстур и механизма рендеринга. Высококачественные 3D-модели и текстуры требуют мастерства, тогда как движок рендеринга должен выполнять сложные физические расчеты для реалистичного представления. освещение и затенение.'

Ассоциация Новый документ называется Фотореализм в симуляторах вождения: сочетание генеративно-состязательного синтеза изображений с рендерингом, и исходит от исследователей факультета электротехники и вычислительной техники Университета штата Огайо и компании Chongqing Changan Automobile Co Ltd в Чунцине, Китай.

Справочный материал

HGNG преобразует семантический макет входной сцены, созданной CGI, путем смешивания частично визуализированного материала переднего плана со средами, созданными GAN. Хотя исследователи экспериментировали с различными наборами данных для обучения моделей, наиболее эффективным оказался КИТТИ Vision Benchmark Suite, в котором в основном представлены кадры видео от первого лица водителя из немецкого города Карлсруэ.

HGNG создает макет семантической сегментации из выходных данных, визуализированных CGI, а затем вставляет SPADE с различными кодировками стиля для создания случайных и разнообразных фотореалистичных фоновых изображений, включая близлежащие объекты в городских сценах. В новой статье говорится, что повторяющиеся шаблоны, характерные для конвейеров CGI с ограниченными ресурсами, «нарушают погружение» для людей-водителей, использующих симулятор, и что более разнообразный фон, который может предоставить GAN, облегчает эту проблему.

HGNG создает макет семантической сегментации из результатов, визуализированных CGI, а затем вставляет SPADE с различными кодировками стиля для создания случайных и разнообразных фотореалистичных фоновых изображений, включая близлежащие объекты в городских сценах. В новой статье говорится, что повторяющиеся шаблоны, которые являются общими для конвейеров CGI с ограниченными ресурсами, «нарушают погружение» для людей-водителей, использующих симулятор, и что более разнообразный фон, который может предоставить GAN, может облегчить эту проблему.

Исследователи экспериментировали с обоими  Условный ГАН (цГАН) и ЦИКЛГАН (CyGAN) в качестве генерирующих сетей, в конечном итоге обнаружив, что каждая из них имеет сильные и слабые стороны: cGAN требует парные наборы данных, а CyGAN — нет. Тем не менее, CyGAN в настоящее время не может превзойти уровень техники в обычных симуляторах, ожидая дальнейших улучшений в адаптация домена и стабильность цикла. Поэтому cGAN с его дополнительными требованиями к парным данным дает на данный момент наилучшие результаты.

Концептуальная архитектура HGNG.

Концептуальная архитектура HGNG.

В нейронном графическом конвейере HGNG 2D-представления формируются из сцен, синтезированных с помощью компьютерной графики. Объекты, которые передаются в поток GAN из рендеринга CGI, ограничены «основными» элементами, включая дорожную разметку и транспортные средства, которые сама GAN в настоящее время не может визуализировать с адекватной временной согласованностью и целостностью для симулятора вождения. Синтезированное cGAN изображение затем смешивается с частичной физической визуализацией.

Tests

Для тестирования системы исследователи использовали SPADE, обученный на Городские пейзажи, чтобы преобразовать семантический макет сцены в фотореалистичный вывод. Источник CGI взят из симулятора вождения с открытым исходным кодом. КАРЛА, который использует Unreal Engine 4 (UE4).

Вывод из симулятора вождения с открытым исходным кодом CARLA. Источник: https://arxiv.org/pdf/1711.03938.pdf

Вывод из симулятора вождения с открытым исходным кодом CARLA. Источник: https://arxiv.org/pdf/1711.03938.pdf

Механизм затенения и освещения UE4 предоставил семантический макет и частично визуализированные изображения с выводом только транспортных средств и разметки полос. Смешение было достигнуто с помощью ГП-ГАН экземпляр, обученный на База данных переходных атрибутов, и все эксперименты выполняются на NVIDIA RTX 2080 с 8 ГБ видеопамяти GDDR6.

SIGGRAPH 2014 — Переходные атрибуты для высокоуровневого понимания и редактирования наружных сцен

Исследователи проверили на семантическое сохранение – способность выходного изображения соответствовать исходной семантической маске сегментации, предназначенной в качестве шаблона для сцены.

На тестовых изображениях выше мы видим, что на изображении «только рендеринг» (внизу слева) полный рендеринг не дает правдоподобных теней. Исследователи отмечают, что здесь (желтый кружок) тени деревьев, падающие на тротуар, были ошибочно классифицированы ДипЛабВ3 (структура семантической сегментации, используемая для этих экспериментов) как «дорожное» содержимое.

В средней колонке мы видим, что автомобили, созданные с помощью cGAN, не имеют достаточно последовательного определения, чтобы их можно было использовать в симуляторе вождения (красный кружок). В крайнем правом столбце смешанное изображение соответствует исходному семантическому определению, сохраняя при этом основные элементы на основе компьютерной графики.

Для оценки реалистичности исследователи использовали Начальное расстояние Фреше (FID) в качестве показателя производительности, поскольку он может работать с парными или непарными данными.

В качестве исходных данных использовались три набора данных: Cityscapes, KITTI и АДЭ20К.

Выходные изображения сравнивались друг с другом с использованием оценок FID и с конвейером, основанным на физике (т. е. CGI), при этом также оценивалось семантическое сохранение.

В приведенных выше результатах, которые относятся к семантическому удержанию, чем выше балл, тем лучше, причем подход на основе пирамиды CGAN (один из нескольких конвейеров, протестированных исследователями) получил наивысший балл.

Результаты, изображенные непосредственно выше, относятся к баллам FID, причем наивысший балл HGNG получен благодаря использованию набора данных KITTI.

Метод «Только рендеринг» (обозначается как [23]) относится к выходным данным CARLA, потоку CGI, который не должен быть фотореалистичным.

Качественные результаты на обычном движке рендеринга (буква «c» на изображении выше) показывают нереалистичную удаленную фоновую информацию, такую ​​как деревья и растительность, при этом требуются подробные модели и своевременная загрузка сетки, а также другие процедуры, интенсивно использующие процессор. В середине (b) мы видим, что cGAN не может получить адекватное определение основных элементов, автомобилей и дорожной разметки. В предлагаемом смешанном выводе (a) четкость транспортного средства и дороги хорошая, а окружающая среда разнообразна и фотореалистична.

В заключение в документе делается предположение, что временная согласованность сгенерированного GAN участка конвейера рендеринга может быть повышена за счет использования больших наборов городских данных, и что будущая работа в этом направлении может предложить реальную альтернативу дорогостоящим нейронным преобразованиям на основе компьютерной графики. потоки, обеспечивая при этом больший реализм и разнообразие.

 

* Мое преобразование встроенных цитат авторов в гиперссылки.

Впервые опубликовано 23 июля 2022 г.