Искусственный интеллект

Преобразование LiDAR в фотореалистичные изображения с помощью генеративной сети противников

Published December 23, 2021

Updated April 5, 2026

Martin Anderson

Ранее на этой неделе был выпущен ролик, показывающий систему автопилота Tesla, врезающуюся в бок остановившегося транспортного средства на трассе в июне 2021 года. То, что машина была темной и трудно различимой, вызвало обсуждение на тему ограничений использования компьютерного зрения в сценариях автономного вождения.

Выпущенный в декабре 2021 года ролик показывает момент столкновения. Источник: https://twitter.com/greentheonly/status/1473307236952940548

Хотя сжатие видео в широко распространенном ролике дает слегка преувеличенное впечатление о том, как быстро обездвижена грузовик «подкрался» к водителю в этом случае, видео более высокого качества того же события показывает, что полностью бдительный водитель также бы испытывал трудности с ответом, кроме как с помощью запоздалого поворота или полуэффективного торможения.

Ролик добавляет к спорам вокруг решения Tesla удалить радарные датчики для Autopilot, объявленного в мае 2021 года, и его позиции по предпочтению систем, основанных на компьютерном зрении, над другими технологиями эхо-локации, такими как LiDAR.

Совпадением, новая исследовательская работа из Израиля на этой неделе предлагает подход к объединению областей LiDAR и компьютерного зрения, преобразуя облака точек LiDAR в фотореалистичные изображения с помощью генеративной сети противников (GAN).

В новом проекте из Израиля черные машины, выявленные в кадрах LiDAR, преобразуются в «дневную» сцену для анализов, основанных на компьютерном зрении, аналогично подходу, который Tesla преследует для разработки своей системы Autopilot. Источник: https://arxiv.org/pdf/2112.11245.pdf

Авторы утверждают:

‘Наши модели научились предсказывать реалистично выглядящие изображения из простых данных о облаке точек, даже изображения с черными машинами.

‘Черные машины трудно обнаружить напрямую из облака точек из-за их низкого уровня отражающей способности. Этот подход может быть использован в будущем для выполнения визуального распознавания объектов на фотореалистичных изображениях, сгенерированных из облаков точек LiDAR.’

Фотореалистичные, основанные на LiDAR изображения

Новая работа называется Генерация фотореалистичных изображений из облаков точек LiDAR с помощью генеративных сетей противников, и исходит от семи исследователей из трех израильских академических факультетов, вместе с шестью исследователями из израильской компании Innoviz Technologies.

Исследователи поставили цель выяснить, могут ли синтетические изображения на основе GAN быть произведены с подходящей скоростью из облаков точек, сгенерированных системами LiDAR, так что последующий поток изображений может быть использован в задачах распознавания объектов и семантической сегментации.

Данные

Центральная идея, как и в многих новых [x]>[x] проектах по транслитерации изображений, заключается в том, чтобы обучить алгоритм на парных данных, где изображения облаков точек LiDAR (которые полагаются на свет, излучаемый устройством) обучаются против соответствующего кадра с передней камеры.

Поскольку ролик был снят днем, когда система компьютерного зрения может более легко индивидуализировать в противном случае-elusive все-черный автомобиль (такой как тот, в который врезалась Tesla в июне), это обучение должно обеспечить центральную истину, более устойчивую к темным условиям.

Данные были собраны с помощью датчика LiDAR InnovizOne, который предлагает скорость захвата 10fps или 15fps, в зависимости от модели.

Данные LiDAR, захваченные устройством Innoviz. Источник: https://www.youtube.com/watch?v=wmcaf_VpsQI

Результирующий набор данных содержал около 30 000 изображений и 200 000 собранных 3D-точек. Исследователи провели два теста: один, в котором данные о облаке точек содержали только информацию о отражающей способности; и второй, в котором данные о облаке точек имели два канала, по одному для отражающей способности и расстояния.

Для первого эксперимента GAN была обучена в течение 50 эпох, после чего была обнаружена проблема переобучения.

Изображения, созданные GAN, из первого эксперимента. Слева, данные о облаке точек; в центре, фактические кадры из захваченного ролика, использованные в качестве эталона; справа, синтетические представления, созданные генеративной сетью противников.

Авторы комментируют:

‘Тестовый набор представляет собой совершенно новую запись, которую GAN никогда не видел до теста. Это было предсказано только на основе информации о отражающей способности из облака точек.

‘Мы выбрали показать кадры с черными машинами, потому что черные машины обычно трудно обнаружить из LiDAR. Мы видим, что генератор научился генерировать черные машины, вероятно, из контекстной информации, из-за того, что цвета и точные формы объектов в предсказанных изображениях не идентичны реальным изображениям.’

Для второго эксперимента авторы обучили GAN в течение 40 эпох при размере пакета 1, в результате чего получили аналогичное представление «представительных» черных машин, полученных в основном из контекста. Эта конфигурация также была использована для генерации видео, которое показывает кадры, сгенерированные GAN (на верхнем изображении, в образце ниже), вместе с эталонным роликом.

Оценка

Обычный процесс оценки и сравнения с существующим уровнем технологий не был возможен в этом проекте из-за его уникальной природы. Вместо этого исследователи разработали пользовательский метрический показатель, касающийся степени, в которой машины (незначительные и мимолетные части исходного ролика) представлены в выходном ролике.

Они выбрали 100 пар LiDAR/сгенерированных изображений из каждого набора и эффективно разделили количество изображений машин, присутствующих в исходном ролике, на количество изображений машин, присутствующих в синтетических данных, произведя метрический масштаб от 0 до 1.

Авторы утверждают:

‘Оценка в обоих экспериментах составила между 0,7 и 0,8. Учитывая тот факт, что общее качество предсказанных изображений ниже, чем у реальных изображений (обычно труднее обнаружить объекты в изображениях более низкого качества), этот балл указывает на то, что подавляющее большинство машин, присутствующих в эталонных изображениях, присутствуют в предсказанных изображениях.’

Исследователи заключили, что обнаружение черных транспортных средств, которое является проблемой как для систем, основанных на компьютерном зрении, так и для LiDAR, может быть осуществлено путем выявления отсутствия данных для секций изображения:

‘Тот факт, что в предсказанных изображениях информация о цвете и точные формы не идентичны эталонным, говорит о том, что предсказание черных машин в основном происходит из контекстной информации, а не из отражающей способности самих точек LiDAR.

‘Мы предлагаем, что, в дополнение к обычной системе LiDAR, вторая система, генерирующая фотореалистичные изображения из облаков точек LiDAR, будет работать параллельно для визуального распознавания объектов в реальном времени.’

Исследователи намерены развивать эту работу в будущем, с более крупными наборами данных.

Задержка и загруженный стек обработки SDV

Один из комментаторов широко распространенного твита об аварии Autopilot оценил, что, движущийся со скоростью около 75 миль в час (110 футов в секунду), видеопоток, работающий с частотой 20 кадров в секунду, покрывал бы только 5,5 футов на кадр. Однако, если транспортное средство было оснащено последним оборудованием и программным обеспечением Tesla, частота кадров составила бы 36 кадров в секунду (для основной камеры), что устанавливает скорость оценки на 110 футов в секунду (три фута на кадр).

Помимо стоимости и эргономики, проблема использования LiDAR в качестве дополнительного потока данных заключается в огромном масштабе информационной «пробки» входных данных датчиков в框워크 обработки SDV. В сочетании с критической природой задачи, это, кажется, заставило радар и LiDAR выйти из стека Autopilot в пользу методов оценки, основанных на изображениях.

Следовательно, кажется маловероятным, что система, использующая LiDAR для вывода фотореалистичных изображений, является осуществимой с точки зрения Tesla.

Основатель Tesla Илон Маск не является безоговорочным критиком LiDAR, который, как он указывает, используется SpaceX для процедур стыковки, но считает, что эта технология «бесполезна» для самоходных транспортных средств. Маск предлагает, что проникающая в occlusion-волна, такая как ~4мм точности радара, была бы более полезной.

Однако, по состоянию на июнь 2021 года, транспортные средства Tesla не оснащены радаром. В настоящее время не кажется, что существует много проектов, предназначенных для генерации потоков изображений из радара таким же образом, как текущий израильский проект (хотя Министерство энергетики США спонсировало одну попытку для радар-источника GAN-изображений в 2018 году).

Опубликовано впервые 23 декабря 2021 года.