Штучний інтелект
Перетворення LiDAR у фото-реалістичні зображення за допомогою генеративної мережі противників

На початку цієї тижня було опубліковано відеозапис, який показує, як система автопілота Tesla в’їхала прямо в бік припаркованого транспортного засобу на автомагістралі у червні 2021 року. Той факт, що автомобіль був темним і важко розрізнюваним, спровокував обговорення про обмеження використання комп’ютерного зору в автономному водінні.

Відеозапис, опублікований у грудні 2021 року, показує момент зіткнення. Джерело: https://twitter.com/greentheonly/status/1473307236952940548
Хоча відеокодування у широко поширеному відеозаписі дещо перебільшує швидкість, з якою знерухомлений вантажівка «вискочила» перед водієм у цьому випадку, відеозапис вищої якості того самого події демонструє, що навіть повністю сприйнятий водій також мав би труднощі з реакцією, окрім запізнілої зміни напрямку або напівефективного гальмування.
Відеозапис додає до суперечок навколо рішення Tesla відмовитися від радарних датчиків для Autopilot, оголошеного у травні 2021 року, і його позиції щодо відданості системам, заснованим на зорі над іншими технологіями ехо-локалізації, такими як LiDAR.
Відповідальність випадку збіглася з тим, що нова дослідницька робота з Ізраїлю цього тижня пропонує підхід до поєднання доменів LiDAR і комп’ютерного зору, перетворюючи LiDAR-похмурі хмари в фото-реалістичні зображення за допомогою генеративної мережі противників (GAN).

У новому проєкті з Ізраїлю чорні автомобілі, виявлені у LiDAR-записах, перетворюються у «денні» сценарії для аналізів, заснованих на комп’ютерному зорі, схожих на підхід, який Tesla переслідує для розробки своєї системи Autopilot. Джерело: https://arxiv.org/pdf/2112.11245.pdf
Автори заявляють:
‘Наші моделі навчилися передбачати реалістично виглядячі зображення з даних лише хмар точок, навіть зображення з чорними автомобілями.
‘Чорні автомобілі важко виявити безпосередньо з хмар точок через низький рівень відбивної здатності. Цей підхід може бути використаний у майбутньому для виконання візуального розпізнавання об’єктів на фото-реалістичних зображеннях, згенерованих з LiDAR-хмар точок.’
Фото-реалістичні, LiDAR-основані потоки зображень
Нова робота названа Генерування фото-реалістичних зображень з LiDAR-хмар точок за допомогою генеративної мережі противників, і походить від семи дослідників трьох ізраїльських академічних факультетів, разом з шістьма дослідниками з Israel-based Innoviz Technologies.
Дослідники поставили за мету дізнатися, чи можна виробляти синтетичні зображення на основі GAN у прийнятній швидкості з хмар точок, згенерованих системами LiDAR, так щоб наступний потік зображень можна було використовувати у роботах з розпізнаванням об’єктів і семантичним розділенням.
Дані
Центральна ідея, як і у багатьох нових [x]>[x] проєктів транслітерації зображень, полягає у тому, щоб навчити алгоритм на парних даних, де LiDAR-хмари точок (які покладаються на світло, випромінене пристроєм) навчаються проти відповідного кадру з передньої камери.
Відповідно до того, що відеозапис був зроблений у денний час, коли система комп’ютерного зору може легше індивідуалізувати інакше-elusive чорний автомобіль (такий як той, у який в’їхала Tesla у червні), це навчання повинно забезпечити центральну основу істини, яка більш стійка до темних умов.
Дані були зібрані за допомогою датчика LiDAR InnovizOne, який пропонує швидкість захоплення 10fps або 15fps, залежно від моделі.

Дані LiDAR, захоплені пристроєм Innoviz. Джерело: https://www.youtube.com/watch?v=wmcaf_VpsQI
Результатом стала база даних, що містить близько 30 000 зображень і 200 000 зібраних 3D-точок. Дослідники провели два експерименти: один, у якому дані хмар точок містили лише інформацію про відбивну здатність; і другий, у якому дані хмар точок мали два канали, по одному для відбивної здатності і відстані.
Для першого експерименту GAN був навченний до 50 епох, після чого виникла проблема переобучення.

GAN-створені зображення з першого експерименту. Зліва, дані хмар точок; посередині, фактичні кадри з захопленого відео, використані як основа істини; справа, синтетичні представлення, створені генеративною мережею противників.
Автори коментують:
‘Тестова база даних є повністю новим записом, який GAN ніколи не бачив до тесту. Це було передбачено лише за інформацією про відбивну здатність з хмар точок.
‘Ми вирішили показати кадри з чорними автомобілями, оскільки чорні автомобілі зазвичай важко виявити з LiDAR. Ми бачимо, що генератор навчився генерувати чорні автомобілі, ймовірно, з контекстної інформації, через те, що кольори і точні форми об’єктів у передбачених зображеннях не ідентичні тим, що в реальних зображеннях.’
Для другого експерименту автори навчили GAN до 40 епох при розмірі партії 1, що призвело до подібного представлення «репрезентативних» чорних автомобілів, отриманих в основному з контексту. Ця конфігурація також була використана для генерації відео, яке показує GAN-створене відео (на верхньому зображенні нижче) разом з відео, використаним як основа істини.

Оцінка
Звичайний процес оцінки та порівняння з існуючими найкращими результатами не був можливим у цьому проєкті через його унікальну природу. Замість цього дослідники розробили спеціальну метрику щодо ступеня, у якому автомобілі (другорядні та мимовільні частини джерельного відео) представлені у вихідному відео.
Вони обрали 100 пар LiDAR/GeneratedValue зображень з кожного набору і ефективно розділили кількість зображень автомобілів, присутніх у джерельному відео, на кількість зображень автомобілів, присутніх у синтетичних даних, що призвело до метричної шкали від 0 до 1.
Автори заявляють:
‘Результат у обидвох експериментах був між 0,7 і 0,8. Ураховуючи той факт, що загальна якість передбачених зображень нижча, ніж у реальних зображеннях (це загалом складніше виявити об’єкти на зображеннях нижчої якості), цей результат вказує на те, що більша частина автомобілів, присутніх у джерельному відео, присутня у передбачених зображеннях.’
Дослідники зробили висновок, що виявлення чорних транспортних засобів, яке є проблемою як для систем, заснованих на комп’ютерному зорі, так і для LiDAR, можна здійснити шляхом виявлення відсутності даних для секцій зображення:
‘Той факт, що у передбачених зображеннях кольорова інформація і точні форми не ідентичні тим, що у джерельному відео, свідчить про те, що передбачення чорних автомобілів у основному походить з контекстної інформації, а не з LiDAR-відбивної здатності самих точок.
‘Ми пропонуємо, що, окрім традиційної системи LiDAR, друга система, яка генерує фото-реалістичні зображення з LiDAR-хмар точок, повинна працювати паралельно для візуального розпізнавання об’єктів у режимі реального часу.’
Дослідники планують розвивати роботу в майбутньому, з більшіми базами даних.
Затримка та переповнений стек обробки SDV
Один із коментаторів широко поширеного твіту про аварію Autopilot оцінив, що, рухаючись зі швидкістю близько 75 миль/год (110 футів за секунду), відеопотік, що працює з частотою 20 кадрів/с, покривав би лише 5,5 футів на кадр. Однак, якщо транспортний засіб був обладнаний останнім апаратним і програмним забезпеченням Tesla, частота кадрів становила б 36 кадрів/с (для основної камери), що встановлює оціночну швидкість на 110 футів за секунду (три фути на кадр).
Окрім вартості та ергономіки, проблема використання LiDAR як додаткового потоку даних полягає у величезному масштабі інформаційного «затору» датчиків у рамках обробки SDV. У поєднанні з критичним характером завдання це, здається, змусило радар і LiDAR вийти зі стека Autopilot на користь методів оцінки, заснованих на зображенні.
Отже, здається, що система, яка використовує LiDAR для отримання фото-реалістичного зображення, є малоймовірною з точки зору Tesla.
Засновник Tesla Elon Musk не є повним критиком LiDAR, який, як він зазначає, використовується компанією SpaceX для процедур докування, але вважає, що ця технологія «марна» для самоходних транспортних засобів. Musk вважає, що проникаюча довжина хвилі, така як ~4 мм точного радару, була б більш корисною.
Однак, станом на червень 2021 року транспортні засоби Tesla не обладнані радаром. Наразі не видно багатьох проєктів, призначених для генерації потоків зображень з радару так само, як і поточний ізраїльський проєкт (хоча Міністерство енергетики США спонсувало одну спробу генерації радар-джерелених зображень GAN у 2018 році).
Вперше опубліковано 23 грудня 2021 року.












