Свяжитесь с нами:

Обнаружение зрительного контакта с позой тела с помощью машинного обучения

Искусственный интеллект

Обнаружение зрительного контакта с позой тела с помощью машинного обучения

mm

Исследователи из Франции и Швейцарии разработали систему компьютерного зрения, которая может оценить, смотрит ли человек прямо в «эго»-камеру системы искусственного интеллекта, основываясь исключительно на том, как человек стоит или двигается.

Новая структура использует очень упрощенную информацию для проведения этой оценки в виде семантических ключевых точек (см. изображение ниже), а не пытается в первую очередь проанализировать положение глаз на изображениях лиц. Это делает результирующий метод обнаружения очень легким и гибким по сравнению с архитектурами обнаружения объектов с большим объемом данных, такими как YOLO.

Новая структура оценивает, смотрит ли человек на улице на датчик захвата ИИ, основываясь исключительно на расположении его тела. Здесь люди, выделенные зеленым цветом, скорее всего, смотрят в камеру, а люди, выделенные красным, скорее всего, отводят взгляд. Источник: https://arxiv.org/pdf/2112.04212.pdf

Новая система оценивает, смотрит ли человек на улице на датчик захвата ИИ, основываясь исключительно на положении его тела. В данном случае люди, выделенные зелёным цветом, скорее всего, смотрят в камеру, а те, что выделены красным, скорее всего, смотрят в сторону. Источник: https://arxiv.org/pdf/2112.04212.pdf

Хотя работа мотивирована разработкой более совершенных систем безопасности для автономных транспортных средств, авторы новой статьи признают, что она может иметь более широкое применение в других отраслях, наблюдая «даже в умных городах обнаружение зрительного контакта может быть полезным для лучшего понимания поведения пешеходов, например, определения того, куда направлено их внимание или на какие публичные знаки они смотрят».

Чтобы помочь в дальнейшем развитии этой и последующих систем, исследователи собрали новый всеобъемлющий набор данных под названием LOOK, который напрямую решает конкретные проблемы обнаружения зрительного контакта в произвольных сценариях, таких как уличные сцены, снятые с подвижной камеры беспилотного автомобиля. транспортного средства или случайных массовых сцен, через которые роботу может потребоваться ориентироваться и подчиняться пути пешеходов.

Результаты фреймворка, а «наблюдатели» выделены зеленым цветом.

Результаты анализа фреймворка, «зрители» обозначены зеленым цветом.

Радиус корня исследованиями называется Пешеходы обращают внимание? Обнаружение зрительного контакта в дикой природе, и исходит от четырех исследователей исследовательской инициативы Visual Intelligence for Transportation (VITA) в Швейцарии и одного из Сорбоннского университета.

Архитектура

Большая часть предыдущих работ в этой области была сосредоточена на внимании водителя с использованием машинного обучения для анализа выходных данных камер, направленных на водителя, и опорой на постоянный, фиксированный и близкий вид на водителя — роскошь, которая вряд ли будет доступна при часто низком разрешении трансляций камер общественного телевидения, где люди могут находиться слишком далеко, чтобы система анализа лиц могла определить расположение их глаз, и где также мешают другие преграды (например, солнцезащитные очки).

Что ещё важнее для заявленной цели проекта, внешние камеры в беспилотных автомобилях также не обязательно будут работать в оптимальном режиме, что делает информацию о ключевых точках «низкого уровня» идеальной основой для анализа взгляда. Системам беспилотных автомобилей необходим высокочувствительный и молниеносный способ определить, увидел ли беспилотник пешеход, который может сойти с тротуара на траекторию движения автомобиля. В такой ситуации задержка может иметь решающее значение между жизнью и смертью.

Модульная архитектура, разработанная исследователями, включает (обычно) изображение человека в полный рост, из которого двумерные суставы извлекаются в базовую скелетную форму.

Архитектура новой французско-швейцарской системы обнаружения зрительного контакта.

Архитектура новой французско-швейцарской системы обнаружения зрительного контакта.

Поза нормализуется, чтобы удалить информацию по оси Y, чтобы создать «плоское» представление позы, которое ставит ее в соответствие с тысячами известных поз, изученных алгоритмом (которые также были «сглажены»), и их связанными бинарными флагами/метками (т. е. 0: Не смотрю or 1: Глядя).

Поза сравнивается с внутренними знаниями алгоритма о том, насколько хорошо эта поза соответствует изображениям других пешеходов, которые были идентифицированы как «смотрящие в камеру» — аннотациям, сделанным с помощью специальных инструментов браузера, разработанных авторами для работников Amazon Mechanical Turk, которые принимали участие в разработке набора данных LOOK.

Каждое изображение в LOOK было тщательно изучено четырьмя работниками AMT, и только те изображения, по которым трое из четырех согласились с результатом, были включены в окончательную коллекцию.

Информация о всходах, являющаяся основой многих предыдущих работ, является одним из наименее надежных индикаторов взгляда в произвольных городских сценариях и включается в качестве дополнительного потока данных в архитектуру, где качество захвата и охват достаточны для поддержки решения о том, является ли человек смотрит в камеру или нет. В случае очень далеких людей это бесполезные данные.

Данные

Исследователи создали LOOK на основе нескольких предыдущих наборов данных, которые изначально не подходят для этой задачи. Единственные два набора данных, которые непосредственно относятся к проекту, — это ДЖААД и PIE, и у каждого есть ограничения.

JAAD — это предложение 2017 года Йоркского университета в Торонто, содержащее 390,000 17,000 помеченных примеров пешеходов, включая ограничивающие прямоугольники и аннотации поведения. Из них только XNUMX XNUMX помечены как Глядя на водителя (т.е. эго-камера). Набор данных включает 346 клипов со скоростью 30 кадров в секунду, которые записываются на 5-10 секунд видеозаписи с бортовой камеры, записанной в Северной Америке и Европе. JAAD имеет высокий уровень повторов, а общее количество уникальных пешеходов составляет всего 686 человек.

Более новая версия PIE (2019 г.) от Йоркского университета в Торонто похожа на JAAD тем, что в ней используются встроенные кадры со скоростью 30 кадров в секунду, полученные в ходе шестичасовой поездки по центру Торонто. В результате получается 700,000 1,842 аннотированных пешеходов и 180 XNUMX уникальных пешехода, только XNUMX из которых смотрят в камеру.

Вместо этого исследователи для новой статьи собрали наиболее подходящие данные из трех предыдущих наборов данных об автономном вождении: КИТТИ, JRDB и НюСцены, соответственно, из Технологического института Карлсруэ в Германии, Стэнфордского университета и Университета Монаша в Австралии, а также бывшего дочернего предприятия Массачусетского технологического института Nutonomy.

В результате этого отбора был получен разнообразный набор снимков из четырёх городов: Бостона, Сингапура, Тюбингена и Пало-Альто. Авторы утверждают, что LOOK, содержащий около 8000 маркированных точек зрения пешеходов, является самым разнообразным набором данных для распознавания зрительного контакта «в дикой природе».

Обучение и результаты

Извлечение, обучение и оценка выполнялись на одной видеокарте NVIDIA GeForce GTX 1080ti с 11 ГБ видеопамяти, работающей на процессоре Intel Core i7-8700 с тактовой частотой 3.20 ГГц.

Авторы обнаружили, что их метод не только улучшает базовые показатели SOTA не менее чем на 5%, но также и то, что полученные модели, обученные на JAAD, очень хорошо обобщают невидимые данные, сценарий проверен путем перекрестного смешивания ряда наборов данных.

Поскольку проведенное тестирование было сложным и требовало учета моделей на основе кадрирования (хотя изоляция лиц и кадрирование не являются центральными в архитектуре новой инициативы), подробные результаты см. в статье.

Результаты для средней точности (AP) в процентах и ​​функция высоты ограничивающей рамки в пикселях для тестирования в наборе данных JAAD, результаты авторов выделены жирным шрифтом.

Результаты для средней точности (AP) в процентах и ​​функции высоты ограничивающего прямоугольника в пикселях для тестирования по набору данных JAAD; результаты авторов выделены жирным шрифтом.

Исследователи опубликовали свой код публично с доступным набором данных. здесь, и исходный код на GitHub.

Авторы заключают с надеждой, что их работа вдохновит на дальнейшие исследования в том, что они называют «важная, но упускаемая из виду тема».

 

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai