Взгляд Anderson

Обнаружение зрительного контакта по позе тела с помощью машинного обучения

mm

Исследователи из Франции и Швейцарии разработали систему компьютерного зрения, которая может оценить, смотрит ли человек直接 в камеру системы ИИ, основываясь только на том, как человек стоит или движется.

Новая структура использует очень скудную информацию для этого оценки, в форме семантических ключевых точек (см. изображение ниже), а не попытается в первую очередь проанализировать положение глаз на изображениях лиц. Это делает метод обнаружения очень легким и гибким, по сравнению с более требовательными архитектурами обнаружения объектов, такими как YOLO.

Новая структура оценивает, смотрит ли человек на камеру ИИ, основываясь только на расположении его тела. Здесь люди, выделенные зеленым, вероятно, смотрят на камеру, а те, кто выделен красным, более вероятно смотрят в другом направлении. Источник: https://arxiv.org/pdf/2112.04212.pdf

Новая структура оценивает, смотрит ли человек на камеру ИИ, основываясь только на расположении его тела. Здесь люди, выделенные зеленым, вероятно, смотрят на камеру, а те, кто выделен красным, более вероятно смотрят в другом направлении. Источник: https://arxiv.org/pdf/2112.04212.pdf

Хотя работа мотивирована разработкой лучших систем безопасности для автономных транспортных средств, авторы новой статьи признают, что она может иметь более широкие применения в других отраслях, отмечая ‘даже в умных городах обнаружение зрительного контакта может быть полезным для лучшего понимания поведения пешеходов, например, определения, куда они обращают внимание или какие общественные знаки они смотрят’.

Чтобы помочь дальнейшему развитию этой и последующих систем, исследователи составили новый и всесторонний набор данных под названием LOOK, который напрямую решает конкретные проблемы обнаружения зрительного контакта в произвольных сценариях, таких как уличные сцены, воспринимаемые с камеры самоходного транспортного средства, или случайные толпы, через которые робот может cần ориентироваться и уступать пути пешеходам.

Результаты из структуры, с 'смотрящими' людьми, выделенными зеленым.

Результаты из структуры, с ‘смотрящими’ людьми, выделенными зеленым.

Исследование называется Смотрят ли пешеходы? Обнаружение зрительного контакта в дикой природе и исходит от четырех исследователей из инициативы Visual Intelligence for Transportation (VITA) в Швейцарии и одного из Sorbonne Université.

Архитектура

Большинство предыдущих работ в этой области были сосредоточены на внимании водителя, используя машинное обучение для анализа вывода камер, обращенных на водителя, и полагаясь на постоянный, фиксированный и близкий вид водителя – роскошь, которая вряд ли будет доступна в часто низкокачественных потоках общественных телекамер, где люди могут быть слишком далеки для анализа их глазного положения, и где другие препятствия (такие как солнцезащитные очки) также мешают.

Более центральная для заявленной цели проекта, камеры, обращенные наружу в автономных транспортных средствах, не обязательно будут находиться в оптимальной ситуации, что делает ‘низкоуровневую’ информацию о ключевых точках идеальной в качестве основы для структуры анализа взгляда. Системы автономных транспортных средств нуждаются в высокоотзывчивом и молниеносном способе понимания, смотрит ли пешеход – который может шагнуть с тротуара на пути транспортного средства – на самоходное транспортное средство. В такой ситуации задержка может означать разницу между жизнью и смертью.

Модульная архитектура, разработанная исследователями, принимает на вход (обычно) полное изображение человека, из которого извлекаются 2D-суставы в базовую, скелетную форму.

Архитектура новой французско-швейцарской системы обнаружения зрительного контакта.

Архитектура новой французско-швейцарской системы обнаружения зрительного контакта.

Поза нормализуется для удаления информации об оси Y, чтобы создать ‘плоскую’ представление позы, которое ставит ее в паритет с тысячами известных поз, изученных алгоритмом (которые также были ‘сплющены’), и их связанными бинарными флагами/метками (т.е. 0: Не смотрит или 1: Смотрит).

Поза сравнивается с внутренними знаниями алгоритма о том, насколько хорошо эта поза соответствует изображениям других пешеходов, которые были определены как ‘смотрящие на камеру’ – аннотации, сделанные с помощью пользовательских инструментов браузера, разработанных авторами для работников Amazon Mechanical Turk, которые участвовали в разработке набора данных LOOK.

Каждое изображение в LOOK подвергалось проверке четырьмя работниками AMT, и только изображения, где три из четырех согласились с результатом, были включены в окончательную коллекцию.

Информация о обрезке головы, которая является ядром многочисленных предыдущих работ, является одним из наименее надежных индикаторов взгляда в произвольных городских сценариях и включается в качестве необязательного потока данных в архитектуре, где качество захвата и покрытие достаточны для принятия решения о том, смотрит ли человек на камеру или нет. В случае очень далеких людей это не будет полезной информацией.

Данные

Исследователи получили LOOK из нескольких предыдущих наборов данных, которые по умолчанию не подходят для этой задачи. Только два набора данных, которые напрямую разделяют сферу проекта, – это JAAD и PIE, и каждый имеет ограничения.

JAAD – это предложение 2017 года от Университета Йорка в Торонто, содержащее 390 000 помеченных примеров пешеходов, включая ограничивающие рамки и аннотации поведения. Из них только 17 000 помечены как Смотрящий на водителя (т.е. камеру эго). Набор данных включает 346 клипов с частотой 30 кадров в секунду, продолжительностью 5-10 секунд, записанных в Северной Америке и Европе. JAAD имеет высокий уровень повторений, и общее количество уникальных пешеходов составляет только 686.

Более недавний (2019) PIE, от Университета Йорка в Торонто, похож на JAAD, поскольку он включает запись с частотой 30 кадров в секунду, полученную из шести часов вождения через центр Торонто, что дает 700 000 помеченных пешеходов и 1842 уникальных пешеходов, только 180 из которых смотрят на камеру.

Вместо этого исследователи новой статьи составили наиболее подходящую информацию из трех предыдущих наборов данных для автономного вождения: KITTI, JRDB и NuScenes, соответственно из Технологического института Карлсруэ в Германии, Стэнфордского и Монашского университетов в Австралии, и бывшего спин-оффа MIT Nutonomy.

Эта курирование привело к широко разнообразному набору захватов из четырех городов – Бостона, Сингапура, Тюбингена и Пало-Альто. С примерно 8000 помеченных перспектив пешеходов авторы утверждают, что LOOK является наиболее разнообразным набором данных для обнаружения зрительного контакта ‘в дикой природе’.

Обучение и результаты

Извлечение, обучение и оценка были выполнены на единственной видеокарте NVIDIA GeForce GTX 1080ti с 11 ГБ видеопамяти, работающей на процессоре Intel Core i7-8700 с частотой 3,20 ГГц.

Авторы обнаружили, что их метод не только улучшает базовые линии SOTA как минимум на 5%, но и что полученные модели, обученные на JAAD, очень хорошо обобщаются на незнакомые данные, что было проверено путем перекрестного смешивания наборов данных.

Поскольку тестирование было сложным и должно было учитывать модели на основе обрезки (хотя изоляция и обрезка лица не являются центральными для новой структуры), см. статью для подробных результатов.

Результаты для средней точности (AP) в процентах и функции высоты ограничивающей рамки в пикселях для тестирования на наборе данных JAAD, с результатами авторов в жирном шрифте.

Результаты для средней точности (AP) в процентах и функции высоты ограничивающей рамки в пикселях для тестирования на наборе данных JAAD, с результатами авторов в жирном шрифте.

Исследователи выпустили свой код публично, с набором данных, доступным здесь, и исходным кодом на GitHub.

Авторы заключают с надеждой, что их работа вдохновит дальнейшие исследования в области, которую они описывают как ‘важную, но упущенную тему’.

Исследователи выпустили свой код публично, с набором данных, доступным здесь, и исходным кодом на GitHub. Авторы заключают с надеждой, что их работа вдохновит дальнейшие исследования в области, которую они описывают как ‘важную, но упущенную тему’. Набор данных LOOK, с результатами авторов в жирном шрифте.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.