Искусственный интеллект

Обнаружение зрительного контакта по позе тела с помощью машинного обучения

Published December 10, 2021

Updated April 5, 2026

Martin Anderson

Исследователи из Франции и Швейцарии разработали систему компьютерного зрения, которая может оценить, смотрит ли человек直接 на камеру системы ИИ, основываясь только на том, как человек стоит или движется.

Новая структура использует очень скудную информацию для этого оценки, в форме семантических ключевых точек (см. изображение ниже), а не пытается в первую очередь анализировать положение глаз на изображениях лиц. Это делает метод обнаружения очень легким и гибким по сравнению с более требовательными архитектурами обнаружения объектов, такими как YOLO.

Новая структура оценивает, смотрит ли человек на датчик захвата ИИ, основываясь только на расположении его тела. Здесь люди, выделенные зеленым цветом, скорее всего, смотрят на камеру, а те, кто выделен красным, более вероятно смотрят в сторону. Source: https://arxiv.org/pdf/2112.04212.pdf

Хотя работа мотивирована разработкой лучших систем безопасности для автономных транспортных средств, авторы новой статьи признают, что она может иметь более широкое применение в других отраслях, отмечая ‘даже в умных городах обнаружение зрительного контакта может быть полезным для лучшего понимания поведения пешеходов, например, определить, куда направлено их внимание или какие общественные знаки они смотрят’.

Чтобы помочь дальнейшему развитию этой и последующих систем, исследователи составили новый и всесторонний набор данных под названием LOOK, который напрямую решает конкретные проблемы обнаружения зрительного контакта в произвольных сценариях, таких как уличные сцены, воспринимаемые с помощью камеры самоходного транспортного средства, или случайные толпы, через которые робот может cần ориентироваться и уступать пешеходам.

Результаты из структуры, с ‘смотрящими’ людьми, выделенными зеленым цветом.

Исследование называется Смотрят ли пешеходы? Обнаружение зрительного контакта в дикой природе и исходит от четырех исследователей из инициативы Visual Intelligence for Transportation (VITA) в Швейцарии и одного из Sorbonne Université.

Архитектура

Большинство предыдущих работ в этой области были сосредоточены на внимании водителя, используя машинное обучение для анализа вывода камер, обращенных к водителю, и полагаясь на постоянный, фиксированный и близкий вид водителя – роскошь, которая вряд ли будет доступна в часто низкокачественных потоках общественных телекамер, где люди могут быть слишком далеки для системы анализа их зрительного контакта, и где другие препятствия (такие как солнцезащитные очки) также мешают.

Более центральная для заявленной цели проекта, наружные камеры автономных транспортных средств не обязательно будут находиться в оптимальной ситуации, что делает ‘низкоуровневую’ информацию ключевых точек идеальной в качестве основы для структуры анализа взгляда. Системы автономных транспортных средств нуждаются в высокоотзывчивом и молниеносном способе понимания, смотрит ли пешеход – который может шагнуть с тротуара на пути машины – на ИИ. В такой ситуации задержка может означать разницу между жизнью и смертью.

Модульная архитектура, разработанная исследователями, принимает на вход изображение человека (обычно полное тело), из которого извлекаются 2D-суставы в базовую, скелетную форму.

Архитектура новой французско-швейцарской системы обнаружения зрительного контакта.

Поза нормализуется для удаления информации на оси Y, чтобы создать ‘плоскую’ репрезентацию позы, которая ставит ее в паритет с тысячами известных поз, изученных алгоритмом (которые также были ‘сплющены’), и их связанными бинарными флагами/метками (т.е. 0: Не смотрит или 1: Смотрит).

Поза сравнивается с внутренними знаниями алгоритма о том, насколько хорошо эта поза соответствует изображениям других пешеходов, которые были определены как ‘смотрят на камеру’ – аннотации, сделанные с помощью пользовательских инструментов браузера, разработанных авторами для работников Amazon Mechanical Turk, которые участвовали в разработке набора данных LOOK.

Каждое изображение в LOOK подвергалось проверке четырьмя работниками AMT, и только изображения, где три из четырех согласились с результатом, были включены в окончательную коллекцию.

Информация о обрезке головы, которая является основой большей части предыдущих работ, является одним из наименее надежных индикаторов взгляда в произвольных городских сценариях и включается в качестве необязательного потока данных в архитектуру, где качество захвата и покрытие достаточно поддерживают решение о том, смотрит ли человек на камеру или нет. В случае очень далеких людей это не будет полезной информацией.

Данные

Исследователи получили LOOK из нескольких предыдущих наборов данных, которые не подходят для этой задачи по умолчанию. Только два набора данных, которые напрямую делят сферу проекта, это JAAD и PIE, и каждый из них имеет ограничения.

JAAD – это набор данных 2017 года от Университета Йорка в Торонто, содержащий 390 000 помеченных примеров пешеходов, включая ограничивающие рамки и аннотации поведения. Из них только 17 000 помечены как Смотрит на водителя (т.е. камеру эго). Набор данных включает 346 клипов с частотой 30 кадров в секунду, продолжительностью 5-10 секунд, записанных на бортовых камерах в Северной Америке и Европе. JAAD имеет высокий процент повторений, и общее количество уникальных пешеходов составляет только 686.

Более недавний (2019) PIE, также из Университета Йорка в Торонто, аналогичен JAAD, поскольку он включает записи с частотой 30 кадров в секунду, полученные из шести часов вождения через центр Торонто, что дает 700 000 помеченных пешеходов и 1842 уникальных пешеходов, из которых только 180 смотрят на камеру.

Вместо этого исследователи для новой статьи составили наиболее подходящую информацию из трех предыдущих наборов данных для автономного вождения: KITTI, JRDB и NuScenes, соответственно из Технического университета Карлсруэ в Германии, Стэнфордского университета и Университета Монаш в Австралии, и одного из бывших спин-оффов MIT – Nutonomy.

Эта курирование привело к широко разнообразному набору захватов из четырех городов – Бостона, Сингапура, Тюбингена и Пало-Альто. С примерно 8000 помеченных перспектив пешеходов авторы утверждают, что LOOK является наиболее разнообразным набором данных для обнаружения зрительного контакта ‘в дикой природе’.

Обучение и результаты

Извлечение, обучение и оценка были выполнены на одном NVIDIA GeForce GTX 1080ti с 11 ГБ видеопамяти, работающем на процессоре Intel Core i7-8700 с частотой 3,20 ГГц.

Авторы обнаружили, что их метод не только улучшает базовые линии SOTA как минимум на 5%, но также что полученные модели, обученные на JAAD, обобщаются очень хорошо на незнакомых данных, что было проверено путем смешивания различных наборов данных.

Поскольку тестирование было сложным и должно было учитывать модели на основе обрезки, см. статью для подробных результатов.

Результаты для средней точности (AP) в процентах и функции высоты ограничивающей рамки в пикселях для тестирования по набору данных JAAD, с результатами авторов в жирном шрифте.

Исследователи выпустили свой код публично, с набором данных, доступным здесь, и исходным кодом на GitHub.

Авторы заключают с надеждой, что их работа вдохновит дальнейшие исследовательские усилия в том, что они описывают как ‘важную, но упущенную тему’.