Штучний Інтелект
Виявлення зорового контакту з пози тіла за допомогою машинного навчання

Дослідники з Франції та Швейцарії розробили систему комп'ютерного зору, яка може оцінювати, чи дивиться людина безпосередньо на «его»-камеру системи штучного інтелекту, виключно на основі того, як людина стоїть або рухається.
Нова структура використовує дуже скорочену інформацію для проведення цієї оцінки у формі семантичних ключових точок (див. зображення нижче), а не намагається в першу чергу проаналізувати положення очей на зображеннях облич. Це робить отриманий метод виявлення дуже легким і гнучким у порівнянні з більш інтенсивними архітектурами виявлення об’єктів, такими як YOLO.

Нова система оцінює, чи дивиться людина на вулиці на датчик захоплення штучного інтелекту, виключно на основі положення її тіла. Тут люди, виділені зеленим кольором, ймовірно, дивляться в камеру, тоді як ті, що виділені червоним, швидше за все, відводять погляд. Джерело: https://arxiv.org/pdf/2112.04212.pdf
Хоча робота мотивована розробкою кращих систем безпеки для автономних транспортних засобів, автори нової статті визнають, що вона може мати більш загальне застосування в інших галузях, спостерігаючи «навіть у розумних містах розпізнавання зорового контакту може бути корисним для кращого розуміння поведінки пішоходів, наприклад, для визначення того, куди спрямована їхня увага або на які громадські знаки вони дивляться»..
Щоб допомогти в подальшому розвитку цієї та наступних систем, дослідники зібрали новий і всеосяжний набір даних під назвою LOOK, який безпосередньо стосується конкретних проблем виявлення зорового контакту в довільних сценаріях, таких як вуличні сцени, що сприймаються з камери безпілотного автомобіля. транспортний засіб або випадкові сцени натовпу, крізь які роботові може знадобитися навігація та ухилення від шляху пішоходів.

Результати фреймворку, де «спостерігачі» позначені зеленим кольором.
Команда дослідження має титул Чи звертають увагу пішоходи? Виявлення контакту з очима в дикій природі, і походить від чотирьох дослідників дослідницької ініціативи Visual Intelligence for Transportation (VITA) у Швейцарії та одного з Університету Сорбонни.
архітектура
Більшість попередніх робіт у цій галузі були зосереджені на увазі водія, використовуючи машинне навчання для аналізу виводу камер, спрямованих до водія, та покладаючись на постійне, фіксоване та близьке зображення водія – розкіш, яка навряд чи буде доступна в часто низькороздільних потоках камер громадського телебачення, де люди можуть бути занадто далеко, щоб система аналізу обличчя могла визначити розташування їхніх очей, і де інші перешкоди (наприклад, сонцезахисні окуляри) також заважають.
Більш важливим для заявленої мети проєкту є те, що зовнішні камери в автономних транспортних засобах також не обов'язково будуть знаходитися в оптимальному режимі, що робить «низькорівневу» інформацію про ключові точки ідеальною як основу для аналізу погляду. Системи автономних транспортних засобів потребують високочутливого та блискавично швидкого способу розуміння того, чи пішохід, який може зійти з тротуару на шлях руху автомобіля, побачив автономний транспортний засіб. У такій ситуації затримка може означати різницю між життям і смертю.
Модульна архітектура, розроблена дослідниками, бере (зазвичай) зображення всього тіла людини, з якого двовимірні суглоби витягуються в базову, скелетну форму.

Архітектура нової французько-швейцарської системи виявлення зорового контакту.
Поза нормалізується для видалення інформації на осі Y, щоб створити «плоске» представлення пози, яке ставить її в паритет з тисячами відомих поз, вивчених алгоритмом (які також були «сплющені»), та пов'язаними з ними бінарними прапорцями/мітками (тобто 0: Не дивлюсь or 1: Дивлячись).
Поза порівнюється з внутрішніми знаннями алгоритму про те, наскільки добре ця поза відповідає зображенням інших пішоходів, які були ідентифіковані як такі, що «дивляться в камеру» – анотації, створені за допомогою спеціальних інструментів браузера, розроблених авторами для працівників Amazon Mechanical Turk, які брали участь у розробці набору даних LOOK.
Кожне зображення в LOOK підлягало ретельному розгляду чотирма працівниками AMT, і лише ті зображення, де три з чотирьох погоджувалися щодо результату, були включені до остаточної колекції.
Інформація про обрізку голови, ядро багатьох попередніх робіт, є одним з найменш надійних індикаторів погляду в довільних міських сценаріях і включена як додатковий потік даних в архітектуру, де якість захоплення та охоплення є достатніми для підтримки рішення про те, чи людина дивиться в камеру чи ні. У випадку дуже віддалених людей ці дані не будуть корисними.
дані
Дослідники отримали LOOK з кількох попередніх наборів даних, які за замовчуванням не підходять для цього завдання. Єдині два набори даних, які безпосередньо охоплюють сферу застосування проєкту, це JAAD та PIE, і кожен має обмеження.
JAAD — це пропозиція 2017 року від Йоркського університету в Торонто, яка містить 390,000 17,000 позначених прикладів пішоходів, включаючи обмежувальні прямокутники та анотації поведінки. З них лише XNUMX XNUMX позначено як Дивлячись на водія (тобто камеру его). Набір даних містить 346 кліпів зі швидкістю 30 кадрів в секунду, що відтворюються на 5-10 секундах запису бортової камери, записаного в Північній Америці та Європі. У JAAD висока кількість повторів, а загальна кількість унікальних пішоходів становить лише 686.
Новіша (2019) версія PIE, розроблена Йоркським університетом у Торонто, схожа на JAAD тим, що містить відеозаписи з частотою 30 кадрів/с, цього разу отримані під час шестигодинної їзди центром Торонто, що дає 700,000 1,842 анотованих пішоходів та 180 унікальних пішоходів, лише XNUMX з яких дивляться в камеру.
Натомість дослідники для нової статті зібрали найбільш точні дані з трьох попередніх наборів даних автономного водіння: КІТІ, JRDB та NuScenes, відповідно з Технологічного інституту Карлсруе в Німеччині, Стенфордського університету та Університету Монаша в Австралії, а також одноразового підрозділу MIT Nutonomy.
В результаті цієї курації було отримано дуже різноманітний набір знімків з чотирьох міст – Бостона, Сінгапуру, Тюбінгена та Пало-Альто. Автори стверджують, що LOOK, маючи близько 8000 позначених пішохідних точок зору, є найрізноманітнішим набором даних для виявлення зорового контакту «в реальних умовах».
Навчання та результати
Вилучення, навчання та оцінка виконувались на одній відеокарті NVIDIA GeForce GTX 1080ti з 11 ГБ відеопам’яті, яка працювала на процесорі Intel Core i7-8700 з частотою 3.20 ГГц.
Автори виявили, що їхній метод не тільки покращує базові лінії SOTA принаймні на 5%, але також і те, що отримані моделі, навчені на JAAD, дуже добре узагальнюють невидимі дані, сценарій, перевірений перехресним змішуванням ряду наборів даних.
Оскільки проведене тестування було складним і мало враховувати моделі на основі врожаю (хоча ізоляція обличчя та обрізання не є центральними для архітектури нової ініціативи), див. докладні результати у статті.

Результати для середньої точності (AP) у відсотках та функції висоти обмежувальної рамки в пікселях для тестування на наборі даних JAAD, результати авторів виділені жирним шрифтом.
Дослідники опублікували свій код із доступним набором даних тут, і вихідний код на GitHub.
На завершення автори сподіваються, що їхня робота надихне на подальші дослідження того, що вони описують як «важлива, але недооцінена тема».