Artificial Intelligence
Wykrywanie kontaktu wzrokowego z pozycji ciała za pomocą uczenia maszynowego

Naukowcy z Francji i Szwajcarii opracowali system przetwarzania obrazu komputerowego, który potrafi oszacować, czy dana osoba patrzy bezpośrednio w kamerę „ego” systemu sztucznej inteligencji, bazując wyłącznie na sposobie, w jaki ta osoba stoi lub się porusza.
Do dokonania tej oceny nowe ramy wykorzystują bardzo uproszczone informacje w formie semantycznych kluczowych punktów (patrz ilustracja poniżej), zamiast próbować przede wszystkim analizować położenie oczu na obrazach twarzy. Dzięki temu uzyskana metoda wykrywania jest bardzo lekka i zwinna w porównaniu do architektur wykrywania obiektów wymagających większej ilości danych, takich jak YOLO.

Nowy system ocenia, czy osoba na ulicy patrzy na czujnik przechwytujący AI, wyłącznie na podstawie ułożenia jej ciała. W tym przypadku osoby oznaczone na zielono najprawdopodobniej patrzą w kamerę, podczas gdy te oznaczone na czerwono najprawdopodobniej odwracają wzrok. Źródło: https://arxiv.org/pdf/2112.04212.pdf
Choć motywem prac jest rozwój lepszych systemów bezpieczeństwa pojazdów autonomicznych, autorzy nowego artykułu przyznają, że mogłoby ono mieć bardziej ogólne zastosowania w innych gałęziach przemysłu, obserwując „nawet w inteligentnych miastach wykrywanie kontaktu wzrokowego może być przydatne do lepszego zrozumienia zachowań pieszych, np. określenia, na co kieruje się ich uwaga lub na jakie znaki publiczne patrzą”.
Aby wspomóc dalszy rozwój tego i kolejnych systemów, badacze stworzyli nowy, kompleksowy zbiór danych o nazwie LOOK, który bezpośrednio odnosi się do konkretnych wyzwań związanych z wykrywaniem kontaktu wzrokowego w dowolnych scenariuszach, takich jak sceny uliczne widziane z ruchomej kamery pojazdu autonomicznego. pojazdu lub przypadkowych scen z udziałem tłumu, w których robot może potrzebować nawigacji i podążania ścieżką pieszych.

Wyniki uzyskane z frameworka, z „obserwującymi” oznaczonymi na zielono.
naukowe jest zatytułowany Czy piesi zwracają uwagę? Wykrywanie kontaktu wzrokowego w dziczyi pochodzi od czterech badaczy z inicjatywy badawczej Visual Intelligence for Transportation (VITA) w Szwajcarii i jednego z Uniwersytetu Sorbonne.
Architektura
Większość wcześniejszych prac w tej dziedzinie koncentrowała się na uwadze kierowcy, wykorzystywała uczenie maszynowe do analizy sygnału z kamer skierowanych w stronę kierowcy i opierała się na stałym, stałym i bliskim widoku kierowcy – luksusie, który jest mało prawdopodobny w przypadku często niskiej rozdzielczości transmisji z kamer telewizji publicznej, gdzie ludzie mogą znajdować się zbyt daleko, aby system analizy twarzy mógł określić położenie ich oczu, a także gdzie na przeszkodzie stoją inne przeszkody (takie jak okulary przeciwsłoneczne).
Co ważniejsze, w kontekście deklarowanego celu projektu, kamery skierowane na zewnątrz w pojazdach autonomicznych niekoniecznie będą działać w optymalnym scenariuszu, co sprawia, że kluczowe informacje „niskiego poziomu” idealnie nadają się jako podstawa dla analizy spojrzenia. Systemy pojazdów autonomicznych potrzebują niezwykle responsywnego i błyskawicznego sposobu na ustalenie, czy pieszy – który może zejść z chodnika na drogę samochodu – zauważył pojazd autonomiczny. W takiej sytuacji opóźnienie może przesądzić o życiu lub śmierci.
Architektura modułowa opracowana przez badaczy uwzględnia (zwykle) obraz całego ciała osoby, z którego wyodrębniane są stawy 2D w podstawową formę szkieletową.

Architektura nowego francusko-szwajcarskiego systemu wykrywania kontaktu wzrokowego.
Poza jest normalizowana w celu usunięcia informacji na osi Y, aby utworzyć „płaską” reprezentację pozy, która jest zgodna z tysiącami znanych pozach poznanych przez algorytm (które również zostały „spłaszczone”) i ich powiązanymi flagami/etykietami binarnymi (tj. 0: Nie patrzę or 1: Patrzę).
Pozycja jest porównywana z wewnętrzną wiedzą algorytmu dotyczącą tego, jak dobrze dana pozycja odpowiada obrazom innych pieszych, którzy zostali zidentyfikowani jako „patrzący w kamerę” – adnotacje sporządzono za pomocą niestandardowych narzędzi przeglądarki opracowanych przez autorów dla pracowników Amazon Mechanical Turk, którzy brali udział w opracowaniu zbioru danych LOOK.
Każde zdjęcie w LOOK zostało poddane analizie przez czterech pracowników AMT i do ostatecznej kolekcji trafiły tylko te zdjęcia, w przypadku których trzech z czterech zgodziło się co do wyniku.
Informacje o plonach, będące podstawą wielu wcześniejszych prac, należą do najmniej wiarygodnych wskaźników spojrzenia w arbitralnych scenariuszach miejskich i są uwzględniane jako opcjonalny strumień danych w architekturze, w przypadku której jakość przechwytywania i zasięg są wystarczające do podjęcia decyzji o tym, czy osoba patrzy w kamerę, czy nie. W przypadku osób bardzo odległych nie będą to pomocne dane.
Dane
Naukowcy wyprowadzili LOOK z kilku wcześniejszych zestawów danych, które domyślnie nie nadają się do tego zadania. Jedyne dwa zestawy danych, które bezpośrednio pokrywają się z zakresem projektu, to JAAD oraz PIEi każdy ma ograniczenia.
JAAD to oferta Uniwersytetu York w Toronto na rok 2017, zawierająca 390,000 17,000 oznaczonych przykładów pieszych, w tym ramki ograniczające i adnotacje dotyczące zachowania. Spośród nich tylko XNUMX XNUMX jest oznaczonych jako Patrząc na kierowcę (tj. kamera ego). Zestaw danych zawiera 346 klipów 30 klatek na sekundę o długości 5–10 sekund materiału z kamery pokładowej nagranego w Ameryce Północnej i Europie. W JAAD występuje duża liczba powtórzeń, a łączna liczba unikalnych pieszych wynosi tylko 686.
Nowszy (2019) model PIE, opracowany przez York University w Toronto, jest podobny do modelu JAAD, ponieważ zawiera nagrania z prędkością 30 klatek na sekundę, tym razem pochodzące z sześciogodzinnej jazdy przez centrum Toronto, która obejmuje 700,000 1,842 oznaczonych pieszych i 180 unikalnych pieszych, z których tylko XNUMX patrzy w stronę kamery.
Zamiast tego badacze pracujący w nowym artykule zebrali najtrafniejsze dane z trzech wcześniejszych zbiorów danych dotyczących jazdy autonomicznej: KITI, JRDB, NuScenyodpowiednio z Instytutu Technologii w Karlsruhe w Niemczech, Uniwersytetu Stanforda i Monash w Australii oraz jednorazowego spin-offu MIT Nutonomy.
To opracowanie zaowocowało bardzo zróżnicowanym zestawem zdjęć z czterech miast – Bostonu, Singapuru, Tybingi i Palo Alto. Autorzy twierdzą, że LOOK, z około 8000 oznaczonych perspektyw pieszych, jest najbardziej zróżnicowanym zbiorem danych do wykrywania kontaktu wzrokowego „w naturze”.
Trening i wyniki
Ekstrakcję, szkolenie i ocenę przeprowadzono na pojedynczej karcie NVIDIA GeForce GTX 1080ti z 11 GB pamięci VRAM, działającej na procesorze Intel Core i7-8700 taktowanym z częstotliwością 3.20 GHz.
Autorzy odkryli, że ich metoda nie tylko poprawia się w porównaniu z wartościami bazowymi SOTA o co najmniej 5%, ale także że powstałe modele wytrenowane w JAAD bardzo dobrze generalizują na niewidoczne dane, co jest scenariuszem testowanym poprzez mieszanie różnych zbiorów danych.
Ponieważ przeprowadzone testy były złożone i musiały uwzględniać modele oparte na uprawach (podczas gdy izolowanie twarzy i kadrowanie nie są centralnymi elementami architektury nowej inicjatywy), szczegółowe wyniki można znaleźć w artykule.

Wyniki dotyczące średniej precyzji (AP) wyrażone jako procent i funkcja wysokości pola ograniczającego w pikselach dla testów w zestawie danych JAAD, z wynikami autorów wyróżnionymi pogrubioną czcionką.
Naukowcy opublikowali swój kod wraz z dostępnym zbiorem danych w tym miejscuoraz kod źródłowy w GitHub.
Na zakończenie autorzy wyrażają nadzieję, że ich praca stanie się inspiracją do dalszych wysiłków badawczych w zakresie, jak to określają, tzw „ważny, ale pomijany temat”.