Stummel Erkennen von Augenkontakt anhand der Körperhaltung mit maschinellem Lernen – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Erkennen von Augenkontakt anhand der Körperhaltung mit maschinellem Lernen

mm
Aktualisiert on

Forscher aus Frankreich und der Schweiz haben ein Computer-Vision-System entwickelt, das allein anhand der Art und Weise, wie die Person steht oder sich bewegt, abschätzen kann, ob eine Person direkt in die „Ego“-Kamera eines KI-Systems blickt.

Das neue Framework verwendet für diese Bewertung sehr reduktive Informationen in Form semantischer Schlüsselpunkte (siehe Abbildung unten), anstatt in erster Linie zu versuchen, die Augenposition in Bildern von Gesichtern zu analysieren. Dies macht die resultierende Erkennungsmethode im Vergleich zu datenintensiveren Objekterkennungsarchitekturen wie YOLO sehr leichtgewichtig und agil.

Das neue Framework bewertet allein anhand der Disposition seines Körpers, ob eine Person auf der Straße auf den Erfassungssensor der KI blickt oder nicht. Hier blicken grün hervorgehobene Personen wahrscheinlich in die Kamera, während rot hervorgehobene Personen eher wegschauen. Quelle: https://arxiv.org/pdf/2112.04212.pdf

Das neue Framework bewertet allein anhand der Disposition seines Körpers, ob eine Person auf der Straße auf den Erfassungssensor der KI blickt oder nicht. Hier blicken grün hervorgehobene Personen wahrscheinlich in die Kamera, während rot hervorgehobene Personen eher wegschauen. Quelle: https://arxiv.org/pdf/2112.04212.pdf

Obwohl die Arbeit durch die Entwicklung besserer Sicherheitssysteme für autonome Fahrzeuge motiviert ist, räumen die Autoren des neuen Papiers ein, dass es allgemeinere Anwendungen in anderen Branchen haben könnte „Selbst in Smart Cities kann die Blickkontakterkennung nützlich sein, um das Verhalten von Fußgängern besser zu verstehen, z. B. um festzustellen, wohin ihre Aufmerksamkeit geht oder welche öffentlichen Schilder sie betrachten.“.

Um die weitere Entwicklung dieses und nachfolgender Systeme zu unterstützen, haben die Forscher einen neuen und umfassenden Datensatz namens LOOK zusammengestellt, der sich direkt mit den spezifischen Herausforderungen der Blickkontakterkennung in beliebigen Szenarien befasst, beispielsweise Straßenszenen, die von der umherfahrenden Kamera eines selbstfahrenden Fahrzeugs aufgenommen werden Fahrzeug oder gelegentliche Menschenmengenszenen, durch die ein Roboter möglicherweise navigieren und sich dem Weg von Fußgängern anpassen muss.

Ergebnisse aus dem Framework, wobei „Hingucker“ grün gekennzeichnet sind.

Ergebnisse aus dem Framework, wobei „Hingucker“ grün gekennzeichnet sind.

Das Forschungsprojekte ist betitelt Passen Fußgänger auf? Augenkontakterkennung in freier Wildbahn, und stammt von vier Forschern der Forschungsinitiative Visual Intelligence for Transportation (VITA) in der Schweiz und einem an der Sorbonne Université.

Architektur

Die meisten früheren Arbeiten in diesem Bereich konzentrierten sich auf die Aufmerksamkeit des Fahrers, nutzten maschinelles Lernen, um die Ausgabe von auf den Fahrer gerichteten Kameras zu analysieren, und verließen sich auf eine konstante, feste und nahe Sicht auf den Fahrer – ein Luxus, der in der Welt wahrscheinlich nicht verfügbar ist Oftmals handelt es sich um Zuleitungen öffentlicher Fernsehkameras mit niedriger Auflösung, bei denen Personen möglicherweise zu weit entfernt sind, als dass ein Gesichtsanalysesystem ihre Augendisposition aufklären könnte, und bei denen auch andere Verdeckungen (z. B. Sonnenbrillen) im Weg sind.

Von zentraler Bedeutung für das erklärte Ziel des Projekts ist, dass sich die nach außen gerichteten Kameras in autonomen Fahrzeugen auch nicht unbedingt in einem optimalen Szenario befinden, sodass Schlüsselpunktinformationen auf niedriger Ebene ideal als Grundlage für ein Blickanalyse-Framework geeignet sind. Autonome Fahrzeugsysteme benötigen eine äußerst reaktionsschnelle und blitzschnelle Methode, um zu erkennen, ob ein Fußgänger – der möglicherweise vom Bürgersteig auf den Weg des Autos tritt – das AV gesehen hat. In einer solchen Situation könnte die Latenz über Leben und Tod entscheiden.

Die von den Forschern entwickelte modulare Architektur nimmt ein (normalerweise) Ganzkörperbild einer Person auf, aus dem zweidimensionale Gelenke in eine Grundskelettform extrahiert werden.

Die Architektur des neuen französischen/schweizerischen Blickkontakterkennungssystems.

Die Architektur des neuen französischen/schweizerischen Blickkontakterkennungssystems.

Die Pose wird normalisiert, um Informationen auf der Y-Achse zu entfernen und eine „flache“ Darstellung der Pose zu erstellen, die sie mit den Tausenden bekannten Posen in Einklang bringt, die der Algorithmus gelernt hat (die ebenfalls „abgeflacht“ wurden) und den damit verbundenen Posen binäre Flags/Labels (d. h 0: Nicht hinsehen or 1: Schauen).

Die Pose wird mit dem internen Wissen des Algorithmus darüber verglichen, wie gut diese Haltung mit Bildern anderer Fußgänger übereinstimmt, die als „in die Kamera schauend“ identifiziert wurden – Anmerkungen, die mit benutzerdefinierten Browser-Tools erstellt wurden, die von den Autoren für die teilnehmenden Amazon Mechanical Turk-Mitarbeiter entwickelt wurden die Entwicklung des LOOK-Datensatzes.

Jedes Bild in LOOK wurde von vier AMT-Mitarbeitern geprüft, und nur Bilder, bei denen drei von vier dem Ergebnis zustimmten, wurden in die endgültige Sammlung aufgenommen.

Informationen über Kopffrüchte, der Kern vieler früherer Arbeiten, gehören zu den am wenigsten zuverlässigen Blickindikatoren in beliebigen städtischen Szenarien und werden als optionaler Datenstrom in die Architektur integriert, wo die Erfassungsqualität und -abdeckung ausreicht, um eine Entscheidung darüber zu unterstützen, ob die Ob die Person in die Kamera schaut oder nicht. Für sehr weit entfernte Menschen sind diese Daten keine hilfreichen Daten.

Daten-Management

Die Forscher haben LOOK aus mehreren früheren Datensätzen abgeleitet, die standardmäßig nicht für diese Aufgabe geeignet sind. Die einzigen beiden Datensätze, die direkt den Umfang des Projekts teilen, sind JAAD und KUCHEN, und jedes hat Einschränkungen.

JAAD ist ein Angebot der York University in Toronto aus dem Jahr 2017 und enthält 390,000 gekennzeichnete Beispiele von Fußgängern, einschließlich Begrenzungsrahmen und Verhaltensanmerkungen. Davon tragen nur 17,000 die Kennzeichnung Blick auf den Fahrer (also die Ego-Kamera). Der Datensatz umfasst 346 30-fps-Clips mit einer Länge von 5 bis 10 Sekunden aus in Nordamerika und Europa aufgenommenen Aufnahmen der Bordkamera. Bei JAAD kommt es häufig zu Wiederholungen, und die Gesamtzahl der einzelnen Fußgänger beträgt nur 686.

Das neuere (2019) PIE von der York University in Toronto ähnelt JAAD insofern, als es On-Board-Aufnahmen mit 30 Bildern pro Sekunde enthält, die dieses Mal aus einer sechsstündigen Fahrt durch die Innenstadt von Toronto stammen und 700,000 kommentierte Fußgänger und 1,842 einzelne Fußgänger ergeben , nur 180 davon blicken in die Kamera.

Stattdessen stellten die Forscher für das neue Papier die passendsten Daten aus drei früheren Datensätzen zum autonomen Fahren zusammen: KITTI, JRDB und NuScenes, jeweils vom Karlsruher Institut für Technologie in Deutschland, der Stanford und Monash University in Australien, und dem ehemaligen MIT-Spin-off Nutonomy.

Diese Kuration führte zu einer äußerst vielfältigen Sammlung von Aufnahmen aus vier Städten – Boston, Singapur, Tübingen und Palo Alto. Mit rund 8000 gekennzeichneten Fußgängerperspektiven ist LOOK laut den Autoren der vielfältigste Datensatz für die Blickkontakterkennung „in freier Wildbahn“.

Training und Ergebnisse

Extraktion, Training und Auswertung wurden alle auf einer einzigen NVIDIA GeForce GTX 1080ti mit 11 GB VRAM durchgeführt, die auf einer Intel Core i7-8700-CPU mit 3.20 GHz betrieben wurde.

Die Autoren fanden heraus, dass ihre Methode nicht nur die SOTA-Basislinien um mindestens 5 % verbessert, sondern auch, dass die resultierenden, auf JAAD trainierten Modelle sich sehr gut auf bisher unbekannte Daten verallgemeinern lassen, ein Szenario, das durch Kreuzmischung einer Reihe von Datensätzen getestet wurde.

Da die durchgeführten Tests komplex waren und ausschnittbasierte Modelle vorsehen mussten (während Gesichtsisolation und Ausschnitt nicht im Mittelpunkt der Architektur der neuen Initiative stehen), finden Sie im Dokument detaillierte Ergebnisse.

Ergebnisse für die durchschnittliche Präzision (AP) als Prozentsatz und Funktion der Begrenzungsrahmenhöhe in Pixel zum Testen im gesamten JAAD-Datensatz, wobei die Ergebnisse der Autoren fett gedruckt sind.

Ergebnisse für die durchschnittliche Präzision (AP) als Prozentsatz und Funktion der Begrenzungsrahmenhöhe in Pixel zum Testen im gesamten JAAD-Datensatz, wobei die Ergebnisse der Autoren fett gedruckt sind.

Die Forscher haben ihren Code öffentlich veröffentlicht und der Datensatz ist verfügbar hier, und der Quellcode bei GitHub.

Die Autoren schließen mit der Hoffnung, dass ihre Arbeit weitere Forschungsbemühungen in dem, was sie als „…“ bezeichnen, inspirieren wird „wichtiges, aber übersehenes Thema“.