Vernetzen Sie sich mit uns

Künstliche Intelligenz

Erkennen von Augenkontakt anhand der Körperhaltung mit maschinellem Lernen

mm

Forscher aus Frankreich und der Schweiz haben ein Computer-Vision-System entwickelt, das allein anhand der Haltung oder Bewegung einer Person einschätzen kann, ob eine Person direkt in die „Ego“-Kamera eines KI-Systems blickt.

Das neue Framework verwendet für diese Bewertung sehr reduktive Informationen in Form semantischer Schlüsselpunkte (siehe Abbildung unten), anstatt in erster Linie zu versuchen, die Augenposition in Bildern von Gesichtern zu analysieren. Dies macht die resultierende Erkennungsmethode im Vergleich zu datenintensiveren Objekterkennungsarchitekturen wie YOLO sehr leichtgewichtig und agil.

Das neue Framework bewertet allein anhand der Disposition seines Körpers, ob eine Person auf der Straße auf den Erfassungssensor der KI blickt oder nicht. Hier blicken grün hervorgehobene Personen wahrscheinlich in die Kamera, während rot hervorgehobene Personen eher wegschauen. Quelle: https://arxiv.org/pdf/2112.04212.pdf

Das neue Framework bewertet, ob eine Person auf der Straße in Richtung des Aufnahmesensors der KI blickt oder nicht, und zwar ausschließlich anhand der Körperhaltung. Grün markierte Personen blicken dabei wahrscheinlich in die Kamera, während rot markierte Personen eher wegschauen. Quelle: https://arxiv.org/pdf/2112.04212.pdf

Obwohl die Arbeit durch die Entwicklung besserer Sicherheitssysteme für autonome Fahrzeuge motiviert ist, räumen die Autoren des neuen Papiers ein, dass es allgemeinere Anwendungen in anderen Branchen haben könnte „Auch in Smart Cities kann die Augenkontakterkennung nützlich sein, um das Verhalten von Fußgängern besser zu verstehen, beispielsweise um zu erkennen, wohin ihre Aufmerksamkeit geht oder auf welche öffentlichen Schilder sie schauen.“.

Um die weitere Entwicklung dieses und nachfolgender Systeme zu unterstützen, haben die Forscher einen neuen und umfassenden Datensatz namens LOOK zusammengestellt, der sich direkt mit den spezifischen Herausforderungen der Blickkontakterkennung in beliebigen Szenarien befasst, beispielsweise Straßenszenen, die von der umherfahrenden Kamera eines selbstfahrenden Fahrzeugs aufgenommen werden Fahrzeug oder gelegentliche Menschenmengenszenen, durch die ein Roboter möglicherweise navigieren und sich dem Weg von Fußgängern anpassen muss.

Ergebnisse aus dem Framework, wobei „Hingucker“ grün gekennzeichnet sind.

Ergebnisse aus dem Framework, wobei „Looker“ grün markiert sind.

Die Forschungsprojekte ist betitelt Passen Fußgänger auf? Augenkontakterkennung in freier Wildbahn, und stammt von vier Forschern der Forschungsinitiative Visual Intelligence for Transportation (VITA) in der Schweiz und einem an der Sorbonne Université.

Architektur

Die meisten früheren Arbeiten auf diesem Gebiet konzentrierten sich auf die Aufmerksamkeit des Fahrers. Dabei wurde maschinelles Lernen eingesetzt, um die Ausgabe der auf den Fahrer gerichteten Kameras zu analysieren, und man verließ sich auf eine konstante, feste und nahe Sicht auf den Fahrer – ein Luxus, der bei den oft niedrig aufgelösten Feeds öffentlicher Fernsehkameras kaum möglich ist, da die Personen möglicherweise zu weit entfernt sind, als dass ein Gesichtsanalysesystem ihre Augenposition bestimmen könnte, und auch andere Verdeckungen (wie etwa Sonnenbrillen) stören.

Zentraler für das erklärte Ziel des Projekts ist, dass sich die nach außen gerichteten Kameras in autonomen Fahrzeugen nicht unbedingt in einem optimalen Szenario befinden. Daher eignen sich „niedrige“ Schlüsselpunktinformationen ideal als Grundlage für ein Blickanalyse-Framework. Autonome Fahrzeugsysteme benötigen eine reaktionsschnelle und blitzschnelle Methode, um zu erkennen, ob ein Fußgänger – der möglicherweise vom Bürgersteig in den Fahrweg des Autos tritt – das autonome Fahrzeug gesehen hat. In einer solchen Situation kann die Latenz den Unterschied zwischen Leben und Tod bedeuten.

Die von den Forschern entwickelte modulare Architektur nimmt ein (normalerweise) Ganzkörperbild einer Person auf, aus dem zweidimensionale Gelenke in eine Grundskelettform extrahiert werden.

Die Architektur des neuen französischen/schweizerischen Blickkontakterkennungssystems.

Die Architektur des neuen französischen/schweizerischen Blickkontakterkennungssystems.

Die Pose wird normalisiert, um Informationen auf der Y-Achse zu entfernen und eine „flache“ Darstellung der Pose zu erstellen, die sie mit den Tausenden von bekannten Posen, die vom Algorithmus gelernt wurden (die ebenfalls „abgeflacht“ wurden), und ihren zugehörigen binären Flags/Labels (d. h. 0: Nicht hinsehen or 1: Schauen).

Die Pose wird mit dem internen Wissen des Algorithmus verglichen, das darüber Aufschluss gibt, wie gut diese Haltung mit Bildern anderer Fußgänger übereinstimmt, die als „in die Kamera blickend“ identifiziert wurden. Dabei handelt es sich um Anmerkungen, die mithilfe von benutzerdefinierten Browsertools erstellt wurden, die von den Autoren für die Mitarbeiter von Amazon Mechanical Turk entwickelt wurden, die an der Entwicklung des LOOK-Datensatzes beteiligt waren.

Jedes Bild in LOOK wurde von vier AMT-Mitarbeitern geprüft, und nur Bilder, bei denen drei von vier dem Ergebnis zustimmten, wurden in die endgültige Sammlung aufgenommen.

Informationen über Kopffrüchte, der Kern vieler früherer Arbeiten, gehören zu den am wenigsten zuverlässigen Blickindikatoren in beliebigen städtischen Szenarien und werden als optionaler Datenstrom in die Architektur integriert, wo die Erfassungsqualität und -abdeckung ausreicht, um eine Entscheidung darüber zu unterstützen, ob die Ob die Person in die Kamera schaut oder nicht. Für sehr weit entfernte Menschen sind diese Daten keine hilfreichen Daten.

Datum

Die Forscher haben LOOK aus mehreren früheren Datensätzen abgeleitet, die für diese Aufgabe nicht standardmäßig geeignet sind. Die einzigen zwei Datensätze, die direkt mit dem Projektumfang übereinstimmen, sind JAAD sowie KUCHEN, und jedes hat Einschränkungen.

JAAD ist ein Angebot der York University in Toronto aus dem Jahr 2017 und enthält 390,000 gekennzeichnete Beispiele von Fußgängern, einschließlich Begrenzungsrahmen und Verhaltensanmerkungen. Davon tragen nur 17,000 die Kennzeichnung Blick auf den Fahrer (also die Ego-Kamera). Der Datensatz umfasst 346 30-fps-Clips mit einer Länge von 5 bis 10 Sekunden aus in Nordamerika und Europa aufgenommenen Aufnahmen der Bordkamera. Bei JAAD kommt es häufig zu Wiederholungen, und die Gesamtzahl der einzelnen Fußgänger beträgt nur 686.

Das neuere (2019) PIE der York University in Toronto ähnelt JAAD insofern, als es integriertes 30-fps-Filmmaterial enthält, das diesmal aus einer sechsstündigen Fahrt durch die Innenstadt von Toronto stammt und 700,000 kommentierte Fußgänger und 1,842 einzelne Fußgänger liefert, von denen nur 180 in die Kamera blicken.

Stattdessen stellten die Forscher für das neue Papier die passendsten Daten aus drei früheren Datensätzen zum autonomen Fahren zusammen: KITTI, JRDB und NuScenes, jeweils vom Karlsruher Institut für Technologie in Deutschland, der Stanford und Monash University in Australien, und dem ehemaligen MIT-Spin-off Nutonomy.

Das Ergebnis dieser Kuratierung ist eine äußerst vielfältige Sammlung von Aufnahmen aus vier Städten – Boston, Singapur, Tübingen und Palo Alto. Mit rund 8000 beschrifteten Fußgängerperspektiven ist LOOK nach Ansicht der Autoren der vielfältigste Datensatz zur Erkennung von Blickkontakten in freier Wildbahn.

Training und Ergebnisse

Extraktion, Training und Auswertung wurden alle auf einer einzigen NVIDIA GeForce GTX 1080ti mit 11 GB VRAM durchgeführt, die auf einer Intel Core i7-8700-CPU mit 3.20 GHz betrieben wurde.

Die Autoren fanden heraus, dass ihre Methode nicht nur die SOTA-Basislinien um mindestens 5 % verbessert, sondern auch, dass die resultierenden, auf JAAD trainierten Modelle sich sehr gut auf bisher unbekannte Daten verallgemeinern lassen, ein Szenario, das durch Kreuzmischung einer Reihe von Datensätzen getestet wurde.

Da die durchgeführten Tests komplex waren und auf Zuschnitten basierende Modelle berücksichtigt werden mussten (Gesichtsisolierung und Zuschnitt sind jedoch nicht zentral für die Architektur der neuen Initiative), finden Sie die detaillierten Ergebnisse im Dokument.

Ergebnisse für die durchschnittliche Präzision (AP) als Prozentsatz und Funktion der Begrenzungsrahmenhöhe in Pixel zum Testen im gesamten JAAD-Datensatz, wobei die Ergebnisse der Autoren fett gedruckt sind.

Ergebnisse für die durchschnittliche Präzision (AP) als Prozentsatz und Funktion der Begrenzungsrahmenhöhe in Pixeln zum Testen im gesamten JAAD-Datensatz, wobei die Ergebnisse der Autoren fett gedruckt sind.

Die Forscher haben ihren Code öffentlich veröffentlicht und der Datensatz ist verfügbar hier, und der Quellcode bei GitHub.

Die Autoren schließen mit der Hoffnung, dass ihre Arbeit weitere Forschungsbemühungen in dem, was sie als „…“ bezeichnen, inspirieren wird „wichtiges, aber übersehenes Thema“.

 

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai