Überwachung

KI kann eine Person anhand eines einzelnen Schritts identifizieren

Published April 16, 2021

Updated April 5, 2026

Martin Anderson

Eine neue Forschungsinitiative hat ein kostengünstiges System entwickelt, das in der Lage ist, eine Person anhand des Klangs ihrer Schritte zu identifizieren, und zwar bereits nach einem einzigen Schritt.

In der Studie Passive mUlti-peRson idEntification via Deep Footstep Separation and Recognition (PURE), einer Zusammenarbeit zwischen Forschern der Nanyang Technological University und der University of Kentucky, unter anderen, wurden Identifizierungsraten von bis zu 90% ermittelt, und zwar aus Audiodaten, die extrem kurz sind.

Fünf charakteristische Schrittmuster, die in PURE erfasst wurden.

Die Architektur von PURE basiert auf Daten von einem Array von Standard-Mikrofonen, wobei die Rohaudiodaten durch Hintergrund-Spektralsubtraktion entrauscht werden. Wenn das Signal-Rausch-Verhältnis hoch ist, einschließlich Gesprächen, die zum Zeitpunkt der Aufnahme stattfinden, wird ein Quellentrennungs-Algorithmus aktiviert, um die Schritte diskret zu extrahieren.

Die Schrittaudiodaten werden durch Domain-Adversarial-Adaptation geklärt und analysiert, wobei das Framework aus einem Feature-Extractor, einem Identitätspredictor und einem Domain-Diskriminator besteht.

Hardware für PURE

Die für PURE verwendete Ausrüstung besteht aus einem Mikrofon-Array, das in einem benutzerdefinierten Rig auf Basis des Raspberry Pi 4 eingebettet ist.

Die Mikrofone erfassen Audio mit der höchsten verfügbaren Rate für “strukturgeborene” Signale (Füße, die den Boden berühren), da diese Daten extrem kurz sind und so detailliert wie möglich sein müssen. Allerdings werden luftgeborene Schritte (der Klang, den die Füße beim Aufprall auf den Boden machen) auf 16 kHz heruntergesampelt, um lokale Verarbeitungskapazitäten für strukturgeborene Schritte zu sparen.

Die Forscher erstellten ein Trainingsdatenset aus der Footsteps Sound Effects Soundboard sowie aus Footsteps Sound Effects von Epidemic Sound. Die Audio-Komponente aus verschiedenen Ted Talks wurde verwendet, um Trainingsdaten für den Prozess der Extraktion von Schritten aus Hintergrundgesprächen zu erstellen.

Verhinderung von “Replay-Angriffen” bei der Schritterkennung

Ein System dieser Art muss resilient gegen “Replay-Angriffe” sein, bei denen ein Angreifer ein bestimmtes Schrittmuster aufzeichnet und es in der Hoffnung abspielt, dass das System es als live-Benutzer identifiziert.

Um dies zu verhindern, analysiert PURE die Zeit der Ankunft (ToA) bei “Kontakt”-Schritten und den Winkel der Ankunft (AoA) bei luftgeborenen Schritten.

Der Mangel an dynamischer Information in abgespielten Schritten offenbart sie ziemlich leicht, obwohl es notwendig ist, dies bei der Datenverarbeitung zu berücksichtigen. Durch die Beobachtung der natürlichen Unregelmäßigkeit von Schritten und auch ihrer Geschwindigkeit im Kontext der Umgebung (da es unwahrscheinlich ist, dass man entweder rennt oder schlendert, zum Beispiel in einem Büroumfeld), kann sichergestellt werden, dass die empfangenen Daten authentisch sind.

Das Projekt verwendet Beamforming-Techniken, um die ToA zu berechnen, aber die Extraktion von AoA ist komplexer und erfordert ein R-Net-Neuronales Netzwerk, das wiederum adverses Lernen verwendet, um den Bereich eines Schritts zu berechnen. Dies ist im Wesentlichen das gleiche Modell wie das frühere neuronale Netzwerk, außer dass der Identitätspredictor durch einen Bereichsschätzer ersetzt wird.

Genauigkeit

PURE wurde in einer Vielzahl von akustischen Umgebungen getestet und mit verschiedenen Gehgeschwindigkeiten über eine Reihe von Entfernungen hinweg. Wenn die Anzahl der Personen, die Schritte machen, zunimmt, sinkt die Genauigkeit natürlich, wie auch, wenn die Geschwindigkeit mehrerer Schritquellen zunimmt.

Jedoch fanden die Ergebnisse über 100 Tests heraus, dass das System einen Benutzer von 3-5 Schritten mit einer Genauigkeit von 90,73% bis 96,53% identifizieren kann; von 2-3 Schritten mit einer Genauigkeit von 88,16% bis 95,92%; und von einem einzigen Schritt mit einer Genauigkeit von 81,75% bis 88,6%.

Die Forscher sehen eine breite Anwendbarkeit für PURE, aufgrund der geringen Kosten der verwendeten Standard-Hardware und der Tatsache, dass es auch ähnliche Systeme in Bezug auf Latenz und Genauigkeit übertrifft, während es robust gegen Umgebungsstörungen und Replay-Angriffe ist.

Das Wachstum der Ganganalyse

Diese spezielle Sphäre der maschinellen Lernforschung hat sich in den letzten zehn Jahren hauptsächlich auf Computer-Vision konzentriert und erhielt einen kulturellen Schub, als sie in Mission Impossible: Rogue Nation (2015) als Handlungselement verwendet wurde.

Bisher wurden Ganganerkennungstechnologien für die Verwendung in Altenpflege, postoperativer Rehabilitation und kontroverserweise für personalisierte Werbeausspielung in Einzelhandelsumgebungen vorgeschlagen, obwohl ein solches System offensichtlich auch potenzielle Verwendungszwecke für die Überwachung von Mitarbeitern in sicheren Umgebungen hat.

2018 wurde berichtet, dass chinesische Behörden visionbasierte Ganganalyse von der KI-Entwicklungsunternehmen Watrix als Teil ihrer geschlossenen Überwachungssysteme verwenden.

Ganganalyse wurde auch durch Überwachung der Reflexion von Wi-Fi-Signalen implementiert.

Allerdings haben alle diese Ansätze inhärente Einschränkungen, entweder erfordern sie Lichtverhältnisse, die nicht garantiert werden können, unversperrte Sicht, prohibitiv teure spezielle Ausrüstung, übermäßig spezifische lokale Bedingungen oder körpergetragene Ausrüstung, unter anderen Hürden.