Andersons Blickwinkel

KI entdeckt das geheime Verhalten, das durch leere Wände aufgedeckt wird

Veröffentlicht am 9. September 2021

Aktualisiert am 24. Mai 2026

Von

Martin Anderson

Eine Forschungskooperation, an der auch Mitarbeiter von NVIDIA und MIT beteiligt waren, hat eine maschinelle Lernmethode entwickelt, mit der versteckte Personen allein durch die Beobachtung indirekter Beleuchtung auf einer nahegelegenen Wand identifiziert werden können, selbst wenn die Personen nicht in der Nähe der Lichtquellen sind. Die Methode hat eine Genauigkeit von etwa 94%, wenn sie versucht, die Anzahl der versteckten Personen zu identifizieren, und kann auch die spezifische Aktivität einer versteckten Person erkennen, indem sie Lichtreflexe, die für das menschliche Auge und für Standardmethoden der Bildvergrößerung unsichtbar sind, massiv verstärkt.

Unmerkliche Lichtperturbationen, die durch die neue Methode verstärkt werden, die konvolutionelle neuronale Netze verwendet, um Bereiche der Veränderung zu identifizieren. Quelle: https://www.youtube.com/watch?v=K4PapXyX-bI

Der neue Artikel trägt den Titel Was man lernen kann, indem man auf eine leere Wand starrt, mit Beiträgen von NVIDIA und MIT sowie dem Israel Institute of Technology.

Frühere Ansätze, um “um Ecken zu sehen”, haben auf kontrollierbare Lichtquellen oder Vorkenntnisse über bekannte Quellen von Verdeckung gesetzt, während die neue Technik sich auf jeden neuen Raum verallgemeinern kann, ohne dass eine Neukalibrierung erforderlich ist. Die beiden konvolutionellen neuronalen Netze, die versteckte Personen identifizieren, verwendeten Daten, die aus nur 20 Szenen gewonnen wurden.

Das Projekt zielt auf hochriskante, sicherheitskritische Situationen ab, wie Such- und Rettungsoperationen, allgemeine Überwachungsaufgaben der Strafverfolgung, Notfallreaktionsszenarien, Sturzerkennung bei älteren Menschen und als Mittel, um versteckte Fußgänger für autonome Fahrzeuge zu erkennen.

Passive Bewertung

Wie oft bei Computer-Vision-Projekten bestand die zentrale Aufgabe darin, wahrgenommene Zustandsänderungen in einem Bildstrom zu identifizieren, zu klassifizieren und zu operationalisieren. Die Verbindung der Änderungen führt zu Signaturenmustern, die entweder zur Identifizierung einer Anzahl von Personen oder zur Erkennung der Aktivität einer oder mehrerer Personen verwendet werden können.

Die Arbeit eröffnet die Möglichkeit einer vollständig passiven Szenenbewertung, ohne dass reflexionsfreie Oberflächen, Wi-Fi-Signale, Radar, Schall oder andere “besondere Umstände” erforderlich sind, die in anderen Forschungsarbeiten der letzten Jahre erforderlich waren, um eine versteckte menschliche Präsenz in einer gefährlichen oder kritischen Umgebung zu etablieren.

Ein Beispiel für ein Datenerfassungsszenario, das für die neue Forschung verwendet wird. Die Probanden werden sorgfältig positioniert, um keine Schatten zu werfen oder Lichtquellen direkt zu verdecken, und es werden keine reflexionsfreien Oberflächen oder andere “Trick”-Vektoren verwendet. Quelle: https://arxiv.org/pdf/2108.13027.pdf

Effektiv würde das Umgebungslicht in dem typischen Szenario, das für die Anwendung vorgesehen ist, jede kleine Störung, die durch reflektiertes Licht von Menschen verursacht wird, die sich woanders in der Szene verstecken, überwältigen. Die Forscher berechnen, dass der Beitrag der Lichtstörung der Personen typischerweise weniger als 1% des gesamten sichtbaren Lichts ausmachen würde.

Entfernen von statischem Licht

Um Bewegung aus dem scheinbar statischen Wandbild zu extrahieren, ist es notwendig, den zeitlichen Mittelwert des Videos zu berechnen und ihn von jedem Frame zu entfernen. Die resultierenden Bewegungsmuster liegen normalerweise unter dem Rauschschwellenwert sogar von hochwertiger Videotechnik, und tatsächlich findet viel von der Bewegung in einem negativen Pixelraum statt.

Um dies zu beheben, downsamplen die Forscher das Video um einen Faktor von 16 und upscale das resultierende Footage um einen Faktor von 50, während sie einen mittleren Grauwert hinzufügen, um die Anwesenheit von negativen Pixeln (die nicht durch die Baseline-Videotechnik-Rauschen berücksichtigt werden könnten) zu erkennen.

Der Unterschied zwischen der vom Menschen wahrgenommenen Wand und der extrahierten Störung versteckter Personen. Da die Bildqualität ein zentrales Problem in dieser Forschung ist, verweisen Sie bitte auf das offizielle Video am Ende des Artikels für ein hochwertigeres Bild.

Das Zeitfenster, um Bewegung wahrzunehmen, ist sehr zerbrechlich und kann sogar durch das Flackern von Lichtern bei einer Frequenz von 60 Hz beeinflusst werden. Daher muss auch diese natürliche Störung aus dem Footage entfernt werden, bevor die personeninduzierte Bewegung zum Vorschein kommt.

Schließlich erzeugt das System Raum-Zeit-Plots, die ein bestimmte Anzahl von versteckten Raum bewohnern signalisieren – diskrete visuelle Signaturen:

Signatur-Raum-Zeit-Plots, die unterschiedliche Zahlen von versteckten Personen in einem Raum darstellen.

Unterschiedliche menschliche Aktivitäten führen auch zu Signatur-Störungen, die klassifiziert und später erkannt werden können:

Die Raum-Zeit-Plot-Signaturen für Inaktivität, Gehen, Hocken, Händeschütteln und Springen.

Um einen automatisierten maschinellen Lern-Workflow für die Erkennung versteckter Personen zu erstellen, wurde variierendes Footage aus 20 geeigneten Szenarien verwendet, um zwei neuronale Netze zu trainieren, die auf ähnlichen Konfigurationen operieren – eines, um die Anzahl der Personen in einer Szene zu zählen, und das andere, um jede Bewegung zu identifizieren, die auftritt.

Testen

Die Forscher testeten das trainierte System in zehn nicht gesehenen realen Umgebungen, die darauf ausgelegt waren, die Einschränkungen nachzubilden, die für die endgültige Bereitstellung erwartet werden. Das System konnte bis zu 94,4% Genauigkeit (über 256 Frames – typischerweise etwa 8 Sekunden Video) bei der Klassifizierung der Anzahl versteckter Personen erreichen und bis zu 93,7% Genauigkeit (unter den gleichen Bedingungen) bei der Klassifizierung von Aktivitäten. Obwohl die Genauigkeit bei weniger Quellframes abnimmt, ist es kein linearer Abfall, und sogar 64 Frames können eine Genauigkeitsrate von 79,4% für die “Anzahl der Personen”-Bewertung (gegen fast 95% für viermal so viele Frames) erreichen.

Obwohl die Methode robust gegen wetterbedingte Änderungen der Beleuchtung ist, hat sie Schwierigkeiten in einer Szene, die von einem Fernseher beleuchtet wird, oder in Umständen, in denen die Personen Kleidung tragen, die dieselbe Farbe wie die reflektierende Wand hat.

Weitere Details der Forschung, einschließlich hochwertigerer Footage der Extraktionen, können im offiziellen Video unten gesehen werden.

Martin Anderson

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.

Unite.AI

KI entdeckt das geheime Verhalten, das durch leere Wände aufgedeckt wird

Passive Bewertung

Entfernen von statischem Licht

Testen

Mehr entdecken