Connect with us

Überwachung

KI entdeckt die geheime Aktivität, die durch leere Wände aufgedeckt wird

mm

Eine Forschungskooperation, an der auch Mitarbeiter von NVIDIA und MIT beteiligt sind, hat eine maschinelle Lernmethode entwickelt, mit der versteckte Personen einfach durch Beobachtung der indirekten Beleuchtung auf einer nahegelegenen Wand identifiziert werden können, selbst wenn sich die Personen nicht in der Nähe der Lichtquellen befinden. Die Methode hat eine Genauigkeit von nahezu 94 %, wenn sie versucht, die Anzahl der versteckten Personen zu identifizieren, und kann auch die spezifische Aktivität einer versteckten Person identifizieren, indem sie Lichtreflexe, die für das menschliche Auge und für Standard-Verfahren der Bildvergrößerung unsichtbar sind, massiv verstärkt.

Unmerkliche Lichtstörungen, die durch die neue Methode verstärkt werden, die konvolutionale neuronale Netze verwendet, um Bereiche der Veränderung zu identifizieren. Quelle: https://www.youtube.com/watch?v=K4PapXyX-bI

Unmerkliche Lichtstörungen, die durch die neue Methode verstärkt werden, die konvolutionale neuronale Netze verwendet, um Bereiche der Veränderung zu identifizieren. Quelle: https://www.youtube.com/watch?v=K4PapXyX-bI

Der neue Artikel trägt den Titel Was man lernen kann, indem man auf eine leere Wand starrt, mit Beiträgen von NVIDIA und MIT sowie dem Israel Institute of Technology.

Frühere Ansätze, um “hinter Wänden zu sehen”, haben auf steuerbare Lichtquellen oder Vorkenntnisse von bekannten Quellen der Okklusion gesetzt, während die neue Technik auf jedes neue Zimmer verallgemeinert werden kann, ohne dass eine Neukalibrierung erforderlich ist. Die beiden konvolutionalen neuronalen Netze, die versteckte Personen identifizieren, verwendeten Daten, die aus nur 20 Szenen gewonnen wurden.

Das Projekt zielt auf hochriskante, sicherheitskritische Situationen ab, wie z. B. Such- und Rettungsoperationen, allgemeine Überwachungsaufgaben der Strafverfolgung, Notfallreaktionsszenarien, Sturzerkennung bei älteren Menschen und als Mittel zur Erkennung versteckter Fußgänger für autonome Fahrzeuge.

Passive Bewertung

Wie häufig bei Computer-Vision-Projekten ist die zentrale Aufgabe die Identifizierung, Klassifizierung und Operationalisierung wahrgenommener Zustandsänderungen in einem Bildstrom. Die Verkettung der Änderungen führt zu Signaturmustern, die entweder zur Identifizierung einer Anzahl von Personen oder zur Erkennung der Aktivität einer oder mehrerer Personen verwendet werden können.

Die Arbeit eröffnet die Möglichkeit einer vollständig passiven Szenenbewertung, ohne dass reflexionsfreie Oberflächen, Wi-Fi-Signale, Radar, Schall oder andere “besonderen Umstände” erforderlich sind, die in anderen Forschungsbemühungen der letzten Jahre erforderlich waren, um eine versteckte menschliche Präsenz in einer gefährlichen oder kritischen Umgebung zu etablieren.

Ein Beispiel für ein Szenario zur Datenerfassung, wie es für die neue Forschung verwendet wird. Die Probanden werden sorgfältig positioniert, um keine Schatten zu werfen oder Lichtquellen direkt zu verdecken, und es sind keine reflexionsfreien Oberflächen oder andere “Trick”-Vektoren erlaubt. Quelle: https://arxiv.org/pdf/2108.13027.pdf

Effektiv würde das Umgebungslicht in dem typischen Szenario, das für die Anwendung vorgesehen ist, jede kleine Störung, die durch reflektiertes Licht von versteckten Personen verursacht wird, überlagern. Die Forscher berechnen, dass der Beitrag der Lichtstörung der Personen typischerweise weniger als 1 % des gesamten sichtbaren Lichts ausmachen würde.

Entfernen statischer Beleuchtung

Um Bewegung aus dem scheinbar statischen Wandbild zu extrahieren, ist es notwendig, den zeitlichen Mittelwert des Videos zu berechnen und ihn von jedem Frame zu entfernen. Die resultierenden Bewegungsmuster liegen in der Regel unter dem Rauschschwellenwert von sogar hochwertiger Videoausrüstung, und tatsächlich findet viel von der Bewegung in einem negativen Pixelraum statt.

Um dies zu beheben, downsamplen die Forscher das Video um einen Faktor von 16 und upscale das resultierende Footage um einen Faktor von 50, während sie einen mittleren Grauwert hinzufügen, um die Anwesenheit von negativen Pixeln (die durch den Basarrauschen des Videosensors nicht berücksichtigt werden könnten) zu erkennen.

Der Unterschied zwischen der vom Menschen wahrgenommenen Wand und der extrahierten Störung versteckter Personen. Da die Bildqualität ein zentrales Problem in dieser Forschung ist, wird darauf hingewiesen, dass sich im offiziellen Video am Ende des Artikels ein höherwertiges Bild befindet.

Der Unterschied zwischen der vom Menschen wahrgenommenen Wand und der extrahierten Störung versteckter Personen. Da die Bildqualität ein zentrales Problem in dieser Forschung ist, wird darauf hingewiesen, dass sich im offiziellen Video am Ende des Artikels ein höherwertiges Bild befindet.

Das Zeitfenster, um Bewegung wahrzunehmen, ist sehr zerbrechlich und kann sogar durch das Flimmern von Lichtern bei einer Frequenz von 60 Hz AC beeinflusst werden. Daher muss auch diese natürliche Störung aus dem Footage entfernt werden, bevor die durch Personen verursachte Bewegung zum Vorschein kommt.

Schließlich erzeugt das System Raum-Zeit-Diagramme, die ein bestimmte Anzahl von versteckten Raum bewohnern signalisieren – diskrete visuelle Signaturen:

Signatur-Raum-Zeit-Diagramme, die verschiedene Zahlen von versteckten Personen in einem Raum darstellen.

Signatur-Raum-Zeit-Diagramme, die verschiedene Zahlen von versteckten Personen in einem Raum darstellen.

Unterschiedliche menschliche Aktivitäten führen auch zu Signaturstörungen, die klassifiziert und später erkannt werden können:

Die Raum-Zeit-Diagramm-Signaturen für Inaktivität, Gehen, Hocken, Händeschütteln und Springen.

Die Raum-Zeit-Diagramm-Signaturen für Inaktivität, Gehen, Hocken, Händeschütteln und Springen.

Um einen automatisierten maschinellen Lern-Workflow für die Erkennung versteckter Personen zu erstellen, wurde vielfältiges Footage aus 20 geeigneten Szenarien verwendet, um zwei neuronale Netze zu trainieren, die auf weitgehend ähnlichen Konfigurationen operieren – eines, um die Anzahl der Personen in einer Szene zu zählen, und das andere, um jede Bewegung zu identifizieren, die auftritt.

Testen

Die Forscher testeten das trainierte System in zehn unbeobachteten realen Umgebungen, die so konzipiert waren, dass sie die Einschränkungen widerspiegeln, die für die endgültige Bereitstellung erwartet werden. Das System konnte bis zu 94,4 % Genauigkeit (über 256 Frames – typischerweise knapp über 8 Sekunden Video) bei der Klassifizierung der Anzahl der versteckten Personen erreichen und bis zu 93,7 % Genauigkeit (unter den gleichen Bedingungen) bei der Klassifizierung von Aktivitäten. Obwohl die Genauigkeit bei weniger Quellframes abnimmt, ist es kein linearer Abfall, und selbst 64 Frames können eine Genauigkeitsrate von 79,4 % für die “Anzahl-der-Personen”-Bewertung erreichen (gegen fast 95 % für viermal so viele Frames).

Obwohl die Methode robust gegenüber wetterbedingten Änderungen der Beleuchtung ist, hat sie Schwierigkeiten in einer Szene, die von einem Fernseher beleuchtet wird, oder in Umständen, in denen die Personen einfarbige Kleidung tragen, die dieselbe Farbe wie die reflektierende Wand hat.

Mehr Details zur Forschung, einschließlich hochwertiger Footage der Extraktionen, können im offiziellen Video unten gesehen werden.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.