stub AI afslører den hemmelige aktivitet afsløret af tomme vægge - Unite.AI
Følg os

Overvågning

AI afslører den hemmelige aktivitet afsløret af tomme vægge

mm

Udgivet

 on

Et forskningssamarbejde, herunder bidragydere fra NVIDIA og MIT, har udviklet en maskinlæringsmetode, der kan identificere skjulte personer blot ved at observere indirekte belysning på en nærliggende væg, selv når personerne ikke er i nærheden af ​​de lysende lyskilder. Metoden har en nøjagtighed på næsten 94 %, når den forsøger at identificere antallet af skjulte personer, og den kan også identificere den specifikke aktivitet af en skjult person ved massivt at forstærke lysbouncer, der er usynlige for menneskelige øjne og standardmetoder til billedforstærkning.

Umærkelige forstyrrelser af lys, forstærket af den nye metode, som bruger foldede neurale netværk til at identificere områder med forandring. Kilde: https://www.youtube.com/watch?v=K4PapXyX-bI

Umærkelige forstyrrelser af lys, forstærket af den nye metode, som bruger foldede neurale netværk til at identificere områder med forandring. Kilde: https://www.youtube.com/watch?v=K4PapXyX-bI

Den nye papir er titlen Hvad du kan lære ved at stirre på en tom væg, med bidrag fra NVIDIA og MIT, samt Israel Institute of Technology.

Tidligere tilgange til at 'se omkring vægge' har været afhængige af kontrollerbare lyskilder eller forudgående viden om kendte okklusionskilder, hvorimod den nye teknik kan generaliseres til ethvert nyt rum uden krav om genkalibrering. De to foldede neurale netværk, der individualiserer skjulte mennesker, brugte data opnået fra kun 20 scener.

Projektet er rettet mod højrisiko-, sikkerhedskritiske situationer, til eftersøgnings- og redningsoperationer, generelle retshåndhævende overvågningsopgaver, beredskabsscenarier, for falddetektion blandt ældre mennesker og som et middel til at opdage skjulte fodgængere til autonome køretøjer.

Passiv evaluering

Som det ofte er tilfældet med computervisionsprojekter, var den centrale opgave at identificere, klassificere og operationalisere opfattede tilstandsændringer i en billedstrøm. Sammenkædning af ændringerne fører til signaturmønstre, der kan bruges enten til at identificere et antal individer eller til at detektere en eller flere individers aktivitet.

Værket åbner op for muligheden for fuldstændig passiv sceneevaluering, uden brug af reflekterende overflader, Wi-Fi-signaler, radar, lyd eller andre "særlige omstændigheder", der kræves i andre forskningsindsatser i de senere år, som har forsøgt at etablere skjult menneskelig tilstedeværelse i et farligt eller kritisk miljø.

Et eksempel på dataindsamlingsscenarie af den type, der blev brugt til den nye forskning. Forsøgspersonerne er omhyggeligt placeret, så de ikke kaster skygger eller direkte lukker lys, og ingen reflekterende overflader eller andre 'snyde'-vektorer er tilladt. Kilde: https://arxiv.org/pdf/2108.13027.pdf

Et eksempel på dataindsamlingsscenarie af den type, der blev brugt til den nye forskning. Forsøgspersonerne er omhyggeligt placeret, så de ikke kaster skygger eller direkte lukker lys, og ingen reflekterende overflader eller andre 'snyde'-vektorer er tilladt. Kilde: https://arxiv.org/pdf/2108.13027.pdf

Effektivt ville det omgivende lys for det typiske scenarie, der er forudset for applikationen, overvælde alle mindre forstyrrelser forårsaget af reflekteret lys fra mennesker skjult andre steder i scenen. Forskerne beregner, at individernes lysforstyrrelsesbidrag typisk vil være mindre end 1 % af det samlede synlige lys.

Fjernelse af statisk belysning

For at udtrække bevægelse fra det tilsyneladende statiske vægbillede, er det nødvendigt at beregne det tidsmæssige gennemsnit af videoen og fjerne det fra hver frame. De resulterende bevægelsesmønstre er normalt under støjtærsklen for selv videoudstyr af god kvalitet, og faktisk sker meget af bevægelsen inden for et negativt pixelrum.

For at afhjælpe dette, nedsampler forskerne videoen med en faktor på 16 og opskalerer de resulterende optagelser med en faktor på 50, mens de tilføjer et mellemgrå basisniveau for at skelne tilstedeværelsen af ​​negative pixels (som ikke kunne forklares med baseline-video) sensorstøj).

Forskellen mellem den menneskeopfattede mur og den udvundne forstyrrelse af skjulte individer. Da billedkvalitet er et centralt emne i denne forskning, se venligst den officielle video i slutningen af ​​artiklen for et billede af højere kvalitet.

Forskellen mellem den menneskeopfattede mur og den udvundne forstyrrelse af skjulte individer. Da billedkvalitet er et centralt emne i denne forskning, se venligst den officielle video i slutningen af ​​artiklen for et billede af højere kvalitet.

Mulighedsvinduet for at opfatte bevægelse er meget skrøbeligt og kan blive påvirket selv af flimren af ​​lys ved en 60 Hz AC-frekvens. Derfor skal denne naturlige forstyrrelse også evalueres og fjernes fra optagelserne, før person-induceret bevægelse vil opstå.

Endelig producerer systemet rum-tid plots, der signalerer et bestemt antal skjulte rumbeboere – diskrete visuelle signaturer:

Signaturrum-tid-plot, der repræsenterer forskellige antal skjulte personer i et rum.

Signaturrum-tid-plot, der repræsenterer forskellige antal skjulte personer i et rum.

Forskellige menneskelige aktiviteter vil også resultere i signaturforstyrrelser, som kan klassificeres og senere genkendes:

Rum-tids-plotsignaturerne for inaktivitet, gang, huk, viftende hænder og hop.

Rum-tids-plotsignaturerne for inaktivitet, gang, huk, viftende hænder og hop.

For at producere en automatiseret maskinlæringsbaseret arbejdsgang til skjult persongenkendelse, blev varieret optagelse fra 20 sammenhængende scenarier brugt til at træne to neurale netværk, der opererer på stort set ens konfigurationer – det ene til at tælle antallet af personer i en scene, og det andet til at identificere eventuelle bevægelser.

Test

Forskerne testede det trænede system i ti usete miljøer fra den virkelige verden designet til at genskabe de begrænsninger, der forventes for den ultimative implementering. Systemet var i stand til at opnå op til 94.4 % nøjagtighed (over 256 billeder – typisk lidt over 8 sekunders video) ved klassificering af antallet af skjulte personer og op til 93.7 % nøjagtighed (under samme forhold) i klassificering af aktiviteter. Selvom nøjagtigheden falder med færre kildeframes, er det ikke et lineært fald, og selv 64 frames vil opnå en nøjagtighedsrate på 79.4 % for "antal personer"-evaluering (mod næsten 95 % for fire gange antallet af billeder).

Selvom metoden er robust over for vejrbaserede ændringer i belysningen, kæmper den i en scene, der er oplyst af et fjernsyn, eller under omstændigheder, hvor folk er iført monotont tøj i samme farve som den reflekterende væg.

Flere detaljer om forskningen, herunder optagelser af højere kvalitet af ekstraktionerne, kan ses i den officielle video nedenfor.

Hvad du kan lære ved at stirre på en tom væg