Overvågning
AI afslører den hemmelige aktivitet afsløret af tomme vægge
Et forskningssamarbejde, herunder bidragydere fra NVIDIA og MIT, har udviklet en maskinlæringsmetode, der kan identificere skjulte personer blot ved at observere indirekte belysning på en nærliggende væg, selv når personerne ikke er i nærheden af de lysende lyskilder. Metoden har en nøjagtighed på næsten 94 %, når den forsøger at identificere antallet af skjulte personer, og den kan også identificere den specifikke aktivitet af en skjult person ved massivt at forstærke lysbouncer, der er usynlige for menneskelige øjne og standardmetoder til billedforstærkning.
Den nye papir er titlen Hvad du kan lære ved at stirre på en tom væg, med bidrag fra NVIDIA og MIT, samt Israel Institute of Technology.
Tidligere tilgange til at 'se omkring vægge' har været afhængige af kontrollerbare lyskilder eller forudgående viden om kendte okklusionskilder, hvorimod den nye teknik kan generaliseres til ethvert nyt rum uden krav om genkalibrering. De to foldede neurale netværk, der individualiserer skjulte mennesker, brugte data opnået fra kun 20 scener.
Projektet er rettet mod højrisiko-, sikkerhedskritiske situationer, til eftersøgnings- og redningsoperationer, generelle retshåndhævende overvågningsopgaver, beredskabsscenarier, for falddetektion blandt ældre mennesker og som et middel til at opdage skjulte fodgængere til autonome køretøjer.
Passiv evaluering
Som det ofte er tilfældet med computervisionsprojekter, var den centrale opgave at identificere, klassificere og operationalisere opfattede tilstandsændringer i en billedstrøm. Sammenkædning af ændringerne fører til signaturmønstre, der kan bruges enten til at identificere et antal individer eller til at detektere en eller flere individers aktivitet.
Værket åbner op for muligheden for fuldstændig passiv sceneevaluering, uden brug af reflekterende overflader, Wi-Fi-signaler, radar, lyd eller andre "særlige omstændigheder", der kræves i andre forskningsindsatser i de senere år, som har forsøgt at etablere skjult menneskelig tilstedeværelse i et farligt eller kritisk miljø.
Effektivt ville det omgivende lys for det typiske scenarie, der er forudset for applikationen, overvælde alle mindre forstyrrelser forårsaget af reflekteret lys fra mennesker skjult andre steder i scenen. Forskerne beregner, at individernes lysforstyrrelsesbidrag typisk vil være mindre end 1 % af det samlede synlige lys.
Fjernelse af statisk belysning
For at udtrække bevægelse fra det tilsyneladende statiske vægbillede, er det nødvendigt at beregne det tidsmæssige gennemsnit af videoen og fjerne det fra hver frame. De resulterende bevægelsesmønstre er normalt under støjtærsklen for selv videoudstyr af god kvalitet, og faktisk sker meget af bevægelsen inden for et negativt pixelrum.
For at afhjælpe dette, nedsampler forskerne videoen med en faktor på 16 og opskalerer de resulterende optagelser med en faktor på 50, mens de tilføjer et mellemgrå basisniveau for at skelne tilstedeværelsen af negative pixels (som ikke kunne forklares med baseline-video) sensorstøj).
Mulighedsvinduet for at opfatte bevægelse er meget skrøbeligt og kan blive påvirket selv af flimren af lys ved en 60 Hz AC-frekvens. Derfor skal denne naturlige forstyrrelse også evalueres og fjernes fra optagelserne, før person-induceret bevægelse vil opstå.
Endelig producerer systemet rum-tid plots, der signalerer et bestemt antal skjulte rumbeboere – diskrete visuelle signaturer:
Forskellige menneskelige aktiviteter vil også resultere i signaturforstyrrelser, som kan klassificeres og senere genkendes:
For at producere en automatiseret maskinlæringsbaseret arbejdsgang til skjult persongenkendelse, blev varieret optagelse fra 20 sammenhængende scenarier brugt til at træne to neurale netværk, der opererer på stort set ens konfigurationer – det ene til at tælle antallet af personer i en scene, og det andet til at identificere eventuelle bevægelser.
Test
Forskerne testede det trænede system i ti usete miljøer fra den virkelige verden designet til at genskabe de begrænsninger, der forventes for den ultimative implementering. Systemet var i stand til at opnå op til 94.4 % nøjagtighed (over 256 billeder – typisk lidt over 8 sekunders video) ved klassificering af antallet af skjulte personer og op til 93.7 % nøjagtighed (under samme forhold) i klassificering af aktiviteter. Selvom nøjagtigheden falder med færre kildeframes, er det ikke et lineært fald, og selv 64 frames vil opnå en nøjagtighedsrate på 79.4 % for "antal personer"-evaluering (mod næsten 95 % for fire gange antallet af billeder).
Selvom metoden er robust over for vejrbaserede ændringer i belysningen, kæmper den i en scene, der er oplyst af et fjernsyn, eller under omstændigheder, hvor folk er iført monotont tøj i samme farve som den reflekterende væg.
Flere detaljer om forskningen, herunder optagelser af højere kvalitet af ekstraktionerne, kan ses i den officielle video nedenfor.