Connect with us

AI avslöjar den hemliga aktiviteten som avslöjas av blanka väggar

Övervakning

AI avslöjar den hemliga aktiviteten som avslöjas av blanka väggar

mm

Ett forskningssamarbete, som inkluderar bidragsgivare från NVIDIA och MIT, har utvecklat en maskinlärningsmetod som kan identifiera dolda personer genom att observera indirekt belysning på en närliggande vägg, även när personerna inte är i närheten av ljuskällorna. Metoden har en noggrannhet på nästan 94% när det gäller att identifiera antalet dolda personer, och kan också identifiera den specifika aktiviteten hos en dold person genom att kraftigt förstärka ljusblixtar som är osynliga för mänskliga ögon och för standardmetoder för bildförstärkning.

Oförnimbara perturbationer av ljus, förstärkta av den nya metoden, som använder convolutionella neurala nätverk för att identifiera områden med förändring. Källa: https://www.youtube.com/watch?v=K4PapXyX-bI

Oförnimbara perturbationer av ljus, förstärkta av den nya metoden, som använder convolutionella neurala nätverk för att identifiera områden med förändring. Källa: https://www.youtube.com/watch?v=K4PapXyX-bI

Den nya artikeln har titeln Vad du kan lära dig genom att stirra på en blank vägg, med bidrag från NVIDIA och MIT, samt Israel Institute of Technology.

Tidigare tillvägagångssätt för att “se runt hörn” har förlitat sig på kontrollerbara ljuskällor eller tidigare kunskap om kända källor till ocklusion, medan den nya tekniken kan generaliseras till vilket rum som helst, utan krav på omkalibrering. De två convolutionella neurala nätverken som individuerar dolda personer använde data från endast 20 scener.

Projektet riktar sig mot högrisk-, säkerhetskritiska situationer, för sök- och räddningsinsatser, allmänna övervakningsuppgifter inom lagföring, nödsituationer, för upptäckt av fall bland äldre personer och som ett sätt att upptäcka dolda fotgängare för autonoma fordon.

Passiv utvärdering

Som ofta är fallet med datorseendeprojekt var den centrala uppgiften att identifiera, klassificera och operationalisera upplevda tillståndsändringar i en bildström. Sammansättning av ändringarna leder till signaturmönster som kan användas antingen för att identifiera ett antal individer eller för att upptäcka aktiviteten hos en eller flera individer.

Arbetet öppnar upp möjligheten för helt passiv scenutvärdering, utan behov av att använda reflekterande ytor, Wi-Fi-signal, radar, ljud eller några andra “särskilda omständigheter” som krävs i andra forskningsinsatser under de senaste åren som har försökt att fastställa dold mänsklig närvaro i en farlig eller kritisk miljö.

En exempelscen för datainsamling av den typ som användes för den nya forskningen. Försökspersonerna är noggrant positionerade så att de inte kastar skuggor eller direkt blockerar några ljuskällor, och inga reflekterande ytor eller andra “fusk”-vektorer tillåts. Källa: https://arxiv.org/pdf/2108.13027.pdf

Effektivt sett skulle den omgivande belysningen i den typiska scenen som föreställs för tillämpningen överväldiga alla små perturbationer orsakade av reflekterat ljus från personer som är dolda någon annanstans i scenen. Forskarna beräknar att ljusstörningsbidraget från individerna vanligtvis skulle vara mindre än 1% av det totala synliga ljuset.

Borttagning av statisk belysning

För att extrahera rörelse från den till synes statiska väggens bild är det nödvändigt att beräkna den temporala genomsnittet av videon och ta bort det från varje ram. De resulterande rörelsemönstren ligger vanligtvis under brusgränsen för till och med bra kvalitetsvideoequipment, och i verkligheten sker mycket av rörelsen inom ett negativt pixeltillstånd.

För att åtgärda detta nedsamplear forskarna videon med en faktor på 16 och upscale den resulterande filmen med en faktor på 50, samtidigt som de lägger till en mittgrå basnivå för att urskilja närvaron av negativa pixlar (som inte kunde förklaras av baslinjebrus från videosenheten).

Skillnaden mellan den mänskligt uppfattade väggen och den extraherade perturbationen av dolda individer. Eftersom bildkvalitet är en central fråga i denna forskning, se den officiella videon i slutet av artikeln för en högkvalitativ bild.

Skillnaden mellan den mänskligt uppfattade väggen och den extraherade perturbationen av dolda individer. Eftersom bildkvalitet är en central fråga i denna forskning, se den officiella videon i slutet av artikeln för en högkvalitativ bild.

Fönstret för möjlighet att uppfatta rörelse är mycket skört och kan påverkas även av ljusflimmer vid en frekvens på 60 Hz. Därför måste denna naturliga perturbation också utvärderas och tas bort från filmen innan personinducerad rörelse kommer att framträda.

Slutligen producerar systemet rum-tidsplot som signalerar ett specifikt antal dolda rumshabitants – diskreta visuella signaturer:

Signatur-rum-tidsplot som representerar olika antal dolda personer i ett rum.

Signatur-rum-tidsplot som representerar olika antal dolda personer i ett rum.

Olika mänskliga aktiviteter kommer också att resultera i signaturperturbationer som kan klassificeras och senare erkännas:

Rum-tidsplot-signaturer för inaktivitet, gång, knäböj, vinkande händer och hopp.

Rum-tidsplot-signaturer för inaktivitet, gång, knäböj, vinkande händer och hopp.

För att producera en automatiserad maskinlärningsbaserad arbetsflöde för dold personigenkänning användes varierad film från 20 lämpliga scener för att träna två neurala nätverk som opererar på breda liknande konfigurationer – ett för att räkna antalet personer i en scen, och det andra för att identifiera någon rörelse som sker.

Testning

Forskarna testade det tränade systemet i tio osynliga verkliga miljöer som utformats för att återskapa begränsningarna som förväntas för den slutliga distributionen. Systemet kunde uppnå upp till 94,4% noggrannhet (över 256 ramar – vanligtvis strax över 8 sekunder av video) i klassificering av antalet dolda personer, och upp till 93,7% noggrannhet (under samma förhållanden) i klassificering av aktiviteter. Även om noggrannheten minskar med färre källramar, är det inte en linjär minskning, och till och med 64 ramar kommer att uppnå en noggrannhet på 79,4% för “antal-personer”-utvärdering (mot nästan 95% för fyra gånger så många ramar).

Även om metoden är robust mot väderbaserade förändringar i belysning, kämpar den i en scen belyst av en TV, eller i omständigheter där personerna bär enhetliga kläder i samma färg som den reflekterande väggen.

Mer information om forskningen, inklusive högkvalitativ film av extraktionerna, kan ses i den officiella videon nedan.

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.