Connect with us

Toezicht

AI ontdekt het geheime activiteit onthuld door lege muren

mm

Een onderzoeksproject, met bijdragen van onder andere NVIDIA en MIT, heeft een machine learning-methode ontwikkeld die verborgen personen kan identificeren door alleen maar de indirecte verlichting op een nabijgelegen muur te observeren, zelfs als de personen niet in de buurt van de lichtbronnen zijn. De methode heeft een nauwkeurigheid van bijna 94% bij het identificeren van het aantal verborgen personen en kan ook de specifieke activiteit van een verborgen persoon identificeren door lichtreflecties die onzichtbaar zijn voor het menselijk oog en voor standaard methoden van beeldversterking enorm te versterken.

Onmerkbare perturbaties van licht, versterkt door de nieuwe methode, die convolutional neural networks gebruikt om gebieden van verandering te identificeren. Source: https://www.youtube.com/watch?v=K4PapXyX-bI

Onmerkbare perturbaties van licht, versterkt door de nieuwe methode, die convolutional neural networks gebruikt om gebieden van verandering te identificeren. Source: https://www.youtube.com/watch?v=K4PapXyX-bI

Het nieuwe paper heeft als titel What You Can Learn by Staring at a Blank Wall, met bijdragen van NVIDIA en MIT, evenals het Israel Institute of Technology.

Eerdere benaderingen van ‘rondkijken’ hebben verlichtingbronnen of voorafgaande kennis van bekende bronnen van occlusie vereist, terwijl de nieuwe techniek kan worden toegepast op elke nieuwe kamer, zonder dat er een nieuwe kalibratie nodig is. De twee convolutional neural networks die verborgen personen identificeren, gebruikten gegevens die zijn verkregen uit slechts 20 scènes.

Het project is gericht op hoge-risico, veiligheidskritieke situaties, voor zoek- en reddingsoperaties, algemene surveillance-taken van de politie, noodsituaties, voor valdetectie bij ouderen en als middel om verborgen voetgangers te detecteren voor autonome voertuigen.

Pasieve evaluatie

Zoals vaak het geval is met computer vision-projecten, was de centrale taak om veranderingen in een beeldstroom te identificeren, te classificeren en te operationaliseren. Het concatenaten van de veranderingen leidt tot signatuurpatronen die kunnen worden gebruikt om het aantal personen te identificeren of om de activiteit van een of meer personen te detecteren.

Het werk opent de mogelijkheid voor volledig passieve scène-evaluatie, zonder dat er reflecterende oppervlakken, Wi-Fi-signalen, radar, geluid of andere ‘speciale omstandigheden’ nodig zijn die in andere onderzoeken van de afgelopen jaren zijn vereist om verborgen menselijke aanwezigheid in een gevaarlijke of kritieke omgeving te detecteren.

Een voorbeeld van een data-verzamelingscenario van het type dat voor het nieuwe onderzoek is gebruikt. De onderwerpen zijn zorgvuldig geplaatst om geen schaduwen te werpen of lichten rechtstreeks te verduisteren, en er zijn geen reflecterende oppervlakken of andere 'cheat'-vectoren toegestaan. Source: https://arxiv.org/pdf/2108.13027.pdf

Een voorbeeld van een data-verzamelingscenario van het type dat voor het nieuwe onderzoek is gebruikt. De onderwerpen zijn zorgvuldig geplaatst om geen schaduwen te werpen of lichten rechtstreeks te verduisteren, en er zijn geen reflecterende oppervlakken of andere ‘cheat’-vectoren toegestaan. Source: https://arxiv.org/pdf/2108.13027.pdf

Effectief gezien zou de omgevingsverlichting in het typische scenario dat voor de toepassing wordt overwogen, elke kleine perturbatie veroorzaakt door gereflecteerd licht van personen die elders in de scène verborgen zijn, overweldigen. De onderzoekers berekenen dat de lichtverstoringbijdrage van de personen typisch minder dan 1% van het totale zichtbare licht zou zijn.

Verwijdering van statische verlichting

Om beweging uit het ogenschijnlijk statische muurbeeld te extraheren, is het noodzakelijk om de tijdelijke gemiddelde van de video te berekenen en deze te verwijderen uit elke frame. De resulterende bewegingspatronen liggen meestal onder de ruisdrempel van zelfs goede kwaliteit video-apparatuur, en in feite vindt veel van de beweging plaats binnen een negatieve pixeldruimte.

Om dit te verhelpen, downsamplen de onderzoekers de video met een factor van 16 en upscalen de resulterende beelden met een factor van 50, terwijl ze een midden-grijze basisniveau toevoegen om de aanwezigheid van negatieve pixels (die niet kunnen worden toegeschreven aan baseline video-sensorenruis) te detecteren.

Het verschil tussen de door de mens waargenomen muur en de geëxtraheerde perturbatie van verborgen personen. Aangezien beeldkwaliteit een centraal punt is in dit onderzoek, verwijzen we naar de officiële video aan het einde van het artikel voor een hogere kwaliteit beeld.

Het verschil tussen de door de mens waargenomen muur en de geëxtraheerde perturbatie van verborgen personen. Aangezien beeldkwaliteit een centraal punt is in dit onderzoek, verwijzen we naar de officiële video aan het einde van het artikel voor een hogere kwaliteit beeld.

Het venster van mogelijkheid om beweging waar te nemen is zeer fragiel en kan worden beïnvloed, zelfs door het knipperen van lichten bij een 60 Hz AC-frequentie. Daarom moet deze natuurlijke perturbatie ook worden geëvalueerd en verwijderd uit de beelden voordat personen-geïnduceerde beweging zal verschijnen.

Ten slotte produceert het systeem ruimte-tijd-plots die een specifiek aantal verborgen kamerbewoners signaleren – discrete visuele handtekeningen:

Handtekening ruimte-tijd-plots die verschillende aantallen verborgen personen in een kamer vertegenwoordigen.

Handtekening ruimte-tijd-plots die verschillende aantallen verborgen personen in een kamer vertegenwoordigen.

Verschillende menselijke activiteiten zullen ook leiden tot signatuur-perturbaties die kunnen worden geclassificeerd en later herkend:

De ruimte-tijd-plot-handtekeningen voor inactiviteit, lopen, hurken, handen zwaaien en springen.

De ruimte-tijd-plot-handtekeningen voor inactiviteit, lopen, hurken, handen zwaaien en springen.

Om een geautomatiseerde machine learning-gebaseerde workflow voor verborgen persoonherkenning te produceren, werd gevarieerde beelden uit 20 geschikte scenario’s gebruikt om twee neurale netwerken te trainen die op breed vergelijkbare configuraties werken – één om het aantal personen in een scène te tellen en de andere om elke beweging te identificeren die optreedt.

Testen

De onderzoekers testten het getrainde systeem in tien ongezien reële omgevingen die zijn ontworpen om de beperkingen te recreëren die worden verwacht voor de uiteindelijke inzet. Het systeem kon een nauwkeurigheid van maximaal 94,4% bereiken (over 256 frames – meestal net iets meer dan 8 seconden video) bij het classificeren van het aantal verborgen personen en maximaal 93,7% nauwkeurigheid (onder dezelfde omstandigheden) bij het classificeren van activiteiten. Hoewel de nauwkeurigheid afneemt met minder bronframes, is het geen lineaire daling, en zelfs 64 frames zullen een nauwkeurigheidspercentage van 79,4% bereiken voor ‘aantal-mensen’-evaluatie (tegen bijna 95% voor vier keer het aantal frames).

Hoewel de methode robuust is tegen weersgerelateerde veranderingen in verlichting, heeft deze moeite in een scène die wordt verlicht door een tv, of in omstandigheden waarin de personen monotone kleding dragen die dezelfde kleur hebben als de reflecterende muur.

Meer details over het onderzoek, waaronder hogere kwaliteit beelden van de extracties, kunnen worden gezien in de officiële video hieronder.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.