Спостереження
AI розкриває секретну діяльність, яку розкривають глухі стіни
Співпраця дослідників, у тому числі співробітників NVIDIA та Массачусетського технологічного інституту, розробила метод машинного навчання, який може ідентифікувати прихованих людей, просто спостерігаючи за непрямим освітленням на сусідній стіні, навіть якщо люди знаходяться далеко від джерел світла. Метод має точність близько 94% при спробі ідентифікувати кількість прихованих людей, а також може ідентифікувати конкретну активність прихованої людини шляхом значного посилення відбитого світла, невидимого для людського ока та стандартних методів посилення зображення.
Новий папір має титул Що можна дізнатися, дивлячись на порожню стіну, за участі NVIDIA та MIT, а також Ізраїльського технологічного інституту.
Попередні підходи до «бачення навколо стін» покладалися на керовані джерела світла або попередні знання про відомі джерела оклюзії, тоді як нова техніка може бути загальна для будь-якої нової кімнати без необхідності повторного калібрування. Дві згорткові нейронні мережі, які індивідуюють прихованих людей, використовували дані, отримані лише з 20 сцен.
Проект спрямований на ситуації високого ризику, критичні з точки зору безпеки, для пошуково-рятувальних операцій, загальних завдань спостереження правоохоронних органів, сценаріїв реагування на надзвичайні ситуації, для виявлення падінь серед людей похилого віку та як засіб для виявлення прихованих пішоходів для автономних транспортних засобів.
Пасивна оцінка
Як це часто буває з проектами комп’ютерного бачення, центральним завданням було ідентифікувати, класифікувати та операціоналізувати сприйняті зміни стану в потоці зображень. Об’єднання змін призводить до шаблонів підписів, які можна використовувати або для ідентифікації кількох осіб, або для виявлення активності однієї чи кількох осіб.
Робота відкриває можливість повністю пасивної оцінки сцени, без необхідності використання відбиваючих поверхонь, Сигнали Wi-Fi, радар, звук або будь-які інші «особливі обставини», необхідні в інших дослідницьких зусиллях останніх років, спрямованих на встановлення прихованої присутності людини в небезпечному або критичному середовищі.
По суті, навколишнє освітлення для типового сценарію, передбаченого для програми, перекриває будь-які незначні збурення, спричинені відбитим світлом від людей, прихованих в інших місцях сцени. Дослідники підрахували, що внесок світлових збурень окремих людей зазвичай становить менше 1% від загального видимого світла.
Видалення статичного освітлення
Щоб витягти рух із очевидно статичного зображення стіни, необхідно обчислити часове середнє відео та видалити його з кожного кадру. Отримані шаблони руху зазвичай нижчі за поріг шуму навіть якісного відеообладнання, і фактично більша частина руху відбувається в межах негативного простору пікселів.
Щоб виправити це, дослідники зменшують роздільну здатність відео в 16 разів і підвищують масштаб отриманого кадру в 50 разів, додаючи при цьому базовий рівень середнього сірого, щоб визначити наявність негативних пікселів (які не можна було врахувати в базовому відео). шум датчика).
Вікно можливостей для сприйняття руху дуже крихке, і на нього може вплинути навіть мерехтіння вогнів на частоті змінного струму 60 Гц. Тому це природне збурення також має бути оцінено та видалено з відзнятого матеріалу, перш ніж з’явиться рух, спричинений людиною.
Нарешті, система створює просторово-часові графіки, які сигналізують про певну кількість прихованих мешканців кімнати – дискретні візуальні підписи:
Різні дії людини також призведуть до сигнатурних збурень, які можна класифікувати та пізніше розпізнати:
Щоб створити автоматизований робочий процес на основі машинного навчання для розпізнавання прихованих осіб, було використано різноманітні кадри з 20 відповідних сценаріїв для навчання двох нейронних мереж, що працюють із загалом подібними конфігураціями: одна для підрахунку кількості людей у сцені, а інша для визначити будь-який рух, що відбувається.
Тестування
Дослідники протестували навчену систему в десяти невидимих середовищах реального світу, призначених для відтворення обмежень, передбачених для остаточного розгортання. Система змогла досягти точності до 94.4% (понад 256 кадрів – зазвичай трохи більше 8 секунд відео) у класифікації кількості прихованих людей і до 93.7% (за тих самих умов) у класифікації дій. Хоча точність падає із меншою кількістю вихідних кадрів, це не лінійне падіння, і навіть 64 кадри досягнуть рівня точності 79.4% для оцінки «кількості людей» (проти майже 95% для вчетверо більшої кількості кадрів).
Хоча цей метод стійкий до погодних змін освітлення, він погано працює на сцені, освітленій телевізором, або в обставинах, коли люди носять однотонний одяг того самого кольору, що й відбиваюча стіна.
Більш детальну інформацію про дослідження, включно з високоякісними кадрами екстракції, можна побачити в офіційному відео нижче.