заглушки AI розкриває секретну діяльність, яку розкривають глухі стіни - Unite.AI
Зв'язатися з нами

Спостереження

AI розкриває секретну діяльність, яку розкривають глухі стіни

mm

опублікований

 on

Співпраця дослідників, у тому числі співробітників NVIDIA та Массачусетського технологічного інституту, розробила метод машинного навчання, який може ідентифікувати прихованих людей, просто спостерігаючи за непрямим освітленням на сусідній стіні, навіть якщо люди знаходяться далеко від джерел світла. Метод має точність близько 94% при спробі ідентифікувати кількість прихованих людей, а також може ідентифікувати конкретну активність прихованої людини шляхом значного посилення відбитого світла, невидимого для людського ока та стандартних методів посилення зображення.

Непомітні збурення світла, посилені новим методом, який використовує згорточні нейронні мережі для визначення областей змін. Джерело: https://www.youtube.com/watch?v=K4PapXyX-bI

Непомітні збурення світла, посилені новим методом, який використовує згорточні нейронні мережі для визначення областей змін. Джерело: https://www.youtube.com/watch?v=K4PapXyX-bI

Новий папір має титул Що можна дізнатися, дивлячись на порожню стіну, за участі NVIDIA та MIT, а також Ізраїльського технологічного інституту.

Попередні підходи до «бачення навколо стін» покладалися на керовані джерела світла або попередні знання про відомі джерела оклюзії, тоді як нова техніка може бути загальна для будь-якої нової кімнати без необхідності повторного калібрування. Дві згорткові нейронні мережі, які індивідуюють прихованих людей, використовували дані, отримані лише з 20 сцен.

Проект спрямований на ситуації високого ризику, критичні з точки зору безпеки, для пошуково-рятувальних операцій, загальних завдань спостереження правоохоронних органів, сценаріїв реагування на надзвичайні ситуації, для виявлення падінь серед людей похилого віку та як засіб для виявлення прихованих пішоходів для автономних транспортних засобів.

Пасивна оцінка

Як це часто буває з проектами комп’ютерного бачення, центральним завданням було ідентифікувати, класифікувати та операціоналізувати сприйняті зміни стану в потоці зображень. Об’єднання змін призводить до шаблонів підписів, які можна використовувати або для ідентифікації кількох осіб, або для виявлення активності однієї чи кількох осіб.

Робота відкриває можливість повністю пасивної оцінки сцени, без необхідності використання відбиваючих поверхонь, Сигнали Wi-Fi, радар, звук або будь-які інші «особливі обставини», необхідні в інших дослідницьких зусиллях останніх років, спрямованих на встановлення прихованої присутності людини в небезпечному або критичному середовищі.

Зразок сценарію збору даних типу, що використовується для нового дослідження. Суб’єкти розташовуються обережно, щоб не відкидати тіні чи безпосередньо закривати будь-яке світло, і жодні відбиваючі поверхні чи інші «шахрайські» вектори не допускаються. Джерело: https://arxiv.org/pdf/2108.13027.pdf

Зразок сценарію збору даних типу, що використовується для нового дослідження. Суб’єкти розташовуються обережно, щоб не відкидати тіні чи безпосередньо закривати будь-яке світло, і жодні відбиваючі поверхні чи інші «шахрайські» вектори не допускаються. Джерело: https://arxiv.org/pdf/2108.13027.pdf

По суті, навколишнє освітлення для типового сценарію, передбаченого для програми, перекриває будь-які незначні збурення, спричинені відбитим світлом від людей, прихованих в інших місцях сцени. Дослідники підрахували, що внесок світлових збурень окремих людей зазвичай становить менше 1% від загального видимого світла.

Видалення статичного освітлення

Щоб витягти рух із очевидно статичного зображення стіни, необхідно обчислити часове середнє відео та видалити його з кожного кадру. Отримані шаблони руху зазвичай нижчі за поріг шуму навіть якісного відеообладнання, і фактично більша частина руху відбувається в межах негативного простору пікселів.

Щоб виправити це, дослідники зменшують роздільну здатність відео в 16 разів і підвищують масштаб отриманого кадру в 50 разів, додаючи при цьому базовий рівень середнього сірого, щоб визначити наявність негативних пікселів (які не можна було врахувати в базовому відео). шум датчика).

Різниця між стіною, яку сприймає людина, і витягнутим збуренням прихованих індивідів. Оскільки якість зображення є центральним питанням у цьому дослідженні, перегляньте офіційне відео в кінці статті, щоб отримати зображення вищої якості.

Різниця між стіною, яку сприймає людина, і витягнутим збуренням прихованих індивідів. Оскільки якість зображення є центральним питанням у цьому дослідженні, перегляньте офіційне відео в кінці статті, щоб отримати зображення вищої якості.

Вікно можливостей для сприйняття руху дуже крихке, і на нього може вплинути навіть мерехтіння вогнів на частоті змінного струму 60 Гц. Тому це природне збурення також має бути оцінено та видалено з відзнятого матеріалу, перш ніж з’явиться рух, спричинений людиною.

Нарешті, система створює просторово-часові графіки, які сигналізують про певну кількість прихованих мешканців кімнати – дискретні візуальні підписи:

Характерні просторово-часові графіки, що представляють різну кількість прихованих людей у ​​кімнаті.

Характерні просторово-часові графіки, що представляють різну кількість прихованих людей у ​​кімнаті.

Різні дії людини також призведуть до сигнатурних збурень, які можна класифікувати та пізніше розпізнати:

Сигнатури просторово-часового сюжету для бездіяльності, ходьби, присідання, розмахування руками та стрибків.

Сигнатури просторово-часового сюжету для бездіяльності, ходьби, присідання, розмахування руками та стрибків.

Щоб створити автоматизований робочий процес на основі машинного навчання для розпізнавання прихованих осіб, було використано різноманітні кадри з 20 відповідних сценаріїв для навчання двох нейронних мереж, що працюють із загалом подібними конфігураціями: одна для підрахунку кількості людей у ​​сцені, а інша для визначити будь-який рух, що відбувається.

Тестування

Дослідники протестували навчену систему в десяти невидимих ​​середовищах реального світу, призначених для відтворення обмежень, передбачених для остаточного розгортання. Система змогла досягти точності до 94.4% (понад 256 кадрів – зазвичай трохи більше 8 секунд відео) у класифікації кількості прихованих людей і до 93.7% (за тих самих умов) у класифікації дій. Хоча точність падає із меншою кількістю вихідних кадрів, це не лінійне падіння, і навіть 64 кадри досягнуть рівня точності 79.4% для оцінки «кількості людей» (проти майже 95% для вчетверо більшої кількості кадрів).

Хоча цей метод стійкий до погодних змін освітлення, він погано працює на сцені, освітленій телевізором, або в обставинах, коли люди носять однотонний одяг того самого кольору, що й відбиваюча стіна.

Більш детальну інформацію про дослідження, включно з високоякісними кадрами екстракції, можна побачити в офіційному відео нижче.

Що можна дізнатися, дивлячись на порожню стіну