Connect with us

AI Розкриває Таємну Діяльність, Яку Відкривають Пусті Стіни

Спостереження

AI Розкриває Таємну Діяльність, Яку Відкривають Пусті Стіни

mm

Колаборація дослідників, до якої увійшли представники NVIDIA та MIT, розробила метод машинного навчання, який дозволяє визначити приховані особи просто спостерігаючи за непрямим освітленням на ближній стіні, навіть якщо ці особи знаходяться поза зоною освітлення. Метод має точність близько 94% при спробі визначити кількість прихованих осіб і також може визначити конкретну діяльність прихованої особи шляхом масштабування світлових відблисків, які є невидимими для людського ока та стандартних методів збільшення зображення.

Неможливі для сприйняття людським оком зміни освітлення, збільшені новим методом, який використовує卷неві нейронні мережі для визначення областей зміни. Джерело: https://www.youtube.com/watch?v=K4PapXyX-bI

Неможливі для сприйняття людським оком зміни освітлення, збільшені новим методом, який використовує卷неві нейронні мережі для визначення областей зміни. Джерело: https://www.youtube.com/watch?v=K4PapXyX-bI

Нова праця має назву Що Ви Можете Дізнатися, Дивлячись на Пусту Стіну, до якої увійшли внески від NVIDIA та MIT, а також Ізраїльського технологічного інституту.

Попередні підходи до “бачення за стіною” залежали від керованих джерел світла або попередніх знань про відомі джерела заслінення, тоді як новий метод може узагальнюватися для будь-якої нової кімнати, без потреби у перезатвердженні. Дві卷неві нейронні мережі, які індивідуалізують приховані особи, використовували дані, отримані лише з 20 сцен.

Проект спрямований на високоризикові, критичні для безпеки ситуації, для пошуково-рятувальних операцій, загальних завдань спостереження за правоохоронними органами, ситуацій реагування на надзвичайні ситуації, для виявлення падіння серед людей похилого віку, а також як засіб виявлення прихованих пішоходів для автономних транспортних засобів.

Пасивна Оцінка

Як часто буває у проектах комп’ютерного зору, центральним завданням було визначення, класифікація та операціоналізація виявлених змін станів у потоці зображень. З’єднання змін веде до сигнатурних моделей, які можна використовувати для визначення кількості осіб або виявлення діяльності однієї чи декількох осіб.

Ця робота відкриває можливість повністю пасивної оцінки сцени, без потреби використовувати відбивні поверхні, Wi-Fi-сигнали, радар, звук або будь-які інші “спеціальні обставини”, необхідні в інших дослідженнях останніх років, які намагалися встановити приховану присутність людини в небезпечній або критичній середовищі.

Зразок сценарію збору даних, використаного для нового дослідження. Об'єкти розташовані так, щоб не створювати тіней або безпосередньо заслінювати джерела світла, і не допускаються відбивні поверхні або інші 'обхідні' вектори. Джерело: https://arxiv.org/pdf/2108.13027.pdf

Зразок сценарію збору даних, використаного для нового дослідження. Об’єкти розташовані так, щоб не створювати тіней або безпосередньо заслінювати джерела світла, і не допускаються відбивні поверхні або інші ‘обхідні’ вектори. Джерело: https://arxiv.org/pdf/2108.13027.pdf

Ефектно, навколишнє освітлення для типового сценарію, передбаченого для застосування, буде перекривати будь-які незначні порушення, спричинені відбитим світлом від людей, прихованих в іншому місці сцени. Дослідники розрахували, що внесок світлових порушень осіб буде зазвичай менше 1% від загального видимого світла.

Видалення Статичного Освітлення

Для виділення руху з очевидно статичного зображення стіни необхідно розрахувати тимчасову середню відео та видалити її з кожного кадру. Результатом є моделі руху, які зазвичай нижчі за поріг шуму навіть доброї якості відеообладнання, і фактично більша частина руху відбувається у негативному просторі пікселів.

Для виправлення цього дослідники знижують роздільну здатність відео в 16 разів і збільшують отримане відео в 50 разів, додаючи середній сірий рівень, щоб визначити присутність негативних пікселів (які не могли бути пояснені шумом відеосенсора).

Різниця між людським сприйняттям стіни та виділеною порушенням прихованих осіб. Оскільки якість зображення є центральною проблемою цього дослідження, зверніться до офіційного відео в кінці статті для вищої якості зображення.

Різниця між людським сприйняттям стіни та виділеною порушенням прихованих осіб. Оскільки якість зображення є центральною проблемою цього дослідження, зверніться до офіційного відео в кінці статті для вищої якості зображення.

Вікно можливості сприйняття руху дуже крихке і може бути порушено навіть мерціванням світла на частоті 60 Гц. Тому ця природна порушка також повинна бути оцінена та видалена з відео, перш ніж рух, спричинений людиною, стане очевидним.

Нарешті, система генерує просторово-часові графіки, які сигналізують про конкретну кількість прихованих мешканців кімнати – дискретні візуальні сигнатури:

Сігнатурні просторово-часові графіки, що представляють різні кількості прихованих осіб у кімнаті.

Сігнатурні просторово-часові графіки, що представляють різні кількості прихованих осіб у кімнаті.

Різні людські дії також призведуть до сигнатурних порушень, які можна класифікувати та пізніше розпізнати:

Просторово-часові графіки сигнатур для бездіяльності, ходьби, схиляння, руху руками та стрибків.

Просторово-часові графіки сигнатур для бездіяльності, ходьби, схиляння, руху руками та стрибків.

Для створення автоматизованого робочого процесу машинного навчання для розпізнавання прихованих осіб використовувався різноманітний відеоматеріал з 20 відповідних сцен для навчання двох нейронних мереж, які працюють на широких конфігураціях – одну для підрахунку кількості осіб у сцені, а іншу для визначення будь-якого руху, який відбувається.

Тестування

Дослідники протестували навчену систему в десяти невидимих реальних середовищах, створених для реконструкції обмежень, передбачених для кінцевого розгортання. Система змогла досягти до 94,4% точності (за 256 кадрів – типово трохи більше 8 секунд відео) при класифікації кількості прихованих осіб і до 93,7% точності (за тих же умов) при класифікації дій. Хоча точність знижується з меншою кількістю кадрів джерела, це не лінійне зниження, і навіть 64 кадри досягнуть 79,4% точності для оцінки “кількості осіб” (проти майже 95% для чотири рази більшої кількості кадрів).

Хоча метод є стійким до погодних змін освітлення, він має труднощі в сцені, освітленій телевізором, або в обставинах, коли люди носять однотонне вбрання того ж кольору, що і відбивна стіна.

Більше інформації про дослідження, включаючи відеоматеріал вищої якості, можна побачити в офіційному відео нижче.

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]