Робототехніка

Прогрес у сфері «Просторового Штучного Інтелекту» дозволяє роботам сприймати фізичні середовища, як люди

Published July 17, 2020

Updated April 28, 2026

Alex McFarland

Інженери в MIT працюють над тим, щоб дати роботам можливість виконувати високорівневі команди, такі як переміщення в іншу кімнату, щоб взяти предмет для людини. Для цього роботам потрібно мати можливість сприймати своє фізичне середовище подібно до того, як це роблять люди.

Лука Карлон є асистентом професора аеронавтики та астронавтики в MIT.

“Щоб прийняти будь-яке рішення у світі, вам потрібно мати розумову модель середовища навколо вас,” каже Карлон. “Це щось так легко для людей. Але для роботів це болісно складна проблема, де йдеться про перетворення піксельних значень, які вони бачать через камеру, у розуміння світу.”

Щоб прийняти цей виклик, дослідники змоделювали представлення просторового сприйняття для роботів на основі того, як люди сприймають і навігають у своєму фізичному середовищі.

3D Динамічні Графи Сцен

Нова модель називається 3D Динамічні Графи Сцен, і вона дозволяє роботам генерувати 3D-карту свого фізичного оточення, включаючи об’єкти та їх семантичні мітки. Робот також може мапувати людей, кімнати, стіни та інші структури в середовищі.

Модель потім дозволяє роботам витягувати інформацію з 3D-карти, інформацію, яку можна використовувати для визначення місцезнаходження об’єктів, кімнат і руху людей.

“Ця стиснута репрезентація середовища корисна, оскільки вона дозволяє нашому роботу швидко приймати рішення і планувати свій шлях,” каже Карлон. “Це не дуже далеко від того, що ми робимо як люди. Якщо вам потрібно спланувати маршрут від вашого дому до MIT, ви не плануєте кожну окрему позицію, яку вам потрібно зайняти. Ви просто думаєте на рівні вулиць і орієнтирів, що допомагає вам планувати свій маршрут швидше.”

За словами Карлона, роботи, які покладаються на цю модель, зможуть робити набагато більше, ніж просто домашні завдання. Вони також можуть бути використані для високорівневих навичок і працювати поряд з людьми на заводах або допомагати знаходити виживших на місці катастрофи.

https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo

Поточні Методи проти Нової Моделі

Поточні методи для робототехнічного зору і навігації в основному зосереджені на 3D-картуванні, яке дозволяє роботам реконструювати своє середовище в трьох вимірах в реальному часі, або семантичному сегментуванні, яке відбувається, коли роботи класифікують особливості середовища як семантичні об’єкти, наприклад, автомобіль проти велосипеда. Семантичне сегментування часто проводиться на 2D-зображеннях.

Нова розроблена модель просторового сприйняття є першою своєю подобою, яка генерує 3D-карту середовища в реальному часі і міткує об’єкти, людей і структури всередині 3D-карти одночасно.

Щоб досягти цієї нової моделі, дослідники покладалися на Kimera, відкриту бібліотеку. Kimera була раніше розроблена тією ж командою для побудови 3D геометричної моделі середовища, одночасно кодуючи, що об’єкт імовірно є, наприклад, стільцем проти столу.

“Як міфічний створ, який є сумішшю різних тварин, ми хотіли, щоб Kimera була сумішшю мапування і семантичного розуміння в 3D,” каже Карлон.

Kimera використовувала зображення з камери робота і інерційні вимірювання з бортових сенсорів для реконструкції сцени як 3D-сітки в реальному часі. Для цього Kimera використовувала нейронну мережу, яка була навчена на мільйонах реальних зображень. Вона могла потім передбачити мітку кожного пікселя і використовувати рей-кастинг для проєктування їх у 3D.

За допомогою цього методу середовище робота може бути змаповано у три виміри, де кожна грань кольорово кодується, ідентифікуючи її як частину об’єктів, структур або людей у середовищі.

3D Сітка до 3D Динамічних “Графів Сцен”

Оскільки 3D семантична сітка вимагає багато обчислювальної потужності і є часоємною, дослідники використовували Kimera для розробки алгоритмів, які призвели до 3D динамічних “графів сцен”.

3D семантична сітка розбивається на окремі семантичні шари, і робот може потім переглядати сцену через шар. Шари йдуть від об’єктів і людей до відкритих просторів і структур, до кімнат, коридорів, залів і цілих будівель.

Цей метод шарування дозволяє роботам звузити свій фокус, а не мати аналізувати мільярди точок і граней. Цей метод шарування також дозволяє алгоритмам відстежувати людей і їх рух у середовищі в реальному часі.

Нова модель була протестована у фотореалістичному симуляторі, який симулює робота, що переміщується в офісному середовищі з рухомими людьми.

“Ми фактично дозволяємо роботам мати розумові моделі, подібні до тих, які використовують люди,” каже Карлон. “Це може вплинути на багато застосувань, включаючи самохідні автомобілі, пошук і рятування, колаборативне виробництво та домашню робототехніку.

Карлон був приєднаний до лідера авторів і студента MIT Антоні Росіола.

“Наш підхід став можливим завдяки недавнім досягненням у глибокому навчанні і десятиліттям досліджень щодо одночасної локалізації і мапування,” каже Росіол. “З цією роботою, ми робимо стрибок до нової ери робототехнічного сприйняття, званої просторовим штучним інтелектом, яка лише народжується, але має великий потенціал у робототехніці та великомасштабній віртуальній і доповненої реальності.”

Дослідження було представлено на віртуальній конференції Робототехніка: Наука і Системи.

Alex McFarland

Алекс Макфарленд - журналіст та письменник з питань штучного інтелекту, який досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та виданнями з штучного інтелекту у світі.