Robótica

Avanço em “Spatial-AI” Permite que Robôs Percebam Ambientes Físicos como Seres Humanos

Published July 17, 2020

Updated April 27, 2026

Alex McFarland

Engenheiros do MIT estão trabalhando para dar aos robôs a capacidade de seguir comandos de alto nível, como ir a outro quarto para recuperar um item para um indivíduo. Para que isso seja possível, os robôs precisarão ter a capacidade de perceber seus ambientes físicos de forma semelhante à dos seres humanos.

Luca Carlone é professor assistente de aeronáutica e astronáutica do MIT.

“Para tomar qualquer decisão no mundo, você precisa ter um modelo mental do ambiente ao seu redor,” diz Carlone. “Isso é algo tão fácil para os seres humanos. Mas para os robôs é um problema dolorosamente difícil, onde se trata de transformar valores de pixels que eles veem através de uma câmera em uma compreensão do mundo.”

Para enfrentar esse desafio, os pesquisadores modelaram uma representação de percepção espacial para robôs com base em como os seres humanos percebem e navegam em seus ambientes físicos.

Gráficos de Cena Dinâmicos 3D

O novo modelo é chamado de Gráficos de Cena Dinâmicos 3D, e ele permite que um robô gere um mapa 3D de seu ambiente físico, incluindo objetos e suas etiquetas semânticas. O robô também pode mapear pessoas, quartos, paredes e outras estruturas no ambiente.

O modelo então permite que o robô extraia informações do mapa 3D, informações que podem ser usadas para localizar objetos, quartos e o movimento de pessoas.

“Essa representação compressa do ambiente é útil porque permite que nosso robô tome decisões rápidas e planeje seu caminho,” diz Carlone. “Isso não está muito longe do que fazemos como seres humanos. Se você precisar planejar um caminho de sua casa para o MIT, você não planeja cada posição que precisa tomar. Você apenas pensa no nível de ruas e marcos, o que ajuda a planejar sua rota mais rapidamente.”

De acordo com Carlone, robôs que confiam nesse modelo seriam capazes de fazer muito mais do que apenas tarefas domésticas. Eles também poderiam ser usados para habilidades de alto nível e trabalhar ao lado de pessoas em fábricas, ou ajudar a localizar sobreviventes de um local de desastre.

https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo

Métodos Atuais vs Novo Modelo

Os métodos atuais para visão robótica e navegação se concentram principalmente em mapeamento 3D que permite que os robôs reconstruam seu ambiente em três dimensões em tempo real, ou segmentação semântica, que ocorre quando os robôs classificam recursos no ambiente como objetos semânticos, como um carro versus uma bicicleta. A segmentação semântica é frequentemente feita em imagens 2D.

O modelo recém-desenvolvido de percepção espacial é o primeiro do seu tipo a gerar um mapa 3D do ambiente em tempo real e etiquetar objetos, pessoas e estruturas dentro do mapa 3D ao mesmo tempo.

Para alcançar esse novo modelo, os pesquisadores confiaram em Kimera, uma biblioteca de código aberto. Kimera foi desenvolvida anteriormente pela mesma equipe para construir um modelo geométrico 3D de um ambiente, enquanto codifica o que o objeto provavelmente é, como uma cadeira versus uma mesa.

“Como a criatura mitológica que é uma mistura de diferentes animais, queríamos que Kimera fosse uma mistura de mapeamento e compreensão semântica em 3D,” diz Carlone.

Kimera usou imagens de uma câmera do robô e medições inerciais de sensores a bordo para reconstruir a cena como uma malha 3D em tempo real. Para fazer isso, Kimera utilizou uma rede neural que foi treinada em milhões de imagens do mundo real. Ela então podia prever a etiqueta de cada pixel e usar ray-casting para projetá-los em 3D.

Através do uso dessa técnica, o ambiente do robô pode ser mapeado em uma malha tridimensional onde cada face é colorida, identificando-a como parte de objetos, estruturas ou pessoas no ambiente.

Malha 3D para Gráficos de Cena Dinâmicos 3D

Porque o modelo de malha semântica 3D requer muita potência computacional e é demorado, os pesquisadores usaram Kimera para desenvolver algoritmos que resultaram em gráficos de cena dinâmicos 3D.

A malha semântica 3D é quebrada em camadas semânticas distintas, e o robô então pode ver uma cena através de uma camada. As camadas vão desde objetos e pessoas, até espaços abertos e estruturas, até quartos, corredores, salas e prédios inteiros.

Esse método de camada permite que o robô estreite seu foco em vez de ter que analisar bilhões de pontos e faces. Esse método de camada também permite que os algoritmos rastreiem humanos e seu movimento dentro do ambiente em tempo real.

O novo modelo foi testado em um simulador foto-realista que simula um robô navegando em um ambiente de escritório com pessoas em movimento.

“Estamos essencialmente permitindo que os robôs tenham modelos mentais semelhantes aos que os seres humanos usam,” diz Carlone. “Isso pode impactar muitas aplicações, incluindo carros autônomos, busca e resgate, manufatura colaborativa e robótica doméstica.

Carlone foi acompanhado pelo autor principal e estudante de pós-graduação do MIT Antoni Rosinol.

“Nossa abordagem só foi possível graças aos recentes avanços no aprendizado profundo e décadas de pesquisa em localização e mapeamento simultâneos,” diz Rosinol. “Com esse trabalho, estamos dando o salto para uma nova era de percepção robótica chamada spatial-AI, que está apenas em sua infância, mas tem um grande potencial em robótica e realidade virtual e aumentada em larga escala.”

A pesquisa foi apresentada na conferência virtual Robotics: Science and Systems.

Alex McFarland

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.