Connect with us

Líderes de pensamento

Ensino de Robôs a se Movimentar. Agora Estamos Ensino-os a Viver

mm

A robótica moderna alcançou um ponto em que o movimento não é mais o principal desafio – as máquinas já podem navegar, agarrar e operar no espaço com precisão impressionante. No entanto, permitir que elas realmente “vivam” e funcionem no mundo real ainda é um problema sem solução.

Nesse processo, o papel fundamental é desempenhado pelo que poderia ser chamado de “medula espinhal”: o sistema responsável por reações básicas, comportamento e interação com o ambiente.

Quando você olha para a evolução dos robôs através dessa lente, torna-se claro que essa sequência de estágios – onde o sistema aprende algo novo a cada etapa, desde o movimento simples até ações complexas e cientes do contexto – se assemelha muito ao desenvolvimento humano.

E é exatamente dentro dessa evolução – de “hardware” vazio para comportamento significativo – que a principal mudança na inteligência artificial física está acontecendo hoje. Interessante aprender mais profundamente.

A fundação da robótica: um estágio raramente discutido

O que é um robô em termos práticos? É um dispositivo físico inicialmente criado como uma plataforma universal. Em essência, é um “branco” que deve ser adaptado a tarefas específicas, treinado para operar em um ambiente determinado e ensinado a realizar as ações necessárias.

Se movemos além dos cenários do dia a dia e consideramos aplicações mais realistas de curto prazo, torna-se claro que a adoção total de robôs ocorrerá principalmente em ambientes industriais e potencialmente perigosos. Isso, por sua vez, implica requisitos significativamente mais altos para seu comportamento, robustez e qualidade de treinamento.

O processo começa com o passo mais básico – construir o dispositivo em si. Um robô é montado a partir de vários componentes, incluindo atuadores, motores, sensores, câmeras, LiDARs. Pode ser humanoid, sobre rodas, bípede ou quadrúpede – o fator de forma é secundário. O que importa é que, nessa etapa, terminamos com um dispositivo funcional, mas ainda “vazio”.

A próxima etapa é instalar um modelo base que sirva como fundamento para seu comportamento. Em um sentido amplo, o “modelo” é a camada de controle funcional completa. É responsável por capacidades básicas: manter o equilíbrio, ficar em pé e se mover, navegar de um ponto A a um ponto B, evitar obstáculos, não danificar o ambiente e interagir com segurança com humanos.

Aqui é onde o aprendizado por reforço entra em jogo. Nesses sistemas, bilhões de simulações são executados. Muitas vezes vemos vídeos de robôs “aprendendo” em ambientes complexos: a maioria deles cai, perde o equilíbrio ou falha em completar a tarefa. Mas aqueles que conseguem ficar de pé e continuar se movendo são os que progredem.

Essa é a essência do aprendizado por reforço: selecionar comportamento bem-sucedido. Os algoritmos daqueles que “sobrevivem” se tornam a base para as próximas iterações. Como resultado, após um enorme número de execuções, surge um modelo que pode lidar com confiança os obstáculos. Esse algoritmo é então transferido para o dispositivo físico.

É uma etapa fundamentada, mas criticamente importante – muitas vezes envolvendo pouca ou nenhuma visão computacional, que não é necessária nesse ponto. O que estamos lidando aqui é física e mecânica fundamentais que devem ser incorporadas ao sistema desde o início.

Como os robôs começam a “sentir” o mundo

Então, já temos o “hardware” – um robô com um modelo base instalado: ele pode ficar em pé, andar e manter o equilíbrio. Mas será que isso é suficiente para tarefas do mundo real, por exemplo, em ambientes industriais? Claramente não.

A próxima etapa começa aqui. Integraremos sensores e treinaremos o modelo para agir com base na entrada sensorial. Um novo nível de habilidades básicas emerge – já muito mais complexo do que o simples movimento.

Uma analogia com o desenvolvimento humano é útil aqui. Na primeira etapa, trouxemos o sistema para aproximadamente o nível de uma criança de um ano: ela pode ficar em pé, dar seus primeiros passos e manter o equilíbrio sem cair. A próxima etapa é mais em linha com o nível de uma criança de oito anos.

Nessa idade, uma criança usa ativamente seus “sensores”: ela pode perceber risco e avaliar as consequências de suas ações. Ela entende que não deve tocar algo quente ou colocar algo muito frio na boca. Ela pode subir em uma mesa, andar de bicicleta e interagir com objetos. Ela é capaz de agarrar, carregar e manipular itens e realizar ações básicas de autocuidado.

Chamamos essa etapa de pré-treinamento. E nesse ponto, as simulações sozinhas não são mais suficientes.

Sim, alguns cenários ainda podem ser modelados com eficácia: como pegar um copo, ou substituir uma bateria, por exemplo, removendo um componente, colocando-o em carga, pegando outro e instalando-o novamente.

Mas, no geral, o equilíbrio muda: cerca de 80% do treinamento ainda pode acontecer em simulação, enquanto cerca de 20% dos dados devem vir do mundo real. E é aqui que começamos a discutir dados egocêntricos.

Dados egocêntricos como fundamento da compreensão ambiental

Hoje, dados egocêntricos estão sendo coletados em uma escala massiva em todo o mundo – porque, sem eles, é impossível mudar da mecânica básica para uma interação significativa com o mundo real. Um colega de trabalho meu, que dirige uma rede de oficinas de reparo de carros, tem funcionários usando câmeras montadas na cabeça para gravar todo o processo de reparo do carro. Um proprietário de prédio em Nova York implementou uma abordagem semelhante: os funcionários de limpeza usam câmeras montadas na testa que capturam como eles aspiram espaços e mantêm áreas sanitárias.

Ao longo do tempo, essas gravações se tornam um produto independente – elas são embaladas e vendidas. Seu valor-chave reside em sua adequação para a etapa de pré-treinamento, ajudando a construir uma compreensão fundamental dos ambientes e sequências de ações.

Por exemplo, um serviço como esse existia em Keymakr, onde a equipe criou independentemente coleções inteiras de dados egocêntricos, desde cenários simples, como lavar louça, até mais complexos.

Por que isso é tão importante? Porque esses dados fornecem algo que a simulação pura não pode – a diversidade de ambientes do mundo real. Escritórios, oficinas de reparo de carros, canteiros de obras, restaurantes e hotéis – cada um deles adiciona seu próprio contexto, cenários e nuances. Juntos, eles formam um conjunto de dados que permite que um sistema não apenas “veja”, mas comece a entender gradualmente a dinâmica do mundo real.

Nessa etapa, o objetivo não é mais ensinar um robô a executar perfeitamente uma ação específica. O que importa mais é permitir que ele se oriente dentro de seu entorno, em primeiro lugar.

Hoje, quase todas as empresas que trabalham com robótica – desde a Tesla até a Unitree Robotics e a Figure AI – estão focadas nessa etapa exata. Seu objetivo é construir um modelo base cujas capacidades primeiro se assemelham às de uma “criança de oito anos”, e então progridam em direção a uma “criança de doze anos”. Isso também é o que nos concentramos em Introspector – preparar os dados necessários para o pré-treinamento, a fase mais crítica no “amadurecimento” da robótica moderna.

A última milha do treinamento: onde a universalidade termina e a especialização começa

Vamos imaginar que um robô já completou o pré-treinamento e é fabricado desde o início com uma compreensão básica do mundo e um conjunto de habilidades comparável ao de um adolescente. Mas mesmo isso não é suficiente para casos de uso de negócios reais. As empresas não precisam apenas de um robô “de propósito geral” – elas precisam de um especialista.

Tomemos a fabricação automotiva como exemplo. Algumas tarefas ainda são realizadas por humanos porque exigem sensibilidade, precisão e controle visual contínuo. A automação tradicional luta aqui. Manipuladores industriais são excelentes em tarefas repetitivas e rígidas – “pegar, mover, colocar”. Mas tarefas que exigem adaptabilidade, sensação de pressão e ajustes em tempo real permanecem no domínio humano.

Michael Abramov é o fundador e CEO da Introspector, trazendo mais de 15+ anos de experiência em engenharia de software e sistemas de visão computacional de IA para a construção de ferramentas de marcação de nível empresarial.

Michael começou sua carreira como engenheiro de software e gerente de P&D, construindo sistemas de dados escaláveis e gerenciando equipes de engenharia multifuncionais. Até 2025, ele atuou como CEO da Keymakr, uma empresa de serviço de marcação de dados, onde ele pioneirou fluxos de trabalho humanos no loop, sistemas de QA avançados e ferramentas personalizadas para atender às necessidades de dados de visão computacional e autonomia em larga escala.

Ele possui um B.Sc. em Ciência da Computação e uma formação em engenharia e artes criativas, trazendo uma lente multidisciplinar para resolver problemas difíceis. Michael vive na interseção da inovação tecnológica, liderança de produto estratégica e impacto no mundo real, impulsionando a próxima fronteira de sistemas autônomos e automação inteligente.