Líderes de pensamento

Dentro da Nova Corrida de Robótica: Dados, Modelos e Manufatura

Published March 16, 2026

Updated April 25, 2026

Michael Abramov, Founder and CEO of Introspector

A inovação raramente surge em isolamento. Mais frequentemente, é gerada em conversas entre engenheiros, fundadores, pesquisadores e investidores que tentam entender para onde a tecnologia está indo.

Ao longo de um ano, eu participei de dezenas de conferências ao redor do mundo. Viagens de negócios às vezes duram meses, e reuniões com parceiros e clientes ocorrem da Ásia à América do Norte. No entanto, uma de minhas viagens recentes à Suíça se mostrou particularmente interessante – principalmente devido às pessoas e às conversas que aconteceram lá.

Zurique provou ser um dos lugares onde o futuro da robótica e da Inteligência Artificial Física está sendo ativamente discutido hoje. E quanto mais profundas essas conversas se tornam, mais óbvio se torna que a verdadeira corrida na robótica está se desenrolando em torno dos dados.

A Silício Vale da Europa

Zurique tem sido tradicionalmente associada ao setor financeiro, mas nos últimos anos tem sido cada vez mais chamada de Silício Vale da Europa. Grande parte dessa reputação está ligada ao ETH Zurique, uma das universidades de engenharia mais respeitadas da Europa. Ela atrai pesquisadores, estudantes de doutorado, empreendedores e engenheiros de todo o mundo. Como resultado, um poderoso ecossistema tecnológico se formou em torno da universidade, onde pesquisa, startups e projetos industriais evoluem quase simultaneamente.

Uma das razões para minha viagem foi obter uma compreensão mais profunda do que Introspector pode oferecer ao mercado de robótica, que está em alta desde o início de 2025. É uma indústria que uma ampla gama de startups está tentando entrar, enquanto avanços tecnológicos de grandes empresas de tecnologia estão ativamente redefinindo-a. No entanto, apesar de todo esse momentum, o campo ainda levanta mais perguntas do que respostas.

Zurique também é lar de nossos parceiros Lightly, que me ajudaram a conhecer pares que trabalham na interseção da robótica, visão computacional e IA. Há um aspecto importante do ecossistema tecnológico local que gostaria de destacar: as pessoas aqui são notavelmente abertas e acolhedoras. Elas não têm medo de compartilhar suas ideias e hipóteses, de falar sobre os desafios que estão tentando resolver e os experimentos que estão executando. Como resultado, você começa a entender o contexto real do mercado e para onde a indústria está indo muito mais rapidamente.

Por sinal, quando as pessoas me perguntam como o “Silício Vale” europeu difere do americano, a resposta frequentemente as surpreende. Em Zurique, o equilíbrio entre trabalho e vida parece muito mais forte: esportes de manhã, trabalho focado durante o dia em um ritmo calmo, mas produtivo, e noites passadas nas montanhas com a família ou simplesmente relaxando. Em São Francisco, há frequentemente uma sensação de que você constantemente precisa provar que está trabalhando mais do que todos os outros. Em Zurique, o ritmo é diferente – mais sustentável. No entanto, o nível de ambição tecnológica aqui não é menor.

Melhores dados antes de melhores robôs

Uma das principais conclusões dessa viagem foi uma observação bastante simples: muitas pessoas hoje querem trabalhar em robótica. Mas, apesar do enorme interesse na indústria, muitas equipes ainda estão em uma fase exploratória, tentando entender qual papel podem desempenhar na nova onda de robótica e Inteligência Artificial Física, e qual contribuição podem dar.

Muitas conversas eventualmente convergem para o mesmo tópico: dados. Hoje, a indústria carece de dados sobre tarefas de destreza, ou seja, habilidades motoras finas. Nessa área, as capacidades dos robôs permanecem extremamente limitadas. O que os humanos fazem com as mãos quase automaticamente – pegar um objeto, virá-lo, colocá-lo cuidadosamente em algum lugar ou realizar uma pequena manipulação – permanece uma das tarefas mais desafiadoras para os robôs.

A chave para o progresso aqui reside principalmente em conjuntos de dados em grande escala, coletados corretamente. Hoje, as pessoas frequentemente falam sobre conjuntos de dados egocêntricos, gravados de uma perspectiva em primeira pessoa, onde o sistema captura ações humanas como se estivesse executando-as ele mesmo. No entanto, na prática, acaba-se descobrindo que o próprio conceito de “conjunto de dados egocêntrico” pode significar coisas muito diferentes e levanta uma série de questões técnicas. Onde o camera deve ser colocada? Na testa, no peito ou talvez no nível dos olhos? Quais sensores devem acompanhar a gravação de vídeo? Se estamos capturando movimentos de mãos, os operadores devem usar luvas especiais? E se sim, essas luvas devem incluir sensores táteis, giroscópios ou outros sistemas de rastreamento de movimento?

Uma questão ainda mais complexa surge: como capturar corretamente a profundidade do movimento. Afinal, é importante entender não apenas a posição de uma mão em um plano bidimensional, mas também como ela se move pelo espaço tridimensional – para frente, para trás, para cima ou para baixo.

Até agora, a indústria não alcançou uma resposta unificada. É por isso que muitas equipes hoje estão experimentando diferentes configurações de sensores, métodos de gravação e formatos de conjuntos de dados.

Sistemas multimodais

Assim que a conversa se volta para a coleta de dados para robótica, outro tópico rapidamente emerge – sensores adicionais e multimodalidade, que permitem capturar movimentos corporais, ações de mãos e interações de objetos com maior precisão. Eles também ajudam a reduzir erros durante a coleta de conjuntos de dados.

Quando uma pessoa grava suas ações em uma câmera, há sempre o risco de que parte do material seja inutilizável. A câmera pode se mover ligeiramente, o ângulo de filmagem pode estar incorreto, o operador pode se virar acidentalmente para o lado errado, ou o operador pode realizar um movimento muito rápido. Como resultado, uma parte significativa do material gravado é descartada. Um exemplo simples: para obter uma hora de vídeo realmente útil, um operador frequentemente precisa gravar cerca de duas horas de material bruto.

Sensores adicionais ajudam a compensar alguns desses problemas. Mesmo que a câmera se mova ligeiramente, os dados do sensor ainda podem tornar possível reconstruir o movimento da mão ou a posição do corpo no espaço. Como resultado, em vez de duas horas de gravação, pode levar cerca de uma hora e vinte minutos para obter a mesma quantidade de dados úteis. Isso aumenta significativamente a eficiência da coleta de conjuntos de dados e reduz o custo de criá-los.

Não é coincidência que muitas equipes também estejam notando um aumento no interesse pela annotação de dados multimodais. Isso se tornou uma das tendências mais visíveis diretamente conectadas ao desenvolvimento de robótica e Inteligência Artificial Incorporada.

O próximo ponto é a etiquetagem desses conjuntos de dados. Nós encontramos questões semelhantes no Keymakr ao trabalhar com conjuntos de dados de clientes para casos de robótica: como essa annotação deve ser na prática? Deve ser esquelética? Bidimensional ou tridimensional? Deve incorporar elementos de aprendizado por reforço na pipeline? Há dezenas de tais perguntas. Os próprios engenheiros admitem que ninguém ainda pode dizer com certeza qual configuração de dados específica levará a um avanço tecnológico real.

Essas preocupações são compreensíveis. Construir conjuntos de dados complexos é um processo caro. Cada erro na estrutura dos dados pode custar milhares ou até milhões de dólares. É possível coletar o “conjunto de dados errado” ou gravá-lo sob condições difíceis de reproduzir no mundo real, minando assim todo o projeto. É exatamente por isso que, hoje, mais atenção está sendo dada tanto aos modelos em si quanto à qualidade e arquitetura dos dados nos quais esses modelos são treinados.

Que tipo de robôs o mercado precisa?

Robôs industriais clássicos, que vêm operando em linhas de montagem automotivas por décadas, na verdade requerem muito pouca visão computacional ou modelos de IA complexos. Sua tarefa é extremamente específica: realizar movimentos estritamente repetitivos – esquerda, direita, cima, baixo – com alta precisão e consistência. Nessa área, eles há muito superaram os humanos.

Uma categoria completamente diferente é a dos robôs humanoides. Esses sistemas requerem “cérebros”: a capacidade de navegar pelo espaço, perceber o ambiente ao redor, entender o contexto de uma situação e controlar manipuladores não por meio de trajetórias pré-programadas, mas adaptando-se ao mundo real.

Mesmo com o alto nível de automação em pisos de fábrica modernos, muitas tarefas ainda são realizadas por humanos. Mover um objeto, pegar uma caixa, classificar peças, fixar um componente ou organizar materiais – essas são ações pequenas que requerem flexibilidade e coordenação. Essa área permanece uma das mais difíceis de automatizar, e é exatamente aqui que os sistemas humanoides podem encontrar seu papel.

Muitas das equipes com as quais conversei estão usando um modelo de negócios semelhante. Elas se aproximam de uma fábrica e propõem resolver um caso de produção específico. Por exemplo, um trabalhador pode passar o dia todo movendo caixas entre zonas de armazenamento. Os engenheiros sugerem um experimento relativamente simples: equipar o trabalhador com uma câmera e um conjunto de sensores, gravar milhares de horas de suas ações e usar esses dados para treinar um modelo que controlará um robô humanoide. Dessa forma, o robô aprende a realizar exatamente as tarefas realizadas pelo trabalhador humano.

Na essência, a empresa compra uma plataforma humanoide, enquanto a equipe de desenvolvimento constrói um modelo personalizado que replica o comportamento de um operador específico. Isso não é uma inteligência universal capaz de resolver qualquer tarefa. Em vez disso, é um conjunto de habilidades treinadas para um cenário ou grupo de tarefas de produção específico. Para muitos engenheiros hoje, essa abordagem parece muito mais realista. Em vez de tentar criar um robô universal imediatamente, as equipes se concentram em cenários de automação estreitos, mas economicamente viáveis.

A dimensão empresarial

Se o futuro está em modelos personalizados, é importante entender que, do ponto de vista econômico, isso é um caminho de desenvolvimento bastante longo.

Cada indústria é essencialmente seu próprio mundo. Cada ambiente de produção tem seus próprios processos, fluxos de trabalho e exceções. Um robô treinado para operar em uma fábrica automotiva não pode simplesmente ser transferido para a fabricação de alimentos ou logística de armazenamento. Em cada caso, o sistema deve ser treinado novamente do zero.

Isso leva à próxima pergunta lógica: quem serão os primeiros clientes dessa tecnologia?

Nessa etapa, os principais adotantes provavelmente serão grandes empresas – aquelas com os orçamentos e para as quais a automação pode gerar um impacto econômico significativo. Hoje, um robô humanoide custa cerca de $60.000 a $90.000 apenas pelo hardware. Isso é apenas a configuração básica. Além disso, há custos de manutenção, baterias, estações de carregamento, infraestrutura e software.

Como resultado, as empresas mais capazes de experimentar com tais sistemas são grandes organizações, fabricantes automotivos, corporações alimentícias e grandes empresas industriais.

É claro que setores menores também podem ver alguns adotantes precoces. Algumas empresas podem comprar um ou dois robôs para tarefas específicas. No entanto, na maioria dos casos, esses negócios simplesmente não estão preparados para investir centenas de milhares de euros na coleta e annotação de conjuntos de dados personalizados necessários para treinar sistemas para cenários operacionais altamente específicos. Para eles, o trabalho humano ainda é a opção mais barata.

O jogo de longo prazo da inovação em robótica

Chegamos, finalmente, a uma questão econômica fundamental: o que é mais eficiente – um humano ou um robô? Se olharmos para a economia de hoje, a resposta é óbvia: o trabalho humano é mais barato, adapta-se mais rapidamente a novas condições e não requer infraestrutura complexa.

Então, por que a indústria continua a investir em robótica hoje? A resposta é largamente estratégica.

Muitas empresas entendem que uma espécie de corrida por liderança tecnológica está em andamento. Elas já estão desenvolvendo soluções, apesar dos altos custos, para estar à frente quando a economia da robótica mudar.

À medida que a eletrônica avança, os custos dos componentes diminuem e a eficiência computacional melhora, a robótica inevitavelmente se tornará mais acessível. E quando isso acontecer, a vantagem pertencerá às empresas que já construíram modelos, acumularam dados e estabeleceram a infraestrutura tecnológica necessária.

Imagine, por exemplo, que novas regulamentações surgem permitindo o uso em larga escala de robôs humanoides na fabricação. Ou que os governos começam a subsidiar a robotização de indústrias. Nesse cenário, o mercado poderia crescer dramaticamente dentro de apenas alguns anos. E aqueles que se prepararam com antecedência, aqueles com modelos existentes, pesquisa, conjuntos de dados e uma pilha tecnológica pronta, serão os que mais se beneficiarão.

É por isso que o desenvolvimento continua mesmo agora, apesar do fato de que a economia dos negócios pode não parecer ideal. Para muitas empresas, é um investimento no futuro – no momento em que as tecnologias se tornam mais acessíveis e a demanda aumenta abruptamente.

E nessa corrida, como em muitas revoluções tecnológicas, um fator frequentemente se mostra decisivo: quem começou mais cedo. Nesse sentido, a robótica de hoje se assemelha fortemente aos estágios iniciais da inteligência artificial. Naquela época, também havia mais perguntas do que respostas. No entanto, foram as equipes que começaram a trabalhar com dados e infraestrutura antes dos outros que, no final, definiram a direção de toda a indústria.

Unite.AI