Robótica
Pesquisadores do MIT Combinam Dados de Movimento de Robôs com Modelos de Linguagem para Melhorar a Execução de Tarefas

Robôs domésticos estão sendo cada vez mais ensinados a realizar tarefas complexas por meio do aprendizado por imitação, um processo no qual eles são programados para copiar os movimentos demonstrados por um ser humano. Embora os robôs tenham se provado excelentes imitadores, eles frequentemente lutam para se adaptar a interrupções ou situações inesperadas encontradas durante a execução da tarefa. Sem programação explícita para lidar com essas desvios, os robôs são forçados a reiniciar a tarefa do zero. Para enfrentar esse desafio, os engenheiros do MIT estão desenvolvendo uma nova abordagem que visa dar aos robôs um senso de senso comum quando enfrentam situações inesperadas, permitindo que eles se adaptem e continuem suas tarefas sem necessidade de intervenção manual.
A Nova Abordagem
Os pesquisadores do MIT desenvolveram um método que combina dados de movimento de robôs com o “conhecimento de senso comum” de modelos de linguagem grandes (LLMs). Ao conectar esses dois elementos, a abordagem permite que os robôs analisem logicamente uma tarefa doméstica em subtarefas e se adaptem fisicamente a interrupções dentro de cada subtarefa. Isso permite que o robô continue sem precisar reiniciar a tarefa inteira do início, e elimina a necessidade de os engenheiros programarem explicitamente soluções para cada falha possível ao longo do caminho.
Como explica o estudante de pós-graduação Yanwei Wang, do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT, “Com nosso método, um robô pode autocorrigir erros de execução e melhorar o sucesso geral da tarefa.”
Para demonstrar sua nova abordagem, os pesquisadores usaram uma tarefa simples: pegar bolas de gude de uma tigela e despejá-las em outra. Tradicionalmente, os engenheiros moveriam um robô pelos movimentos de pegar e despejar em uma trajetória fluida, frequentemente fornecendo múltiplas demonstrações humanas para o robô imitar. No entanto, como Wang observa, “a demonstração humana é uma longa trajetória contínua.” A equipe percebeu que, embora um ser humano possa demonstrar uma tarefa em uma única ação, a tarefa depende de uma sequência de subtarefas. Por exemplo, o robô deve primeiro alcançar uma tigela antes de poder pegar, e deve pegar bolas de gude antes de se mover para a tigela vazia.
Se um robô cometer um erro durante alguma dessas subtarefas, sua única opção é parar e reiniciar do início, a menos que os engenheiros explicitamente rotulem cada subtarefa e programem ou colem novas demonstrações para o robô recuperar da falha. Wang enfatiza que “esse nível de planejamento é muito tedioso.” É aqui que a nova abordagem dos pesquisadores entra em jogo. Ao aproveitar o poder dos LLMs, o robô pode automaticamente identificar as subtarefas envolvidas na tarefa geral e determinar ações de recuperação potenciais em caso de interrupções. Isso elimina a necessidade de os engenheiros programarem manualmente o robô para lidar com cada cenário de falha possível, tornando o robô mais adaptável e eficiente na execução de tarefas domésticas.
O Papel dos Modelos de Linguagem Grande
Os LLMs desempenham um papel crucial na nova abordagem dos pesquisadores do MIT. Esses modelos de aprendizado profundo processam vastas bibliotecas de texto, estabelecendo conexões entre palavras, frases e parágrafos. Por meio dessas conexões, um LLM pode gerar novas frases com base em padrões aprendidos, essencialmente entendendo o tipo de palavra ou frase que é provável seguir a última.
Os pesquisadores perceberam que essa capacidade dos LLMs poderia ser aproveitada para identificar automaticamente subtarefas dentro de uma tarefa maior e ações de recuperação potenciais em caso de interrupções. Ao combinar o “conhecimento de senso comum” dos LLMs com dados de movimento de robôs, a nova abordagem permite que os robôs analisem logicamente uma tarefa em subtarefas e se adaptem a situações inesperadas. Essa integração de LLMs e robótica tem o potencial de revolucionar a forma como os robôs domésticos são programados e treinados, tornando-os mais adaptáveis e capazes de lidar com desafios do mundo real.
À medida que o campo da robótica continua a avançar, a incorporação de tecnologias de IA, como os LLMs, se tornará cada vez mais importante. A abordagem dos pesquisadores do MIT é um passo significativo para criar robôs domésticos que não apenas imitem ações humanas, mas também entendam a lógica e a estrutura subjacentes das tarefas que executam. Esse entendimento será fundamental para desenvolver robôs que possam operar de forma autônoma e eficiente em ambientes complexos e do mundo real.
Rumo a um Futuro mais Inteligente e Adaptável para Robôs Domésticos
Ao permitir que os robôs se autocorrijam erros de execução e melhorem o sucesso geral da tarefa, esse método aborda um dos principais desafios na programação de robôs: adaptabilidade a situações do mundo real.
As implicações dessa pesquisa se estendem muito além da tarefa simples de pegar bolas de gude. À medida que os robôs domésticos se tornam mais comuns, eles precisarão ser capazes de lidar com uma ampla variedade de tarefas em ambientes dinâmicos e não estruturados. A capacidade de dividir tarefas em subtarefas, entender a lógica subjacente e se adaptar a interrupções será essencial para que esses robôs operem de forma eficaz e eficiente.
Além disso, a integração de LLMs e robótica destaca o potencial das tecnologias de IA para revolucionar a forma como programamos e treinamos robôs. À medida que essas tecnologias continuam a avançar, podemos esperar ver robôs mais inteligentes, adaptáveis e autônomos em nossas casas e locais de trabalho.
O trabalho dos pesquisadores do MIT é um passo crítico para criar robôs domésticos que possam realmente entender e navegar pelas complexidades do mundo real. À medida que essa abordagem é aprimorada e aplicada a uma gama mais ampla de tarefas, ela tem o potencial de transformar a forma como vivemos e trabalhamos, tornando nossas vidas mais fáceis e eficientes.












