Robótica e IA física

Cientistas da Computação Usam Reforço Positivo para Ensinar Robôs

Publicado em 28 de outubro de 2020

Atualizado em 25 de maio de 2026

Por

Alex McFarland

Cientistas da computação da Universidade Johns Hopkins utilizaram a técnica de treinamento de reforço positivo, frequentemente usada para treinar animais como cães, em um robô para que ele pudesse se ensinar novos truques. Entre esses novos habilidades estava a capacidade de empilhar blocos.

O robô é chamado de Spot, e de acordo com os pesquisadores, ele pode aprender habilidades em dias que tradicionalmente levam cerca de um mês.

Reforço Positivo

O reforço positivo foi utilizado pela equipe para aumentar o conjunto de habilidades do robô. A velocidade com que a equipe conseguiu fazer isso torna mais fácil para esse tipo de robô ser implantado no mundo real.

O trabalho foi publicado em IEEE Robotics and Automation Letters, intitulado “Good Robot! Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer.”

Andrew Hundt é um estudante de doutorado trabalhando na Universidade Johns Hopkins e autor principal da pesquisa.

“A pergunta aqui era como fazer com que o robô aprendesse uma habilidade?” ele disse. “Eu tive cães, então sei que recompensas funcionam e essa foi a inspiração para como eu projetei o algoritmo de aprendizado.”

Uma das razões pelas quais o reforço positivo funciona em computadores é que eles não têm cérebros intuitivos, o que significa que são basicamente uma tela em branco na qual qualquer coisa pode ser projetada. Em outras palavras, eles devem aprender tudo a partir do nada. Um dos métodos de aprendizado mais eficazes para computadores é o método de tentativa e erro, que é algo que os robóticos ainda estão trabalhando hoje.

É exatamente isso que os pesquisadores fizeram quando criaram um sistema de recompensa para o robô, semelhante ao processo de treinar um cão dando-lhe petiscos. A diferença é que o robô receberá pontos numéricos quando completar uma tarefa corretamente.

https://www.youtube.com/watch?v=dvxqjJBWFD4

Habilidades Aprendidas

Quando se tratou de aprender a empilhar blocos, o robô teve que aprender a se concentrar em ações construtivas. No método, o robô Spot recebeu pontos mais altos quando completou comportamentos corretos durante a empilhada de blocos. No extremo oposto, ele não ganhou nada por comportamentos incorretos. Ele ganhou a maior quantidade de pontos ao completar uma pilha de quatro blocos com o último bloco no topo.

Os pesquisadores viram um grande sucesso nesse método, com o robô aprendendo em dias o que levaria semanas no passado. Ao treinar um robô simulado, a equipe reduziu o tempo de prática antes de se mudar para o robô Spot.

“O robô quer a pontuação mais alta”, disse Hundt. “Ele aprende rapidamente o comportamento correto para obter a melhor recompensa. Na verdade, costumava levar um mês de prática para o robô alcançar 100% de precisão. Conseguimos fazer isso em dois dias.”

Além de aprender a empilhar blocos, o robô também usou o reforço positivo para aprender outras tarefas, como jogar um jogo de navegação simulado.

“No início, o robô não tem ideia do que está fazendo, mas ele vai melhorar e melhorar com cada prática. Ele nunca desiste e continua tentando empilhar e consegue terminar a tarefa 100% das vezes”, disse Hundt.

Algumas das aplicações possíveis para esse método incluem treinar robôs domésticos para completar tarefas específicas, bem como melhorar veículos autônomos.

“Nosso objetivo é eventualmente desenvolver robôs que possam realizar tarefas complexas no mundo real — como montagem de produtos, cuidado com idosos e cirurgia”, disse Hager. “Não sabemos atualmente como programar tarefas como essas — o mundo é muito complexo. Mas trabalhos como esse mostram que há promessa na ideia de que robôs podem aprender a realizar tarefas do mundo real de forma segura e eficiente.”

Alex McFarland

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.

Unite.AI

Cientistas da Computação Usam Reforço Positivo para Ensinar Robôs

Reforço Positivo

Habilidades Aprendidas

Descubra mais