Robótica e IA física
Cientistas da Computação Usam Reforço Positivo para Ensinar Robôs

Cientistas da computação da Universidade Johns Hopkins utilizaram a técnica de treinamento de reforço positivo, frequentemente usada para treinar animais como cães, em um robô para que ele pudesse se ensinar novos truques. Entre esses novos habilidades estava a capacidade de empilhar blocos.
O robô é chamado de Spot, e de acordo com os pesquisadores, ele pode aprender habilidades em dias que tradicionalmente levam cerca de um mês.
Reforço Positivo
O reforço positivo foi utilizado pela equipe para aumentar o conjunto de habilidades do robô. A velocidade com que a equipe conseguiu fazer isso torna mais fácil para esse tipo de robô ser implantado no mundo real.
O trabalho foi publicado em IEEE Robotics and Automation Letters, intitulado “Good Robot! Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer.”
Andrew Hundt é um estudante de doutorado trabalhando na Universidade Johns Hopkins e autor principal da pesquisa.
“A pergunta aqui era como fazer com que o robô aprendesse uma habilidade?” ele disse. “Eu tive cães, então sei que recompensas funcionam e essa foi a inspiração para como eu projetei o algoritmo de aprendizado.”
Uma das razões pelas quais o reforço positivo funciona em computadores é que eles não têm cérebros intuitivos, o que significa que são basicamente uma tela em branco na qual qualquer coisa pode ser projetada. Em outras palavras, eles devem aprender tudo a partir do nada. Um dos métodos de aprendizado mais eficazes para computadores é o método de tentativa e erro, que é algo que os robóticos ainda estão trabalhando hoje.
É exatamente isso que os pesquisadores fizeram quando criaram um sistema de recompensa para o robô, semelhante ao processo de treinar um cão dando-lhe petiscos. A diferença é que o robô receberá pontos numéricos quando completar uma tarefa corretamente.
https://www.youtube.com/watch?v=dvxqjJBWFD4
Habilidades Aprendidas
Quando se tratou de aprender a empilhar blocos, o robô teve que aprender a se concentrar em ações construtivas. No método, o robô Spot recebeu pontos mais altos quando completou comportamentos corretos durante a empilhada de blocos. No extremo oposto, ele não ganhou nada por comportamentos incorretos. Ele ganhou a maior quantidade de pontos ao completar uma pilha de quatro blocos com o último bloco no topo.
Os pesquisadores viram um grande sucesso nesse método, com o robô aprendendo em dias o que levaria semanas no passado. Ao treinar um robô simulado, a equipe reduziu o tempo de prática antes de se mudar para o robô Spot.
“O robô quer a pontuação mais alta”, disse Hundt. “Ele aprende rapidamente o comportamento correto para obter a melhor recompensa. Na verdade, costumava levar um mês de prática para o robô alcançar 100% de precisão. Conseguimos fazer isso em dois dias.”
Além de aprender a empilhar blocos, o robô também usou o reforço positivo para aprender outras tarefas, como jogar um jogo de navegação simulado.
“No início, o robô não tem ideia do que está fazendo, mas ele vai melhorar e melhorar com cada prática. Ele nunca desiste e continua tentando empilhar e consegue terminar a tarefa 100% das vezes”, disse Hundt.
Algumas das aplicações possíveis para esse método incluem treinar robôs domésticos para completar tarefas específicas, bem como melhorar veículos autônomos.
“Nosso objetivo é eventualmente desenvolver robôs que possam realizar tarefas complexas no mundo real — como montagem de produtos, cuidado com idosos e cirurgia”, disse Hager. “Não sabemos atualmente como programar tarefas como essas — o mundo é muito complexo. Mas trabalhos como esse mostram que há promessa na ideia de que robôs podem aprender a realizar tarefas do mundo real de forma segura e eficiente.”












