Inteligência artificial
O AI do Google ensina robôs a se mover assistindo cães

Mesmo alguns dos robôs mais avançados de hoje ainda se movem de maneiras um pouco desajeitadas e trêmulas. Para fazer com que os robôs se movam de maneiras mais naturais e fluidas, pesquisadores do Google desenvolveram um sistema de IA capaz de aprender com os movimentos de animais reais. A equipe de pesquisa do Google publicou um pré-impresso de um artigo que detalha sua abordagem na semana passada. No artigo e em um post de blog acompanhante, a equipe de pesquisa descreve a razão por trás do sistema. Os autores do artigo acreditam que dotar robôs de movimentos mais naturais pode ajudá-los a realizar tarefas do mundo real que exigem movimentos precisos, como entregar itens entre diferentes níveis de um prédio.
Como o VentureBeat relatou, a equipe de pesquisa utilizou aprendizado por reforço para treinar seus robôs. Os pesquisadores começaram coletando clipes de animais reais se movendo e usando técnicas de aprendizado por reforço (RL) para impulsionar os robôs a imitar os movimentos dos animais nos clipes de vídeo. Nesse caso, os pesquisadores treinaram os robôs em clipes de um cão, projetados em um simulador de física, instruindo um robô de quatro pernas Unitree Laikago a imitar os movimentos do cão. Depois que o robô foi treinado, ele foi capaz de realizar movimentos complexos como pular, girar e caminhar rapidamente, a uma velocidade de cerca de 2,6 milhas por hora.
Os dados de treinamento consistiam em aproximadamente 200 milhões de amostras de cães em movimento, rastreados em um simulador de física. Os diferentes movimentos foram então executados em funções de recompensa e políticas que os agentes aprenderam. Depois que as políticas foram criadas na simulação, elas foram transferidas para o mundo real usando uma técnica chamada adaptação de espaço latente. Como os simuladores de física usados para treinar os robôs só podiam aproximar certos aspectos do movimento do mundo real, os pesquisadores aplicaram aleatoriamente várias perturbações à simulação, destinadas a simular operação sob diferentes condições.
De acordo com a equipe de pesquisa, eles foram capazes de adaptar as políticas de simulação aos robôs do mundo real utilizando apenas oito minutos de dados coletados de 50 diferentes ensaios. Os pesquisadores conseguiram demonstrar que os robôs do mundo real foram capazes de imitar uma variedade de movimentos diferentes e específicos, como trote, girar, pular e caminhar. Eles até conseguiram imitar animações criadas por artistas de animação, como uma combinação de pular e girar.
Os pesquisadores resumem as descobertas no artigo:
“Mostramos que, aproveitando dados de movimento de referência, uma abordagem baseada em aprendizado é capaz de sintetizar automaticamente controladores para um repertório diverso [de] comportamentos para robôs de pernas. Ao incorporar técnicas de adaptação de domínio eficientes em amostra no processo de treinamento, nosso sistema é capaz de aprender políticas adaptativas em simulação que podem ser rapidamente adaptadas para implantação no mundo real.”
As políticas de controle usadas durante o processo de aprendizado por reforço tinham suas limitações. Devido a restrições impostas pelo hardware e algoritmos, havia algumas coisas que os robôs simplesmente não podiam fazer. Eles não conseguiam correr ou fazer saltos grandes, por exemplo. As políticas aprendidas também não exibiam tanta estabilidade em comparação com movimentos projetados manualmente. A equipe de pesquisa deseja levar o trabalho adiante, tornando os controladores mais robustos e capazes de aprender com diferentes tipos de dados. Idealmente, versões futuras do framework serão capazes de aprender a partir de dados de vídeo.












