Connect with us

Robótica

Robôs Capazes de Aprender Tarefas Complicadas a Partir de Poucas Demonstrações

mm

Em um dos últimos desenvolvimentos no campo da robótica, pesquisadores da University of Southern California (USC) desenvolveram um sistema onde robôs podem aprender tarefas complicadas com poucas demonstações. Ainda mais impressionante, algumas das demonstações podem ser imperfeitas.

A pesquisa foi apresentada na Conferência de Aprendizado de Robôs (CoRL) em 18 de novembro, intitulada “Aprendizado a Partir de Demonstrações Usando Lógica Temporal de Sinal.”

O Sistema

A qualidade de cada demonstração é medida para que o sistema possa aprender com seus sucessos e falhas. Diferentemente dos métodos atuais, que requerem pelo menos 100 demonstações para ensinar uma tarefa específica, o novo sistema requer apenas algumas. De maneira intuitiva, a forma como esses robôs aprendem é semelhante à forma como os humanos aprendem uns com os outros. Por exemplo, os humanos assistem e aprendem com os outros completando tarefas com sucesso ou de forma imperfeita.

Aniruddh Puranic é o autor principal da pesquisa e um estudante de doutorado em ciência da computação na USC Viterbi School of Engineering.

“Muitos sistemas de aprendizado de máquina e reforço requerem grandes quantidades de dados e centenas de demonstações – você precisa que um humano demonstre repetidamente, o que não é viável”, disse Puranic.

“Além disso, a maioria das pessoas não tem conhecimento de programação para explicitar o que o robô precisa fazer, e um humano não pode possivelmente demonstrar tudo o que um robô precisa saber”, continuou ele. “E se o robô encontrar algo que nunca viu antes? Essa é uma chave desafio”.

Os pesquisadores utilizaram “lógica temporal de sinal” ou STL para determinar a qualidade das demonstações, classificando-as de acordo e criando recompensas inerentes.

Há duas principais razões pelas quais os pesquisadores decidiram usar STL:

  1. Ao aprender por meio de demonstações, os robôs podem adquirir imperfeições ou até mesmo comportamentos perigosos e ações indesejáveis.
  2. As demonstações podem variar em qualidade dependendo do usuário que as fornece, e algumas demonstações são melhores indicadores de comportamento desejado do que outras.

Ao desenvolver o sistema dessa forma, o robô ainda pode aprender a partir de demonstações imperfeitas, mesmo que elas não atendam aos requisitos lógicos. Em outras palavras, ele tira suas próprias conclusões sobre precisão ou sucesso.

Stefanos Nikolaidis é um coautor e um professor assistente de ciência da computação na USC Viterbi.

“Vamos dizer que os robôs aprendem a partir de diferentes tipos de demonstações – pode ser uma demonstração prática, vídeos ou simulações – se eu fizer algo que é muito perigoso, as abordagens padrão farão uma de duas coisas: ou, elas o descartarão completamente, ou, pior ainda, o robô aprenderá a coisa errada”, diz Nikolaidis.

“Em contraste, de forma muito inteligente, este trabalho usa um raciocínio comum-sensato na forma de lógica para entender quais partes da demonstração são boas e quais partes não são”, ele continua. “Na essência, é exatamente o que os humanos também fazem.”

Lógica Temporal de Sinal

Os robôs podem raciocinar sobre resultados atuais e futuros por meio da STL, que é uma linguagem simbólica matemática expressiva. Anteriormente à STL, a pesquisa dependia da “lógica temporal linear”.

Jyo Deshmukh é um ex-engenheiro da Toyota e professor assistente de ciência da computação na USC.

“Quando vamos para o mundo de sistemas ciberfísicos, como robôs e carros autônomos, onde o tempo é crucial, a lógica temporal linear se torna um pouco complicada, porque ela raciocina sobre sequências de valores verdadeiro/falso para variáveis, enquanto a STL permite o raciocínio sobre sinais físicos”, diz Deshmukh.

A equipe de pesquisadores foi surpreendida pelo nível de sucesso do sistema.

“Em comparação com um algoritmo de estado da arte, que está sendo usado extensivamente em aplicações de robótica, você vê uma diferença de magnitude em quantas demonstações são necessárias”, diz Nikolaidis.

De acordo com os pesquisadores, os sistemas podem aprender a partir de simuladores de direção e eventualmente vídeos. O próximo passo é testá-lo em robôs reais, pois o teste inicial foi feito em um simulador de jogos. O sistema será útil para aplicações como aquelas em ambientes domésticos, armazéns e rovers de exploração espacial.

“Se queremos que os robôs sejam bons companheiros de equipe e ajudem as pessoas, primeiro eles precisam aprender e se adaptar às preferências humanas de forma muito eficiente”, diz Nikolaidis. “Nosso método fornece isso.”

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.