Connect with us

Pesquisadores de IA Criam Modelo de Jogo de Vídeo que Pode Lembrar Eventos Passados

Inteligência artificial

Pesquisadores de IA Criam Modelo de Jogo de Vídeo que Pode Lembrar Eventos Passados

mm

Uma equipe de pesquisadores no laboratório de IA da Uber desenvolveu recentemente um sistema de algoritmos de IA que superou tanto jogadores humanos quanto outros sistemas de IA em jogos de vídeo clássicos da Atari. O sistema de IA desenvolvido pelos pesquisadores é capaz de lembrar estratégias anteriormente bem-sucedidas, criando novas estratégias com base no que funcionou no passado. A equipe de pesquisa do estudo acredita que os algoritmos que desenvolveram têm aplicações potenciais em outros campos técnicos, como processamento de linguagem e robótica.

O método típico usado para criar sistemas de IA capazes de jogar jogos de vídeo é usar um algoritmo de aprendizado por reforço. Algoritmos de aprendizado por reforço aprendem a realizar uma tarefa explorando uma gama de ações possíveis, e após cada ação, eles recebem um tipo de reforço (recompensa ou punição). Com o tempo, o modelo de IA aprende quais ações levam a recompensas maiores, e torna-se mais provável que execute essas ações. Infelizmente, os modelos de aprendizado por reforço encontram problemas quando encontram pontos de dados incongruentes com outros no conjunto de dados.

De acordo com a equipe de pesquisa, o motivo pelo qual sua abordagem não foi considerada por outros pesquisadores de IA é que a estratégia difere da abordagem de “motivação intrínseca” normalmente usada no aprendizado por reforço. O problema com a abordagem de motivação intrínseca é que o modelo pode ser propenso a “esquecer” áreas potencialmente gratificantes que ainda merecem exploração. Esse fenômeno é referido como “desconexão”. Como consequência, quando o modelo encontra dados inesperados, pode esquecer áreas que ainda devem ser exploradas.

De acordo com o TechXplore, a equipe de pesquisa se propôs a criar um modelo de aprendizado mais flexível e capaz de responder a dados inesperados. Os pesquisadores superaram esse problema introduzindo um algoritmo capaz de lembrar todas as ações tomadas por uma versão anterior do modelo quando tentou resolver um problema. Quando o modelo de IA encontra um ponto de dados que não é consistente com o que ele aprendeu até agora, o modelo verifica seu mapa de memória. O modelo, então, identificará quais estratégias tiveram sucesso e falharam e escolherá estratégias apropriadamente.

Quando joga um jogo de vídeo, o modelo coleta telas do jogo à medida que joga, fazendo um registro de suas ações. As imagens são agrupadas juntas com base na semelhança, formando pontos claros no tempo que o modelo pode referenciar. O algoritmo pode usar as imagens registradas para retornar a um ponto interessante no tempo e continuar explorando a partir daí. Quando o modelo descobre que está perdendo, ele se refere às telas capturadas e tenta uma estratégia diferente.

Como explicado pela BBC, também há o problema de lidar com cenários perigosos para o agente de IA que joga o jogo. Se o agente encontrar um perigo que possa matá-lo, isso impediria que ele retornasse a áreas que merecem mais exploração, um problema chamado de “descarrilamento”. O modelo de IA lida com problemas de descarrilamento por meio de um processo separado daquele usado para encorajar a exploração de áreas antigas.

A equipe de pesquisa fez com que o modelo jogasse 55 jogos da Atari. Esses jogos são comumente usados para benchmarkar o desempenho de modelos de IA, mas os pesquisadores adicionaram uma reviravolta para o seu modelo. Os pesquisadores introduziram regras adicionais para os jogos, instruindo o modelo a não apenas alcançar a pontuação mais alta possível, mas a tentar alcançar uma pontuação ainda mais alta a cada vez. Quando os resultados do desempenho do modelo foram analisados, os pesquisadores descobriram que o sistema de IA superou outros AIs nos jogos cerca de 85% do tempo. O AI se saiu especialmente bem no jogo Montezuma’s Revenge, um jogo de plataforma onde o jogador evita perigos e coleta tesouros. O jogo bateu o recorde para um jogador humano e também marcou mais do que qualquer outro sistema de IA.

De acordo com os pesquisadores de IA da Uber, as estratégias usadas pela equipe de pesquisa têm aplicações para indústrias como robótica. Robôs se beneficiam da capacidade de lembrar quais ações são bem-sucedidas, quais não funcionaram e quais ainda não foram tentadas.

Blogueiro e programador com especialidades em Machine Learning e Deep Learning tópicos. Daniel espera ajudar os outros a usar o poder da IA para o bem social.