Connect with us

Inteligência artificial

A IA Luta para Dominar o Minecraft por meio do Aprendizado por Imitação

mm

Nos últimos meses, a Microsoft e outras empresas que pesquisam aprendizado de máquina desafiaram equipes de desenvolvedores de IA a criar um sistema de IA que pudesse jogar o Minecraft e encontrar um diamante dentro do jogo. Conforme relatado pela BBC, enquanto as plataformas de IA conseguiram dominar o xadrez e o go, elas lutaram para dominar uma tarefa no Minecraft.

O desafio de IA baseado no Minecraft da Microsoft foi chamado de MineRL, e os resultados da competição foram formalmente anunciados na recente conferência NeurIPS. A intenção da competição era treinar uma IA por meio de uma abordagem de “aprendizado por imitação”. O aprendizado por imitação é um método no qual uma IA é treinada por meio do uso da observação. O aprendizado por imitação visa permitir que os sistemas de IA aprendam ações assistindo humanos realizarem essas ações, aprendendo por meio do ato de observação. O aprendizado por imitação, em comparação com o aprendizado por reforço, é uma forma muito menos computacionalmente cara e substancialmente mais eficiente de treinar uma IA.

O aprendizado por reforço geralmente requer muitos computadores poderosos interconectados e centenas ou milhares de horas de treinamento para se tornar eficaz em uma tarefa. Em contraste, uma IA treinada com um método de aprendizado por imitação pode ser treinada muito mais rapidamente, pois a IA já tem uma base de conhecimento para trabalhar, cortesia dos operadores humanos que a precederam.

O aprendizado por imitação tem aplicações práticas no treinamento de uma IA onde a IA não pode explorar em segurança até que descubra as ações corretas. Tais cenários incluiriam o treinamento de um veículo autônomo, pois o carro não poderia simplesmente vagar por uma rua até que tenha aprendido os comportamentos desejados. Usar os dados de um demonstrador humano para treinar o veículo poderia potencialmente tornar o processo mais rápido e seguro.

A ação de encontrar um diamante no Minecraft requer realizar muitas etapas em sequência, como cortar árvores para fazer ferramentas, explorar as cavernas que contêm os diamantes e, na verdade, encontrar um diamante dentro da caverna. Apesar da complexidade da tarefa, um jogador humano familiarizado com o jogo deve ser capaz de obter um diamante em cerca de 20 minutos.

Mais de 660 agentes de IA diferentes foram submetidos à competição, mas nenhum deles conseguiu encontrar um diamante. Os dados fornecidos para treinar a IA foram um conjunto de dados contendo mais de 60 milhões de frames de jogo coletados de muitos jogadores humanos. As localizações dos diamantes são randomizadas quando uma instância do jogo é iniciada, então isso significa que as IAs não podem simplesmente olhar onde os jogadores humanos encontraram os diamantes. Em outras palavras, as IAs precisam formar uma compreensão de como conceitos, como fazer ferramentas, usar ferramentas, explorar e encontrar recursos, estão ligados.

Apesar do fato de que nenhuma das IAs conseguiu encontrar um diamante com sucesso, a equipe de organização ainda ficou satisfeita com os resultados da competição e muito foi aprendido com o experimento. A pesquisa realizada pelas equipes de IA pode ajudar a avançar no campo da IA, encontrando alternativas às estratégias de aprendizado por reforço.

O aprendizado por reforço geralmente oferece um desempenho superior ao aprendizado por imitação, com um sucesso notável do aprendizado por reforço sendo o AlphaGo da DeepMind. No entanto, como mencionado anteriormente, o aprendizado por reforço requer recursos computacionais maciços, limitando seu uso por organizações que não podem pagar processadores em larga escala.

William Guss, estudante de doutorado da Universidade Carnegie Mellon e chefe da organização da competição, explicou à BBC que a competição MineRL foi destinada a investigar alternativas ao AI computacionalmente pesado. Disse Guss:

“… Jogar recursos computacionais maciços em problemas não é necessariamente a maneira certa para nós impulsionarmos o estado da arte como um campo… Isso funciona diretamente contra a democratização do acesso a esses sistemas de aprendizado por reforço e deixa a capacidade de treinar agentes em ambientes complexos para corporações com grandes recursos computacionais.”

Blogueiro e programador com especialidades em Machine Learning e Deep Learning tópicos. Daniel espera ajudar os outros a usar o poder da IA para o bem social.