Connect with us

Inteligência artificial

Agentes de IA Demonstram Propriedades de Inteligência Emergente em Esconde-Esconde Virtual

mm

Uma das coisas interessantes sobre pesquisar IA é que ela pode muitas vezes executar ações e perseguir estratégias que surpreendem os próprios pesquisadores que as projetam. Isso aconteceu durante um recente jogo virtual de esconde-esconde onde vários agentes de IA foram colocados uns contra os outros. Pesquisadores da OpenAI, uma empresa de IA sediada em San Francisco, ficaram surpresos ao descobrir que seus agentes de IA começaram a explorar estratégias no mundo do jogo que os pesquisadores nem sabiam que existiam.

A OpenAI treinou um grupo de agentes de IA para jogar um jogo de esconde-esconde uns contra os outros. Os programas de IA são treinados com aprendizado por reforço, uma técnica onde o comportamento desejado é extraído dos algoritmos de IA fornecendo feedback aos algoritmos. A IA começa executando ações aleatórias, e cada vez que executa uma ação que a aproxima de seu objetivo, o agente é recompensado. A IA deseja obter a maior quantidade de recompensa possível, então ela experimenta para ver quais ações lhe dão mais recompensa. Por meio de tentativa e erro, a IA é capaz de distinguir estratégias que a levarão à vitória, aquelas que lhe darão a maior recompensa.

Aprendizado por reforço já demonstrou sucesso impressionante em aprender as regras de jogos. A OpenAI recentemente treinou uma equipe de IA para jogar o MMORPG DOTA 2, e a IA derrotou uma equipe de jogadores humanos campeã mundial no ano passado. Algo semelhante aconteceu com o jogo StarCraft quando uma IA foi treinada no jogo pela DeepMind. O aprendizado por reforço também foi usado para ensinar programas de IA a jogar Pictionary com humanos, aprendendo a interpretar imagens e usar raciocínio básico comum.

No jogo de esconde-esconde criado pelos pesquisadores, vários agentes de IA foram colocados uns contra os outros. O resultado foi uma corrida armamentista, onde cada agente quer superar o outro e obter a maior quantidade de pontos de recompensa. Uma nova estratégia adotada por um agente fará com que seu oponente busque uma nova estratégia para contra-atacar, e vice-versa. Igor Mordatch, um pesquisador da OpenAI, explicou à IEEE Spectrum que o experimento demonstra que esse processo de tentativa e erro entre agentes “é suficiente para que os agentes aprendam comportamentos surpreendentes por conta própria — é como crianças brincando umas com as outras.”

Quais foram os comportamentos surpreendentes exatamente? Os pesquisadores tinham quatro estratégias básicas que esperavam que os agentes de IA aprendessem, e eles aprenderam essas estratégias rapidamente, tornando-se competentes nelas após apenas 25 milhões de jogos simulados. O jogo aconteceu em um ambiente 3D cheio de rampas, blocos e paredes. Os agentes de IA aprenderam a perseguir uns aos outros, mover blocos para construir fortalezas onde pudessem se esconder e mover rampas. Os agentes de busca aprenderam a arrastar rampas para entrar nas fortalezas dos escondidos, enquanto os escondidos aprenderam a tentar levar as rampas para dentro de suas fortalezas para que os buscadores não pudessem usá-las.

No entanto, por volta do marco de 380 milhões de jogos, algo inesperado aconteceu. Os agentes de IA aprenderam a usar duas estratégias que os pesquisadores não esperavam. Os agentes de busca aprenderam que, pulando em uma caixa e inclinando/andando com a caixa em direção a uma fortaleza próxima, eles podiam pular para dentro da fortaleza e encontrar o escondido. Os pesquisadores nem sabiam que isso era possível dentro da física do ambiente do jogo. Os escondidos aprenderam a lidar com esse problema arrastando as caixas para dentro de suas fortalezas.

Enquanto o comportamento inesperado de agentes treinados com algoritmos de aprendizado por reforço é inofensivo neste caso, isso levanta algumas preocupações potenciais sobre como o aprendizado por reforço é aplicado a outras situações. Um membro da equipe de pesquisa da OpenAI, Bowen Baker, explicou à IEEE Spectrum que esses comportamentos inesperados poderiam ser potencialmente perigosos. Afinal, e se robôs começarem a se comportar de maneiras inesperadas?

“Construir esses ambientes é difícil”, explicou Baker. “Os agentes vão criar esses comportamentos inesperados, o que será um problema de segurança no futuro quando os colocarem em ambientes mais complexos.”

No entanto, Baker também explicou que estratégias de reforço podem levar a soluções inovadoras para problemas atuais. Sistemas treinados com aprendizado por reforço podem resolver uma ampla gama de problemas com soluções que talvez não possamos nem imaginar.

Blogueiro e programador com especialidades em Machine Learning e Deep Learning tópicos. Daniel espera ajudar os outros a usar o poder da IA para o bem social.