toco Agentes de IA demonstram propriedades de inteligência emergente em esconde-esconde virtual - Unite.AI
Entre em contato

Inteligência artificial

Agentes de IA demonstram propriedades de inteligência emergente em esconde-esconde virtual

mm
Atualização do on

Um dos fatos interessantes sobre a pesquisa da IA ​​é que muitas vezes ela pode executar ações e buscar estratégias que surpreendem os próprios pesquisadores que as projetam. Isso aconteceu durante um recente jogo virtual de esconde-esconde, onde vários agentes de IA foram colocados uns contra os outros. Pesquisadores da OpenAI, uma empresa de IA com sede em São Francisco, ficaram surpresos ao descobrir que seus agentes de IA começou a explorar estratégias no mundo do jogo que os pesquisadores nem sabiam que existia.

A OpenAI treinou um grupo de agentes de IA para brincar de esconde-esconde uns com os outros. Os programas de IA são treinados com aprendizado por reforço, uma técnica em que o comportamento desejado é obtido dos algoritmos de IA, fornecendo feedback aos algoritmos. A IA começa realizando ações aleatórias e, toda vez que executa uma ação que a aproxima de seu objetivo, o agente é recompensado. A IA deseja obter o máximo de recompensa possível, portanto, experimentará para ver quais ações lhe darão mais recompensa. Por tentativa e erro, a IA é capaz de distinguir as estratégias que os levarão à vitória, aquelas que lhes darão mais recompensas.

Aprendizagem por reforçog já demonstrou um sucesso impressionante em aprender as regras dos jogos. A OpenAI treinou recentemente uma equipe de IA para jogar o MMORPG DOTA 2, e a IA derrotou uma equipe campeã mundial de jogadores humanos no ano passado. Algo semelhante aconteceu com o jogo StarCraft quando uma IA foi treinada no jogo pela DeepMind. O aprendizado por reforço também foi usado para ensinar programas de IA a jogar Pictionary com humanos, aprendendo a interpretar imagens e usar o raciocínio básico de bom senso.

No videogame de esconde-esconde criado pelos pesquisadores, vários agentes de IA foram colocados uns contra os outros. O resultado foi uma espécie de corrida armamentista, onde cada agente quer superar o outro e obter o máximo de pontos de recompensa. Uma nova estratégia adotada por um agente fará com que seu oponente busque uma nova estratégia para combatê-la e vice-versa. Igor Mordatch, pesquisador da OpenAI, explicou ao IEEE Spectrum que o experimento demonstra que esse processo de tentativa e erro entre os agentes “é suficiente para que os agentes aprendam comportamentos surpreendentes por conta própria – é como crianças brincando umas com as outras”.

Quais foram exatamente os comportamentos surpreendentes? Os pesquisadores tinham quatro estratégias básicas que esperavam que os agentes de IA aprendessem, e aprenderam rapidamente, tornando-se competentes nelas depois de apenas 25 milhões de jogos simulados. O jogo acontecia em um ambiente 3D cheio de rampas, blocos e paredes. Os agentes de IA aprenderam a perseguir uns aos outros, mover blocos para construir fortes nos quais eles poderiam se esconder e mover rampas. Os buscadores de IA aprenderam a arrastar rampas para entrar nos fortes dos esconderijos, enquanto os escondidos aprenderam a tentar levar as rampas para dentro de seus fortes para que os buscadores não pudessem usá-las.

No entanto, em torno do benchmark de 380 milhões de jogos, algo inesperado aconteceu. Os agentes de IA aprenderam a usar duas estratégias que os pesquisadores não esperavam. Os agentes buscadores aprenderam que pulando em uma caixa e inclinando/montando a caixa em direção a um forte próximo, eles poderiam pular no forte e encontrar o esconderijo. Os pesquisadores nem haviam percebido que isso era possível dentro da física do ambiente do jogo. Os esconderijos aprenderam a lidar com esse problema arrastando as caixas para dentro do forte.

Embora o comportamento inesperado de agentes treinados em algoritmos de aprendizado por reforço seja inofensivo nesse caso, ele levanta algumas preocupações potenciais sobre como o aprendizado por reforço é aplicado a outras situações. Um membro da equipe de pesquisa da OpenAI, Bowen Baker, explicou ao IEEE Spectrum que esses comportamentos inesperados podem ser potencialmente perigosos. Afinal, e se os robôs começassem a se comportar de maneiras inesperadas?

“Construir esses ambientes é difícil”, explicou Baker. “Os agentes apresentarão esses comportamentos inesperados, que serão um problema de segurança no futuro quando você os colocar em ambientes mais complexos.”

No entanto, Baker também explicou que as estratégias de reforço podem levar a soluções inovadoras para os problemas atuais. Sistemas treinados com aprendizado por reforço podem resolver uma ampla gama de problemas com soluções que talvez nem possamos imaginar.