Inteligência artificial

O Novo AI da DeepMind é Capaz de Aprender as Regras de um Jogo à Medida que Joga

Published December 27, 2020

Updated April 28, 2026

Daniel Nelson

A subsidiária da Alphabet, DeepMind, desenvolveu recentemente um sistema de IA capaz de aprender as regras de um jogo à medida que joga. Embora a DeepMind tenha criado modelos de IA impressionantes que podem dominar jogos como xadrez, shogi, Go e videogames anteriormente, esses modelos devem ser fornecidos com as regras do jogo antecipadamente. Como tal, o novo AI da DeepMind representa uma melhoria notável sobre os algoritmos de IA anteriores que aprendem a jogar jogos via aprendizado por reforço.

Sistema de IA – MuZero

Em um artigo publicado recentemente na revista Nature, a DeepMind detalhou como seu novo sistema de IA opera. O novo AI, apelidado de MuZero, é capaz de aprender as regras de um jogo à medida que joga graças a um princípio chamado “busca antecipada”. Conforme relatado pelo Engadget, o MuZero usa a busca antecipada para determinar quais movimentos devem ser executados com base nas respostas mais prováveis dos oponentes.

Quando se consideram todos os movimentos possíveis que poderiam ser feitos em jogos como xadrez, o MuZero é capaz de priorizar, reduzindo os movimentos a apenas os mais prováveis e relevantes. O MuZero aprenderá com manobras bem-sucedidas e malsucedidas. Em vez de modelar todos os fatores possíveis, ele considera apenas os fatores mais relevantes para a decisão em questão. O MuZero basicamente pega a miríade de variáveis potenciais que podem ser consideradas e as destila para apenas as características mais salientes e impactantes. Essas características são representadas em um algoritmo de busca baseado em árvore. As possibilidades dentro da árvore são então combinadas com um modelo aprendido com base nas características do ambiente de teste. A busca antecipada é realizada após a identificação dos aspectos mais relevantes de um ambiente.

Para chegar a uma decisão final, três fatores são considerados.

O MuZero considera o resultado da escolha anterior, a posição atual que ocupa e as ações potenciais que pode tomar em seguida. Essa abordagem supera as abordagens anteriormente usadas pela DeepMind, incluindo a busca antecipada básica e os modelos baseados em árvore. O MuZero provou ser pelo menos tão bom em xadrez, shogi e Go quanto o AlphaZero, e quando jogou o jogo Ms. Pac-Man, o MuZero só foi capaz de considerar cerca de seis ou sete movimentos de cada vez. Apesar dessa limitação, o AI ainda foi capaz de se sair muito bem. A DeepMind também experimentou as capacidades do MuZero limitando o número de simulações que ele poderia realizar antes de ter que se comprometer com um movimento. Em geral, quanto mais tempo o programa tinha para considerar movimentos possíveis, melhor ele se saía.

O principal cientista de pesquisa da DeepMind, David Silver, explicou via TechXplore que o MuZero é o primeiro modelo de IA capaz de gerar sua própria representação das regras de um ambiente, usando essa representação para planejar ações.

“Pela primeira vez, temos um sistema que é capaz de construir sua própria compreensão de como o mundo funciona e usar essa compreensão para fazer esse tipo de planejamento antecipado sofisticado que você viu anteriormente para jogos como xadrez”, disse Silver. “(MuZero) pode começar do zero e, apenas por meio de tentativa e erro, descobrir as regras do mundo e usar essas regras para alcançar um desempenho superhumano.”

Aplicações Possíveis

Um AI que é genuinamente capaz de aprender as restrições de uma tarefa e operar dentro dessas restrições tem uma ampla variedade de aplicações possíveis. O MuZero pode ser usado para tarefas como compressão de vídeo, que historicamente foi difícil de automatizar usando IA, devido aos muitos formatos de vídeo e modos de compressão possíveis. O MuZero foi capaz de alcançar uma melhoria de compressão de aproximadamente 5%. Isso pode ter implicações para o grande número de vídeos hospedados pelo Google e YouTube. Além de vídeos, a DeepMind também está investigando o uso das mesmas técnicas do MuZero para design de arquitetura de proteínas e programação de robótica.

De acordo com Wendy Hall, professora de Ciência da Computação da Universidade de Southampton, o MuZero representa “um passo significativo” para os algoritmos de aprendizado por reforço. No entanto, Hall está preocupada com o fato de que os algoritmos possam ser mal utilizados. Por exemplo, a Força Aérea dos EUA já referenciou pesquisas iniciais que cobrem o MuZero para criar um sistema de IA que possa lançar mísseis de aviões espiões U-2. Isso é apesar de os pesquisadores da DeepMind expressarem sua oposição ao uso de seus algoritmos para qualquer arma letal, assinando o Lethal Autonomous Weapons Pledge para argumentar que qualquer tecnologia letal deve permanecer sob controle humano.

Silver explicou que a DeepMind está olhando para o futuro, visando desenvolver algoritmos tão poderosos e versáteis quanto o cérebro. O primeiro passo para criar algoritmos versáteis e flexíveis é entender o que significa para um sistema ser inteligente, e a inteligência está ligada à capacidade de discernir os padrões e regras de um ambiente complexo.

Related Topics:DeepMind MuZero reinforcement learning

Daniel Nelson

Blogueiro e programador com especialidades em Machine Learning e Deep Learning tópicos. Daniel espera ajudar os outros a usar o poder da IA para o bem social.

Unite.AI

O Novo AI da DeepMind é Capaz de Aprender as Regras de um Jogo à Medida que Joga

Sistema de IA – MuZero

Aplicações Possíveis

You may like