인공지능

DeepMind의 새로운 AI는 게임을 하면서 규칙을 학습할 수 있다

Published December 27, 2020

Updated April 28, 2026

Daniel Nelson

Alphabet의 자회사 DeepMind는 최근에 게임을 하면서 규칙을 학습할 수 있는 AI 시스템을 개발했다. DeepMind는 이전에 체스, 쇼기, 고, 비디오 게임 등을 마스터할 수 있는 인상적인 AI 모델을 만들었지만, 이러한 모델은 게임의 규칙을 事前に 제공해야 한다. 따라서 DeepMind의 새로운 AI는 이전의 강화 학습을 통해 게임을 학습하는 AI 알고리즘보다 đáng chú ý한 개선이다.

AI 시스템 – MuZero

DeepMind는 최근에 Nature 저널에 발표된 논문에서 새로운 AI 시스템이 어떻게 작동하는지 자세히 설명했다. 새로운 AI인 MuZero는 “look-ahead search”라는 원리로 게임을 하면서 규칙을 학습할 수 있다. Nature 저널에 발표된 논문에 따르면, MuZero는 게임을 하면서 규칙을 학습할 수 있는 첫 번째 AI 모델이다. Engadget에 따르면, MuZero는 look-ahead search를 사용하여 상대방의 가장 가능성이 높은 반응에 따라 어떤 동작을 실행해야 하는지 결정한다.
체스와 같은 게임에서 가능한 모든 동작을 고려할 때, MuZero는 가장 가능성이 높은 동작과 관련된 동작만으로 좁혀진다. MuZero는 성공적인 동작과 실패한 동작 모두에서 학습한다. 모든 가능한 요소를 모델링하는 대신, MuZero는 결정에 가장 관련된 요소만을 고려한다. MuZero는 수많은 가능성 있는 변수를 고려하여 가장 관련된 특징을 추출한다. 이러한 특징은 트리 기반 검색 알고리즘으로 표현된다. 트리 내의 가능성은 테스트 환경의 특징에 기반한 학습된 모델과 결합된다. look-ahead 검색은 환경의 가장 관련된 측면이 식별된 후에 수행된다.
최종 결정을 내리기 위해, MuZero는 세 가지 요소를 고려한다.
MuZero는 이전 선택의 결과, 현재 위치, 그리고 다음에 취할 수 있는 동작을 고려한다. 이 접근법은 DeepMind가 이전에 사용한 기본 look-ahead 검색과 트리 기반 모델보다 우수하다. MuZero는 체스, 쇼기, 고에서 AlphaZero와 같은 성능을 보여주었으며, Ms. Pac-Man 게임에서 MuZero는 약 6~7개의 동작만을 고려할 수 있었다.尽管如此, AI는 여전히 좋은 성능을 보여주었다. DeepMind는 MuZero의 능력을 실험하기 위해 동작을 결정하기 전에 시뮬레이션을 완료할 수 있는 시간을 제한했다. 일반적으로, 프로그램이 더 많은 시간을 가질수록 더 좋은 성능을 보여주었다.
DeepMind의 주요 연구 과학자인 David Silver는 TechXplore를 통해 MuZero는 환경의 규칙을 생성하고 그 규칙을 사용하여 동작을 계획할 수 있는 첫 번째 AI 모델이라고 설명했다.
“처음으로, 우리는 실제로 환경이 어떻게 작동하는지에 대한 이해를 구축하고, 체스와 같은 게임에서 이전에 본 것과 같은 복잡한 look-ahead 계획을 수행할 수 있는 시스템을 가지고 있다”고 Silver는 말했다. “(MuZero)는 아무것도 없이 시작할 수 있고, 단지 시도와 오류를 통해 환경의 규칙을 발견하고, 그 규칙을 사용하여 초인적인 성능을 달성할 수 있다.”

가능한 응용

真正으로 작업의 제약을 학습하고 그 제약 안에서 동작할 수 있는 AI는 다양한 가능한 응용이 있다. MuZero는 비디오 압축과 같은 작업에 사용될 수 있다. 비디오 압축은 많은 가능한 비디오 형식과 압축 모드 때문에 AI를 사용하여 자동화하기 어려웠다. MuZero는 약 5%의 압축 개선을 달성했다. 이는 Google과 YouTube에서 호스팅되는 많은 비디오에 영향을 미칠 수 있다. 비디오를 넘어서, DeepMind는 MuZero와 같은 기술을 단백질 구조 설계와 로봇 프로그래밍에 사용하는 것을 고려하고 있다.
Southampton 대학의 컴퓨터 과학 교수인 Wendy Hall은 MuZero가 강화 학습 알고리즘에 대한 “중요한 발전”이라고 말했다. 그러나 Hall은 알고리즘이 잘못 사용될 수 있다고 우려한다. 예를 들어, 미국 공군은 이미 MuZero를 사용하여 U-2 정찰기를 사용하여 미사일을 발사할 수 있는 AI 시스템을 만들기 위해 초기 연구 논문을 참조했다. 이는 DeepMind 연구진이 致命한 무기에 대한 알고리즘을 사용하는 것을 반대한다는 것을 보여주는 Lethal Autonomous Weapons Pledge에 서명했음에도 불구하고 vậy이다.
Silver는 DeepMind가 미래를 내다보며, 뇌와 같은 강력하고 유연한 알고리즘을 개발하려고 노력하고 있다고 말했다. 유연하고 유연한 알고리즘을 생성하는 첫 번째 단계는 시스템이 지능적인 것이 무엇인지 이해하는 것이다. 지능은 복잡한 환경의 패턴과 규칙을 식별하는 능력과 관련이 있다.