인공지능

AI 연구자, 과거 이벤트를 기억할 수 있는 비디오 게임 플레이 모델 개발

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

Uber의 AI 연구소에서 연구팀은 최근에 시스템을 개발했습니다. 이 시스템은 클래식 아타리 비디오 게임에서 인간 플레이어와 다른 AI 시스템을 능가하는 AI 알고리즘입니다. 연구자들이 개발한 AI 시스템은 이전에 성공한 전략을 기억할 수 있고, 과거에 어떤 전략이 효과가 있었는지에 따라 새로운 전략을 만들 수 있습니다. 연구의 연구 팀은 그들이 개발한 알고리즘이 언어 처리와 로봇공학 gibi 다른 기술 분야에서 잠재적인 응용 프로그램이 있다고 믿습니다.

일반적으로 비디오 게임을 플레이할 수 있는 AI 시스템을 생성하는 방법은 강화 학습 알고리즘을 사용하는 것입니다. 강화 학습 알고리즘은 가능한 행동의 범위를 탐색하여 작업을 수행하는 방법을 배우고, 각 행동 후에 보상 또는 처벌을 받습니다. 시간이 지남에 따라 AI 모델은 보상이 더 큰 행동을 수행할 가능성이 높아지고, 이러한 행동을 더 많이 수행하게 됩니다. 그러나 강화 학습 모델은 데이터셋의 다른 데이터와 불일치하는 데이터를遇하면 문제가 발생합니다.

연구 팀에 따르면, 그들의 접근 방법이 다른 AI 연구자들에 의해 고려되지 않은 이유는 전략이 강화 학습에서 일반적으로 사용되는 “내재적 동기” 접근 방식과 다르기 때문입니다. 내재적 동기 접근 방식의 문제는 모델이 потен적으로 보상이 있는 영역을 잊어버릴 수 있다는 것입니다. 이 현상을 “분리”라고 합니다. 결과적으로, 모델이 예상치 못한 데이터를遇하면 탐색할 가치가 있는 영역을 잊어버릴 수 있습니다.

TechXplore에 따르면, 연구 팀은 더 유연하고 예상치 못한 데이터에 반응할 수 있는 학습 모델을 생성하려고 했습니다. 연구자들은 이전 버전의 모델이 문제를 해결하려고 할 때 취한 모든 행동을 기억할 수 있는 알고리즘을 도입하여 이 문제를 해결했습니다. AI 모델이 일관성이 없는 데이터를遇하면 모델은 메모리 맵을 확인합니다. 모델은 성공과 실패한 전략을 식별하고 적절하게 전략을 선택합니다.

비디오 게임을 플레이할 때, 모델은 게임을 플레이하는 동안 게임의 스크린샷을 수집하여 행동을 로깅합니다. 이미지들은 유사성에 따라 그룹화되어 모델이 참조할 수 있는 명확한 시간 점을 형성합니다. 알고리즘은 로깅된 이미지들을 사용하여 관심 있는 시간 점으로 돌아가서 거기서 탐색을 계속할 수 있습니다. 모델이 패배하고 있음을 발견하면, 모델은 취한 스크린샷을 참조하여 다른 전략을 시도합니다.

BBC에 따르면, 게임을 플레이하는 AI 에이전트에게 위험한 시나리오를 처리하는 문제도 있습니다. 에이전트가 자신을 죽일 수 있는 위험에 부딪치면, 그것은 더 탐색할 가치가 있는 영역으로 돌아가는 것을 방해할 것입니다. 이것을 “탈선”이라고 합니다. AI 모델은 별도의 프로세스를 통해 탈선 문제를 처리합니다.

연구 팀은 모델이 55개의 아타리 게임을 플레이하도록 했습니다. 이러한 게임들은 일반적으로 AI 모델의 성능을 벤치마크하는 데 사용되지만, 연구자들은 모델에 추가적인 규칙을 적용했습니다. 연구자들은 모델이 최고의 점수를 얻을 뿐만 아니라, 매번 점수를 더 높이게 하도록 지시했습니다. 모델의 성능 결과를 분석했을 때, 연구자들은 그들의 AI 시스템이 다른 AI보다 약 85%의 시간에 게임에서 우수한 성능을 보였다는 것을 발견했습니다. AI는 특히 Montezuma’s Revenge라는 플랫폼 게임에서 잘 수행되었습니다. 이 게임은 플레이어가 위험을 피하고 보물을 수집하는 게임입니다. 게임은 인간 플레이어의 기록을 깨고 다른 AI 시스템보다 더 높은 점수를 얻었습니다.

Uber AI 연구자에 따르면, 연구 팀이 사용한 전략은 로봇공학 gibi 산업에서 응용 프로그램이 있습니다. 로봇은 어떤 행동이 성공적이었는지, 어떤 행동이 작동하지 않았는지, 그리고 어떤 행동이 아직 시도되지 않았는지 기억하는 능력에서 혜택을 받습니다.