인공 지능

DeepMind는 우리의 두뇌에서도 작동할 수 있는 AI 교육 기술을 발견합니다.

업데이트 on 2022 년 12 월 9 일

얼마전 딥마인드 논문을 발표 새로 개발된 유형의 강화 학습이 인간 두뇌 내의 보상 경로가 작동하는 방식을 잠재적으로 설명할 수 있는 방법을 자세히 설명합니다. NewScientist가 보고한 바와 같이, 기계 학습 훈련 방법을 분포 강화 학습이라고 하며 그 뒤에 있는 메커니즘은 뇌 내의 뉴런에서 도파민이 방출되는 방식을 그럴듯하게 설명하는 것 같습니다.

신경과학과 컴퓨터 과학은 함께 오랜 역사를 가지고 있습니다. 1951년으로 거슬러 올라가 마빈 밍키(Marvin Minksy)는 보상과 처벌 시스템을 사용하여 미로를 풀 수 있는 컴퓨터 프로그램을 만들었습니다. Minksy는 개가 일련의 보상과 처벌을 통해 학습할 수 있음을 보여준 생리학자 Ivan Pavlov의 작업에서 영감을 받았습니다. 딥마인드의 새로운 논문은 강화 학습 유형을 적용하여 도파민 뉴런이 어떻게 기능할 수 있는지에 대한 통찰력을 얻음으로써 신경과학과 컴퓨터 과학의 얽힌 역사에 추가됩니다.

사람이나 동물이 어떤 행동을 하려고 할 때마다 도파민 방출을 담당하는 뇌의 뉴런 집합체는 그 행동이 얼마나 보람이 있을지 예측합니다. 행동이 수행되고 그 행동의 결과(보상)가 명백해지면 뇌는 도파민을 방출합니다. 그러나이 도파민 방출은 예측 오류의 크기에 따라 조정됩니다. 보상이 예상보다 크거나 좋으면 도파민이 더 많이 분비됩니다. 대조적으로, 나쁜 보상은 더 적은 도파민 방출로 이어집니다. 도파민은 뉴런이 획득한 실제 보상에 수렴할 때까지 예측을 조정하도록 하는 교정 기능 역할을 합니다. 이는 강화 학습 알고리즘이 작동하는 방식과 매우 유사합니다.

2017년에 DeepMind 연구원은 일반적으로 사용되는 강화 학습 알고리즘의 향상된 버전을 출시했으며 이 우수한 학습 방법은 많은 강화 학습 작업에서 성능을 향상시킬 수 있었습니다. DeepMind 팀은 새로운 알고리즘의 메커니즘이 인간의 뇌 내에서 도파민 뉴런이 작동하는 방식을 더 잘 설명하는 데 사용될 수 있다고 생각했습니다.

이전 강화 학습 알고리즘과 달리 DeepMind의 최신 알고리즘은 보상을 분포로 나타냅니다. 이전 강화 학습 접근 방식은 예상 보상을 평균 예상 결과를 나타내는 단일 숫자로 표시했습니다. 이 변경을 통해 모델은 가능한 보상을 보다 정확하게 표현하고 결과적으로 더 나은 성능을 발휘할 수 있습니다. 새로운 훈련 방법의 우수한 성능으로 인해 DeepMind 연구원은 인간 두뇌의 도파민 뉴런이 유사한 방식으로 작동하는지 조사했습니다.

도파민 뉴런의 작용을 조사하기 위해 DeepMind는 Harvard와 함께 마우스에서 도파민 뉴런의 활동을 연구했습니다. 연구자들은 쥐에게 다양한 작업을 수행하게 하고 주사위 굴림에 따라 보상을 주어 도파민 뉴런이 어떻게 발화하는지 기록했습니다. 다른 뉴런은 다른 양의 도파민을 방출하여 다른 잠재적 결과를 예측하는 것처럼 보였습니다. 일부 뉴런은 실제 보상보다 낮게 예측한 반면 일부 뉴런은 실제 보상보다 높게 예측했습니다. 연구원들은 보상 예측 분포를 그래프로 그린 후 예측 분포가 실제 보상 분포에 상당히 가깝다는 것을 발견했습니다. 이것은 뇌가 예측을 하고 현실에 더 잘 맞도록 예측을 조정할 때 분포 시스템을 사용한다는 것을 시사합니다.

이 연구는 신경과학 및 컴퓨터 과학 모두에 정보를 제공할 수 있습니다. 이 연구는 보다 발전된 AI 모델을 만드는 방법으로 분포 강화 학습의 사용을 지원합니다. 그 외에도 보상 시스템과 관련하여 뇌가 작동하는 방식에 대한 이론에 영향을 미칠 수 있습니다. 도파민 뉴런이 분포되어 있고 일부가 다른 것보다 더 비관적이거나 낙관적이라면 이러한 분포를 이해하면 정신 건강 및 동기 부여와 같은 심리학 측면에 접근하는 방식이 바뀔 수 있습니다.

MIT Technology View가 보고한 바와 같이, DeepMind의 신경 과학 연구 책임자 인 Matt Botvinik은 언론 브리핑에서 발견의 중요성을 설명했습니다. Botvinik은 다음과 같이 말했습니다.

“뇌가 그것을 사용하고 있다면 아마도 좋은 생각일 것입니다. 이것이 실제 상황에서 확장할 수 있는 계산 기술임을 알려줍니다. 다른 계산 프로세스와 잘 맞을 것입니다. 일상 생활에서 뇌에서 일어나는 일에 대한 새로운 관점을 제공합니다.”