윤리

연구자들은 AI 모델이 사람들을 비윤리적인 결정을 내리도록 영향을 줄 수 있다고 발견했다

Published February 19, 2021

Updated April 28, 2026

Daniel Nelson

연구자 팀은 최근에 AI가 사람들을 부패시키고 비윤리적인 결정을 내리도록 영향을 줄 수 있는 잠재력을 조사했다. 연구자들은 OpenAI의 GPT-2 모델을 기반으로 하는 시스템과 상호작용이 사람들을 비윤리적인 결정을 내리도록 영향을 줄 수 있는지 조사했다. 즉, 사람들은 AI 시스템의 조언이 비윤리적인 경우에도 그 조언을 따를 수 있다.

AI 시스템은 모든 시간에 더广泛하게 사용되고 있으며, 그 영향력은 점점 더 커지고 있다. AI 시스템은 사람들의 결정을影响하며, 영화 추천에서부터 로맨틱한 파트너 추천까지 모든 것에 사용된다. AI가 사람들의 삶에如此 큰 영향을 미치고 있기 때문에, AI가 사람들을 비윤리적인 결정을 내리도록 영향을 줄 수 있는지 고려하는 것이 중요하다. 특히 AI 모델은不断으로 더 발전하고 있기 때문이다.

사회과학자와 데이터 과학자들은 AI 모델이 유해한 잘못된 정보와 부정확한 정보를 퍼뜨리는데 사용될 수 있다는 점에 대해 점점 더 우려하고 있다. 최근의 논문에 따르면, Middlebury Institute of International Studies의 Center on Terrorism, Extremism, and Counterterrorism (CTEC)의 연구자들은 OpenAI의 GPT-3 모델이 폭력적인 극우파 이데올로기와 행동을 사람들에게 영향을 줄 수 있는 영향력 있는 텍스트를 생성하는데 사용될 수 있다고 발견했다.

Max Planck Institute, University of Amsterdam, University of Cologne, 및 Otto Beisheim School of Management의 연구자 팀은 AI가 비윤리적인 선택에 대해 사람들의 결정에 얼마나 영향을 줄 수 있는지 알아보기 위해 연구를 수행했다. AI가 사람들을 “부패”시키는 방법을 탐구하기 위해, 연구자들은 OpenAI의 GPT-2 모델을 기반으로 하는 시스템을 사용했다. VentureBeat에 따르면, 논문의 저자들은 GPT2 기반 모델을 “불성실성-증진” 및 “성실성-증진” 조언을 생성하도록 훈련시켰다. 데이터는 400명의 참가자로부터의 기여를 기반으로 훈련되었으며, 이후 연구 팀은 1500명 이상의 사람들을 모집하여 조언-배포 AI 모델과 상호작용하도록 했다.

연구 참가자들은 모델로부터 조언을 받고 비윤리적인 행동을 포착하기 위한 작업을 수행하도록 요청받았다. 연구 참가자들은 파트너와 함께 그룹화되었으며, 두 명의 참가자로 구성된 각 그룹은 주사위 게임을 했다. 첫 번째 참가자는 주사위를 굴리고 결과를 보고했다. 두 번째 참가자는 첫 번째 참가자의 주사위 결과를 받았으며, затем 자신이 주사위를 굴렸다. 두 번째 참가자는 주사위를 개인적으로 굴리고 자신의 결과를 보고하는 책임이 있었다. 따라서 주사위 결과를 거짓말할 수 있는 기회가 있었다. 두 참가자가 주사위를 굴린 결과가 일치하면 두 참가자는 보상을 받았다. 참가자들은 일치하는 결과가 높을수록 더 많은 보상을 받았다. 보고된 값이 일치하지 않는 경우 참가자들은 보상을 받지 못했다.

연구 참가자들은 무작위로 두 개의 다른 그룹 중 하나에 할당되었다. 한 그룹은 성실성-증진 조언을 읽을 기회를 가졌으며, 다른 그룹은 불성실성-증진 조언을 읽었다. 조언은 인간과 AI 모두에 의해 작성되었다. 참가자들은 또한 조언의 출처에 대한 지식 수준에 따라 분류되었다. 참가자들은 조언의 출처를 알 수 있는 50%의 확률이 있었으므로 각 그룹의 참가자 중 절반은 조언의 출처가 AI 또는 인간인지 알고 있었으며, 다른 절반은 알지 못했다. 두 번째 그룹의 사람들은 조언의 출처를 올바르게 추측할 경우 보너스 보상을 받을 수 있었다.

연구는 AI 생성 조언이 사람들의 선호도와 일치할 때, 사람들은 조언을 따를 것이라고 밝혔다. 즉, 사람들은 조언이 AI에 의해 생성되었는지 여부에 관계없이 조언을 따를 수 있다. 연구자에 따르면, 선언된 선호도와 실제 행동 사이에 종종 불일치가 있었으며, 알고리즘이 인간의 행동에 어떻게 영향을 미칠 수 있는지 고려하는 것이 중요하다고 한다.

연구 팀은 연구가 AI 모델을 윤리적으로 배치하는 방법을 고려할 때 AI가 사람들의 행동에 영향을 미치는 방식을 테스트하는 필요성을 보여준다고 설명했다. 또한 연구자들은 AI가 악의적인 행위자에 의해 다른 사람들을 부패시키는데 사용될 가능성을 준비해야 한다고 경고했다. 연구자 팀은 다음과 같이 썼다.

“AI는 사람들을 더 윤리적으로 행동하도록 설득할 수 있다면 좋은 힘이 될 수 있다. 그러나 우리의 결과는 AI 조언이 성실성을 증가시키지 못한다는 것을 보여준다. AI 어드바이저는 사람們이 불성실성의 일부를 전가할 수 있는 대리인이 될 수 있다. 또한 … 조언을 받는 상황에서 알고리즘의 존재에 대한 투명성은 그 잠재적인 피해를 완화하기에 충분하지 않다.”

Daniel Nelson

블로거이자 프로그래머로 Machine Learning과 Deep Learning 주제에 전문가입니다. 다니엘은 다른 사람들이 AI의 힘을 사회적善으로 사용하는 것을 돕기를 희망합니다.

Unite.AI

연구자들은 AI 모델이 사람들을 비윤리적인 결정을 내리도록 영향을 줄 수 있다고 발견했다

You may like