헬스케어

성별 편향된 데이터로 학습된 AI 모델은 질병 진단에서 더 나쁨

Published May 29, 2020

Updated April 28, 2026

Daniel Nelson

최근에 연구가 발표된 아르헨티나의 연구자들에 의해 수행된 연구는 성별 편향된 훈련 데이터가 질병 및 기타 의료 문제를 진단할 때 모델 성능을 더 나쁘게 만든다는 것을 시사한다. Statsnews에 따르면, 연구자들은 여성 환자가 현저하게 부족하거나 전혀 포함되지 않은 모델을 훈련시키는 실험을 수행했으며, 알고리즘이 여성 환자를 진단할 때 훨씬 더 나쁨을 발견했다. 동일한 결과는 남성 환자가 제외되거나 부족한 경우에도 동일했다.

過去의 5년 동안, AI 모델과 기계 학습이 더 보편적으로 사용됨에 따라, 편향된 데이터셋과 그로 인해 발생하는 편향된 기계 학습 모델에 대한 문제에 더 많은 주목이 이루어졌다. 기계 학습에서 데이터 편향은 어색하고 사회적으로 유해하며, 배제적인 AI 응용 프로그램을 초래할 수 있지만, 의료 응용 프로그램의 경우 생명이 걸린 경우가 많다. 그러나 문제를 인식에도 불구하고, 몇몇 연구만이 편향된 데이터셋이 얼마나 유해할 수 있는지 정량화하려고 시도했다. 연구 팀이 수행한 연구는 데이터 편향이 이전에 전문가들이 예상한 것보다 더 극단적인 영향을 미칠 수 있음을 발견했다.

최근 몇 년 동안 의료 환경에서 AI의 가장 인기 있는 용도 중 하나는 의료 이미지에 기반한 환자 진단이다. 연구 팀은 폐렴, 심장 비대, 또는ヘルニア와 같은 다양한 의료 조건을 X선으로부터 감지하는 모델을 분석했다. 연구 팀은 Inception-v3, ResNet, DenseNet-121와 같은 3개의 오픈 소스 모델 아키텍처를 연구했다. 모델은 스탠퍼드 대학교와 국립 보건 연구소에서 유래한 두 개의 오픈 소스 데이터셋에서 추출한 흉부 X선으로 훈련되었다. 데이터셋 자체는 성별 표현에 있어相当 균형을 이루고 있지만, 연구자들은 성별 불균형이 있는 하위 집합으로 데이터를 나누어 편향시켰다.

연구 팀은 각각 다른 남성/여성 환자 스캔 비율로 구성된 다섯 개의 다른 훈련 데이터셋을 생성했다. 다섯 개의 훈련 세트는 다음과 같이 나누어졌다:

모든 이미지는 남성 환자였다
모든 이미지는 여성 환자였다
남성 환자 25% 및 여성 환자 75%
여성 환자 75% 및 남성 환자 25%
남성 환자 50% 및 여성 환자 50%

모델이 하나의 하위 집합으로 훈련된 후, 남성 및 여성 환자 스캔의 컬렉션에서 테스트되었다. 다양한 의료 조건에 걸쳐서 현저한 경향이 있었다. 모델의 정확도는 훈련 데이터가 현저하게 성별 편향된 경우 훨씬 더 나빴다. 흥미로운 점은 하나의 성별이 훈련 데이터에서 과도하게 표현된 경우, 해당 성별이 과도한 표현으로부터 이익을 얻지 않는다는 것이다. 모델이 하나의 성별 또는 다른 성별에 편향된 데이터로 훈련되든, 포함된 데이터셋으로 훈련된 경우보다 해당 성별에서 더 나쁘게 수행되지 않았다.

연구의 선임 저자 인 Enzo Ferrante는 Statnews에 따르면, 연구는 모델을 테스트할 모든 인구에 대해 훈련 데이터가 다양하고 대표적이어야 하는 중요성을 강조한다.

하나의 성별로 훈련된 모델이 다른 성별에서 더 나쁨을 수행하는 이유는 완전히 명확하지 않다. 일부 불일치는 생리학적 차이로 인해 발생할 수 있지만, 사회적 및 문화적 요인도 일부 차이를 설명할 수 있다. 예를 들어, 여성은 남성과 비교하여 질병의 진행 단계에서 다른 단계에서 X선 촬영을 받을 수 있다. 이것이 사실이라면, 훈련 이미지 내에서 발견되는 특징(및 모델에 의해 학습된 패턴)을 影響할 수 있다. 이것이 사실이라면, 연구자들이 데이터셋을 비편향화하는 것이 훨씬 더 어려워진다. 편향은 데이터 수집 메커니즘을 통해 데이터셋에 구현된다.

때때로 데이터 다양성에 주의를 기울이는 연구자들도 편향된 데이터나 비편향된 데이터로 작업할 수밖에 없다. 의료 조건을 진단하는 방식에 불균형이 있는 경우, 불균형 데이터가 발생할 수 있다. 예를 들어, 유방암 환자에 대한 데이터는 거의 여성에서 수집된다. 또한, 자폐증은 여성과 남성에서 다르게 나타나며,因此, 이 조건은 소년보다 소녀에서 훨씬 더 높은 비율로 진단된다.

그러나 연구자들이 편향된 데이터와 데이터 편향을 가능한 모든 방법으로 제어하는 것이 매우 중요하다. 이를 위해 향후 연구가 편향된 데이터의 영향을 정량화하는 데 도움이 될 것이다.

Daniel Nelson

블로거이자 프로그래머로 Machine Learning과 Deep Learning 주제에 전문가입니다. 다니엘은 다른 사람들이 AI의 힘을 사회적善으로 사용하는 것을 돕기를 희망합니다.

Unite.AI

성별 편향된 데이터로 학습된 AI 모델은 질병 진단에서 더 나쁨

You may like