์ธ๊ณต์ง๋ฅ
์ค๋๋ฅ ์(Andrew Ng)์ด ๊ธฐ๊ณ ํ์ต์์ ๊ณผ์ ํฉ(Overfitting)์ ๋ฌธํ๋ฅผ ๋นํํ๋ค

지난 10년 동안 기계 학습에서 가장 영향력 있는 목소리 중 하나인 앤드류 응(Andrew Ng)은 현재 모델 아키텍처의 혁신보다 데이터에 더 중점을 둔 산업의 정도와, 특히 ‘과적합(overfitted)’ 결과를 일반화된 솔루션 또는 발전으로 묘사하는 것을 허용하는 정도에 대해 우려를 표명하고 있다.
이러한 비판은 기계 학습 문화에 대한 포괄적인 비판으로, 이 분야의 최고 권위자之一에서 나온 것으로, 기계 학습 개발에서 60년 동안 세 번째로 사업가의 신뢰가 무너지는 것을 두려워하는 분야에서 신뢰에 대한 영향을 미친다.
스坦포드 대학의 교수이자 deeplearning.ai의 공동 설립자인 응은 3월에 조직의 사이트에 missive를 게시했으며, 최근 그의 연설을 두 가지 핵심 추천 사항으로 요약했다.
첫째, 연구 커뮤니티는 기계 학습의 도전의 80%를 데이터 정리라고 불평하는 것을停止하고, 강력한 MLOps 방법론과 관행을 개발하는 일에 착수해야 한다.
둘째, 그것은 기계 학습 모델에 데이터를 과적합하여 모델에서 잘 수행하지만 일반화하거나 널리 배포 가능한 모델을 생성하지 못하는 ‘쉬운 승리’에서 벗어나야 한다.
데이터 아키텍처 및 큐레이션의 도전을 수용
응은 “私の 견해는 데이터 준비가 우리의 작업의 80%를 차지한다면, 데이터 품질을 보장하는 것이 기계 학습 팀의 중요한 일이 된다”고 썼다.
그는 계속해서 말했다:
‘엔지니어가 데이터셋을 개선하는 최고의 방법을 우연히 발견하기보다, 우리는 AI 시스템을 구축하는 것을 포함하여 높은 품질의 데이터셋을 구축하는 것을 더 반복 가능하고 체계적으로 만드는 MLOps 도구를 개발하기를 희망한다.
‘MLOps는 초기 단계의 분야이며, 사람들은 그것을 다르게 정의한다. 하지만 나는 MLOps 팀과 도구의 가장 중요한 조직 원칙은 프로젝트의 모든 단계에서 데이터의 일관성과 높은 품질의 흐름을 보장하는 것이어야 한다고 생각한다. 이것은 많은 프로젝트가 더 원활하게 진행될 수 있도록 도와줄 것이다.’
4월 말에 줌(Zoom)을 통해 라이브 스트리밍 Q&A 세션에서 응은 방사선학을 위한 기계 학습 분석 시스템의 적용 부족에 대해 말했다:
“스坦포드 병원에서 데이터를 수집하여 동일한 병원에서 훈련하고 테스트하면, 알고리즘이 특정 조건을 인식하는 인간 방사선과 비교할 수 있는 논문을 발표할 수 있다.
“… (同じ 모델, 동일한 AI 시스템을) 그대로 다른 병원, 낡은 기계, 기술자가 약간 다른 이미징 프로토콜을 사용하는 곳으로 가져가면, 데이터의 변동으로 인해 AI 시스템의 성능이 크게 저하된다. 반면, 인간 방사선은 그대로 다른 병원으로 걸어갈 수 있다.”
하위 사양은 해결책이 아니다
과적합은 기계 학습 모델이 특정 데이터셋(또는 데이터 형식)의 특이성에 따라 설계될 때 발생한다. 이는 특정 데이터셋에서 좋은 결과를 생성하지만 다른 데이터에서 일반화되지 않는 가중치를 정의하는 것을 포함할 수 있다.
많은 경우에, 이러한 매개 변수는 훈련 세트의 ‘비 데이터’ 측면, 즉 수집된 정보의 특정 해상도 또는 다른 데이터셋에서 반복되지 않을 수 있는 기타 특이성에서 정의된다.
과적합은 데이터 아키텍처 또는 모델 설계의 범위나 유연성을 무작위로 넓히는 것으로 해결될 수 있는 문제는 아니며, 다양한 데이터 환경에서 잘 수행되는 널리 적용 가능하고 높은 관련성의 특징이 필요한 더 어려운課題이다.
일반적으로, 이러한 종류의 ‘하위 사양’은 응이 최근에 설명한 문제로 이어지며, 기계 학습 모델이 보지 못한 데이터에서 실패한다. 이 경우 모델은 과적합된 원래 훈련 세트의 데이터 또는 데이터 형식이 다르기 때문에 실패하는 것이 아니라, 모델이 너무 유연하여すぎる 때문이다.
2020년 말에 논문 Underspecification Presents Challenges for Credibility in Modern Machine Learning은 구글과 MIT를 포함한 여러 기관의 40명 이상의 기계 학습 연구자와 과학자들이 이름을 올린 논문으로, 이러한 관행에 대해 강한 비판을 가했다.
이 논문은 ‘단축 학습’을 비판하며, 모델 훈련을 시작하는 랜덤 시드 포인트에 따라 모델이狂った 방향으로 진행할 수 있는 방식을 관찰한다. 기고자는 다음과 같이 말한다:
‘우리는 실제 기계 학습 파이프라인에서 과적합이 普遍적임을 보았다. 실제로, 과적합 덕분에 결정의 중요한 측면은 매개 변수 초기화를 위한 랜덤 시드와 같은 임의의 선택에 의해 결정된다.’
문화의 변화에 따른 경제적 영향
학술적 자격을 갖춘 응은 학술적이지 않으며, 구글 브레인과 Coursera의 공동 설립자로서, 바이두의 빅 데이터 및 AI의 전 최고 과학자로서, 랜딩 AI의 설립자로서 1억 7,500만 달러를 새로운 스타트업에 투자하는 등 산업계에서 높은 수준의 경험을 가지고 있다.
그가 “모든 AI, 건강 관리뿐만 아니라, 개념 증명에서 생산까지의 격차가 있다”고 말할 때, 이는 현재 수준의 과장과 점점 더 불확실한 장기적인 사업 투자로 특징지어지는 분야에 대한 경고의 메시지로 의도된다. 문제로 고생하는 분야이다.
그러나 특정 환경에서 잘 작동하지만 다른 환경에서 실패하는 고유한 기계 학습 시스템은 산업 투자에 대한 보상을 받을 수 있는 시장 점유율을 나타낸다. ‘과적합 문제’를 직업적 위험으로 제시하는 것은 오픈 소스 연구에 대한 기업 투자를 모의하는 방법이며, 복제가 가능하지만 문제가 있는 독점 시스템을 생성하는 방법이다.
이 접근법이 장기적으로 작동하는지 여부는 기계 학습의 실제적인 발전에 대한 투자가 계속해서 증가해야 하는지 여부와, 모든 생산적인 이니셔티브가 결국 FAANG로 이동해야 하는지 여부에 달려 있다. 이는 호스팅 및 운영을 위한 엄청난 자원이 필요하기 때문이다.












