부본 Google 연구원, 많은 AI 모델을 방해하는 과소 사양 문제 발견 - Unite.AI
Rescale 미팅 예약

인공 지능

Google 연구원, 많은 AI 모델을 방해하는 사양 부족 문제 발견

mm
업데이트 on

최근 Google의 연구진은 AI 모델 실패의 일반적인 원인을 확인했으며, 기계 학습 모델이 테스트 및 개발 중에 수행하는 것과 실제 세계에서 상당히 다르게 작동하는 주요 이유 중 하나로 사양 부족을 지적했습니다.

기계 학습 모델은 실험실에서 최적의 성능을 발휘하더라도 실제 환경에서 작업을 처리할 때 실패하는 경우가 많습니다. 훈련/개발과 실제 성과 사이의 불일치가 발생하는 데에는 여러 가지 이유가 있습니다. 실제 작업 중에 AI 모델이 실패하는 가장 일반적인 이유 중 하나는 데이터 이동이라는 개념입니다. 데이터 이동은 기계 학습 모델을 개발하는 데 사용되는 데이터 유형과 적용 중에 모델에 입력되는 데이터 간의 근본적인 차이를 나타냅니다. 예를 들어, 고품질 이미지 데이터로 훈련된 컴퓨터 비전 모델은 모델의 일상 환경에서 발견되는 저품질 카메라로 캡처한 데이터를 공급할 때 성능을 발휘하는 데 어려움을 겪습니다.

MIT 테크놀로지 리뷰에 따르면, Google의 40명의 서로 다른 연구원으로 구성된 팀은 기계 학습 모델의 성능이 크게 다를 수 있는 또 다른 이유를 확인했습니다. 문제는 관찰된 현상에 많은 가능한 원인이 있지만 모델에 의해 모두 설명되지 않는 문제를 설명하는 통계적 개념인 "'과소 사양'"입니다. 연구 책임자인 Alex D'Amour에 따르면, 이 현상은 "모든 곳에서 발생한다"고 말하는 많은 기계 학습 모델에서 문제가 목격됩니다.

기계 학습 모델을 교육하는 일반적인 방법은 관련 패턴을 분석하고 추출할 수 있는 많은 양의 데이터를 모델에 제공하는 것입니다. 그런 다음 모델은 본 적이 없는 예제를 제공하고 학습한 기능을 기반으로 이러한 예제의 특성을 예측하도록 요청합니다. 모델이 특정 수준의 정확도를 달성하면 일반적으로 훈련이 완료된 것으로 간주됩니다.

Google 연구 팀에 따르면 모델이 비훈련 데이터로 진정으로 일반화될 수 있도록 하려면 더 많은 작업이 필요합니다. 기계 학습 모델을 교육하는 고전적인 방법은 모두 테스트를 통과할 수 있는 다양한 모델을 생성하지만 이러한 모델은 중요하지 않은 것처럼 보이지만 그렇지 않은 작은 방식으로 다릅니다. 모델의 다른 노드에는 다른 임의 값이 할당되거나 교육 데이터가 다른 방식으로 선택되거나 표시될 수 있습니다. 이러한 변화는 작고 종종 임의적이며 훈련 중에 모델이 수행되는 방식에 큰 영향을 미치지 않으면 간과하기 쉽습니다. 그러나 이러한 모든 작은 변화의 영향이 누적되면 실제 성능에 큰 변화를 가져올 수 있습니다.

이 과소 사양은 훈련 프로세스가 좋은 모델을 생성할 수 있더라도 열악한 모델을 생성할 수도 있고 모델이 생산을 종료하고 사용에 들어갈 때까지 차이점이 발견되지 않는다는 것을 의미하기 때문에 문제가 됩니다.

과소 사양의 영향을 평가하기 위해 연구팀은 다양한 모델을 조사했습니다. 모든 모델은 동일한 훈련 프로세스를 사용하여 훈련된 다음 성능 차이를 강조하기 위해 일련의 테스트를 거쳤습니다. 한 예로, 이미지 인식 시스템의 50가지 버전이 ImageNet 데이터 세트에서 훈련되었습니다. 모델은 훈련 시작 중에 무작위로 할당된 신경망 값에 대해 모두 동일하게 저장되었습니다. 모델의 차이를 결정하는 데 사용된 스트레스 테스트는 대비 또는 밝기 조정을 통해 변경된 이미지로 구성된 원본 데이터 세트의 변형인 ImageNet-C를 사용하여 수행되었습니다. 이 모델은 비정상적인 방향과 맥락에서 일상적인 물체를 특징으로 하는 일련의 이미지인 ObjectNet에서도 테스트되었습니다. 50개 모델 모두 훈련 데이터 세트에서 거의 동일한 성능을 보였지만 모델이 스트레스 테스트를 통해 실행될 때 성능이 크게 변동했습니다.

연구팀은 두 가지 다른 NLP 시스템을 훈련하고 스트레스 테스트했을 때뿐만 아니라 다양한 다른 컴퓨터 비전 모델을 테스트했을 때도 유사한 결과가 발생했음을 발견했습니다. 각각의 경우에 모든 모델에 대한 교육 프로세스가 동일했음에도 불구하고 모델은 서로 크게 갈라졌습니다.

D'Amour에 따르면 기계 학습 연구자와 엔지니어는 모델을 실제 환경에 출시하기 전에 훨씬 더 많은 스트레스 테스트를 수행해야 합니다. 스트레스 테스트는 실제 세계의 데이터, 즉 특정 작업 및 컨텍스트에 대해 얻기 어려울 수 있는 데이터를 사용하여 특정 작업에 맞춰야 한다는 점을 감안할 때 어려울 수 있습니다. 과소 사양 문제에 대한 한 가지 가능한 해결책은 한 번에 많은 모델을 생성한 다음 일련의 실제 작업에서 모델을 테스트하여 지속적으로 최상의 결과를 보여주는 모델을 선택하는 것입니다. 이러한 방식으로 모델을 개발하는 데는 많은 시간과 리소스가 필요하지만 특히 의료 상황이나 안전이 주요 관심사인 기타 영역에서 사용되는 AI 모델의 경우 절충은 그만한 가치가 있습니다. D' Amour가 설명했듯이 MIT 기술 검토를 통해:

“우리 모델에 대한 요구 사항을 정확히 지정하는 데 더 능숙해야 합니다. 모델이 세상에서 실패한 후에야 이러한 요구 사항을 발견하게 되는 경우가 많기 때문입니다.”