부본 기계 학습의 증가하는 전력 요구 사항 억제 - Unite.AI
Rescale 미팅 예약

인공 지능

기계 학습의 증가하는 전력 수요 억제

mm
업데이트 on

대규모 기계 학습 모델의 에너지 요구 사항에 대한 우려가 커지는 가운데, MIT Lincoln Laboratory와 Northeastern University의 최근 연구에서는 모델 훈련 및 추론에 사용되는 전력 제한 GPU와 기타 여러 모델을 통해 절약할 수 있는 방법을 조사했습니다. AI 에너지 사용량을 줄이는 기술 및 방법.

새로운 작업은 또한 새로운 AI 논문이 '에너지 선언문'으로 결론을 내릴 것을 요구합니다. 최근 트렌드 기계 학습 연구 부문의 논문에서 '윤리적 의미' 진술).

작업의 주요 제안은 전원 제한(모델을 교육하는 GPU에 사용 가능한 전원을 제한)이 특히 MLM(Masked Language Modeling) 및 BERT 및 그 파생물과 같은 프레임워크에 대해 가치 있는 에너지 절약 이점을 제공한다는 것입니다.

전력 사용량 측면에서 기본 250W 설정(검은색 선)의 백분율로 작동하는 1개 언어 모델링 네트워크. 전력 소비를 제한해도 교육 효율성이나 정확도가 1:2205.09646로 제한되지 않으며 대규모로 눈에 띄는 절전 효과를 제공합니다. 출처: https://arxiv.org/pdf/XNUMX.pdf

전력 사용량 측면에서 기본 250W 설정(검은색 선)의 백분율로 작동하는 1개 언어 모델링 네트워크. 전력 소비를 제한해도 교육 효율성이나 정확도가 1:XNUMX로 제한되지 않으며 대규모로 눈에 띄는 절전 효과를 제공합니다. 출처 : https://arxiv.org/pdf/2205.09646.pdf

하이퍼스케일 데이터 세트와 수십억 또는 수조 개의 매개변수가 포함된 새로운 모델로 인해 최근 몇 년 동안 주목을 받은 대규모 모델의 경우 교육 시간과 에너지 사용량 사이의 트레이드 오프로 유사한 절감 효과를 얻을 수 있습니다.

전력 제약 조건 하에서 대규모로 더 강력한 NLP 모델을 교육합니다. 150W 캡 아래의 평균 상대 시간은 파란색으로 표시되고 150W에 대한 평균 상대 에너지 소비량은 주황색으로 표시됩니다.

전력 제약 조건 하에서 대규모로 더 강력한 NLP 모델을 교육합니다. 150W 캡 아래의 평균 상대 시간은 파란색으로 표시되고 150W에 대한 평균 상대 에너지 소비량은 주황색으로 표시됩니다.

이러한 대규모 배치의 경우 연구원들은 전력 사용에 대한 150W 제한이 기본 최대 13.7W에 비해 에너지 사용량이 평균 250% 감소하고 훈련 시간이 상대적으로 6.8% 증가한다는 것을 발견했습니다.

또한 연구원들은 헤드 라인 모델 훈련 비용이 지난 몇 년 동안 벌어졌다는 점을 감안하면 훈련된 모델을 실제로 사용하는 데 드는 에너지 비용은 멀리 더 높은*.

'BERT를 사용한 언어 모델링의 경우 전력 제한을 통한 에너지 이득은 훈련보다 추론을 수행할 때 훨씬 더 큽니다. 이것이 다른 AI 응용 프로그램에 대해 일관된다면 연구 및 산업을 위한 추론 응용 프로그램을 제공하는 대규모 또는 클라우드 컴퓨팅 플랫폼의 에너지 소비 측면에서 상당한 영향을 미칠 수 있습니다.'

또한 가장 논란의 여지가 있는 것은 이 논문은 냉각 비용을 절약하기 위해 기계 학습 모델의 주요 교육을 추운 달과 밤 시간으로 이관할 것을 제안합니다.

위의 작성자 데이터 센터에서 2020년 매일 PUE 통계는 여름철에 눈에 띄게 지속적으로 급증/고정 상태를 유지합니다. 아래는 내부 GPU 냉각 하드웨어와 주변 데이터 센터 냉각이 모두 작동 가능한 온도를 유지하기 위해 고군분투함에 따라 에너지 소비가 한낮으로 증가하면서 일주일 동안 동일한 위치에 대한 PUE의 시간당 평균 변화입니다.

위의 작성자 데이터 센터에서 2020년 매일 PUE 통계는 여름철에 눈에 띄게 지속적으로 급증/고정 상태를 유지합니다. 아래는 내부 GPU 냉각 하드웨어와 주변 데이터 센터 냉각이 모두 작동 가능한 온도를 유지하기 위해 고군분투함에 따라 에너지 소비가 한낮으로 증가하면서 일주일 동안 동일한 위치에 대한 PUE의 시간당 평균 변화입니다.

저자는 다음과 같이 말합니다.

'분명히 무거운 NLP 워크로드는 일반적으로 겨울에 실행되는 것보다 여름에 훨씬 덜 효율적입니다. 큰 계절적 변화를 감안할 때 더 시원한 달에 시간을 맞출 수 있는 계산 비용이 많이 드는 실험이 있다면 이 타이밍은 탄소 발자국을 크게 줄일 수 있습니다.'

이 백서는 또한 모델 아키텍처 및 워크플로의 가지치기 및 최적화를 통해 가능한 새로운 에너지 절약 가능성을 인정합니다. 하지만 저자는 이 방법의 추가 개발을 다른 이니셔티브에 맡깁니다.

마지막으로, 저자는 기계 학습 부문의 새로운 과학 논문이 연구에서 수행된 작업의 에너지 사용량과 작업에서 제안된 이니셔티브 채택의 잠재적인 에너지 영향을 선언하는 진술로 마무리하도록 권장하거나 제한할 것을 제안합니다. .

이 논문은 예를 들어 자체 연구의 에너지 영향을 설명합니다.

이 논문은 예를 들어 자체 연구의 에너지 영향을 설명합니다.

XNUMXD덴탈의 종이 제목이 Great Power, Great Responsibility: 언어 모델 학습을 위한 에너지 절감 권장 사항, 그리고 MIT 링컨과 노스이스턴 전역의 XNUMX명의 연구원이 제공합니다.

기계 학습의 어렴풋한 에너지 포착

기계 학습 모델에 대한 컴퓨팅 요구 사항이 증가 결과의 유용성과 함께 현재 ML 문화는 에너지 소비와 성능 향상을 동일시합니다. Andrew Ng와 같은, 데이터 큐레이션이 더 중요한 요소.

하나의 주요 MIT 협력2020년부터 모델 성능이 10,000배 향상되면 그에 상응하는 에너지 양과 함께 계산 요구 사항이 XNUMX배 증가하는 것으로 추정되었습니다.

결과적으로 지난 몇 년 동안 덜 전력 집약적인 효과적인 ML 교육에 대한 연구가 증가했습니다. 저자는 새 논문이 NLP 프레임워크(예: GPT 시리즈)에 중점을 두고 기계 학습 교육 및 추론에 대한 전력 상한선의 영향을 심층적으로 살펴본 최초의 논문이라고 주장합니다.

추론의 품질이 가장 중요한 관심사이기 때문에 저자는 처음에 발견한 내용을 다음과 같이 설명합니다.

'[이] 방법은 훈련된 모델의 예측이나 결과적으로 작업에 대한 성능 정확도에 영향을 미치지 않습니다. 즉, 동일한 구조, 초기 값 및 일괄 처리된 데이터를 가진 두 개의 네트워크가 다른 전력 캡에서 동일한 수의 일괄 처리에 대해 훈련되는 경우 결과 매개 변수는 동일하며 이를 생성하는 데 필요한 에너지만 다를 수 있습니다.'

NLP의 전력 절감

학습 및 추론에 대한 파워 캡의 영향을 평가하기 위해 저자는 다음을 사용했습니다. 엔비디아 smi (시스템 관리 인터페이스) 명령줄 유틸리티와 MLM 라이브러리HuggingFace의 y.

저자는 자연어 처리 모델을 훈련했습니다. BERT, 디스틸버트큰 새 MLM을 통해 교육 및 배포에서 전력 소비를 모니터링했습니다.

모델은 DeepAI에 대해 훈련되었습니다. 위키 텍스트 -103 4개의 V16 GPU에서 100W, 100W, 150W 및 200W(NVIDIA V250 GPU의 경우 기본값 또는 기준선)의 100가지 전력 캡이 있는 XNUMX개의 배치로 XNUMX개의 에포크에 대한 데이터 세트. 이 모델은 비교 가능한 훈련 평가를 보장하기 위해 스크래치 훈련된 매개변수와 임의의 초기 값을 특징으로 합니다.

위의 첫 번째 이미지에서 볼 수 있듯이 결과는 비선형에서 좋은 에너지 절약을 보여주고 교육 시간이 유리하게 증가합니다. 저자는 다음과 같이 말합니다.

'우리의 실험은 전력 한도를 구현하면 훈련 시간을 희생하면서 에너지 사용량을 크게 줄일 수 있음을 나타냅니다.'

슬리밍 다운 'Big NLP'

다음으로 작성자는 더 까다로운 시나리오에 동일한 방법을 적용했습니다. 여러 GPU에 걸친 분산 구성에서 MLM을 사용하여 BERT를 교육하는 것입니다. 자금이 풍부하고 널리 알려진 FAANG NLP 모델의 일반적인 사용 사례입니다.

이 실험의 주요 차이점은 모델이 교육 인스턴스당 2~400개의 GPU를 사용할 수 있다는 것입니다. 전력 사용에 대해 동일한 제약 조건이 적용되었고 동일한 작업이 사용되었습니다(WikiText-103). 결과 그래프는 위의 두 번째 이미지를 참조하십시오.

논문은 다음과 같이 말합니다.

'구성의 각 선택에 대해 평균적으로 150W의 전력 사용으로 기본 최대값과 비교하여 에너지 사용량이 평균 13.7% 감소하고 교육 시간이 6.8% 증가했습니다. [The] 100W 설정은 훈련 시간이 훨씬 더 깁니다(평균 31.4% 더 깁니다). 200W 제한은 250W 제한과 거의 동일한 교육 시간에 해당하지만 150W 제한보다 에너지 절약이 더 적습니다.'

저자는 이러한 결과가 GPU 아키텍처 및 GPU 아키텍처에서 실행되는 애플리케이션에 대해 150W의 전력 제한을 지원한다고 제안합니다. 그들은 또한 얻은 에너지 절약이 하드웨어 플랫폼 전반에 걸쳐 해석되고 NVIDIA K80, T4 및 A100 GPU의 결과를 비교하기 위해 테스트를 다시 실행했다는 점에 주목합니다.

XNUMX개의 서로 다른 NVIDIA GPU에서 얻은 절감액.

XNUMX개의 서로 다른 NVIDIA GPU에서 얻은 절감액.

훈련이 아닌 추론이 힘을 먹는다

이 논문은 헤드라인에도 불구하고 추론(NLP 모델과 같은 완성된 모델의 사용)이지 가장 큰 힘을 끌어내는 훈련이 아니라는 것을 보여주는 여러 선행 연구를 인용하여 인기 있는 모델이 상품화되고 주류에서 전력 사용은 NLP 개발의 초기 단계에서 현재보다 더 큰 문제가 될 수 있습니다.

따라서 연구원들은 전력 사용량에 대한 추론의 영향을 측정하여 전력 한도 부과가 추론 대기 시간에 현저한 영향을 미친다는 사실을 발견했습니다.

'250W와 비교하여 100W 설정은 추론 시간이 114배(11.0% 증가) 필요하고 에너지 소비량이 150% 적고, 22.7W는 시간이 24.2% 더 필요하고 에너지가 200% 절약되며, 8.2W는 시간이 12.0% 더 필요하고 XNUMX% 더 적습니다. 에너지.'

겨울 훈련

이 백서는 데이터 센터가 최대 PUE(Power Usage Effectiveness)에 도달하는 시간(효과적으로는 겨울과 밤)에 교육(추론이 아닌 경우 명백한 이유로) 일정을 잡을 수 있다고 제안합니다.

'낮은 PUE가 예상되는 시간에 워크로드를 예약할 수 있다면 상당한 에너지 절약을 얻을 수 있습니다. 예를 들어, 단기 실행 작업을 주간에서 야간으로 이동하면 대략 10% 감소할 수 있으며 더 길고 비용이 많이 드는 작업(예: 완료하는 데 몇 주가 걸리는 언어 모델)을 여름에서 겨울로 이동하면 33% 감소를 볼 수 있습니다.

'개별 연구원이 달성할 수 있는 절감액을 예측하기는 어렵지만 여기에 제시된 정보는 작업 부하에 의해 소비되는 전체 에너지에 영향을 미치는 환경 요인의 중요성을 강조합니다.'

흐린 상태 유지

마지막으로 이 백서에서는 자체 개발 처리 리소스가 주요 데이터 센터 및 고급 클라우드 컴퓨팅 플레이어와 동일한 효율성 조치를 구현하지 않았을 가능성이 있으며 우수한 PUE에 많은 투자를 한 위치로 워크로드를 이전함으로써 환경적 이점을 얻을 수 있다고 관찰합니다.

'접근 가능한 개인 컴퓨팅 리소스를 갖는 것은 편리하지만 이러한 편의에는 대가가 따릅니다. 일반적으로 말해서 에너지 절약 및 영향은 더 큰 규모에서 더 쉽게 얻을 수 있습니다. 데이터 센터 및 클라우드 컴퓨팅 공급자는 시설 효율성에 상당한 투자를 합니다.'

 

* 논문에서 제공하는 관련 링크.