부본 머신 러닝 모델을 실행할 때 스마트폰을 시원하게 유지하는 방법 - Unite.AI
Rescale 미팅 예약

인공 지능

기계 학습 모델을 실행할 때 스마트폰을 시원하게 유지하는 방법

mm
업데이트 on
출처 이미지: '새로운 Samsung Galaxy S20 Ultra를 들고 있는 청년', Jonas Leupe, Unsplash - https://unsplash.com/photos/wK-elt11pF0

오스틴 대학교(University of Austin)와 카네기 멜론(Carnegie Mellon) 연구원들은 스마트폰과 같은 모바일 장치와 저전력 엣지 장치에서 계산 비용이 많이 드는 기계 학습 모델을 실행하는 새로운 방법을 제안했습니다. 열 스로틀 링 – 허용 가능한 작동 온도에 다시 도달할 때까지 성능을 저하시켜 호스트 장치의 온도를 낮추도록 설계된 전문가 및 소비자 장치의 일반적인 보호 메커니즘입니다.

새로운 접근 방식은 더 복잡한 ML 모델이 예를 들어 호스트 스마트폰의 안정성을 위협하지 않고 추론 및 기타 다양한 유형의 작업을 실행하는 데 도움이 될 수 있습니다.

중심 아이디어는 사용하는 것입니다. 동적 네트워크어디 무게 로컬 기계 학습 모델의 '저압' 버전과 '최대 강도' 버전 모두에서 모델의 데이터에 액세스할 수 있습니다.

기계 학습 모델의 로컬 설치 작동으로 인해 장치의 온도가 급격히 상승해야 하는 경우 모델은 온도가 안정화될 때까지 덜 까다로운 모델로 동적으로 전환한 다음 다시 완전한 기능을 갖춘 모델로 전환합니다. 버전.

테스트 작업은 이미지 분류 작업과 질의응답 자연어 추론(QNLI) 작업으로 구성되었으며, 두 작업 모두 모바일 AI 애플리케이션을 사용할 가능성이 있는 작업입니다. 출처: https://arxiv.org/pdf/2206.10849.pdf

테스트 작업은 이미지 분류 작업과 질의응답 자연어 추론(QNLI) 작업으로 구성되었으며, 두 작업 모두 모바일 AI 애플리케이션을 사용할 가능성이 있는 작업입니다. 출처 : https://arxiv.org/pdf/2206.10849.pdf

연구원들은 2019 Honor V30 Pro 스마트폰과 Raspberry Pi 4B 4GB에서 컴퓨터 비전 및 자연어 처리(NLP) 모델에 대한 개념 증명 테스트를 수행했습니다.

(스마트폰의 경우) 결과에서 아래 이미지에서 사용에 따라 호스트 장치의 온도가 오르락내리락하는 것을 볼 수 있습니다. 빨간색 선은 실행 중인 모델을 나타냅니다. 없이 동적 변속.

결과가 매우 유사해 보일 수 있지만 그렇지 않습니다. 푸른 라인(즉, 새 논문의 방법 사용)은 더 단순한 모델 버전과 더 복잡한 모델 버전 사이를 전환하는 것입니다. 작업의 어떤 시점에서도 열 스로틀링이 트리거되지 않습니다.

온도가 올라가고 내려가는 원인은 무엇입니까? 빨간 라인은 장치에서 열 스로틀링의 자동 참여로, 모델의 작동 속도를 늦추고 대기 시간을 늘립니다.

모델의 사용 가능성 측면에서 아래 이미지에서 비보조 모델의 대기 시간이 열적으로 조절되는 동안 훨씬 더 높다는 것을 확인할 수 있습니다.

동시에 위의 이미지는 Dynamic Shifting으로 관리되는 모델의 지연 시간에 거의 변화가 없음을 보여줍니다.

최종 사용자의 경우 대기 시간이 길면 대기 시간이 길어져 작업을 포기하고 작업을 호스팅하는 앱에 불만이 생길 수 있습니다.

(컴퓨터 비전이 아닌) NLP 시스템의 경우 작업이 신속한 응답(예: 자동 번역 또는 장애가 있는 사용자를 돕기 위한 유틸리티)에 의존할 수 있기 때문에 높은 응답 시간은 훨씬 더 불안정할 수 있습니다.

실시간 VR/AR과 같은 진정으로 시간이 중요한 애플리케이션의 경우 긴 대기 시간은 모델의 핵심 유용성을 효과적으로 제거합니다.

연구자들은 다음과 같이 말합니다.

'우리는 열 스로틀링이 대기 시간이 중요한 모바일 ML 애플리케이션에 심각한 위협이 된다고 주장합니다. 예를 들어, 비디오 스트리밍이나 게임을 위한 실시간 시각적 렌더링 중에 프레임당 처리 대기 시간이 갑자기 급증하면 사용자 경험에 상당한 부정적인 영향을 미칩니다. 또한 최신 모바일 운영 체제는 종종 iOS의 VoiceOver 및 Android의 TalkBack과 같은 시각 장애인을 위한 특수 서비스 및 애플리케이션을 제공합니다.

'사용자는 일반적으로 음성에 전적으로 의존하여 휴대전화와 상호작용하므로 이러한 서비스의 품질은 애플리케이션의 응답성 또는 대기 시간에 크게 좌우됩니다.'

BERT w50 d50의 비보조 및 동적 변속의 성능을 보여주는 그래프. 다이내믹 쉬프팅(파란색)에서 대기 시간의 균일성에 주목하십시오.

BERT w50 d50 비보조(빨간색) 및 동적 변속(파란색)의 성능을 보여주는 그래프. 다이내믹 쉬프팅(파란색)에서 대기 시간의 균일성에 주목하십시오.

XNUMXD덴탈의 종이 제목이 Play It Cool: 동적 이동으로 열 스로틀링 방지, UoA의 두 연구원 간의 공동 작업입니다. 카네기 멜론에서 하나; 두 기관을 대표하는 기관.

CPU 기반 모바일 AI

Dynamic Shifting 및 다중 규모 아키텍처는 설립 및 활동 연구 영역에서 대부분의 이니셔티브는 계산 장치의 고급 배열에 집중했으며 현재 노력의 중심은 일반적으로 추론보다는 로컬(예: 장치 기반) 신경망의 집중적인 최적화 사이에 나뉩니다. 교육 및 전용 모바일 하드웨어 개선.

연구원들이 수행한 테스트는 GPU 칩이 아닌 CPU에서 수행되었습니다. 에도 불구하고 관심 증가 모바일 기계 학습 애플리케이션에서 로컬 GPU 리소스를 활용하는 데(심지어 모바일 장치에서 직접 교육, 그 품질을 향상시킬 수 있습니다 최종 모델의 경우) GPU는 일반적으로 더 많은 전력을 사용하며, 이는 리소스가 제한된 장치에서 (클라우드 서비스에 대해) 독립적이고 유용하기 위한 AI의 노력에서 중요한 요소입니다.

체중 공유 테스트

프로젝트에 대해 테스트된 네트워크는 다음과 같습니다. 슬림형 네트워크다이나버트, 각각 컴퓨터 비전 및 NLP 기반 작업을 나타냅니다.

다양하게 나왔지만 이니셔티브 모바일 장치에서 효율적이고 경제적으로 실행할 수 있는 BERT 반복을 만들기 위해 일부 시도는 비판을 받다 새로운 논문의 연구자들은 모바일 공간에서 BERT를 사용하는 것은 어려운 일이며 '일반적으로 BERT 모델은 휴대 전화에 대해 너무 계산 집약적'이라고 지적합니다.

DynaBERT는 Google의 강력한 NLP/NLU 프레임워크 자원이 부족한 환경의 맥락에서; 그러나 연구원들은 이러한 BERT 구현조차도 매우 까다롭다는 것을 발견했습니다.

그럼에도 불구하고 저자는 스마트폰과 Raspberry PI 장치 모두에서 두 가지 실험을 실행했습니다. CV 실험에서는 무작위로 선택된 단일 이미지를 연속적이고 반복적으로 처리했습니다. 레스넷50 분류 작업으로 실험 실행 시간의 전체 시간 동안 열 스로틀링을 호출하지 않고 안정적으로 실행할 수 있었습니다.

논문은 다음과 같이 말합니다.

약간의 정확도는 희생될 수 있지만, 제안된 Dynamic Shifting은 더 빠른 추론 속도를 가지고 있습니다. 가장 중요한 것은 우리의 Dynamic Shifting 접근 방식이 일관된 추론을 즐긴다는 것입니다.'

50분 동안 지속적인 이미지 분류 작업에서 Slimmable ResNet50 x1.0과 x0.25 버전 사이의 동적 전환과 함께 ResNetXNUMX을 도움 없이 실행합니다.

50분 동안 지속적인 이미지 분류 작업에서 Slimmable ResNet50 x1.0과 x0.25 버전 사이의 동적 전환과 함께 ResNetXNUMX을 도움 없이 실행합니다.

NLP 테스트의 경우 작성자는 DynaBERT 제품군에서 가장 작은 두 모델 사이를 이동하도록 실험을 설정했지만 1.4X 대기 시간에서 BERT가 약 70°에서 스로틀링한다는 사실을 발견했습니다. 따라서 작동 온도가 65°에 도달하면 다운 시프트가 발생하도록 설정했습니다.

BERT 실험은 설치가 질문/답변 쌍에서 지속적으로 추론하도록 하는 것과 관련이 있습니다. GLUE의 ONLI 데이터 세트.

대기 시간과 정확도 절충은 컴퓨터 비전 구현보다 야심찬 BERT 작업에서 더 심각했으며 정확도는 스로틀링을 피하기 위해 장치 온도를 제어해야 하는 더 심각한 필요성을 희생했습니다.

두 부문 작업에 대한 연구원의 실험에 대한 대기 시간 대 정확도.

두 부문 작업에 대한 연구원의 실험에 대한 대기 시간 대 정확도.

저자는 다음과 같이 관찰합니다.

'동적 이동은 일반적으로 모델의 엄청난 계산 강도 때문에 BERT 모델의 열 스로틀링을 방지할 수 없습니다. 그러나 몇 가지 제한 사항이 있는 경우 동적 이동은 휴대폰에 BERT 모델을 배포할 때 여전히 유용할 수 있습니다.'

저자는 BERT 모델이 Honor V30 전화기의 CPU 온도를 80초 이내에 32°까지 상승시키고 활동 XNUMX분 이내에 열 스로틀링을 호출한다는 사실을 발견했습니다. 따라서 저자는 반폭 BERT 모델만 사용했습니다.

실험은 Raspberry PI 설정에서 반복되었으며 이 기술은 해당 환경에서도 열 스로틀링 트리거를 방지할 수 있었습니다. 그러나 저자는 Raspberry PI가 단단히 포장된 스마트폰과 같은 극한의 열 제약 조건 하에서 작동하지 않는다는 점에 주목하고 적당한 장비를 갖춘 처리 환경에서 이 방법의 효율성을 추가로 입증하기 위해 이 실험을 추가한 것으로 보입니다.

 

23년 2022월 XNUMX일에 처음 게시되었습니다.