Connect with us

์Šค๋งˆํŠธํฐ์—์„œ ๊ธฐ๊ณ„ ํ•™์Šต ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ๋•Œ ์Šค๋งˆํŠธํฐ์„ๅ†ทๅด์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•

์ธ๊ณต์ง€๋Šฅ

์Šค๋งˆํŠธํฐ์—์„œ ๊ธฐ๊ณ„ ํ•™์Šต ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ๋•Œ ์Šค๋งˆํŠธํฐ์„ๅ†ทๅด์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•

mm
Source image: 'Young man holding the new Samsung Galaxy S20 Ultra', by Jonas Leupe, Unsplash - https://unsplash.com/photos/wK-elt11pF0

오스틴 대학교와 카네기 멜런 대학교의 연구자들은 스마트폰과 같은 모바일 기기 및 저전력 에지 디바이스에서 계산적으로 비싼 기계 학습 모델을 실행하는 새로운 방법을 제안했으며, 열 제한을触发하지 않습니다. 열 제한은 전문 및 소비자 디바이스에서 공통적인 보호 메커니즘으로, 호스트 디바이스의 온도를 낮추기 위해 성능을 낮추고, 허용 가능한 작동 온도가 다시 얻을 때까지 성능을 낮추는 것입니다.

새로운 접근 방식은 더 복잡한 ML 모델이 추론 및 다양한 작업을 실행할 수 있도록 도와주며, 예를 들어 호스트 스마트폰의 안정성을 위협하지 않습니다.

중앙 아이디어는 ‘동적 네트워크’를 사용하는 것입니다. 여기서 모델의 가중치는 ‘저압’ 및 ‘전체 강도’ 버전의 로컬 기계 학습 모델 모두에 의해 액세스할 수 있습니다.

로컬 기계 학습 모델의 설치가 디바이스의 온도를 임계적으로 높이는 경우에 모델은 동적으로 요구 사항이 낮은 모델로 전환하고 온도가 안정화되면 전체 버전으로 다시 전환합니다.

ํ…Œ์ŠคํŠธ ์ž‘์—…์€ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ์ž‘์—…๊ณผ ์งˆ๋ฌธ-์‘๋‹ต ์ž์—ฐ์–ด ์ถ”๋ก (QNLI) ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋‘ ์ž‘์—… ๋ชจ๋‘ ๋ชจ๋ฐ”์ผ AI ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ถœ์ฒ˜: https://arxiv.org/pdf/2206.10849.pdf

테스트 작업은 이미지 분류 작업과 질문-응답 자연어 추론(QNLI) 작업으로 구성되었습니다. 두 작업 모두 모바일 AI 애플리케이션에서 사용됩니다. 출처: https://arxiv.org/pdf/2206.10849.pdf

연구자들은 2019년 Honor V30 Pro 스마트폰과 Raspberry Pi 4B 4GB에서 컴퓨터 비전 및 자연어 처리(NLP) 모델에 대한 개념 증명 테스트를 수행했습니다.

스마트폰의 결과에서 우리는 이미지 아래에서 호스트 디바이스의 온도가 사용량에 따라 상승하고 하락하는 것을 볼 수 있습니다. 빨간 선은 Dynamic Shifting 없이 실행되는 모델을 나타냅니다.

결과가 매우 비슷해 보일 수 있지만, 그렇지 않습니다. 동적 전환을 사용하는 경우(즉, 새로운 논문의 방법을 사용하는 경우) 온도가 상승하고 하락하는 이유는 간단한 모델과 복잡한 모델 버전 사이를 전환하는 것입니다. 작업 중에 열 제한이 कभ도 트리거되지 않습니다.

빨간 선의 경우 온도가 상승하고 하락하는 이유는 디바이스의 자동 열 제한 참여로 인해 모델의 작동이 느려지고 대기 시간이 증가합니다.

모델의 사용 가능성에 관해서는 아래 이미지에서 열 제한 없이 실행되는 모델의 대기 시간이 훨씬 더 높다는 것을 볼 수 있습니다.

동일한 이미지는 Dynamic Shifting으로 관리되는 모델에서 거의 변화가 없는 대기 시간을 보여줍니다. 이는 사용자에게 반응성이 유지됩니다.

사용자에게 높은 대기 시간은 기다리는 시간이 증가할 수 있으며, 이는 작업을 포기하고 호스팅 앱에 대한 불만을 유발할 수 있습니다.

NLP(컴퓨터 비전보다) 시스템의 경우 높은 응답 시간은 더욱 불안정할 수 있습니다. 이러한 작업은 즉각적인 응답에 의존할 수 있습니다(예: 자동 번역 또는 장애인 사용자를 돕는 유틸리티).

진짜 시간 крит적 애플리케이션의 경우(예: 실시간 VR/AR) 높은 대기 시간은 모델의 핵심 유용성을 효과적으로 죽일 것입니다.

연구자들은 다음과 같이 말합니다:

‘열 제한은 대기 시간에 민감한 모바일 ML 애플리케이션에 심각한 위협을 가합니다. 예를 들어, 비디오 스트리밍 또는 게임을 위한 실시간 비주얼 렌더링 중에 처리 대기 시간의 급격한 증가가 사용자 경험에 상당한 부정적인 영향을 미칠 것입니다. 또한, 모던 모바일 운영 체제는 종종 시각 장애인 사용자를 위한 특별한 서비스와 애플리케이션을 제공합니다.

‘사용자는 일반적으로 음성에 전적으로 의존하여 모바일폰과 상호 작용하므로, 이러한 서비스의 품질은 애플리케이션의 반응성 또는 대기 시간에 크게 의존합니다.’

BERT w50 d50์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ทธ๋ž˜ํ”„, ๋„์›€ ์—†์ด ๋ฐ Dynamic Shifting์œผ๋กœ ๋„์›€์„ ๋ฐ›์Šต๋‹ˆ๋‹ค. Dynamic Shifting(ํŒŒ๋ž€์ƒ‰)์˜ ๋Œ€๊ธฐ ์‹œ๊ฐ„์˜ ๊ณ ๋ฅด๊ธฐ๋ฅผ ๆณจๆ„ํ•˜์„ธ์š”.

BERT w50 d50의 성능을 보여주는 그래프, 도움 없이 및 Dynamic Shifting으로 도움을 받습니다. Dynamic Shifting(파란색)의 대기 시간의 고르기를 注意하세요.

논문Play It Cool: Dynamic Shifting Prevents Thermal Throttling이라고 불리며, UoA의 두 명의 연구자와 카네기 멜런의 한 명의 연구자 및 두 기관을 대표하는 한 명의 연구자 간의 협력입니다.

CPU-Based Mobile AI

동적 전환 및 다중 규모 아키텍처는 이미 확립된 연구 분야입니다. 그러나 대부분의 이니셔티브는 고성능 컴퓨팅 디바이스 배열에 집중되어 왔으며, 현재의 노력은 주로 로컬 기계 학습 모델의 강도 높은 최적화 및 전용 모바일 하드웨어의 개선에 중점을 두고 있습니다.

연구자들이 수행한 테스트는 CPU 칩에서 수행되었습니다. 모바일 기계 학습 애플리케이션에서 로컬 GPU 자원을 활용하는 관심이 증가하고 있습니다(그리고 심지어 모바일 디바이스에서 직접 훈련할 수 있으며, 이는 최종 모델의 품질을 개선할 수 있습니다). 그러나 GPU는 일반적으로 더 많은 전력을 소비하며, 이는 AI가 클라우드 서비스에 의존하지 않고 제한된 자원을 가진 디바이스에서 유용하도록 하는 데 중요한 요소입니다.

Testing Weight Sharing

이 프로젝트에서 테스트된 네트워크는 slimmable networksDynaBERT였으며, 각각 컴퓨터 비전 및 NLP 기반 작업을 나타냅니다.

BERT의 반복을 만들려는 여러 시도가 있었지만, 일부는 복잡한 해결책으로 비판을 받았습니다. 연구자들은 BERT 모델을 모바일 공간에서 사용하는 것이 도전이라고 주장하며, “일반적으로 BERT 모델은 모바일폰에 너무 계산적으로 집중적”이라고 말합니다.

DynaBERT는 구글의 강력한 NLP/NLU 프레임워크를 자원 제한된 환경에서 최적화하려는 중국의 이니셔티브입니다. 그러나 연구자들은 이 구현이 매우 요구 사항이 높다는 것을 발견했습니다.

연구자들은 스마트폰과 Raspberry PI 디바이스에서 두 가지 실험을 수행했습니다. CV 실험에서 단일 이미지 분류 작업이 반복적으로 실행되었으며, 1시간 동안 안정적으로 실행되었습니다.

이 논문은 다음과 같이 말합니다:

‘Dynamic Shifting은 정확도를 약간 희생시킵니다. 그러나 추론 속도가 더 빠릅니다. 가장 중요한 것은 우리의 Dynamic Shifting 접근 방식이 일관된 추론을 제공한다는 것입니다.’

60๋ถ„ ๋™์•ˆ ์—ฐ์†์ ์ธ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ์ž‘์—…์—์„œ Slimmable ResNet50 x1.0 ๋ฐ x0.25 ๋ฒ„์ „ ์‚ฌ์ด์—์„œ ๋™์  ์ „ํ™˜์„ ์‚ฌ์šฉํ•˜์—ฌ ResNet50์„ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค.

60분 동안 연속적인 이미지 분류 작업에서 Slimmable ResNet50 x1.0 및 x0.25 버전 사이에서 동적 전환을 사용하여 ResNet50을 실행합니다.

NLP 테스트의 경우 연구자들은 두 개의 작은 모델 사이에서 전환하도록 실험을 설정했지만, 1.4X 대기 시간에서 BERT가 70도에서 제한을 받는다는 것을 발견했습니다. 따라서 65도에 도달하면 전환을 설정했습니다.

BERT 실험에는 GLUE의 ONLI 데이터 세트에서 질문/답변 쌍에 대한 추론을 계속 실행하는 것이 포함되었습니다.

대기 시간 및 정확도 트레이드오프는 컴퓨터 비전 구현보다 더 심각했습니다. 정확도는 제한을 피하기 위해 디바이스 온도를 제어할 필요가 있었습니다.

๋‘ ์ž‘์—…์— ๋Œ€ํ•œ ์—ฐ๊ตฌ์ž๋“ค์˜ ์‹คํ—˜์—์„œ ๋Œ€๊ธฐ ์‹œ๊ฐ„ ๋Œ€์‹  ์ •ํ™•๋„

두 작업에 대한 연구자들의 실험에서 대기 시간 대신 정확도

연구자들은 다음과 같이 말합니다:

‘Dynamic Shifting은 일반적으로 BERT 모델의 엄청난 계산 강도 때문에 열 제한을 방지할 수 없습니다. 그러나 일부 제한 아래에서 모바일폰에 BERT 모델을 배포할 때 여전히 도움이 될 수 있습니다.’

연구자들은 BERT 모델이 Honor V30 폰의 CPU 온도를 32초 이내에 80도까지 올리고, 6분 이내에 열 제한을 트리거한다는 것을 발견했습니다. 따라서 연구자들은 반 너비 BERT 모델만 사용했습니다.

이 실험은 Raspberry PI 설정에서 반복되었으며, 이 기술은 열 제한을 트리거하지 않도록 하는 데 효과적이었습니다. 그러나 연구자들은 Raspberry PI가 스마트폰과 같은 극단적인 열 제한을 받지 않는다는 것을 주목했습니다.

 

最初에 2022년 6월 23일에 게시되었습니다.

๊ธฐ๊ณ„ ํ•™์Šต ์ž‘๊ฐ€, ์ธ๊ฐ„ ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€. Metaphysic.ai์˜ ์—ฐ๊ตฌ ์ฝ˜ํ…์ธ  ์ฑ…์ž„์ž ์ถœ์‹ .
๊ฐœ์ธ ์‚ฌ์ดํŠธ: martinanderson.ai
์—ฐ๋ฝ์ฒ˜: [email protected]
ํŠธ์œ„ํ„ฐ: @manders_ai