์ฌ์ ๋ฆฌ๋
์ ๋๋ ์ดํฐ๋ธ AI์ ๋ฏธ๋๋ ์์ง์ ์๋ค

ChatGPT와 제너레이티브 AI의 등장은 기술의 역사에서 중요한 전환점이며, 인터넷과 스마트폰의 출현과 비교할 수 있다. 제너레이티브 AI는 지능적인 대화를 나누고, 시험을 통과하고, 복잡한 프로그램/코드를 생성하며, 눈길을 끄는 이미지와 비디오를 생성하는 능력에서 무한한 잠재력을 보여주었다. 대부분의 제너레이티브 AI 모델은 클라우드에서 GPU로 실행되며, 훈련과 추론 모두에 사용되지만, 이는 비용, 전력, 지연, 개인 정보 보호, 보안 등 여러 요인으로 인해 장기적으로 확장 가능한 솔루션이 아니다. 이 기사에서는 이러한 요인과 함께 각 예를 мотив화하여 제너레이티브 AI 컴퓨팅 작업을 에지로 이동하는 데 중점을 둔다.
대부분의 애플리케이션은 높은 성능의 프로세서에서 실행되며, 이는 장치(예: 스마트폰, 데스크톱, 랩톱) 또는 데이터 센터에 있을 수 있다. AI를 사용하는 애플리케이션의 비중이 증가함에 따라, CPU만 있는 이러한 프로세서는 불충분하다. 또한, 제너레이티브 AI 작업의 급격한 확장은 비싼 전력 소모형 GPU가 있는 AI용 서버에 대한 수요를指数적으로 증가시키고, 이는 인프라 비용을 증가시키고 있다. 이러한 AI용 서버의 비용은 일반 서버의 7배 이상일 수 있으며, GPU가 추가 비용의 80%를 차지한다.
또한, 클라우드 기반 서버는 500W에서 2000W까지 소모하는 반면, AI용 서버는 2000W에서 8000W까지 소모한다. 이러한 서버를 지원하기 위해 데이터 센터는 추가적인 냉각 모듈과 인프라 업그레이드가 필요하며, 이는 컴퓨팅 투자보다 더 높은 비용일 수 있다. 데이터 센터는 이미 1년마다 300 TWH의 전력을 소모하며, 이는 전 세계 전력 소모의 약 1%에 해당한다. AI의 채택이 계속되면, 데이터 센터는 2030년까지 전 세계 전력 소모의 5%를 차지할 수 있다. 또한, 제너레이티브 AI 데이터 센터에 대한 투자가 급증하고 있다. 데이터 센터의 자본 지출은 2027년까지 5000억 달러에 이를 것으로 추정되며, 이는 주로 AI 인프라 요구에 의해 주도된다.

데이터 센터의 전력 소모는 이미 300 TwH이며, 제너레이티브 AI의 채택으로 더욱 증가할 것이다.
AI 컴퓨팅 비용 및 에너지 소모는 제너레이티브 AI의 대중화에 걸림돌이 될 것이다. 이러한 확장성 문제는 에지로 AI 컴퓨팅을 이동시키고, AI 작업에 최적화된 처리 솔루션을 사용함으로써 극복할 수 있다. 이러한 접근 방식으로, 고객은 지연, 개인 정보 보호, 신뢰성 및 기능 증가와 같은 다른 이점도 얻을 수 있다.
컴퓨팅은 데이터를 따라 에지로 이동한다
10년 전, AI가 학술 세계에서 등장한 이후, AI 모델의 훈련과 추론은 클라우드/데이터 센터에서 수행되었다. 에지에서 생성되고 소모되는 많은 데이터(특히 비디오)를 고려할 때, 데이터의 추론을 에지로 이동하여 기업의 총 소유 비용(TCO)을 줄이는 것이 합리적이었다. 클라우드의 AI 추론 비용은 반복되는 비용인 반면, 에지의 추론 비용은 일회성 하드웨어 비용이다. 본질적으로, 시스템에 에지 AI 프로세서를 추가하면 전체 운영 비용을 낮출 수 있다. 기존 AI 작업을 에지로 이동하는 것과 마찬가지로, 제너레이티브 AI 작업도 같은 방식으로 이동할 것이다. 이는 기업과 소비자에게 상당한 절약을 가져다줄 것이다.
에지로의 이동과 효율적인 AI 가속기를 사용하여 추론 기능을 수행하면 다른 이점도 제공된다. 가장 중요한 것은 지연이다. 예를 들어, 게임 애플리케이션에서, 비플레이어 캐릭터(NPC)는 제너레이티브 AI를 사용하여 제어하고 강화할 수 있다. 게임 콘솔 또는 PC에서 에지 AI 가속기를 사용하여 LLM 모델을 실행하면, 게임은 이러한 캐릭터에게 특정 목표를 주어 이야기에 의미 있게 참여할 수 있다. 에지의 로컬 추론으로 인한 낮은 지연으로 인해 NPC의 말과 동작이 플레이어의 명령과 행동에 실시간으로 반응하여, 비용 효율적이고 전력 효율적인 방식으로高度한 게임 경험을 제공할 수 있다.
건강관리와 같은 애플리케이션에서는 개인 정보 보호와 신뢰성이 매우 중요하다(예: 환자 평가, 약물 추천). 데이터와 관련된 제너레이티브 AI 모델은 개인 정보를 보호하기 위해(개인 정보 보호) 및 클라우드의 AI 모델에 대한 네트워크 중단으로 인한 접근 차단을 방지하기 위해 현지에서 유지되어야 한다. 각 기업 고객(이 경우에는 의료 제공자)을 위한 목적을 가진 에지 AI 어플라이언스는 개인 정보 보호와 신뢰성의 문제를 해결하면서 낮은 지연과 비용을 제공할 수 있다.

에지 디바이스上的 제너레이티브 AI는 게임에서 낮은 지연을 보장하고, 건강관리에서는 환자 데이터를 보호하고 신뢰성을 향상시킨다.
클라우드에서 실행되는 많은 제너레이티브 AI 모델은 거의 1조 개의 매개변수를 가질 수 있으며, 이러한 모델은 일반적인 목적의 쿼리에 효과적으로 대응할 수 있다. 그러나 기업 특정 애플리케이션에서는 모델이 사용 사례에 관련된 결과를 제공해야 한다. 예를 들어, 제너레이티브 AI 기반 어시스턴트가 빠른 음식점에서 주문을 받도록 구축된 경우, 이 시스템은 고객과의 원활한 상호 작용을 위해 음식점의 메뉴 항목, 알레르기 및 성분을 알고 있어야 한다. 모델의 크기는 고객의 데이터로 추가적인 미세 조정을 통해 10~30억 개의 매개변수를 가진 상대적으로 작은 LLM을 사용하여 최적화할 수 있다. 이러한 모델은 정확도와 기능이 증가된 결과를 제공할 수 있으며, 모델의 작은 크기 덕분에 에지의 AI 가속기에서 효과적으로 배포할 수 있다.
제너레이티브 AI는 에지에서 승리한다
클라우드에서 실행되는 제너레이티브 AI는 항상 필요할 것이며, 특히 ChatGPT와 Claude와 같은 일반적인 목적의 애플리케이션에서는 더욱 그렇다. 그러나 기업 특정 애플리케이션의 경우, 에지의 제너레이티브 AI는 미래뿐만 아니라 현재도 중요하다. 목적을 가진 AI 가속기는 이를 가능하게 하는 핵심이다.












