부본 제너레이티브 AI의 미래는 엣지입니다 - Unite.AI
Rescale 미팅 예약

사상가

생성 AI의 미래는 엣지입니다

mm

게재

 on

ChatGPT의 출현, 그리고 제너레이티브 AI 일반적으로 XNUMX년은 기술 역사의 분수령이 되는 순간으로 인터넷과 스마트폰의 등장에 비유됩니다. 제너레이티브 AI는 지능적인 대화를 진행하고, 시험에 합격하고, 복잡한 프로그램/코드를 생성하고, 눈길을 끄는 이미지와 비디오를 생성하는 능력에서 무한한 잠재력을 보여주었습니다. GPU는 교육 및 추론 모두를 위해 클라우드에서 대부분의 Gen AI 모델을 실행하지만 비용, 전력, 대기 시간, 개인 정보 보호 및 보안을 포함한 요인으로 인해 특히 추론의 경우 장기적으로 확장 가능한 솔루션이 아닙니다. 이 문서에서는 Gen AI 컴퓨팅 워크로드를 엣지로 이동하기 위한 동기 부여 사례와 함께 이러한 각 요소를 다룹니다.

대부분의 애플리케이션은 장치(예: 스마트폰, 데스크톱, 노트북) 또는 데이터 센터의 고성능 프로세서에서 실행됩니다. AI를 활용하는 애플리케이션의 비중이 늘어나면서 CPU만 탑재한 프로세서로는 부족하다. 또한 Generative AI 워크로드의 급속한 확장으로 인해 값비싸고 전력 소모가 많은 GPU를 갖춘 AI 지원 서버에 대한 수요가 기하급수적으로 증가하고 있으며, 이로 인해 인프라 비용이 상승하고 있습니다. 이러한 AI 지원 서버는 일반 서버 가격의 7배 이상 비용이 들 수 있으며 GPU는 이 추가 비용의 80%를 차지합니다.

또한 클라우드 기반 서버는 500W~2000W를 소비하는 반면, AI 지원 서버는 2000W~8000W를 소비합니다. 이는 4배 더 많은 수치입니다! 이러한 서버를 지원하려면 데이터 센터에 추가 냉각 모듈과 인프라 업그레이드가 필요하며 이는 컴퓨팅 투자보다 훨씬 높을 수 있습니다. 데이터 센터는 이미 연간 300TWH를 소비합니다. 전 세계 총 전력 소비량의 거의 1% AI 채택 추세가 계속된다면 5년까지 전 세계 전력의 최대 2030%가 데이터 센터에서 사용될 수 있습니다. 또한 제너레이티브 AI 데이터 센터에 대한 전례 없는 투자가 이루어지고 있습니다. 데이터 센터는 최대 500년까지 자본 지출에 2027천억 달러 투자, 주로 AI 인프라 요구 사항에 의해 촉진됩니다.

이미 300TWH에 달하는 데이터 센터의 전력 소비량은 생성 AI 도입으로 인해 크게 증가할 것입니다.

AI 컴퓨팅 비용과 에너지 소비로 인해 Generative AI의 대량 채택이 방해받을 것입니다. AI 컴퓨팅을 엣지로 이동하고 AI 워크로드에 최적화된 처리 솔루션을 사용하면 확장 문제를 극복할 수 있습니다. 이 접근 방식을 사용하면 대기 시간, 개인 정보 보호, 안정성은 물론 향상된 기능을 비롯한 다른 이점도 고객에게 제공됩니다.

컴퓨팅은 엣지까지 데이터를 따릅니다.

AI가 학계에 등장한 XNUMX년 전부터 AI 모델의 훈련과 추론은 클라우드/데이터센터에서 이뤄졌다. 많은 데이터(특히 비디오)가 엣지에서 생성되고 소비되기 때문에 데이터 추론을 엣지로 이동하여 네트워크 및 컴퓨팅 비용 절감으로 기업의 총 소유 비용(TCO)을 개선하는 것이 합리적이었습니다. 클라우드에서의 AI 추론 비용은 반복되는 반면, 엣지에서의 추론 비용은 일회성 하드웨어 비용입니다. 기본적으로 Edge AI 프로세서로 시스템을 강화하면 전체 운영 비용이 절감됩니다. 기존 AI 워크로드를 엣지(예: 어플라이언스, 장치)로 마이그레이션하는 것처럼 Generative AI 워크로드도 그 뒤를 따를 것입니다. 이를 통해 기업과 소비자는 상당한 비용 절감 효과를 얻을 수 있습니다.

추론 기능을 수행하기 위한 효율적인 AI 가속기와 결합된 엣지로의 전환은 다른 이점도 제공합니다. 그 중 가장 중요한 것은 대기 시간입니다. 예를 들어 게임 애플리케이션에서는 생성 AI를 사용하여 NPC(비플레이어 캐릭터)를 제어하고 강화할 수 있습니다. 게이머는 게임 콘솔이나 PC의 엣지 AI 가속기에서 실행되는 LLM 모델을 사용하여 이러한 캐릭터에게 구체적인 목표를 부여하여 스토리에 의미 있게 참여할 수 있습니다. 로컬 에지 추론을 통한 짧은 대기 시간 덕분에 NPC 음성 및 동작이 플레이어의 명령 및 동작에 실시간으로 응답할 수 있습니다. 이를 통해 비용 효율적이고 전력 효율적인 방식으로 몰입도가 높은 게임 경험을 제공할 수 있습니다.

의료와 같은 애플리케이션에서는 개인 정보 보호 및 신뢰성이 매우 중요합니다(예: 환자 평가, 약물 권장 사항). 환자 데이터(개인 정보 보호)를 보호하려면 데이터 및 관련 Gen AI 모델이 온프레미스에 있어야 하며, 클라우드에서 AI 모델에 대한 액세스를 차단하는 네트워크 중단은 치명적일 수 있습니다. 각 기업 고객(이 경우 의료 서비스 제공자)을 위해 구축된 Gen AI 모델을 실행하는 Edge AI 어플라이언스는 낮은 대기 시간과 비용을 제공하는 동시에 개인 정보 보호 및 안정성 문제를 원활하게 해결할 수 있습니다.

엣지 장치의 생성적 AI는 게임에서 낮은 대기 시간을 보장하고 환자 데이터를 보존하며 의료 신뢰성을 향상시킵니다.

클라우드에서 실행되는 많은 Gen AI 모델은 10조 개의 매개변수에 가까울 수 있습니다. 이러한 모델은 범용 쿼리를 효과적으로 처리할 수 있습니다. 그러나 기업별 애플리케이션에서는 모델이 사용 사례와 관련된 결과를 제공해야 합니다. 패스트푸드 레스토랑에서 주문을 받기 위해 구축된 Gen AI 기반 어시스턴트의 예를 들어보세요. 이 시스템이 원활한 고객 상호 작용을 위해서는 기본 Gen AI 모델이 레스토랑의 메뉴 항목에 대해 훈련되어야 하며 알레르기 유발 물질과 재료도 알아야 합니다. . 모델 크기는 상위 집합 LLM(대형 언어 모델)을 사용하여 상대적으로 작은 30억~XNUMX억 개의 매개변수 LLM을 학습한 다음 고객별 데이터로 추가 미세 조정을 사용하여 최적화할 수 있습니다. 이러한 모델은 향상된 정확성과 기능으로 결과를 제공할 수 있습니다. 그리고 모델의 크기가 작기 때문에 Edge의 AI 가속기에 효과적으로 배포할 수 있습니다.

AI 세대 엣지에서 승리할 것이다

특히 ChatGPT 및 Claude와 같은 범용 애플리케이션의 경우 클라우드에서 실행되는 Gen AI가 항상 필요합니다. 그러나 Adobe Photoshop의 생성 채우기 또는 Github 부파일럿과 같은 기업별 애플리케이션의 경우 Edge의 Generative AI는 미래일 뿐만 아니라 현재이기도 합니다. 이를 가능하게 하는 열쇠는 특별히 제작된 AI 가속기입니다.

실리콘 밸리 베테랑이자 CEO로서 주식회사 키나라, Ravi Annavajjhala는 비즈니스 개발, 마케팅, 엔지니어링, 최첨단 기술 제품 구축 및
시장에 출시합니다. 현재 Deep Vision의 CEO로서 Ravi는 다음과 같은 역할을 수행하고 있습니다.
이사회는 이 회사의 Ara-50 프로세서를 프리실리콘에서 프로세서로 전환하여 1천만 달러를 모금했습니다.
본격적인 생산과 2세대 프로세서인 아라-2(Ara-XNUMX)의 물량 확대를 목표로 하고 있다. 가입하기 전에
Deep Vision, Ravi는 Intel 및 SanDisk에서 임원직을 맡아 핵심 역할을 수행했습니다.
수익 성장을 촉진하고 전략적 파트너십을 발전시키며 제품 로드맵을 개발하는 데 있어
최첨단 기능과 역량으로 업계를 선도했습니다.