Connect with us

인터뷰

아비 바움, Hailo의 CTO – 인터뷰 시리즈

mm

아비 바움, Hailo의 CTO는 회사의 기술 비전과 제품 혁신을 이끌고 있습니다. 그는 이전에 Texas Instruments의 무선 연결 부문의 CTO로 일하며 IoT와 IIoT 시장의 연결된 MCUs를 위한 전략을 주도했으며, 이스라엘 국방군에서 선임 아키텍처 및 리더십 역할을 수행했습니다.

Hailo는 자율 주행 차량, 스마트 카메라, 로봇공학 등의 응용 분야를 위한 고성능, 저전력 에지 AI 프로세서를 전문으로 하는 이스라엘의 AI 칩 회사입니다. 또한, 포괄적인 소프트웨어 스위트와 글로벌 파트너 생태계를 지원합니다.

에지 AI 분야에 처음으로 관심을 갖게 된 계기가 무엇이며, 초기 엔지니어링 경험은 프로세서 설계에 대한您的 생각을 어떻게 형성했나요?

제 경력은 새로운 시장 영역으로 이끌었습니다. TI(Texas Instruments)에서 근무하는 동안, 반도체 분야의 선도적인 회사에서 시스템 수준의 설계와 아키텍처를领导했으며, 제품 정의 부문의 책임자로 일했습니다. 이후 해당 부문의 CTO로 일했습니다. 이러한 경험이 저에게 미래를 형성할 새로운 기술을不断적으로 탐색하도록 했습니다.

Hailo를 2017년에 설립했을 때, 클라우드에서 시작된 AI가 에지 디바이스에서도 활성화될 수 있는 기술이 될 것이라는 것을 알았습니다. 그래서 이 여정을 시작했습니다.

에지에서 생성적 AI가 확장됨에 따라,为什么 TOPS(tera operations per second)는 더 이상 프로세서 성능을 평가하는 충분한 벤치마크가 아닐까요?

TOPS는 오랫동안 AI 하드웨어를 평가하는 주요 지표였습니다. 그러나 에지에서 생성적 AI 시대에 들어서면서, 더 이상 충분한 지표가 아닙니다. 클래식 모델은 많은 데이터를 의미 있는 통찰력으로 변환하는 것이 목적이므로, 처리해야 하는 데이터의 양이 증가함에 따라 필요한 컴퓨팅 리소스도 증가합니다. 이러한 작업을 위한 모델은 일반적으로 처리하는 데이터의 양보다 작기 때문에, 모델 매개변수에 접근하는 데 필요한 대역폭 오버헤드는 상대적으로 무시할 수 있습니다.

그러나 생성적 모델은 명확히 더 크며, 10억 개의 매개변수 영역입니다. 이러한 경우, 메모리 대역폭이 중요해집니다.

단순히 TOPS에만 집중하는 것이 아니라, 프로세스가 실제 환경에서 컴퓨팅과 메모리를 얼마나 잘 균형을 유지하는지 평가하는 것이 중요합니다. 가장 높은 숫자를 추구하는 것이 아니라, 프로세서 아키텍처를 처리해야 하는 작업에 맞추는 것이 중요합니다.

에지 AI 작업에서, 특히 LLM과 VLM의 경우, 메모리 대역폭이 왜 컴퓨팅보다 더 중요한 병목 현상이 되는가?

에지 AI 작업에서, 특히 LLM이나 VLM을 사용하는 경우, 메모리 대역폭이 주요 병목 현상이 됩니다. 이러한 모델은 일반적으로 0.5억에서 8억 개의 매개변수를 가지며, 온칩 메모리의 용량을 초과하여 오프칩 메모리인 DRAM에 접근해야 합니다. 이는 메모리 대역폭에 대한 요구를 크게 증가시킵니다. 예를 들어, 10억 개의 매개변수를 가진 모델은 표준 LPDDR4X 인터페이스를 사용하여 최적의 조건에서 약 40개의 토큰을 1초당 처리할 수 있지만, 40억 개의 모델에서는 이 대역폭의 4배 이상이 필요합니다. 그렇지 않으면 성능이 저하됩니다. 컴퓨팅 리소스가 제한적이지 않지만, 프로세서가 데이터를 충분히 빠르게 입력할 수 없기 때문입니다. 컴퓨팅과 메모리 사이의 불균형은 에지에서 생성적 AI를 배포하는 가장 큰 도전 중 하나입니다. 계층별로 계산하는 아키텍처에서는 중간 결과가 메모리 트래픽을 증가시키고 대역폭을 더욱 과부화시킵니다.

실제 에지 응용 프로그램을 설계할 때 벤치마크 전략을 어떻게 재고해야 합니까?

제품 팀은 단일 성능 지표인 TOPS에만 의존하는 것을 중단하고, 에지 배포의 현실을 반영하는 벤치마크 전략을 채택해야 합니다. 이는 특정 사용 사례, 프로세서가 처리해야 하는 실제 작업, 및 전력, 비용, 지연 제약 조건의 교차점인 “작업 지점”을 이해하는 것에서 시작합니다. 그 다음에는 이러한 조건에서 컴퓨팅과 메모리가 어떻게 상호 작용하는지 평가하는 것입니다. 높은 TOPS를 가진 프로세서는 메모리 대역폭이 제한적이면 성능을 발휘하지 못하며, 더 많은 메모리는 컴퓨팅 용량이 불충분하면 도움이 되지 않습니다.

팀은 프로세서가 인식, 강화, 생성 작업과 같은 다양한 작업에서 지속적인 성능을 발휘할 수 있는지 평가해야 합니다. 각 작업에는 서로 다른 요구 사항이 있습니다. 목표는 피크 사양을 최적화하는 것이 아니라, 실제 환경에서 예상되는 사용 사례 전체에 걸쳐 균형 있는 성능을 보장하는 것입니다.

이것은 ‘sterile’한 측정에서 더 복잡한 접근 방식으로의 자연스러운 전환입니다. 이는 다른 아키텍처가 주류가 된 것과 유사합니다(예: SPEC, Coremark, 3DMark 등).

에지 디바이스에서 전력과 비용 제약이 Hailo 프로세서의 아키텍처 결정에 어떻게 영향을 미칩니까?

전력과 비용은 에지 디바이스, 특히 소비자용 에지 디바이스를 위한 AI 프로세서를 설계할 때 가장 결정적인 제약입니다. IoT 센서 또는 스마트 홈 어시스턴트와 같은 컴팩트한 디바이스에서는 전력 예산이 엄격하며, 일반적으로 능동적인 냉각이 없으므로 에너지 효율성이 임팩트를 미칩니다. 추가적인 컴퓨팅 또는 메모리 리소스는 전력 소모와 열을 증가시킵니다. 이는 직접적으로 사용성과 배터리 수명에 영향을 미칩니다.

비용은同樣히 영향력이 있습니다. 소비자 디바이스는 경쟁력 있는 가격대를 유지해야 하므로, 프로세서에는 TOPS와 메모리만큼 포함할 수 있습니다. 이러한 제약은 어려운 아키텍처적 절충을 강요합니다. Hailo에서는 실제 응용 프로그램 요구 사항을满足하는 컴퓨팅과 메모리의 균형을 제공하는 설계를 우선시합니다. 이를 통해 에지 AI가 다양한 소비자 제품에서 가용性, 효율성, 확장성이 가능하도록 합니다.

어떻게 “작업 지점”을 정의하며, 에지 AI 배포에서 왜 이것이 इतन 중요합니까?

“작업 지점”을 정의하는 것은 시스템을 설계할 때 가장 중요한 단계 중 하나입니다. 이는 전력, 비용, 지연 제약 조건의 교차점을 의미하며, 특정 배포에서 실제로 달성할 수 있는 것을 결정합니다. 클라우드와 달리, 에지 디바이스에서는 문제를 해결하기 위해 더 많은 컴퓨팅 또는 메모리를 사용할 수 없습니다. 따라서 응용 프로그램의 실제 요구 사항에 따라 의도적인 절충을 해야 합니다. 예를 들어, IoT 센서는 원활한 성능보다 에너지 효율성을 우선시할 수 있으며, 자율 시스템은 전력 소모와 관계없이 초저지연을 요구할 수 있습니다. 일旦 “작업 지점”이 설정되면, 프로세서가 이를滿足하는 컴퓨팅과 메모리의 균형을 갖추고 있는지 평가할 수 있습니다. 모든 방향으로 사양을 최대화하는 것이 아니라, 실제 환경에서 지속적이고 안정적인 성능을 보장하는 것이 중요합니다.

일반적으로, “작업 지점”은 주요 성과 지표가 최적화된 곳입니다. 이를 하지 못하면, 플랫폼의 가장 일반적인 사용 사례에서 하위 최적의 작동이 발생할 수 있습니다.

예를 들어,有人이 매우 높은 해상도에서 효율적인 AI 분석 시스템을 만들 수 있지만, 이 시스템이 높은 해상도에 도달하지 않는 시스템에서 배포된다면, 이러한 최적화는 무의미합니다.

비디오, 오디오, 언어가 현대 디바이스에서 종종 혼합되는 경우, 어떻게 멀티모달 모델을 최적화합니까?

멀티모달 모델은 컴퓨팅과 메모리 리소스의 균형을 필요로 합니다. 각 모달리티는 시스템에 다른 스트레스를 가합니다. 비디오는 높은 해상도와 프레임 속도 때문에 컴퓨팅 집중적이며, 언어와 오디오는 더緊凑하지만 메모리 대역폭에 더 많은 부담을 가합니다. 비전-언어 처리와 같은 응용 프로그램에서는 이러한 분할이 명확해집니다(비록 이것이 보장되는 것은 아니지만, 일반적인 시나리오입니다): 비디오 처리는 컴퓨팅을 강조하며, 언어 모델은 메모리 병목 현상을 빠르게遭遇할 수 있습니다.

우리는 이러한 작업이 파이프라인 전체에서 어떻게 상호 작용하는지 살펴보고, 프로세서가 이러한 작업을 동시에 지원하도록 설계하여, 한 모달리티의 성능이 다른 모달리티의 성능을 손상시키지 않도록 최적화를 진행합니다.

에지에서 모델 크기가 증가함에 따라, 지연 시간과 전력 소모가 어떻게 복잡해지며, 시스템 수준 아키텍처는 이를 어떻게 해결합니까?

에지에서 모델 크기가 증가함에 따라, 지연 시간과 전력 소모를 관리하기가 더 어려워집니다. 더 큰 모델은 오프칩 메모리에 더 많이 의존하여 에너지 사용과 지연을 증가시킵니다. 예를 들어, 10억 개의 매개변수에서 40억 개의 매개변수로 확장하면, 동일한 성능을 유지하기 위해 4배 이상의 대역폭이 필요합니다. 그러나 실제 성능은 대역폭과 시스템 수준 제약으로 인해 선형적으로 증가하지 않습니다.

컴퓨팅이나 메모리가 충분한 것만으로는 부족합니다. 컴퓨팅, 메모리, 대역폭이 효율적으로 상호 작용하는지 확인하는 것이 중요합니다. 균형 잡힌 설계는 컴퓨팅, 메모리, 대역폭이 효율적으로 협력하여, 하나의 리소스가 전체 시스템을 제한하지 않도록 합니다.

Hailo는 어떻게 미래를 대비하여 설계합니까? AI 모델, 작업량, 배포 요구 사항이 어떻게 빠르게 진화하고 있는지 고려할 때?

에지 AI에서 미래를 대비하는 것은 다양한 진화하는 작업을 처리할 수 있는 프로세서를 설계하는 것을 의미합니다. Hailo에서는 균형 잡힌 아키텍처를 설계하여, 단일 작업에만 최적화되지 않고, 인식 기능부터 생성적 모델까지 모든 것을 지원할 수 있도록 합니다. 각 유형의 작업은 컴퓨팅과 메모리에 다른 스트레스를 가하므로, 우리는 작업량의 다양성과 리소스 균형을 우선시하여, 소비자 및 산업용 사례에서 에지 AI 배포의 다음 세대를 지원하도록 합니다.

그러나 하나의 크기가 모든 것을 담을 수는 없습니다. 포트폴리오에서는 특정 주소 가능한 응용 프로그램을 대상으로 하며, 이는 사용 가능한 전력, 폼 팩터 등 예산 내에서 맞춤형 설계를 의미합니다. 이것이 “작업 지점”을 정의하는 것입니다.

개발자 생태계는 프로세서의 가치를 최대화하는 데 어떤 역할을 합니까? Hailo의 기능을 완전히 활용할 수 있도록 팀을 어떻게 지원합니까?

프로그래머블 디바이스로, 개발자가 프로세서의 잠재력을 쉽게 발휘할 수 있도록 도구를 제공하는 것이 중요합니다. 이를 통해 개발자들이 에지 AI 응용 프로그램을 다양한 사용 사례에서 신속하게 배포하고, 새로운 사용 사례를 가능하게 할 수 있습니다. Hailo의 프로세서 주변에서 잘 지원되는 환경을 제공함으로써, 우리는 팀이 에지 AI 응용 프로그램을 다양한 사용 사례에서 구현할 수 있도록 지원합니다.

첫 번째 AI 가속기를 다음 세대의 제품을 위해 선택하는 엔지니어 또는 CTO에게 어떤 조언을 드리겠습니까?

성숙한 환경에서, 많은 혁신의 잠재력이 있으며, 상상력을 실제 제품으로 번역할 수 있습니다. 빠르게 변화하는 환경에서, 신속한 개념-배포 주기를 ermög하는 가속기를 선택하는 것이 중요합니다.

멋진 인터뷰 감사합니다. 더 많은 정보를 배우고 싶은 독자는 Hailo를 방문할 수 있습니다.

앙투안은 Unite.AI의 비전있는 리더이자 공동 창립자로서, AI와 로봇공학의 미래를 형성하고 촉진하는 데 대한 불변의 열정에 의해 추동됩니다. 연쇄적인 기업가로서, 그는 AI가 사회에 대한 전기와 같은 파괴력을 가질 것이라고 믿으며, 종종 파괴적인 기술과 AGI의 잠재력에 대해 열광합니다.

作为 futurist, 그는 이러한 혁신이 우리의 세계를 어떻게 형성할지 탐구하는 데 전념하고 있습니다. 또한, 그는 Securities.io의 창립자로서, 미래를 재정의하고 전체 부문을 재형성하는 최첨단 기술에 투자하는 플랫폼입니다.