访谈
海洛公司CTO阿维·鲍姆 – 采访系列

阿维·鲍姆,海洛公司的CTO,领导公司的技术愿景和产品创新。他之前曾担任德州仪器公司的无线连接CTO,负责IoT和IIoT市场中连接MCU的战略,并在以色列国防军中担任过高级架构和领导职务。
海洛是一家以色列的AI芯片公司,专门从事高性能、低功耗边缘AI处理器的开发,应用领域包括自动驾驶汽车、智能摄像头和机器人,并提供全面的软件套件和全球合作伙伴生态系统。
您能否分享一下是什么最初吸引您进入边缘AI领域,以及您早期的工程经验如何影响您的处理器设计思维?
我的职业生涯让我进入了新兴市场。在德州仪器公司(TI)期间,我有机会领导系统级设计和架构,负责产品定义部门,并后来担任该部门的CTO。这让我不断探索即将塑造不太遥远的未来的新兴技术。
当我们在2017年创立海洛公司时,很明显AI技术已经开始在云端蓬勃发展,并且也具有成为边缘设备的赋能技术的潜力。因此,我们开始了这段旅程。
随着边缘AI的发展,为什么TOPS(每秒百万运算)不再是评估处理器性能的充分标准?
TOPS长期以来一直是评估AI硬件的常用指标,但在边缘AI时代,它不再足够。经典模型的性质是将大量数据转化为有意义的见解,因此处理这些数据所需的计算量会随着数据量的增加而增长。这些任务的模型通常比它们处理的数据量小得多,因此访问模型参数的带宽开销相对较小。
然而,生成式模型则明显更大——参数数量达到数十亿,因此内存带宽成为一个不可忽略的因素。
与其仅仅关注TOPS,不如评估处理器在实际条件下如何平衡计算和内存。关键不在于追求最高的数字,而在于调整架构以适应它需要处理的工作负载。
为什么内存带宽现在成为边缘AI工作负载中的一个更关键的瓶颈,而不是计算,特别是对于LLM和VLM?
对于边缘AI工作负载,特别是那些涉及LLM或VLM的工作负载,内存带宽正迅速成为主要瓶颈。这些模型通常具有0.5亿到8亿个参数,超过了片上内存的容量,并需要访问片外内存,如DRAM。这大大增加了对内存带宽的需求。例如,一个1亿参数的模型可以在最佳条件下通过标准LPDDR4X接口每秒产生约40个令牌,但维持这种速度对于4亿参数的模型需要超过四倍的带宽。没有足够的带宽,性能就会受损,不是因为计算能力有限,而是因为处理器无法快速 enough 地提供数据。这一计算和内存之间的不平衡是部署边缘AI的最紧迫挑战之一。在计算层次的架构中,这个问题更加明显,因为中间结果也会增加内存流量并进一步紧张带宽。
产品团队在为实际边缘应用设计时应该如何重新思考他们的基准测试策略?
产品团队应该放弃仅仅依赖单一性能指标,如TOPS,而是采用反映边缘部署现实的基准测试策略。这从了解特定用例、处理器需要处理的实际工作负载以及确定“工作点”开始:权力、成本和延迟约束的交集。然后,评估处理器在这些条件下如何平衡计算和内存。具有高TOPS的处理器如果内存带宽有限则无法发挥作用,更多的内存也无法弥补计算能力的不足。
团队应该评估处理器是否能够在诸如感知、增强和生成工作负载等任务中持续保持性能,每个任务都有不同的需求。目标不是优化峰值规格,而是确保在实际环境中预期的所有用例中实现平衡的性能。
这是从“无菌”测量到更复杂的方法的自然转变,这些方法反映了平台的使用方式和评级方式——类似于其他成为主流的架构发生的情况(例如SPEC、Coremark、3DMark等)。
功耗和成本约束如何影响海洛处理器的架构决策,特别是对于面向消费者的边缘设备?
功耗和成本是设计AI处理器用于边缘设备时的两个最重要的约束,特别是在面向消费者的产品中。在像IoT传感器或智能家居助手这样的紧凑设备中,功耗预算非常紧张,通常没有主动冷却,因此能效至关重要。每增加一个计算或内存资源都会增加功耗和热量,这直接影响可用性和电池寿命。
成本同样具有影响力。消费设备必须保持在具有竞争力的价格点内,这意味着处理器只能包含一定数量的TOPS和内存,然后才变得经济上不可行。这些约束迫使我们做出艰难的架构权衡。海洛公司优先考虑能够在实际应用需求内实现计算和内存平衡的设计,确保边缘AI在广泛的消费产品中变得可行、高效和可扩展。
您能否详细解释如何为应用程序定义“工作点”,以及为什么它在边缘AI部署中如此重要?
定义“工作点”是设计系统时最重要的步骤之一。它指的是权力、成本和延迟约束的交集,这些约束决定了在特定部署中可以实现什么。与云不同,云可以通过增加计算或内存来解决问题,边缘设备在固定范围内运行。这意味着必须根据应用程序的实际需求做出有意的权衡。例如,IoT传感器可能优先考虑能效而不是原始性能,而自治系统可能需要超低延迟,无论功耗如何。一旦确定了工作点,就可以评估处理器是否具有平衡的计算和内存来满足该需求。这不仅仅是最大化规格;而是确保在应用程序将面临的实际条件下实现持续的可靠性能。
一般来说,工作点是关键性能指标达到最佳状态的地方。未能做到这一点可能会导致在平台最典型的使用场景中出现次优操作。
例如,一个人可以使AI分析系统在输入非常高分辨率时非常高效,但如果系统从不达到这种分辨率,则这种优化是无意义的。
由于视频、音频和语言在现代设备中经常混合,您如何在多模态模型中优化?
多模态模型需要计算和内存资源之间的平衡。每种模态都以不同的方式给系统带来压力:视频处理由于高分辨率和帧率而计算密集,而语言和音频则更紧凑,但对内存带宽的要求更高。在诸如视觉语言处理等应用中,这种分裂变得明显(尽管这不是一个保证,而是一个典型场景):视频处理推动计算,而语言模型可能很快就会遇到内存瓶颈。
我们通过查看这些工作负载如何在整个管道中相互作用来优化它们,确保处理器的架构支持它们同时运行,而不会让一种模态损害另一种模态的性能。
边缘模型的大小增加如何使延迟和功耗变得更加难以管理,系统级架构在解决这个问题中扮演什么角色?
随着边缘模型的大小增加,延迟和功耗变得更加难以管理。较大的模型更依赖于片外内存,这增加了能量消耗和延迟,特别是当内存带宽成为瓶颈时。例如,从1亿参数模型扩展到4亿参数模型需要超过四倍的带宽才能维持相同的性能——但实际上,由于带宽和系统级约束,性能不会线性扩展。
这不仅仅是拥有高TOPS或大量内存的问题;而是这些组件如何相互作用。平衡的设计确保计算、内存和带宽高效地协同工作,防止任何一个资源限制整个系统。
海洛如何设计以实现未来兼容性,考虑到AI模型、工作负载和部署要求的快速演变?
在边缘AI中实现未来兼容性意味着设计能够处理广泛的演变工作负载的处理器。在海洛,我们专注于平衡的架构,这些架构不仅仅针对单一任务,而是可以支持从感知功能(如物体检测)到生成模型(如VLM)等一切。每种工作负载都以不同的方式给计算和内存带来压力,因此我们设计以灵活性为目标,避免在切换工作负载时出现瓶颈。我们还考虑到应用中的实际权力、成本和延迟限制。通过优先考虑工作负载多样性和资源平衡,我们旨在支持下一代边缘AI部署,涵盖消费和工业用例。
然而,一个尺寸无法适应所有情况,产品组合针对特定的可寻址应用,并尝试适应可用的权力、形状因素和预算,例如,这定义了一个“工作点”。
开发者生态系统在最大化处理器的价值方面扮演什么角色,您如何确保团队能够充分利用海洛的功能?
作为可编程设备,拥有易于使用的工具以发挥处理器的潜力、缩短部署路径和实现新用例至关重要。通过为我们的处理器提供良好的支持环境,我们帮助团队在广泛的用例中将AI应用程序变为现实。
您会给正在为今天正在开发的下一代产品选择其首个AI加速器的工程师或CTO什么建议?
在成熟的条件下,我相信有很多创新潜力,允许我们将想象力转化为真正的产品。在快速变化的环境中,选择能够实现快速概念到部署周期的加速器至关重要。
感谢这次精彩的采访,希望了解更多的读者可以访问海洛。












