Interviews
Avi Baum, CTO chez Hailo – Série d’entretiens

Avi Baum, CTO chez Hailo, dirige la vision technologique de l’entreprise et l’innovation de ses produits. Il a précédemment occupé le poste de CTO pour la connectivité sans fil chez Texas Instruments, en pilotant les stratégies pour les MCUs connectés sur les marchés de l’IoT et de l’IIoT, et a occupé des postes d’architecture et de direction chez les forces de défense israéliennes.
Hailo est une entreprise israélienne d’IA spécialisée dans les processeurs d’IA de pointe à haute performance et à faible consommation pour des applications telles que les véhicules autonomes, les caméras intelligentes et la robotique, appuyée par une suite logicielle complète et un écosystème de partenaires mondiaux.
Pouvez-vous partager ce qui vous a initialement attiré dans le domaine de l’IA de pointe et comment vos premières expériences d’ingénierie ont façonné votre réflexion sur la conception de processeurs ?
Mon parcours professionnel m’a mené à des domaines de marchés émergents. Pendant mon séjour chez TI (Texas Instruments), un leader du secteur des semiconducteurs avec un héritage de longue date, j’ai eu l’occasion de diriger la conception et l’architecture au niveau du système, en dirigeant le département de définition de produits et en servant ensuite en tant que CTO de ce département. Cela m’a conduit à explorer en permanence les technologies émergentes susceptibles de façonner l’avenir « pas si lointain ».
Lorsque nous avons fondé Hailo en 2017, il était clair que l’IA, qui avait commencé à prospérer dans le cloud, avait également le potentiel de devenir une technologie d’activation pour les appareils de pointe. Nous avons donc pris ce cap et entamé ce voyage.
À mesure que l’IA générative se déploie à la pointe, pourquoi les TOPS (téraopérations par seconde) ne sont-ils plus un référentiel suffisant pour évaluer les performances des processeurs ?
Les TOPS ont longtemps été la référence pour évaluer les matériels d’IA, mais à l’ère de l’IA générative à la pointe, ils ne sont plus suffisants. La nature des modèles classiques est de traduire de grandes quantités de données en informations significatives, donc la quantité de calcul nécessaire pour traiter les données entrantes augmente avec la quantité de données à traiter. Les modèles pour ces tâches sont généralement plus petits que la quantité de données qu’ils traitent, ce qui rend la bande passante de surcharge attribuée à l’accès aux paramètres du modèle relativement négligeable.
Les modèles génératifs, cependant, sont nettement plus grands – dans le domaine des milliards de paramètres, et dans ces cas, la bande passante mémoire devient un facteur non négligeable.
Plutôt que de se concentrer uniquement sur les TOPS, il est essentiel d’évaluer comment un processeur équilibre le calcul et la mémoire dans des conditions réelles. Il ne s’agit pas de poursuivre le plus grand nombre ; c’est de régler l’architecture sur les charges de travail qu’il doit gérer.
Pourquoi la bande passante mémoire devient-elle désormais un goulet d’étranglement plus critique que le calcul dans les charges de travail d’IA de pointe, en particulier pour les LLM et les VLM ?
Pour les charges de travail d’IA de pointe, en particulier celles impliquant les LLM ou les VLM, la bande passante mémoire devient rapidement le goulet d’étranglement principal. Ces modèles vont généralement de 0,5 à 8 milliards de paramètres, dépassant la capacité de la mémoire sur puce et nécessitant l’accès à la mémoire hors puce comme la DRAM. Cela augmente considérablement la demande de bande passante mémoire. Par exemple, un modèle à 1 milliard de paramètres peut fournir jusqu’à environ 40 jetons par seconde dans des conditions optimales avec une interface LPDDR4X standard, mais maintenir ce taux avec un modèle à 4 milliards de paramètres nécessite plus de quatre fois cette bande passante. Sans cela, les performances souffrent, non pas en raison d’un calcul limité, mais parce que le processeur ne peut pas alimenter les données suffisamment rapidement. Ce déséquilibre entre le calcul et la mémoire constitue l’un des défis les plus pressants dans le déploiement de l’IA générative à la pointe. Cela est encore amplifié dans les architectures qui calculent couche par couche, où les résultats intermédiaires augmentent également le trafic mémoire et sollicitent davantage la bande passante.
Comment les équipes de produits devraient-elles repenser leur stratégie de benchmarking lors de la conception pour des applications de pointe réelles ?
Les équipes de produits devraient s’éloigner de la dépendance à une seule métrique de performance comme les TOPS et adopter plutôt une stratégie de benchmarking qui reflète les réalités du déploiement de pointe. Cela commence par comprendre le cas d’utilisation spécifique, la charge de travail réelle que le processeur doit gérer, et identifier le « point de travail » : l’intersection des contraintes de puissance, de coût et de latence. À partir de là, il s’agit d’évaluer comment le calcul et la mémoire interagissent dans ces conditions. Un processeur avec des TOPS élevés ne livrera pas s’il la bande passante mémoire est limitée, et plus de mémoire ne aidera pas si la capacité de calcul est insuffisante.
Les équipes devraient évaluer si le processeur peut maintenir les performances sur des tâches comme la perception, l’amélioration et les charges de travail génératives, chacune avec des exigences très différentes. L’objectif n’est pas d’optimiser les spécifications de pointe, mais de garantir des performances équilibrées sur toute la gamme des cas d’utilisation attendus dans des environnements réels.
Ceci est un changement naturel des mesures « stériles » vers des approches plus complexes qui reflètent la façon dont les plateformes sont utilisées et évaluées – similaire à ce qui s’est passé avec d’autres architectures qui sont devenues mainstream (par exemple, SPEC, Coremark, 3DMark, etc.).
Comment les contraintes de puissance et de coût influencent-elles les décisions d’architecture derrière les processeurs Hailo, en particulier pour les appareils de pointe à destination des consommateurs ?
La puissance et le coût sont deux des contraintes les plus déterminantes lors de la conception de processeurs d’IA pour les appareils de pointe, en particulier dans les produits à destination des consommateurs. Dans les appareils compacts comme les capteurs IoT ou les assistants intelligents pour la maison, les budgets de puissance sont serrés, et il n’y a souvent pas de refroidissement actif, donc l’efficacité énergétique devient critique. Chaque ressource de calcul ou de mémoire supplémentaire ajoute une consommation d’énergie et de la chaleur, ce qui affecte directement l’utilisabilité et la durée de vie de la batterie.
Le coût est également très influent. Les appareils pour les consommateurs doivent rester dans des fourchettes de prix compétitives, ce qui signifie que le processeur ne peut inclure qu’une certaine quantité de TOPS et de mémoire avant de devenir économiquement inviable. Ces contraintes obligent à des compromis architecturaux difficiles. Chez Hailo, nous privilégions les conceptions qui offrent l’équilibre approprié entre le calcul et la mémoire pour répondre aux besoins d’applications réelles dans une enveloppe serrée de puissance et de coût, garantissant que l’IA de pointe devient viable, efficace et évolutivaire sur une large gamme de produits à destination des consommateurs.
Pouvez-vous nous expliquer comment vous définissez un « point de travail » pour une application et pourquoi cela compte tellement dans le déploiement de l’IA de pointe ?
Définir le « point de travail » est l’une des étapes les plus importantes lors de la conception d’un système. Il s’agit de l’intersection des contraintes de puissance, de coût et de latence qui façonnent ce qui est réalisable dans un déploiement spécifique. Contrairement au cloud, où vous pouvez jeter plus de calcul ou de mémoire sur un problème, les appareils de pointe opèrent dans une enveloppe fixe. Cela signifie que vous devez faire des compromis délibérés basés sur les exigences réelles de l’application. Par exemple, un capteur IoT pourrait privilégier l’efficacité énergétique par rapport aux performances brutes, tandis qu’un système autonome pourrait exiger une latence ultra-basse indépendamment de la consommation d’énergie. Une fois le point de travail établi, vous pouvez évaluer si le processeur a l’équilibre approprié de calcul et de mémoire pour répondre à ce besoin. Il ne s’agit pas de maximiser les spécifications dans toutes les directions ; il s’agit de garantir des performances soutenues et fiables dans les conditions réelles que l’application rencontrera.
En général, le point de travail est où vous souhaitez que les indicateurs de performance clés soient à leur optimum. Ne pas le faire pourrait entraîner un fonctionnement sous-optimal dans les scénarios d’utilisation les plus typiques de la plateforme.
Comme exemple simple, on pourrait rendre un système d’analyse d’IA extrêmement efficace lorsque l’entrée est à une résolution très élevée, mais si cela est déployé dans des systèmes qui n’atteignent jamais cette résolution, cette optimisation est sans signification.
Comment abordez-vous l’optimisation sur des modèles multimodaux, où le vidéo, l’audio et le langage sont souvent mélangés dans les appareils modernes ?
Les modèles multimodaux nécessitent un équilibre réfléchi de ressources de calcul et de mémoire. Chaque modalité sollicite le système différemment : la vidéo est intensive en calcul en raison de la haute résolution et des taux d’images, tandis que le langage et l’audio sont plus compacts mais imposent des exigences plus lourdes en termes de bande passante mémoire. Dans les applications comme le traitement de la vision et du langage, cette division devient claire (même si cela n’est pas une garantie mais un scénario typique) : le traitement de la vidéo pousse le calcul, tandis que le modèle de langage peut rapidement atteindre des goulets d’étranglement de mémoire.
Nous abordons l’optimisation en regardant comment ces charges de travail interagissent le long de la chaîne et en nous assurant que le processeur est conçu pour les supporter simultanément, sans laisser une modalité compromettre les performances d’une autre.
Comment l’augmentation de la taille du modèle à la pointe complique-t-elle la latence et la consommation d’énergie, et quel rôle joue l’architecture au niveau du système dans la résolution de ce problème ?
À mesure que la taille du modèle augmente à la pointe, la latence et la consommation d’énergie deviennent plus difficiles à gérer. Les modèles plus grands s’appuient davantage sur la mémoire hors puce, ce qui augmente à la fois la consommation d’énergie et le retard, en particulier lorsque la bande passante mémoire devient un goulet d’étranglement. Par exemple, passer d’un modèle à 1 milliard de paramètres à un modèle à 4 milliards de paramètres nécessiterait plus de quatre fois la bande passante pour maintenir les mêmes performances – mais dans la pratique, les performances ne suivent pas une évolution linéaire en raison des contraintes de bande passante et d’architecture au niveau du système.
Il ne s’agit pas seulement d’avoir des TOPS élevés ou une grande mémoire ; il s’agit de la façon dont ces composants interagissent. Une conception équilibrée garantit que le calcul, la mémoire et la bande passante travaillent ensemble de manière efficace, empêchant une ressource de limiter l’ensemble du système.
Comment Hailo conçoit-il pour une future preuve, étant donné la rapidité avec laquelle les modèles d’IA, les charges de travail et les exigences de déploiement évoluent ?
La future preuve dans l’IA de pointe signifie concevoir des processeurs capables de gérer une large gamme de charges de travail en évolution. Chez Hailo, nous nous concentrons sur des architectures équilibrées qui ne sont pas adaptées à une seule tâche mais peuvent supporter tout, des fonctions perceptives comme la détection d’objets aux modèles génératifs comme les VLM. Chaque type de charge de travail sollicite le calcul et la mémoire différemment, nous concevons donc pour la flexibilité, en évitant les goulets d’étranglement lors du passage entre eux. Nous prenons également en compte les limites réelles de la puissance, du coût et de la latence sur les applications. En privilégiant la diversité des charges de travail et l’équilibre des ressources, nous visons à supporter la prochaine génération de déploiements d’IA de pointe à la fois dans les cas d’utilisation des consommateurs et industriels.
Cependant, une taille ne peut pas convenir à tous, et notre portefeuille cible des applications spécifiques et tente de s’insérer dans le budget disponible, par exemple, de la puissance, de la forme et cela définit un « point de travail ».
Quel rôle joue l’écosystème des développeurs dans la maximisation de la valeur d’un processeur, et comment vous assurez que les équipes peuvent tirer pleinement parti des capacités de Hailo ?
En tant que périphérique programmable, il est essentiel d’avoir des outils faciles pour les développeurs pour exploiter le potentiel du processeur, raccourcir le chemin vers le déploiement et permettre de nouveaux cas d’utilisation. En fournissant un environnement bien pris en charge autour de nos processeurs, nous aidons les équipes à donner vie à des applications d’IA à travers une gamme d’utilisation.
Quels conseils donneriez-vous aux ingénieurs ou aux CTO qui choisissent leur premier accélérateur d’IA pour un produit de nouvelle génération en construction aujourd’hui ?
Avec les conditions favorables, je crois qu’il y a un grand potentiel d’innovation, permettant de traduire l’imagination en produits réels. Dans un environnement en évolution rapide, choisir un accélérateur qui permet un cycle de conception à déploiement rapide est critique.
Je vous remercie pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Hailo.












