Entretiens
Jay Dawani est co-fondateur et PDG de Lemurian Labs – Série d’entretiens

Jay Dawani est co-fondateur et PDG de Lemurian Labs. Lemurian Labs est sur une mission pour livrer des ordinateurs d’intelligence artificielle abordables, accessibles et efficaces, animés par la conviction que l’IA ne devrait pas être un luxe, mais un outil accessible à tous. L’équipe fondatrice de Lemurian Labs combine des expertises en IA, compilateurs, algorithmes numériques et architecture informatique, unies par un objectif unique : réimaginer l’informatique accélérée.
Pouvez-vous nous raconter votre parcours et ce qui vous a amené à l’IA dès le départ ?
Absolument. J’ai commencé à programmer à l’âge de 12 ans et à créer mes propres jeux, mais je me suis vraiment intéressé à l’IA à 15 ans grâce à un ami de mon père qui s’intéressait aux ordinateurs. Il a alimenté ma curiosité et m’a donné des livres à lire, tels que « L’ordinateur et le cerveau » de Von Neumann, « Perceptrons » de Minsky, et « AI : une approche moderne » de Russel et Norvig. Ces livres ont beaucoup influencé ma pensée et il m’a semblé évident que l’IA allait être transformative et que je devais en faire partie.
Lorsque j’ai décidé d’aller à l’université, je voulais vraiment étudier l’IA, mais je n’ai pas trouvé d’universités qui offraient cela, donc j’ai décidé de m’inscrire en mathématiques appliquées. Un peu plus tard, j’ai appris les résultats d’AlexNet sur ImageNet, ce qui était vraiment excitant. À ce moment-là, j’ai eu un moment « maintenant ou jamais » et je me suis plongé dans la lecture de tous les documents et livres que je pouvais trouver sur les réseaux de neurones et j’ai cherché à apprendre des leaders dans le domaine, car combien de fois avez-vous l’occasion d’être présent à la naissance d’une nouvelle industrie et d’apprendre des pionniers ?
Très vite, j’ai réalisé que je n’apprécie pas la recherche, mais j’aime résoudre des problèmes et créer des produits basés sur l’IA. Cela m’a amené à travailler sur les voitures autonomes et les robots, l’IA pour la découverte de matériaux, les modèles génératifs pour les simulations multi-physiques, les simulateurs basés sur l’IA pour la formation des pilotes de course professionnels et l’aide à la configuration des voitures, les robots spatiaux, le trading algorithmique, et bien plus encore.
Maintenant, après avoir fait tout cela, j’essaie de maîtriser le coût de la formation et du déploiement de l’IA, car cela sera le plus grand obstacle que nous rencontrerons sur notre chemin pour permettre à chaque personne et entreprise d’avoir accès à l’IA de la manière la plus économique possible.
De nombreuses entreprises qui travaillent sur l’informatique accélérée ont des fondateurs qui ont construit leur carrière dans les semi-conducteurs et les infrastructures. Comment pensez-vous que votre expérience passée en IA et en mathématiques affecte votre capacité à comprendre le marché et à concurrencer efficacement ?
Je pense que ne pas venir de l’industrie me donne l’avantage de l’extérieur. J’ai constamment constaté que ne pas avoir connaissance des normes ou des sagesse conventionnelles de l’industrie me donne la liberté d’explorer plus librement et de creuser plus profondément que la plupart des autres, car je ne suis pas entravé par des préjugés.
J’ai la liberté de poser des questions « plus bêtes » et de tester des hypothèses d’une manière que la plupart des autres ne feraient pas, car de nombreuses choses sont considérées comme des vérités établies. Au cours des deux dernières années, j’ai eu plusieurs conversations avec des personnes de l’industrie qui sont très dogmatiques sur quelque chose, mais ils ne peuvent pas me dire la provenance de l’idée, ce que je trouve très déroutant. J’aime comprendre pourquoi certaines choix ont été faits et quels sont les hypothèses ou les conditions qui existaient à ce moment-là et si elles sont toujours valables.
En venant d’un background d’IA, j’ai tendance à adopter une vision logicielle en regardant où se situent les charges de travail aujourd’hui et voici toutes les façons possibles dont elles pourraient évoluer avec le temps, et en modélisant l’ensemble du pipeline ML pour la formation et l’inférence pour comprendre les goulets d’étranglement, ce qui me dit où se trouvent les opportunités de délivrer de la valeur. Et parce que je viens d’un background mathématique, j’aime modéliser les choses pour m’approcher le plus possible de la vérité et laisser cela me guider. Par exemple, nous avons construit des modèles pour calculer les performances du système pour le coût total de possession et nous pouvons mesurer le bénéfice que nous pouvons apporter aux clients avec des logiciels et/ou du matériel, et mieux comprendre nos contraintes et les différents réglages disponibles pour nous, et des dizaines d’autres modèles pour diverses choses. Nous sommes très axés sur les données et utilisons les informations issues de ces modèles pour guider nos efforts et nos compromis.
Il semble que les progrès de l’IA soient principalement le résultat d’une mise à l’échelle, ce qui nécessite exponentiellement plus de calcul et d’énergie. Il semble que nous sommes dans une course aux armements avec chaque entreprise essayant de construire le plus grand modèle, et il n’y a pas de fin en vue. Pensez-vous qu’il y a une issue à cela ?
Il y a toujours des moyens. La mise à l’échelle s’est avérée extrêmement utile et je ne pense pas que nous ayons vu la fin. Nous allons très bientôt voir des modèles formés avec un coût d’au moins un milliard de dollars. Si vous voulez être un leader dans l’IA générative et créer des modèles de base de pointe, vous devrez dépenser au moins quelques milliards par an en calcul. Maintenant, il y a des limites naturelles à la mise à l’échelle, comme être capable de construire un ensemble de données suffisamment grand pour un modèle de cette taille, avoir accès à des personnes ayant les compétences appropriées et avoir accès à suffisamment de calcul.
La poursuite de la mise à l’échelle de la taille du modèle est inévitable, mais nous ne pouvons pas transformer la surface entière de la Terre en un supercalculateur de la taille d’une planète pour former et servir des LLM pour des raisons évidentes. Pour mettre cela sous contrôle, nous avons plusieurs réglages que nous pouvons jouer : de meilleures ensembles de données, de nouvelles architectures de modèles, de nouvelles méthodes d’entraînement, de meilleurs compilateurs, des améliorations algorithmiques et des exploitations, de meilleures architectures informatiques, etc. Si nous faisons tout cela, il y a environ trois ordres de grandeur d’amélioration à trouver. C’est la meilleure issue.
Vous êtes un partisan de la pensée de première principale, comment cela façonne votre mentalité pour diriger Lemurian Labs ?
Nous employons certainement beaucoup de pensée de première principale à Lemurian. J’ai toujours trouvé que la sagesse conventionnelle est trompeuse car ces connaissances ont été formées à un certain moment où certaines hypothèses étaient valables, mais les choses changent toujours et vous devez réexaminer les hypothèses souvent, surtout dans un monde qui évolue rapidement.
Je me pose souvent des questions comme « cela semble être une très bonne idée, mais pourquoi cela pourrait ne pas fonctionner », ou « qu’est-ce qui doit être vrai pour que cela fonctionne », ou « qu’est-ce que nous savons qui sont des vérités absolues et quels sont les hypothèses que nous faisons et pourquoi ? », ou « pourquoi croyons-nous que cette approche particulière est la meilleure façon de résoudre ce problème ». L’objectif est d’invalidater et de tuer les idées le plus rapidement et le moins cher possible. Nous voulons essayer de maximiser le nombre de choses que nous essayons à tout moment. Il s’agit d’être obsédé par le problème qui doit être résolu et de ne pas être trop opiné sur quelle technologie est la meilleure. Trop de gens ont tendance à se concentrer trop sur la technologie et ils finissent par mal comprendre les problèmes des clients et manquent les transitions qui se produisent dans l’industrie, ce qui peut invalider leur approche et les rendre incapables de s’adapter à la nouvelle situation du monde.
Mais la pensée de première principale n’est pas très utile par elle-même. Nous avons tendance à la combiner avec une rétroprojection, qui consiste essentiellement à imaginer un résultat idéal ou souhaité et à travailler à rebours pour identifier les différentes étapes ou actions nécessaires pour le réaliser. Cela nous permet de converger vers une solution significative qui est non seulement innovante mais également ancrée dans la réalité. Il n’a pas de sens de passer du temps à élaborer une solution parfaite pour réaliser plus tard qu’elle n’est pas réalisable à cause de diverses contraintes du monde réel, telles que les ressources, le temps, la réglementation, ou créer une solution qui semble parfaite mais qui s’avère trop difficile pour les clients à adopter.
De temps en temps, nous nous retrouvons dans une situation où nous devons prendre une décision mais n’avons pas de données, et dans ce scénario, nous employons des hypothèses testables minimales qui nous donnent un signal pour savoir si quelque chose a du sens à poursuivre avec le moins d’énergie possible.
Tout cela combiné nous donne de l’agilité, des cycles d’itération rapides pour dérisquer les éléments rapidement, et nous a aidés à ajuster les stratégies avec une grande confiance, et à faire beaucoup de progrès sur des problèmes très difficiles en très peu de temps.
Initialement, vous vous concentriez sur l’IA de bord, qu’est-ce qui vous a amené à vous recentrer et à pivoter vers l’informatique en nuage ?
Nous avons commencé avec l’IA de bord parce que, à ce moment-là, je me concentrais beaucoup sur la résolution d’un problème très particulier que j’avais rencontré en essayant d’amener un monde de robots autonomes polyvalents. Les robots autonomes promettent d’être le plus grand changement de plate-forme de notre histoire collective, et il semblait que nous avions tout ce qu’il fallait pour construire un modèle de base pour la robotique, mais nous manquions d’un circuit d’inférence idéal avec le bon équilibre de débit, de latence, d’efficacité énergétique et de programmabilité pour exécuter ledit modèle de base.
Je ne pensais pas au centre de données à ce moment-là, car il y avait plus qu’assez d’entreprises qui se concentraient là-bas et je m’attendais à ce qu’ils résolvent le problème. Nous avons conçu une architecture très puissante pour cet espace d’application et nous étions prêts à la lancer, puis il est devenu clair que le monde avait changé et que le problème était vraiment dans le centre de données. Le rythme auquel les LLM augmentaient et consommaient du calcul dépassait de loin le rythme des progrès de l’informatique, et lorsque vous prenez en compte l’adoption, cela commence à peindre un tableau inquiétant.
Il m’a semblé que c’est là que nous devrions concentrer nos efforts, pour réduire le coût énergétique de l’IA dans les centres de données autant que possible sans imposer de restrictions sur où et comment l’IA devrait évoluer. Et ainsi, nous nous sommes mis au travail pour résoudre ce problème.
Pouvez-vous partager l’histoire de la création de Lemurian Labs ?
L’histoire commence en début 2018. Je travaillais sur la formation d’un modèle de base pour l’autonomie polyvalente, ainsi que d’un modèle pour la simulation multi-physique générative pour former l’agent et l’affiner pour différentes applications, et d’autres choses pour aider à passer à l’échelle dans des environnements multi-agents. Mais très vite, j’ai épuisé la quantité de calcul dont je disposais, et j’ai estimé avoir besoin de plus de 20 000 GPU V100. J’ai essayé de lever suffisamment pour avoir accès au calcul, mais le marché n’était pas prêt pour cette échelle à ce moment-là. Cela m’a cependant fait réfléchir au côté déploiement et je me suis assis pour calculer combennes performances j’aurais besoin pour servir ce modèle dans les environnements cibles et j’ai réalisé qu’il n’y avait pas de circuit qui puisse me permettre d’y arriver.
Deux ans plus tard, en 2020, je me suis réuni avec Vassil – mon co-fondateur éventuel – pour discuter et je lui ai partagé les défis que j’avais rencontrés en construisant un modèle de base pour l’autonomie, et il a suggéré de construire un circuit d’inférence qui puisse exécuter le modèle de base, et il a partagé qu’il avait beaucoup réfléchi aux formats de nombres et que de meilleures représentations aideraient not seulement à rendre les réseaux de neurones plus précis à des largeurs de bits plus faibles, mais également à créer des architectures plus puissantes.
C’était une idée intrigante, mais qui était hors de ma portée. Mais cela ne m’a pas quitté, ce qui m’a poussé à passer des mois et des mois à apprendre les complexités de l’architecture informatique, des jeux d’instructions, des runtime, des compilateurs et des modèles de programmation. Finalement, la construction d’une entreprise de semi-conducteurs a commencé à avoir du sens et j’ai formé une thèse autour du problème et de la façon de l’aborder. Et puis, vers la fin de l’année, nous avons créé Lemurian.
Vous avez parlé précédemment de la nécessité de résoudre le problème logiciel avant de construire le matériel, pouvez-vous élaborer sur vos vues sur pourquoi le problème matériel est avant tout un problème logiciel ?
Ce que beaucoup de gens ne réalisent pas, c’est que le côté logiciel des semi-conducteurs est beaucoup plus difficile que le matériel lui-même. Construire une architecture informatique utile pour les clients à utiliser et à en tirer profit est un problème de pile complète, et si vous n’avez pas cette compréhension et cette préparation avant de commencer, vous finirez par avoir une architecture qui est très performante et efficace, mais totalement inutilisable par les développeurs, ce qui est ce qui compte vraiment.
Il y a d’autres avantages à adopter une approche logicielle d’abord, bien sûr, comme un temps de mise sur le marché plus rapide. C’est crucial dans le monde en mouvement rapide d’aujourd’hui, où être trop optimiste sur une architecture ou une fonctionnalité pourrait signifier que vous manquez le marché entièrement.
Ne pas adopter une approche logicielle d’abord conduit généralement à ne pas avoir dérisqué les choses importantes nécessaires à l’adoption du produit sur le marché, à ne pas être en mesure de répondre aux changements du marché, par exemple, lorsque les charges de travail évoluent de manière inattendue, et à avoir du matériel sous-utilisé. Rien de tout cela n’est bon. C’est une grande raison pour laquelle nous nous soucions beaucoup d’être centrés sur le logiciel et pourquoi notre point de vue est que vous ne pouvez pas être une entreprise de semi-conducteurs sans être vraiment une entreprise de logiciels.
Pouvez-vous discuter de vos objectifs immédiats en matière de pile logicielle ?
Lorsque nous avons conçu notre architecture et réfléchi à la feuille de route prospective et aux opportunités pour amener plus de performances et d’efficacité énergétique, il est devenu clair que nous allions voir beaucoup plus d’hétérogénéité, ce qui allait créer beaucoup de problèmes logiciels. Et nous n’avons pas seulement besoin de pouvoir programmer de manière productive des architectures hétérogènes, nous devons les gérer à l’échelle du centre de données, ce qui est un défi du type que nous n’avons pas rencontré auparavant.
Cela nous a inquiétés, car la dernière fois que nous avions dû traverser une transition majeure, c’était lorsque l’industrie est passée des architectures mono-cœur aux architectures multi-cœur, et à ce moment-là, il a fallu 10 ans pour que le logiciel fonctionne et que les gens l’utilisent. Nous ne pouvons pas nous permettre d’attendre 10 ans pour résoudre le logiciel pour l’hétérogénéité à l’échelle, cela doit être résolu maintenant. Et ainsi, nous nous sommes mis au travail pour comprendre le problème et ce qui doit exister pour que cette pile logicielle existe.
Nous sommes actuellement en train de collaborer avec de nombreuses entreprises de semi-conducteurs et de fournisseurs de services cloud et nous allons lancer notre pile logicielle dans les 12 prochains mois. Il s’agit d’un modèle de programmation unifié avec un compilateur et un runtime capable de cibler n’importe quel type d’architecture, et d’orchestrer le travail sur des grappes composées de différents types de matériel, et capable de passer d’un nœud unique à un cluster de 1 000 nœuds pour les meilleures performances possibles.
Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Lemurian Labs.












