Connect with us

Corey Sanders, Vice-président senior Produit chez CoreWeave – Série d’entretiens

Entretiens

Corey Sanders, Vice-président senior Produit chez CoreWeave – Série d’entretiens

mm

Corey Sanders, Vice-président senior Produit chez CoreWeave, dirige la stratégie et la mise en œuvre des produits pour l’une des plateformes cloud axées sur l’IA à la croissance la plus rapide. Il est responsable de l’extension de l’innovation, de l’élaboration de solutions conçues sur mesure avec les clients et du renforcement de la position de CoreWeave sur le marché de l’infrastructure IA. Avant CoreWeave, Sanders a passé deux décennies chez Microsoft dans des rôles de direction senior couvrant l’ingénierie cloud, les plateformes spécifiques à l’industrie, la stratégie de solutions commerciales et les partenariats d’entreprise à grande échelle, avec une expérience approfondie dans le rapprochement de la mise en œuvre technique et de la stratégie de lancement sur le marché.

CoreWeave est un fournisseur de cloud natif IA conçu spécifiquement pour le calcul haute performance et les charges de travail d’intelligence artificielle à grande échelle. L’entreprise exploite un réseau de data centers en expansion rapide aux États-Unis et en Europe, offrant une infrastructure et un logiciel accélérés par GPU conçus pour la formation, l’inférence et les cas d’utilisation de calcul avancé. En se concentrant sur une architecture conçue sur mesure plutôt que sur un cloud polyvalent, CoreWeave est devenu un partenaire d’infrastructure essentiel pour les laboratoires IA et les entreprises à la recherche de performances, de scalabilité et d’efficacité à grande échelle.

Vous avez passé plus de 20 ans chez Microsoft, travaillant sur l’ingénierie Windows, la stratégie de vente cloud et Microsoft Cloud pour l’industrie. Qu’est-ce que cette progression vous a enseigné sur ce qui stimule vraiment l’adoption des entreprises, et comment appliquez-vous ces leçons aujourd’hui chez CoreWeave ?

L’adoption des entreprises commence par la résolution d’un problème spécifique du client. L’innovation pour l’innovation n’est pas vraiment cruciale pour l’entreprise. Il s’agit de se mettre à leur place pour comprendre ce qui les préoccupe vraiment – que ce soit le coût du support, les complexités opérationnelles, la connexion avec les clients ou la gestion d’équipes mondiales et de nouvelles lignes de produits – et de leur offrir des services qui aident. Ils sont souvent prêts à innover dans leur approche, mais la considération la plus cruciale est de les aider à résoudre leur problème. L’erreur la plus fréquente que j’ai vue dans la conception de produits est de s’attacher trop à la « coolitude » d’un produit. Même si cela a du poids dans l’espace consommateur, les clients d’entreprise se soucient finalement beaucoup plus de l’utilité que de la « coolitude ».

CoreWeave est souvent décrit comme offrant une infrastructure IA conçue sur mesure. En termes pratiques, qu’est-ce que conçu sur mesure signifie d’un point de vue produit, et où les plateformes cloud polyvalentes ont-elles du mal avec les charges de travail IA ?

Le plus grand avantage de la conception sur mesure est la capacité de se concentrer et de fournir des services sans avoir à résoudre chaque cas d’utilisation général. Je vais donner deux exemples : l’un dans les logiciels et l’autre dans le matériel.

Du côté des logiciels, notre offre de stockage d’objets avec cache LOTA est spécifiquement conçue pour le cache des charges de travail IA. Elle se déploie directement sur les nœuds GPU, fournit un point de terminaison S3 pour l’application et répond aux demandes GPU en étendant son cache sur plusieurs nœuds. Cela augmente le débit vers le GPU jusqu’à 7 Go/s, dépassant largement ce que les clouds polyvalents offrent. Nous pouvons y parvenir parce que nous faisons des hypothèses de conception autour des charges de travail IA spécifiques, des répartitions lecture/écriture et des dispositions de cluster. Si un client utilisait cela pour héberger une base de données ou un site e-commerce, cela n’aurait pas le même impact. C’est la définition de logiciels conçus sur mesure.

L’exemple matériel est similaire. Étant donné notre déploiement étendu des dernières références NVIDIA – dont beaucoup nécessitent un refroidissement liquide – CoreWeave a développé une expertise et des conceptions de data center spécifiques pour répondre à ces besoins. Contrairement aux plus grands clouds qui construisent pour la fungibilité et doivent ensuite ajouter le refroidissement liquide de manière rétroactive, CoreWeave construit des data centers conçus pour l’IA dès le départ. Cela se traduit par des coûts plus bas et une disponibilité plus élevée pour les derniers types de références.

Ci-dessous se trouve une image du cache LOTA mentionné.

Quand les clients commencent à réfléchir à la mise à l’échelle de l’IA, beaucoup pensent qu’ils n’ont besoin que d’accéder à des GPU. Qu’est-ce qu’ils réalisent généralement manquer une fois qu’ils commencent à former ou à servir des modèles à grande échelle ?

Compte tenu de la complexité de l’exécution de charges de travail sur des grappes GPU massives, les services environnants deviennent les véritables moteurs du succès. Cela inclut les évidents, comme le stockage et le réseau, mais également des services opérationnels critiques comme l’observabilité, l’orchestration et la sécurité. C’est là que CoreWeave brille vraiment avec notre offre Mission Control. Elle fournit aux clients une connaissance approfondie de la santé des nœuds et de la durée d’exécution sur leur flotte, en intégrant cette connaissance directement dans le moteur d’orchestration. Cela permet au client de traiter son infrastructure non pas comme 1 000 GPU individuels, mais comme une seule entité de travail cohérente.

Quels sont les principaux objectifs de produit sur lesquels vous vous concentrez actuellement pour améliorer les résultats des clients, que ce soit en termes de performances, de fiabilité, de prévisibilité des coûts ou d’expérience du développeur ?

Dans la plateforme principale, nous nous concentrons constamment sur les performances, la fiabilité et l’observabilité. Nous devons nous assurer que les clients peuvent exécuter des tâches de manière répétitive et prévisible tout en exploitant pleinement chaque TFLOP dans chaque GPU. Au-delà de cela, nous travaillons à simplifier l’intégration pour les clients qui ne sont peut-être pas familiers avec chaque fonctionnalité d’un outil comme SLURM (que tout le monde utilise, mais que presque tout le monde déteste). Enfin, nous développons des services et des modèles de facturation supplémentaires pour faciliter l’innovation et le démarrage. Actuellement, expérimenter est étonnamment difficile en raison de barrières à l’entrée élevées, telles que des contraintes de capacité, des engagements de trois ans et la nécessité d’experts spécialisés pour simplement commencer. Nous voulons ramener la facilité d’innovation sur la plateforme IA.

À mesure que davantage de charges de travail IA passent d’une formation intensive à une inférence intensive, comment cette transition influence-t-elle la conception de l’infrastructure et les décisions de feuille de route de produit ?

Cela crée des opportunités considérables pour appliquer la différenciation existante de CoreWeave aux exigences d’inférence. Par exemple, le cache LOTA que j’ai mentionné se concentre sur l’alimentation des GPU pendant la formation ; cependant, nous pouvons prendre cette même technologie, l’intégrer dans des choses comme le KVCache et la transformer en un puissant différentiateur d’inférence. De même, des outils comme Mission Control deviennent encore plus vitaux pour l’inférence, car observer la santé du GPU est crucial pour exécuter des applications agences à haute disponibilité.

Au cours des un à deux prochaines années, qu’est-ce qui définira le leadership sur le marché du cloud IA, et quels seront les capacités les plus importantes pour les clients ?

Je pense que le leadership sera défini par deux choses. La première est la fourniture des exigences de mise à l’échelle croissante pour la formation. Cela nécessitera des progrès dans l’observabilité, la surveillance de la santé et la récupération automatique. Lorsque vous passez de centaines à des dizaines de milliers de GPU répartis dans le monde, la réponse manuelle aux défaillances n’est pas réalisable.

La deuxième est la fourniture des bons services pour les charges de travail d’inférence et agences. Cela nécessite des capacités de déploiement mondiales et des modèles commerciaux qui encouragent l’expérimentation. Ce modèle d’utilisation a contribué à la croissance du cloud à l’origine et a été quelque peu perdu dans l’ère de l’IA. Nous devons le ramener grâce à une meilleure prise en charge de la plateforme, à des capacités multi-cloud et à une facilité d’utilisation multi-région.

Auparavant, vous avez dirigé des initiatives cloud spécifiques à l’industrie dans les soins de santé, la vente au détail, les services financiers, la fabrication et le cloud souverain. Quelles leçons de ces secteurs verticaux se transposent directement dans l’infrastructure IA, et lesquelles ne le font pas ?

Les changements de génération dans les GPU continuent d’introduire de nouvelles complexités. Chaque nouvelle version apporte une interconnectivité accrue, une mémoire plus élevée et des besoins en puissance plus importants, tous ces éléments nécessitant de revoir nos hypothèses sur la façon dont les nœuds sont connectés et dont les logiciels sont livrés. Nous devons rester impitoyables ici pour maintenir notre leadership. D’un autre côté, le domaine qui s’améliore le plus rapidement est l’échelle à laquelle les clients peuvent accomplir quelque chose ; la vitesse à laquelle ils s’adaptent à des empreintes de calcul plus importantes est impressionnante.

À mesure que les data centers et les grappes IA continuent de se développer, quels sont les défis opérationnels les plus difficiles à résoudre aujourd’hui, et lesquels s’améliorent le plus rapidement ?

Les changements de génération des GPU continuent de créer de nouvelles complexités dans la conception et les logiciels. Chaque nouvelle version de GPU apporte des capacités d’interconnectivité accrues, une mémoire plus élevée et des besoins en puissance plus importants, tous ces éléments nécessitant de revoir nos hypothèses sur la façon dont les nœuds sont connectés, la façon dont les racks sont gérés et la façon dont les logiciels sont livrés. Nous devons continuer à nous concentrer sur ce travail pour nous assurer que nous maintenons notre position de leader. Ceux qui s’améliorent le plus rapidement sont ce que les clients peuvent accomplir avec l’échelle croissante du calcul.

Dans l’infrastructure IA, la fiabilité va au-delà du temps d’activité. Comment CoreWeave définit-il la fiabilité, et quels indicateurs reflètent le mieux le succès du point de vue du client ?

À grande échelle, la considération la plus importante pour un client est simplement de terminer le travail. Dans les opérations massives, les défaillances ou les ralentissements individuels sont prévus. La clé est la façon dont nous détectons et réagissons automatiquement à ces problèmes pour nous assurer que le travail est terminé malgré les défis. C’est pourquoi nous intégrons Mission Control dans des services de niveau supérieur comme SUNK (Slurm sur Kubernetes). Cela permet aux clients de répondre aux défaillances de manière automatique sans perdre des heures ou des semaines de travail. Pour nous, le succès n’est pas seulement lié au temps d’activité des nœuds ; c’est lié au succès du travail.

En regardant vers l’avenir, quel grand changement dans l’infrastructure IA pensez-vous être encore sous-estimé, que ce soit lié à l’évolution du matériel, à la spécialisation des piles, aux exigences de souveraineté ou à de nouveaux modèles de déploiement ?

Je pense que l’avènement de l’apprentissage par renforcement (RL) en tant que partie renouvelée de la pile IA est encore sous-estimé. Même si ce n’est pas un nouveau domaine d’étude, il a été largement éclipsé pendant la première vague de développement du LLM. Le RL fait un retour et jouera un rôle vital pour rendre les services IA plus réactifs aux paysages changeants de leurs utilisateurs. À cause de cela, nous sommes très enthousiastes à l’idée de notre offre de serveur RL sans serveur que nous avons aujourd’hui.

Je vous remercie pour cette grande interview. Les lecteurs qui souhaitent en savoir plus doivent visiter CoreWeave.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.