Connect with us

OpenAI fait appel à Cerebras pour 10 milliards de dollars en calcul à faible latence

Partenariats

OpenAI fait appel à Cerebras pour 10 milliards de dollars en calcul à faible latence

mm

OpenAI a annoncé un accord pluriannuel avec le startup de puces Cerebras Systems qui livrera 750 mégawatts de calcul dédié AI à la société créatrice de ChatGPT, dans ce que les deux sociétés décrivent comme le plus grand déploiement d’inférence à haute vitesse jamais tenté.

L’accord, évalué à plus de 10 milliards de dollars selon des sources familiarisées avec les termes, constitue le pari le plus important d’OpenAI en matière d’infrastructure en dehors de sa relation principale avec Microsoft. Cerebras construira et hébergera les systèmes par phases jusqu’en 2028, avec la première capacité en ligne cette année.

Le partenariat vise un problème spécifique : la vitesse. Alors qu’OpenAI a étendu ChatGPT à 800 millions d’utilisateurs par semaine, la société est confrontée à des contraintes de calcul qui ralentissent les temps de réponse — en particulier pour les charges de travail exigeantes comme la génération de code, les tâches agentic et l’interaction vocale en temps réel.

“Cerebras ajoute une solution d’inférence à faible latence dédiée à notre plateforme”, a déclaré Sachin Katti, qui dirige la stratégie de calcul d’OpenAI. “Cela signifie des réponses plus rapides, des interactions plus naturelles et une base solide pour étendre l’IA en temps réel à davantage de personnes.”

Pourquoi le silicium à l’échelle de la plaquette est important

La présentation de Cerebras repose sur ses processeurs à l’échelle de la plaquette — des puces de la taille d’assiettes qui éliminent les retards de communication inhérents aux systèmes assemblés à partir de nombreuses petites GPU. La société affirme que son architecture livre des vitesses d’inférence jusqu’à 15 fois plus rapides que les alternatives basées sur GPU, avec des modèles comme GPT-OSS-120B fonctionnant à environ 3 000 jetons par seconde.

Pour OpenAI, cette vitesse se traduit directement par l’expérience utilisateur. Lorsque l’IA répond en temps réel — sans la latence qui rend les conversations artificielles — les utilisateurs s’engagent plus profondément et accomplissent plus. La société a testé le silicium de Cerebras avec ses modèles de poids ouvert avant Thanksgiving, et les conversations techniques entre les équipes se sont rapidement intensifiées jusqu’à un accord signé, selon le PDG de Cerebras, Andrew Feldman.

” Tout comme le haut débit a transformé Internet, l’inférence en temps réel va transformer l’IA “, a déclaré Feldman. ” Cela permet des moyens entièrement nouveaux de construire et d’interagir avec les modèles d’IA. ”

La comparaison n’est pas exagérée. Internet à débit bas a pris en charge le courrier électronique et la navigation de base ; le haut débit a permis la diffusion de vidéo, les appels vocaux et finalement l’économie des applications pour smartphone. OpenAI semble parier que l’inférence suffisamment rapide débloquera des applications que la latence actuelle rend impraticables — en particulier pour les agents d’IA qui doivent enchaîner plusieurs opérations sans que la patience humaine ne s’épuise.

La course aux armements de l’infrastructure s’intensifie

L’accord Cerebras intervient alors que les valorisations de l’infrastructure d’IA ont explosé, Databricks ayant récemment levé des fonds à 134 milliards de dollars et Cerebras étant en pourparlers pour un financement frais à une valorisation de 22 milliards de dollars. Les besoins de calcul des modèles d’IA de pointe ne montrent aucun signe de plateau, et les sociétés se disputent pour verrouiller la capacité avant que les concurrents ne le fassent.

Pour Cerebras, le partenariat avec OpenAI résout un problème de concentration commerciale. Les Émirats arabes unis de G42 représentaient 87 % du chiffre d’affaires de Cerebras au premier semestre 2024 — une concentration client qui rendait les investisseurs nerveux. L’ajout d’OpenAI en tant que client important avant un éventuel IPO dérisque considérablement l’entreprise.

Pour OpenAI, l’accord diversifie son infrastructure d’IA au-delà du cloud Azure de Microsoft. Alors que Microsoft reste le principal fournisseur de calcul d’OpenAI, le partenariat avec Cerebras donne à OpenAI une capacité dédiée à faible latence optimisée spécifiquement pour l’inférence — une charge de travail différente de celle des exécutions de formation que l’infrastructure de Microsoft gère.

Le timing est également important. OpenAI a récemment publié GPT-5.2 au milieu d’une concurrence intensifiée de la part de Google’s Gemini. Alors que les modèles deviennent plus capables, les sociétés qui les déployer découvrent que l’intelligence brute ne suffit pas — les utilisateurs s’attendent également à des réponses quasi instantanées. Un IA brillant qui met dix secondes pour répondre semble cassé ; le même IA répondant en moins d’une seconde semble magique.

Sam Altman, le PDG d’OpenAI, est déjà un investisseur dans Cerebras, et OpenAI a un jour considéré l’acquisition de la société. Cet accord suggère que la relation évolue en quelque chose de plus stratégique : un partenariat dans lequel les destins des deux sociétés deviennent étroitement liés dans la course pour rendre l’IA vraiment conversationnelle.

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.