Leaders d’opinion

L’infrastructure d’IA est cassée. Les jetons deviennent la nouvelle mesure de valeur.

Published May 11, 2026

Gaurav Shah VP of Business Development & Strategy, NeuReality

L’industrie de l’IA a un problème de mesure.

Pendant des années, le succès a été défini par l’accès au calcul, comme qui a le plus de GPU, les plus grands clusters ou les exécutions d’entraînement les plus rapides. Des milliards ont été investis dans l’infrastructure pour gagner cette course.

Mais à mesure que l’IA passe de l’expérimentation à la production, ce modèle commence à se briser.

Les entreprises n’achètent pas de GPU. Elles n’achètent même pas de capacité d’inférence. Elles achètent des résultats comme des résumés, des recommandations, des décisions, du contenu. En d’autres termes, elles achètent des jetons.

Pourtant, la plupart des infrastructures d’IA sont toujours conçues comme si le calcul était l’objectif final. Ce n’est pas le cas.

La véritable unité de valeur dans l’IA est le jeton. Et les entreprises qui reconnaissent ce changement tôt définiront la prochaine ère du marché.

La montée de l’usine de jetons d’IA

Si les jetons sont le produit, alors l’infrastructure d’IA doit se comporter comme un système de production, et non comme un projet scientifique. C’est là que le concept d’usine de jetons d’IA intervient.

Une usine de jetons d’IA n’est pas simplement une autre couche de logiciel dans la pile. C’est une réflexion de la pile elle-même. Au lieu d’optimiser les performances du modèle ou l’utilisation du matériel, elle se concentre sur un résultat : la production efficace de jetons à grande échelle.

Cela signifie abstraire la complexité de l’infrastructure, allouer dynamiquement les charges de travail dans des environnements hétérogènes et optimiser en continu pour le débit, la latence, l’utilisation et le coût par jeton.

Le modèle actuel est essentiellement une location de GPU avec des étapes supplémentaires. Les organisations provisionnent du matériel coûteux, assemblent des outils fragmentés et espèrent que l’utilisation justifiera éventuellement l’investissement.

Une usine de jetons inverse complètement cette équation. Elle livre des sorties, et non une infrastructure, et traite l’efficacité comme le principe de conception fondamental dès le premier jour. Ce n’est pas un progrès incrémental. C’est un passage de l’infrastructure en tant que capacité à l’infrastructure en tant que production.

Pourquoi le vieux modèle ne peut pas tenir

Le modèle actuel d’infrastructure d’IA n’est pas seulement inefficace. Il est de plus en plus insoutenable.

La pénurie de GPU a exposé les premières fissures. La demande continue de dépasser l’offre, forçant les organisations à déployer des environnements fragmentés et multivendeurs. Ce qui a commencé comme une solution temporaire est rapidement devenu la norme : des environnements hétérogènes assemblés sans couche opérationnelle unifiée.

Le problème est que la plupart des piles existantes n’ont pas été conçues pour cette réalité. Elles n’optimisent pas efficacement les architectures, n’adaptent pas en temps réel ou ne fournissent pas une visibilité claire sur les performances et les coûts.

En conséquence, la complexité s’accroît plus vite que l’échelle.

Chaque nouveau modèle, framework, accélérateur ou plateforme cloud introduit une autre couche de surcharge opérationnelle. Les équipes passent un temps considérable à gérer l’orchestration, la compatibilité, le routage, la planification et les problèmes d’observabilité au lieu d’améliorer les résultats.

Ce qui devrait être un avantage d’échelle devient rapidement un problème de coordination.

Dans le même temps, les économies deviennent de plus en plus difficiles à ignorer. Les premiers déploiements d’IA pouvaient masquer les inefficacités derrière la croissance et l’expérimentation. Cette fenêtre se ferme.

Les dirigeants posent maintenant des questions plus difficiles : Pourquoi les coûts d’inférence sont-ils si imprévisibles ? Pourquoi l’utilisation du GPU est-elle encore si faible ? Pourquoi les organisations paient-elles des prix premium pour du matériel qui reste souvent inactif ? Pourquoi est-il si difficile de relier les dépenses d’infrastructure aux résultats commerciaux ?

La réponse est simple : Le système a été conçu pour l’accès, et non pour l’efficacité.

De l’architecture centrée sur le calcul à l’architecture centrée sur les jetons

Le passage aux usines de jetons est à la fois philosophique et architectural.

Premièrement, le marché passe d’un modèle de GPU en tant que service à un modèle de résultat en tant que service. Les clients ne veulent pas gérer l’infrastructure ; ils veulent des résultats garantis. L’état final logique est la consommation basée sur les sorties, et non sur les ressources.

Deuxièmement, les piles fragmentées cèdent la place à des plans de contrôle unifiés. Dans un environnement hétérogène, la visibilité et le contrôle sont tout. Les usines de jetons fournissent des informations en temps réel sur l’utilisation, les coûts et les performances, ainsi que la capacité d’agir. Les organisations doivent comprendre : Qui génère des jetons ? À quel coût ? Sur quel matériel ? Sous quelle charge de travail ? Et avec quel niveau d’efficacité ? Sans ces réponses, l’optimisation devient du travail d’aveugle.

Enfin, l’industrie se concentre sur l’exécution continue et l’optimisation. Le défi n’est plus simplement de faire fonctionner les modèles, mais de les faire fonctionner de manière intelligente, car les organisations déterminent : Quelles charges de travail appartiennent à quel matériel ? Comment maximiser le débit tout en contrôlant les coûts ? Comment empêcher une utilisation excessive de jetons ?

Les usines de jetons traitent ces questions comme des problèmes de premier ordre, et non comme des après-pensées.

Pourquoi le modèle de livraison d’IA d’aujourd’hui est insuffisant

La pile d’IA traditionnelle (couvrant les fournisseurs de matériel, les plateformes cloud, les services d’inférence) a été construite principalement pour une croissance rapide, et non pour une efficacité systémique.

Chaque couche ajoute de la valeur, mais également des coûts, des abstractions et une fragmentation opérationnelle. Le résultat est un système avec des marges empilées, une transparence limitée et une véndéabilité accrue. Les organisations optimisent à l’intérieur des silos plutôt que sur l’ensemble du système.

Les usines de jetons remettent fondamentalement en question ce modèle.

En déconnectant le matériel de la livraison de valeur, elles permettent une optimisation de bout en bout. Les charges de travail peuvent se déplacer librement entre les environnements. Les architectures peuvent évoluer sans nécessiter de réécriture massive. L’efficacité devient mesurable, gérable et continuellement améliorable.

C’est ainsi que les entreprises et les nouveaux fournisseurs de cloud peuvent concurrencer plus efficacement les hyperscalers. Non pas en égalant leur échelle, mais en surpassant leur efficacité.

Qui va gagner

Peut-être l’aspect le plus perturbateur de cette transition est celui qu’il autorise. Vous n’avez pas besoin de posséder un centre de données ou même des GPU pour exploiter une usine de jetons.

Ce qui compte, c’est le contrôle de l’orchestration, de l’optimisation et de la livraison. Cela ouvre la porte à un ensemble beaucoup plus large de joueurs :

Les entreprises avec des charges de travail d’IA importantes et persistantes.
Les fournisseurs de cloud neo-optimisés pour des secteurs ou des cas d’utilisation spécifiques.
Les fournisseurs d’infrastructure qui montent dans la pile.

Dans ce modèle, l’avantage concurrentiel ne vient pas de l’accumulation de calcul. Il vient de la production de jetons meilleure, plus rapide et moins chère que quiconque.

Le nouveau champ de bataille : le coût par jeton

La prochaine phase de la concurrence d’IA ne sera pas gagnée sur la qualité du modèle seul. Elle sera gagnée sur l’efficacité. Plus précisément, le coût par jeton.

Qui peut livrer des sorties équivalentes ou meilleures à une fraction du coût ? Qui peut évoluer sans dépense d’infrastructure excessive ? Qui peut transformer l’IA en un business prévisible et rentable ?

Ce ne sont pas des questions d’infrastructure. Ce sont des questions de production qui nécessitent une mentalité de production.

Le futur n’est pas construit sur les GPU

Les GPU ne disparaissent pas, mais ils ne sont plus l’histoire. Les jetons le sont.

Les organisations qui restent concentrées sur le calcul font face à des coûts croissants et à des rendements décroissants. Celles qui passent à des systèmes centrés sur les jetons débloqueront un modèle fondamentalement différent, qui aligne l’infrastructure sur les résultats et le coût sur la valeur.

Les usines de jetons d’IA ne sont pas un concept lointain. Elles sont une évolution inévitable du marché. La seule véritable question est qui les construit en premier et qui se retrouve en arrière.

Gaurav Shah VP of Business Development & Strategy, NeuReality

Gaurav Shah est vice-président du développement commercial et de la stratégie chez NeuReality, où il dirige les efforts des clients pour révolutionner l'inférence IA et accélérer son adoption dans des secteurs tels que la fintech, la healthtech et le gouvernement. Gaurav a trois décennies d'expérience dans l'industrie technologique, ayant occupé des postes de marketing et de gestion de produits chez NVIDIA, Marvell, Tenstorrent et GlobalFoundries. Il est basé dans la région de la baie de San Francisco.