Leaders d’opinion
Le Saint Graal de la Puissance de Calcul dans l’IA

Malgré les progrès incroyables, les capacités de l’intelligence artificielle sont encore limitées par rapport aux attentes du monde réel. Nous construisons des modèles complexes, exécutons des réseaux de neurones et testons des algorithmes, mais le progrès stagne parfois dans les endroits où nous nous y attendons le moins.
Le problème réside souvent non pas dans les algorithmes ou les données, mais dans la puissance de calcul, les ressources qui permettent aux modèles d’apprendre et de fonctionner à l’échelle nécessaire. Qu’est-ce qui se cache derrière cette barrière ? Examinons la ressource critique sans laquelle même les projets d’IA les plus prometteurs ne peuvent pas sortir du laboratoire.
Le déficit de calcul et ses conséquences
Pour comprendre ce sujet, commençons par l’histoire des communications mobiles. Lorsque les réseaux 3G et plus tard 4G sont apparus, Internet était déjà presque mondial. Et lorsque la 5G a été introduite, de nombreuses personnes se sont posé une question tout à fait raisonnable : « L’Internet sera plus rapide – mais qu’est-ce que cela change ? »
En réalité, l’augmentation de la vitesse d’Internet ne se résume pas à la commodité de l’utilisateur. Cela transforme l’ensemble du paysage technologique. Des cas d’utilisation apparaissent qui étaient auparavant impossibles. La 5G s’est avérée être beaucoup plus rapide que la 4G, et ce saut n’était pas graduel, comme le saut de la 1G à la 2G, mais exponentiel. En conséquence, de nouvelles applications, appareils et classes de technologie entières peuvent apparaître.
Les caméras de feux de circulation, les systèmes d’analyse de trafic en temps réel et les mécanismes de régulation du trafic automatisés – tout cela devient possible grâce aux nouvelles technologies de communication. La police dispose de nouveaux moyens d’échange de données, et dans l’espace, les télescopes et les satellites peuvent transmettre d’énormes quantités d’informations à la Terre. Un saut qualitatif dans une technologie fondamentale conduit au développement de l’ensemble de l’écosystème.
Le même principe s’applique à la puissance de calcul. Imaginez la capacité de calcul totale de l’humanité en unités hypothétiques. Aujourd’hui, nous pourrions avoir, disons, dix unités. Avec elles, nous pouvons générer des images et des vidéos, écrire des textes, créer des matériaux de marketing… C’est déjà considérable, mais la gamme d’applications est limitée principalement.
Imaginez maintenant que nous n’avions pas dix, mais mille unités. Soudain, les technologies qui étaient auparavant trop coûteuses deviennent réalisables, et les startups qui ont été abandonnées en raison de coûts de calcul élevés commencent à avoir du sens économique.
Prenez les robotaxis, par exemple. Aujourd’hui, ils s’appuient principalement sur des ordinateurs locaux relativement faibles installés dans le véhicule. Cependant, si la vidéo était transmise au cloud avec d’énormes ressources de calcul, les données pourraient être traitées et renvoyées en temps réel. Et c’est critique : une voiture se déplaçant à 100 km/h doit prendre des décisions en fractions de seconde – aller tout droit, tourner, freiner ou ne pas freiner.
C’est alors qu’une industrie de robotaxis entièrement fonctionnelle devient possible, et non pas seulement des solutions isolées comme celles que nous voyons aujourd’hui. Tout ordinateur local installé dans une voiture est inhérentement limité d’une manière qui n’est pas le cas d’un système connecté. Plus nous pouvons le mettre à l’échelle rapidement, plus le monde autour de nous changera rapidement.
L’accès aux puces et le « ticket d’or » dans l’IA
Dans le contexte de la puissance de calcul, la question se pose : l’accès aux puces modernes devient-il le « ticket d’or » pour entrer sur le marché de l’IA ? Les grands acteurs qui signent des contrats avec les fabricants de puces ou les produisent-ils eux-mêmes, créent-ils un écart entre les grandes entreprises et tous les autres ?
Un tel écart n’apparaît que dans un cas : si un modèle économique se concentre exclusivement sur la vente de puces à de grands clients. Dans la pratique, des fabricants comme NVIDIA visent à fournir des solutions cloud à tous. Leurs puces optimisées sont disponibles dans le cloud à la fois pour OpenAI et pour les développeurs indépendants.
Même les alliances stratégiques entre des entreprises comme Google, Anthropic, Microsoft, OpenAI, Amazon et NVIDIA sont principalement des partenariats pour l’utilisation partagée de ressources, plutôt que des tentatives de fermer le marché. Ce modèle permet une allocation efficace de la puissance de calcul, accélérant ainsi le développement technologique.
Si nous traçons la chaîne d’utilisation des ressources de calcul, elle commence par l’utilisateur final. Par exemple, lorsque vous utilisez WhatsApp pour des appels vidéo et des messages, l’entreprise doit s’assurer que le service fonctionne : stocker et traiter des données, exécuter des modèles pour le nettoyage de la vidéo, ajouter des effets et améliorer la qualité de l’image.
Maintenir des serveurs propriétaires coûte cher, ils deviennent obsolètes et nécessitent une maintenance constante. C’est pourquoi les solutions cloud, « le cloud », ont émergé. Le marché est dominé par trois acteurs : Google Cloud, AWS et Microsoft Azure. D’autres entreprises ne peuvent pas concurrencer à ce niveau : l’échelle de l’infrastructure est trop vaste.
Les services cloud sont d’énormes centres de données avec refroidissement, alimentation électrique et maintenance 24 heures sur 24. Ils abritent des serveurs et des puces spécialisées de fabricants comme NVIDIA, AMD et d’autres, permettant des processus de calcul à grande échelle.
Voici où nous arrivons à la question clé que j’ai discutée dans mon précédent article sur les centres de données, et que je veux continuer ici : qu’est-ce que le goulet d’étranglement dans ce système ? Est-ce la pénurie d’électricité, ou la difficulté de refroidir les centres de données dans les régions où le climat le rend particulièrement difficile ? En réalité, le secret réside dans les puces elles-mêmes…
Le saint graal
Pourquoi NVIDIA est-elle aujourd’hui valorisée à environ 5 000 milliards de dollars et compte parmi les entreprises les plus réussies au monde ? La raison est simple : NVIDIA produit les puces sur lesquelles les modèles d’IA sont formés et exécutent l’inférence.
Chacune de ces puces consomme d’énormes quantités d’électricité lors de la formation de grands modèles ou du traitement de volumes de données toujours plus importants. Mais comment cette énergie est-elle utilisée de manière efficace ? C’est là que les puces spécialisées entrent en jeu ; elles gèrent des tâches spécifiques de manière beaucoup plus efficace que les GPU polyvalents.
Les modèles d’IA diffèrent. OpenAI, par exemple, a une famille de modèles, Anthropic en a une autre. Les concepts peuvent être similaires, mais les structures mathématiques et les processus de calcul sont différents. Une puce polyvalente, lors de la formation de modèles OpenAI (comme ChatGPT) par rapport aux modèles Anthropic (comme Claude), agit comme un « outil universel », consommant, disons, 100 000 heures de calcul pour un modèle et 150 000 pour un autre. L’efficacité varie considérablement et est rarement optimale.
Les entreprises résolvent ce problème en produisant des puces spécialisées. Par exemple, une puce peut être optimisée pour l’architecture ChatGPT et la former en, disons, 20 minutes, tandis qu’une autre est adaptée à l’architecture d’Anthropic et termine également la formation en 20 minutes. La consommation d’énergie et le temps de formation sont réduits de plusieurs fois par rapport à une puce polyvalente.
Lorsque ces puces sont vendues à de grandes entreprises, telles que Google, Amazon, Microsoft ou Azure, elles sont proposées comme produits autonomes. Les utilisateurs peuvent choisir, par exemple, une puce optimisée pour un modèle YOLO ou une puce plus simple et moins chère pour une architecture Xen. De cette façon, les entreprises ont accès à des ressources de calcul précisément adaptées à leurs tâches, plutôt que d’acheter des GPU polyvalents. Si un utilisateur a dix fonctions différentes, il peut utiliser dix puces spécialisées différentes.
La tendance est claire : les puces spécialisées remplacent progressivement les puces polyvalentes. De nombreuses startups travaillent maintenant avec des ASIC (Application-Specific Integrated Circuits), des puces conçues pour des tâches de calcul spécifiques. Les premiers ASIC sont apparus pour l’extraction de Bitcoin : initialement, la cryptomonnaie était extraite sur des GPU NVIDIA, puis des puces ont été créées uniquement pour Bitcoin et étaient incapables de réaliser d’autres tâches.
Je vois cela dans la pratique : la même configuration matérielle peut produire des résultats complètement différents en fonction de la tâche. Dans ma startup Introspector, nous étudions ces processus dans des projets réels, et en tant que conseiller stratégique de Keymakr, j’observe comment les clients gagnent en efficacité grâce à des puces spécialisées, permettant aux modèles de fonctionner plus rapidement. Des projets qui étaient auparavant bloqués pendant la formation ou l’inférence atteignent des résultats stables avec cette approche.
Cependant, une spécialisation étroite comporte des risques. Une puce optimisée pour l’architecture d’Anthropic ne fonctionnera pas pour la formation de modèles OpenAI, et vice versa. Chaque nouvelle architecture nécessite une nouvelle génération de matériel, créant un risque de « dépréciation » à grande échelle. Si Anthropic publie une nouvelle architecture demain, toutes les puces de la génération précédente deviennent inefficaces ou inutiles. Produire de nouvelles puces coûte des milliards de dollars et peut prendre des années.
Cela crée un dilemme : devrions-nous créer des puces spécialisées qui fonctionnent parfaitement dans un scénario étroit, ou continuer à produire des puces polyvalentes qui résolvent tous les problèmes de manière moyenne, mais ne nécessitent pas de remplacement complet lorsque les architectures changent ?
L’efficacité dans ce contexte est mesurée par trois paramètres principaux : le temps d’exécution, la consommation d’électricité et la production de chaleur. Ces métriques sont directement liées : plus longtemps un système fonctionne, plus il consomme d’énergie et plus il produit de chaleur. La réduction d’un paramètre améliore automatiquement les deux autres.
Voici où se trouve le « saint graal » des performances de l’IA : si au moins l’un des paramètres fondamentaux d’efficacité peut être optimisé, les autres paramètres s’améliorent presque automatiquement.
Processus durable
Avec l’utilisation croissante de puces spécialisées, le problème des risques de surproduction est devenu pressant. Actuellement, l’excédent d’équipement est déjà important, et les entreprises abordent cette question de diverses manières durables, notamment en réutilisant les ressources existantes.
Le recyclage de l’équipement est devenu un élément clé du développement durable dans les industries de haute technologie. Les puces contiennent des quantités substantielles de métaux précieux et de base, d’or, de cuivre, d’aluminium, de palladium et de matériaux rares, ainsi que des matériaux utilisés dans les microprocesseurs et les transistors. Lorsque l’équipement devient obsolète, ces ressources précieuses peuvent être renvoyées à la production, réduisant le coût des nouveaux composants tout en diminuant l’empreinte environnementale de l’industrie.
Certaines usines spécialisées et entreprises se concentrent sur le recyclage et l’extraction de métaux précieux à partir de composants obsolètes. Par exemple, certaines installations utilisent des procédés hydrométallurgiques et des méthodes chimiques avancées pour extraire de l’or et du cuivre avec un degré élevé de pureté, permettant à ces matériaux d’être réutilisés dans de nouvelles puces.
En outre, les entreprises mettent en œuvre des modèles en boucle fermée, où le vieil équipement est mis à niveau ou intégré dans de nouvelles solutions, réduisant ainsi le besoin d’extraction de ressources primaires. De telles approches ne contribuent pas seulement à minimiser les déchets, mais réduisent également l’empreinte carbone de la production, car l’extraction et le traitement traditionnels des métaux nécessitent une énergie importante.
La gestion durable du cycle de vie des puces et de l’équipement pourrait devenir une norme de l’industrie, où le progrès technologique s’aligne sur la responsabilité environnementale.












