Des leaders d'opinion
Le Saint Graal de la puissance de calcul en IA

Malgré des progrès incroyables, les capacités de l'intelligence artificielle restent limitées au regard des attentes du monde réel. Nous élaborons des modèles complexes, exécutons des réseaux neuronaux et testons des algorithmes, mais les progrès stagnent parfois là où on s'y attend le moins.
Le problème réside souvent non pas dans les algorithmes ou les données, mais dans la puissance de calcul, c'est-à -dire les ressources nécessaires pour que les modèles apprennent et fonctionnent à l'échelle requise. Alors, qu'est-ce qui se cache derrière cet obstacle ? Examinons la ressource essentielle sans laquelle même les projets d'IA les plus prometteurs ne peuvent quitter le laboratoire.
Le déficit de puissance de calcul et ses conséquences
Pour comprendre ce sujet, commençons par un historique des communications mobiles. Avec l'apparition des réseaux 3G, puis 4G, Internet était déjà quasiment mondial. Et lors de l'arrivée de la 5G, beaucoup se sont posé une question tout à fait légitime : « Internet sera plus rapide, et alors ? »
En réalité, l'augmentation de la vitesse d'Internet ne se résume pas à un simple gain de confort pour l'utilisateur. Elle transforme en profondeur le paysage technologique. De nouveaux usages, auparavant impossibles, voient le jour. La 5G s'est avérée bien plus rapide que la 4G, et ce bond en avant n'a pas été progressif, comme le passage de la 1G à la 2G, mais exponentiel. De ce fait, de nouvelles applications, de nouveaux appareils et des pans entiers de technologies peuvent apparaître.
Caméras de surveillance des feux de circulation, systèmes d'analyse du trafic en temps réel et mécanismes de régulation automatisée du trafic : tout cela est rendu possible grâce aux nouvelles technologies de communication. Les forces de l'ordre disposent de nouveaux moyens d'échanger des données et, dans l'espace, les télescopes et les satellites peuvent transmettre d'énormes quantités d'informations vers la Terre. Un progrès significatif dans une technologie fondamentale stimule le développement de l'ensemble de l'écosystème.
Le même principe s'applique à la puissance de calcul. Imaginons la capacité de calcul totale de l'humanité exprimée en unités hypothétiques. Aujourd'hui, nous pourrions en disposer d'une dizaine. Grâce à elles, nous pouvons générer des images et des vidéos, rédiger des textes, créer des supports marketing… C'est déjà considérable, mais le champ d'application reste limité.
Imaginez maintenant que nous disposions non pas de dix, mais de mille unités de ce type. Soudain, des technologies auparavant trop coûteuses deviennent accessibles, et des start-ups abandonnées en raison de coûts de calcul élevés commencent à être économiquement viables.
Prenons l'exemple des robotaxis. Aujourd'hui, ils reposent principalement sur des ordinateurs embarqués relativement peu puissants. Or, si le flux vidéo était transmis vers le cloud, doté d'énormes ressources de calcul, les données pourraient être traitées et renvoyées en temps réel. Et c'est crucial : une voiture roulant à 100 km/h doit prendre des décisions en une fraction de seconde : continuer tout droit, tourner, freiner ou ne pas freiner.
C’est alors qu’une véritable industrie des robotaxis deviendra possible, et non plus de simples solutions isolées comme celles que nous connaissons aujourd’hui. Tout ordinateur embarqué présente des limitations intrinsèques, contrairement à un système connecté. Plus vite nous pourrons déployer cette technologie à grande échelle, plus vite le monde qui nous entoure évoluera.
L'accès aux puces et au « ticket d'or » de l'IA
Dans le contexte de la puissance de calcul, une question se pose : l’accès aux puces modernes est-il en train de devenir le sésame pour entrer sur le marché de l’IA ? Les grands acteurs qui signent des contrats avec les fabricants de puces, ou qui les produisent eux-mêmes, creusent-ils un fossé entre les grandes entreprises et tous les autres ?
Un tel écart n'apparaît que dans un seul cas : celui d'un modèle économique axé exclusivement sur la vente de puces aux grands comptes. En pratique, des fabricants comme NVIDIA visent à fournir des solutions cloud à tous. Leurs puces optimisées sont disponibles dans le cloud aussi bien pour OpenAI que pour les développeurs indépendants.
Même les alliances stratégiques entre des entreprises comme Google, Anthropic, Microsoft, OpenAI, Amazon et NVIDIA sont avant tout des partenariats de partage de ressources, et non des tentatives de monopoliser le marché. Ce modèle permet une allocation efficace de la puissance de calcul, accélérant ainsi le développement technologique.
Si l'on retrace la chaîne d'utilisation des ressources informatiques, elle commence avec l'utilisateur final. Par exemple, lorsque vous utilisez WhatsApp pour les appels vidéo et la messagerie, l'entreprise doit s'assurer du bon fonctionnement du service : stockage et traitement des données, exécution de modèles pour le nettoyage vidéo, ajout d'effets et amélioration de la qualité d'image.
Maintenir des serveurs propriétaires est coûteux, ils deviennent obsolètes et nécessitent une maintenance constante. C'est pourquoi les solutions cloud, ou « le cloud », ont émergé. Le marché est dominé par trois acteurs : Google Cloud, AWS et Microsoft Azure. Les autres entreprises ne peuvent rivaliser à ce niveau : l'infrastructure est trop vaste.
Les services cloud sont d'immenses centres de données dotés de systèmes de refroidissement, d'alimentation électrique et d'une maintenance continue. Ils hébergent des serveurs et des puces spécialisées de NVIDIA, AMD et d'autres fabricants, permettant des calculs à grande échelle.
Nous en arrivons ici à la question clé que j'ai abordée dans mon Article précédent sur les centres de donnéesJe souhaite poursuivre ma question : quel est le principal goulot d’étranglement de ce système ? Est-ce la pénurie d’électricité ou la difficulté de refroidir les centres de données dans les régions où le climat est particulièrement aride ? En réalité, le secret réside dans les puces elles-mêmes…
Le Saint-Graal
Pourquoi NVIDIA est-elle aujourd'hui valorisée à environ 5 000 milliards de dollars et compte-t-elle parmi les entreprises cotées en bourse les plus prospères au monde ? La raison est simple : NVIDIA produit les puces sur lesquelles les modèles d'IA sont entraînés et effectuent des inférences.
Chacune de ces puces consomme d'énormes quantités d'électricité lors de l'entraînement de modèles complexes ou du traitement de volumes de données toujours croissants. Mais cette énergie est-elle utilisée efficacement ? C'est là qu'interviennent les puces spécialisées ; elles gèrent des tâches spécifiques avec une efficacité bien supérieure à celle des GPU généralistes.
Les modèles d'IA diffèrent. OpenAI, par exemple, propose une famille de modèles, Anthropic une autre. Si les concepts peuvent être similaires, les structures mathématiques et les processus de calcul sont différents. Une seule puce à usage général, utilisée pour l'entraînement de modèles OpenAI (comme ChatGPT) ou de modèles Anthropic (comme Claude), se comporte comme un outil unique, consommant par exemple 100 000 heures de calcul pour un modèle et 150 000 pour un autre. L'efficacité varie considérablement et est rarement optimale.
Les entreprises résolvent ce problème en produisant des puces spécialisées. Par exemple, une puce peut être optimisée pour l'architecture ChatGPT et l'entraîner en 20 minutes, tandis qu'une autre, adaptée à l'architecture d'Anthropic, effectue également un entraînement en 20 minutes. La consommation d'énergie et le temps d'entraînement sont ainsi considérablement réduits par rapport à une puce standard.
Lorsque ces puces sont vendues à de grandes entreprises comme Google, Amazon, Microsoft ou Azure, elles sont proposées comme produits autonomes. Les utilisateurs peuvent choisir, par exemple, une puce optimisée pour un modèle YOLO ou une puce plus simple et moins coûteuse pour une architecture Xen. Ainsi, les entreprises accèdent à des ressources de calcul précisément adaptées à leurs tâches, au lieu d'acheter des GPU à usage général. Si un utilisateur a dix fonctions différentes, il peut utiliser dix puces spécialisées différentes.
La tendance est claire : les puces spécialisées remplacent progressivement les puces à usage général. De nombreuses start-ups travaillent désormais avec des ASIC (circuits intégrés spécifiques à une application), des puces conçues pour des tâches de calcul précises. Les premiers ASIC sont apparus pour le minage de Bitcoin : initialement, la cryptomonnaie était minée sur des GPU NVIDIA, puis des puces ont été créées exclusivement pour le Bitcoin et étaient incapables d’effectuer d’autres tâches.
Je le constate en pratique : une même configuration matérielle peut produire des résultats complètement différents selon la tâche. Dans ma startup Introspecteur, nous étudions ces processus dans des projets réels, et en tant que conseiller stratégique de Marqueur de clésJ'observe comment les clients gagnent en efficacité grâce à des puces spécialisées, permettant une exécution plus rapide des modèles. Les projets qui stagnaient auparavant lors de l'entraînement ou de l'inférence obtiennent des résultats stables grâce à cette approche.
Cependant, une spécialisation trop poussée comporte des risques. Une puce optimisée pour l'architecture d'Anthropic ne conviendra pas à l'entraînement des modèles OpenAI, et inversement. Chaque nouvelle architecture requiert une nouvelle génération de matériel, engendrant un risque d'obsolescence massive. Si Anthropic lance une nouvelle architecture demain, toutes les puces de la génération précédente deviendront obsolètes, voire inutilisables. La production de nouvelles puces coûte des milliards de dollars et peut prendre des années.
Cela crée un dilemme : devons-nous fabriquer des puces spécialisées qui fonctionnent parfaitement dans un scénario précis, ou continuer à produire des puces à usage général qui résolvent assez bien toutes les tâches mais qui ne nécessitent pas un remplacement complet lorsque les architectures changent ?
Dans ce contexte, l'efficacité se mesure par trois paramètres principaux : la durée de fonctionnement, la consommation d'électricité et la production de chaleur. Ces paramètres sont directement liés : plus un système fonctionne longtemps, plus il consomme d'énergie et plus il produit de chaleur. Réduire l'un de ces paramètres améliore automatiquement les deux autres.
C’est là que réside le « Saint Graal » des performances de l’IA : si au moins l’un des indicateurs d’efficacité fondamentaux peut être optimisé, les autres indicateurs s’améliorent presque automatiquement eux aussi.
Processus durable
Avec l'utilisation croissante de puces spécialisées, la question des risques de surproduction est devenue cruciale. Actuellement, le surplus d'équipements est déjà important et les entreprises s'attaquent à ce problème de diverses manières durables, notamment par la réutilisation des ressources existantes.
Le recyclage des équipements est devenu un élément clé du développement durable dans les industries de haute technologie. Les puces contiennent des quantités importantes de métaux précieux et communs, tels que l'or, le cuivre, l'aluminium, le palladium et les terres rares, ainsi que des matériaux utilisés dans les microprocesseurs et les transistors. Une fois obsolètes, ces équipements permettent de réintégrer ces précieuses ressources dans la production, réduisant ainsi le coût des nouveaux composants et l'impact environnemental du secteur.
Certaines usines et entreprises spécialisées se concentrent sur le recyclage et l'extraction de métaux précieux à partir de composants obsolètes. Par exemple, certaines installations utilisent des procédés hydrométallurgiques et des méthodes chimiques avancées pour extraire de l'or et du cuivre d'une grande pureté, permettant ainsi leur réutilisation dans la fabrication de nouvelles puces.
De plus, les entreprises mettent en œuvre des modèles en boucle fermée, où les équipements anciens sont modernisés ou intégrés à de nouvelles solutions, réduisant ainsi le besoin d'extraction de ressources primaires. Ces approches contribuent non seulement à minimiser les déchets, mais aussi à réduire l'empreinte carbone de la production, car l'exploitation minière et le traitement des métaux traditionnels nécessitent une énergie considérable.
La gestion durable du cycle de vie des puces et des équipements pourrait devenir une norme industrielle, où le progrès technologique s'aligne sur la responsabilité environnementale.








