Suivez nous sur

Pourquoi l'inférence en IA, et non l'entraînement, est le prochain grand défi de l'ingénierie

Intelligence Artificielle

Pourquoi l'inférence en IA, et non l'entraînement, est le prochain grand défi de l'ingénierie

mm

Ces dix dernières années, l'intelligence artificielle a été largement dominée par l'apprentissage automatique. Les avancées majeures sont principalement dues aux immenses clusters de calcul, aux modèles à mille milliards de paramètres et aux milliards de dollars investis dans l'apprentissage de la pensée par les systèmes. Nous avons appréhendé le développement de l'IA comme un chantier : l'édification du gratte-ciel de l'intelligence. Mais maintenant que ce gratte-ciel est construit, le véritable défi consiste à trouver comment permettre aux millions d'utilisateurs d'y vivre et d'y travailler simultanément. Ce constat déplace l'attention des chercheurs et des ingénieurs en IA. Formation (La création de renseignements) cède la place à l'inférence (l'utilisation de ces renseignements). Si la formation représente un investissement initial important (CapEx), l'inférence constitue une dépense opérationnelle continue (OpEx) qui se poursuit indéfiniment. À mesure que les entreprises déploient des agents pour des millions d'utilisateurs 24 h/24 et 7 j/7, elles découvrent une dure réalité : l'inférence n'est pas simplement une « formation à l'envers ». Il s'agit d'un défi d'ingénierie fondamentalement différent, et peut-être plus complexe.

Pourquoi les coûts d'inférence sont plus importants que jamais

Pour comprendre le défi technique, il faut d'abord saisir l'impératif économique sous-jacent. Lors de la phase d'entraînement, une certaine inefficacité est tolérable. Si un entraînement dure quatre semaines au lieu de trois, c'est un désagrément. En revanche, lors de l'inférence, l'inefficacité peut être catastrophique pour l'entreprise. Par exemple, l'entraînement d'un modèle de pointe peut coûter 100 millions de dollars. Mais déployer ce modèle pour répondre à 10 millions de requêtes par jour peut s'avérer très coûteux. dépasser ce coût En l'absence d'optimisation, cela pourrait se produire en quelques mois. C'est pourquoi nous assistons à une évolution du marché, avec des investissements inférentiels. projetée surpasser les investissements en formation.

Pour les ingénieurs, cela change la donne. On n'optimise plus le débit (à quelle vitesse puis-je traiter cet immense ensemble de données ?), mais la latence (à quelle vitesse puis-je renvoyer un jeton ?) et la concurrence (combien d'utilisateurs puis-je servir sur un seul GPU ?). L'approche par « force brute » qui a dominé la phase d'entraînement, consistant simplement à ajouter des unités de calcul, est inefficace ici. On ne peut pas résoudre un problème de latence en multipliant les H100 si le goulot d'étranglement est la bande passante mémoire.

Le mur de la mémoire : le véritable goulot d'étranglement

Ce que l'on ignore souvent à propos de l'inférence des grands modèles de langage (LLM), c'est qu'elle est rarement limitée par la puissance de calcul, mais par la mémoire. Lors de l'entraînement, les données sont traitées par lots massifs, exploitant pleinement les unités de calcul du GPU. En inférence, notamment pour les applications temps réel comme les chatbots ou les agents, les requêtes arrivent séquentiellement. Chaque jeton généré nécessite que le modèle charge ses milliards de paramètres depuis la mémoire. mémoire à large bande passante (HBM) dans les cœurs de calcul. C'est le «Mur de mémoire« C'est comme avoir un moteur Ferrari (le cœur du GPU) coincé dans un embouteillage (la bande passante mémoire limitée). »

Ce défi pousse les équipes d'ingénierie à repenser l'architecture système jusqu'au niveau du silicium. C'est pourquoi nous assistons à l'essor de Unités de traitement linéaire (LPU) comme ceux de Groq, et spécialisés Unités de traitement neuronal (NPU)Ces puces sont conçues pour contourner le goulot d'étranglement de la mémoire HBM en utilisant une quantité massive de SRAM intégrée, traitant l'accès à la mémoire comme un flux de données continu plutôt que comme une simple opération de lecture. Pour l'ingénieur logiciel, cela marque la fin de l'ère du « CUDA par défaut ». Il est désormais impératif d'écrire du code prenant en compte le fonctionnement du matériel et comprenant précisément comment les données transitent.

La nouvelle frontière de l'efficacité de l'IA

Comme il est impossible de toujours modifier le matériel, l'avenir de l'ingénierie réside dans l'optimisation logicielle. C'est là que se produisent actuellement certaines des avancées les plus novatrices. Nous assistons à une renaissance des techniques qui redéfinissent la manière dont les ordinateurs implémentent et exécutent les réseaux neuronaux.

  • Dosage en continu : Le système de regroupement traditionnel attend qu'un « bus » soit plein avant de partir, ce qui engendre des retards. Dosage continu (Initié par des frameworks comme vLLM) fonctionne comme un métro, permettant à de nouvelles requêtes de rejoindre ou de quitter le train de traitement GPU à chaque itération. Il maximise le débit sans sacrifier la latence, résolvant un problème d'ordonnancement complexe qui exige une expertise approfondie au niveau du système d'exploitation.
  • Décodage spéculatif: Cette technique utilise un modèle léger, rapide et peu coûteux pour rédiger une réponse, tandis qu'un modèle plus volumineux, plus lent et plus performant la vérifie en parallèle. Elle repose sur le fait que la vérification d'un texte est bien moins gourmande en ressources de calcul que sa génération.
  • Gestion du cache KV: Lors de longues conversations, l’« historique » (le cache clé-valeur) croît rapidement, consommant une grande quantité de mémoire GPU. Les ingénieurs implémentent actuellement…PagedAttentionCette technique s'inspire de la pagination de la mémoire virtuelle des systèmes d'exploitation. Elle consiste à diviser la mémoire en fragments et à la gérer de manière non contiguë.

La complexité agentive

Si l'inférence classique est complexe, l'IA agentique la rend exponentiellement plus difficile. Un chatbot standard est sans état : l'utilisateur pose une question, l'IA répond, et le processus s'arrête. Un agent IA, en revanche, possède une boucle. Il planifie, exécute des outils, observe les résultats et itère. D'un point de vue technique, c'est un véritable casse-tête. Ce changement d'architecture soulève plusieurs défis fondamentaux :

  1. Gestion de l'État : Le moteur d'inférence doit maintenir « l'état » du processus de pensée de l'agent sur plusieurs étapes, s'étalant souvent sur plusieurs minutes.
  2. Boucles infinies : Contrairement à une propagation avant prévisible, un agent peut se retrouver bloqué dans une boucle de raisonnement. La conception de mécanismes de surveillance et de protection robustes pour le code probabiliste constitue un domaine entièrement nouveau.
  3. Calcul variable : Une requête utilisateur peut déclencher un seul appel d'inférence, tandis qu'une autre peut en déclencher cinquante. La gestion de la charge et de l'infrastructure de mise à l'échelle automatique lorsque chaque requête présente une telle variation exige une logique d'orchestration entièrement nouvelle.

Nous passons essentiellement de « modèles de service » à « l’orchestration d’architectures cognitives ».

L'IA au service des appareils du quotidien

Enfin, les limites énergétiques et la latence du réseau contraindront inévitablement l'inférence à se faire en périphérie. On ne peut pas s'attendre à ce que chaque ampoule connectée, véhicule autonome ou robot industriel achemine ses requêtes via un centre de données. Le défi technique réside ici dans la compression. Comment faire tenir un modèle ayant appris de l'ensemble d'Internet sur une puce plus petite qu'un ongle, alimentée par une batterie ?

Techniques comme quantification (réduisant la précision de 16 bits à 4 bits, voire à 1 bit) et modèle de distillation L'apprentissage par l'observation d'un modèle étudiant simplifié pour qu'il imite un modèle enseignant plus complexe se généralise. Cependant, le véritable défi réside dans le déploiement de ces modèles au sein d'un écosystème fragmenté composé de milliards d'appareils tels qu'Android, iOS, Linux embarqué et des capteurs personnalisés, chacun présentant ses propres contraintes matérielles. C'est le cauchemar de la fragmentation propre au développement mobile, amplifié par la complexité des réseaux neuronaux.

Conclusion

Nous entrons dans la deuxième phase de l'IA générative. La première phase consistait à démontrer que l'IA pouvait écrire de la poésie. La seconde est consacrée à l'ingénierie, afin de rendre cette capacité plus fiable, abordable et omniprésente. Les ingénieurs qui façonneront la prochaine décennie ne sont pas forcément ceux qui inventent de nouvelles architectures de modèles. Ce sont les ingénieurs système, les experts en noyaux et les architectes d'infrastructure capables de gérer un milliard de jetons par seconde sans saturer le réseau électrique ni ruiner l'entreprise. L'inférence de l'IA n'est plus un simple détail d'exécution. Elle est le produit. Et son optimisation représente le prochain grand défi d'ingénierie.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.