Connect with us

Pourquoi l’inférence IA, et non la formation, est le prochain grand défi d’ingénierie

Intelligence artificielle

Pourquoi l’inférence IA, et non la formation, est le prochain grand défi d’ingénierie

mm

Pour la dernière décennie, le projecteur dans l’intelligence artificielle a été monopolisé par la formation. Les avancées sont largement venues de grands clusters de calcul, de modèles à trillion de paramètres, et des milliards de dollars dépensés pour enseigner aux systèmes à “penser”. Nous avons traité le développement de l’IA principalement comme un projet de construction : construire le gratte-ciel de l’intelligence. Mais maintenant que ce gratte-ciel a été construit, le véritable défi est de savoir comment faciliter les millions de personnes qui ont besoin de vivre et d’opérer à l’intérieur simultanément. Cela déplace le focus des chercheurs et des ingénieurs en IA de la formation (l’acte de créer l’intelligence) à l’inférence (l’acte de l’utiliser). Alors que la formation est un investissement massif et ponctuel (CapEx), l’inférence est un coût opérationnel continu (OpEx) qui se poursuit indéfiniment. Alors que les entreprises déployent des agents servant des millions d’utilisateurs autour de l’horloge, elles découvrent une dure réalité : l’inférence n’est pas seulement “la formation à l’envers”. C’est un défi d’ingénierie fondamentalement différent, et peut-être plus difficile.

Pourquoi les coûts d’inférence comptent plus que jamais

Pour comprendre le défi d’ingénierie, il faut d’abord comprendre l’impératif économique sous-jacent. Dans la phase de formation, l’inefficacité est tolérable. Si une session de formation prend quatre semaines au lieu de trois, c’est une nuisance. Dans l’inférence, cependant, l’inefficacité peut être catastrophique pour les entreprises. Par exemple, former un modèle de pointe peut coûter 100 millions de dollars. Mais déployer ce modèle pour répondre à 10 millions de requêtes par jour peut dépasser ce coût en quelques mois si ce n’est pas optimisé. C’est pourquoi nous assistons à un déplacement du marché, avec les investissements dans l’inférence prévus pour dépasser les investissements dans la formation.

Pour les ingénieurs, cela déplace les buts. Nous n’optimisons plus pour le débit (à quelle vitesse puis-je traiter ce grand ensemble de données ?). Nous optimisons pour la latence (à quelle vitesse puis-je renvoyer un seul jeton ?) et la concurrence (combien d’utilisateurs puis-je servir sur un seul GPU ?). L’approche “brute force” qui a dominé la phase de formation en ajoutant simplement plus de calculs ne fonctionne pas ici. Vous ne pouvez pas jeter plus de H100 sur un problème de latence si le goulet d’étranglement est la bande passante de la mémoire.

Le mur de la mémoire : le véritable goulet d’étranglement

La vérité peu connue sur l’inférence des grands modèles de langage (LLM) est qu’elle est rarement limitée par le calcul ; elle est contrainte par la mémoire. Pendant la formation, nous traitons les données en grands lots, en gardant les unités de calcul de la GPU entièrement utilisées. Dans l’inférence, en particulier pour les applications en temps réel comme les chatbots ou les agents, les requêtes arrivent de manière séquentielle. Chaque jeton généré nécessite que le modèle charge ses milliards de paramètres à partir de la mémoire à large bande passante (HBM) dans les cœurs de calcul. C’est le “Mur de la mémoire“. C’est comme avoir un moteur de Ferrari (le cœur de la GPU) coincé dans un embouteillage (la bande passante de la mémoire limitée).

Ce défi pousse les équipes d’ingénieurs à repenser l’architecture du système jusqu’au niveau du silicium. C’est pourquoi nous voyons l’émergence de Unités de traitement linéaire (LPUs) comme celles de Groq, et d’unités de traitement neuronales spécialisées Neural Processing Units (NPUs). Ces puces sont conçues pour contourner le goulet d’étranglement de la HBM en utilisant de grandes quantités de SRAM sur la puce, en traitant l’accès à la mémoire comme un flux de données continu plutôt que comme une simple opération de récupération. Pour l’ingénieur logiciel, cela signale la fin de l’ère “par défaut à CUDA”. Nous devons maintenant écrire du code qui est conscient du matériel, en comprenant exactement comment les données se déplacent dans le fil.

La nouvelle frontière de l’efficacité de l’IA

Puisque nous ne pouvons pas toujours modifier le matériel, la prochaine frontière de l’ingénierie réside dans l’optimisation logicielle. C’est là que certaines des innovations les plus innovantes se produisent actuellement. Nous assistons à un renouveau de techniques qui redéfinissent la façon dont les ordinateurs mettent en œuvre et exécutent les réseaux de neurones.

  • Batching continu : Le batching traditionnel attend que le “bus” se remplisse avant de partir, ce qui introduit des retards. Le batching continu (pionnier par des frameworks comme vLLM) agit comme un système de métro, permettant aux nouvelles requêtes de rejoindre ou de quitter le train de traitement de la GPU à chaque itération. Il maximise le débit sans sacrifier la latence, en résolvant un problème de planification complexe qui nécessite une expertise approfondie au niveau du système d’exploitation.
  • Décodage spéculatif : Cette technique emploie un petit modèle rapide et peu coûteux pour ébaucher une réponse, tandis qu’un plus grand modèle plus lent et plus capable la vérifie en parallèle. Elle repose sur le fait que vérifier du texte est beaucoup moins coûteux en termes de calcul que le générer.
  • Gestion du cache KV : Dans les longues conversations, l’histoire (le cache clé-valeur) croît rapidement, consommant de grandes quantités de mémoire de la GPU. Les ingénieurs mettent maintenant en œuvre un “PagedAttention“, une technique inspirée de la pagination de la mémoire virtuelle dans les systèmes d’exploitation. Cette technique divise la mémoire en fragments et la gère de manière non contiguë.

La complexité agente

Si l’inférence standard est difficile, l’IA agente la rend exponentiellement plus difficile. Un chatbot standard est sans état : l’utilisateur pose une question, l’IA répond, le processus se termine. Un agent IA, cependant, a une boucle. Il planifie, exécute des outils, observe les résultats et itère. Du point de vue de l’ingénierie, c’est un cauchemar. Ce déplacement architectural introduit plusieurs défis fondamentaux :

  1. Gestion de l’état : Le moteur d’inférence doit maintenir l’état du processus de réflexion de l’agent sur plusieurs étapes, souvent sur plusieurs minutes.
  2. Boucles infinies : Contrairement à un passage avant prévisible, un agent peut se retrouver coincé dans une boucle de raisonnement. Mettre en œuvre des “chiens de garde” et des “disjoncteurs” robustes pour du code probabiliste est un domaine entièrement nouveau.
  3. Calcul variable : Une requête utilisateur peut déclencher un seul appel d’inférence, tandis qu’une autre peut en déclencher cinquante. Gérer la charge et l’infrastructure d’auto-échelonnement lorsque chaque requête comporte une variance extrême nécessite une toute nouvelle classe de logique d’orchestration.

Nous passons essentiellement de “servir des modèles” à “orchestrer des architectures cognitives”.

Apporter l’IA aux appareils du quotidien

Enfin, les limites de l’énergie et de la latence du réseau finiront par forcer l’inférence à la périphérie. Nous ne pouvons pas nous attendre à ce que chaque ampoule intelligente, véhicule autonome ou robot d’usine achemine ses requêtes via un centre de données. Le défi d’ingénierie ici est la compression. Comment faire pour intégrer un modèle qui a appris à partir de l’ensemble d’Internet sur une puce plus petite qu’une ongle, fonctionnant sur une batterie ?

Des techniques comme la quantification (en réduisant la précision de 16 bits à 4 bits ou même 1 bit) et la distillation de modèle (en enseignant un petit modèle étudiant à imiter un grand modèle enseignant) deviennent des pratiques standard. Mais le véritable défi est de déployer ces modèles sur un écosystème fragmenté de milliards d’appareils comme Android, iOS, Linux intégré, capteurs personnalisés, chacun avec ses propres contraintes matérielles. C’est le “cauchemar de fragmentation” du développement mobile, multiplié par la complexité des réseaux de neurones.

Le fond du problème

Nous entrons dans l’ère “Jour 2” de l’IA générative. Le Jour 1 était à propos de démontrer que l’IA pouvait écrire de la poésie. Le Jour 2 est à propos de l’ingénierie, en rendant cette capacité plus fiable, abordable et omniprésente. Les ingénieurs qui définiront la prochaine décennie ne sont pas nécessairement ceux qui inventent de nouvelles architectures de modèles. Ce sont les ingénieurs de systèmes, les hackers de noyau et les architectes d’infrastructure qui peuvent déterminer comment servir un milliard de jetons par seconde sans faire fondre le réseau électrique ou banquerouter l’entreprise. L’inférence IA n’est plus juste un détail de runtime. C’est le produit. Et l’optimiser est le prochain grand défi d’ingénierie.

Dr. Tehseen Zia est un professeur associé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en intelligence artificielle de l'Université technique de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté des contributions significatives avec des publications dans des revues scientifiques réputées. Dr. Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi en tant que consultant en intelligence artificielle.