Connect with us

IA 101

Unités de traitement neuronales (NPUs) : la force motrice derrière l’IA et l’informatique de nouvelle génération

mm

Tout comme les GPU ont autrefois éclipsé les CPU pour les charges de travail d’IA, les unités de traitement neuronales (NPUs) sont sur le point de défier les GPU en offrant des performances encore plus rapides et plus efficaces – notamment pour l’IA générative, où un traitement massif en temps réel doit se produire à une vitesse fulgurante et à un coût réduit.

La question est de savoir comment les NPUs fonctionnent, et pourquoi ils dépassent leurs prédécesseurs GPU pour les tâches d’IA modernes, et ce qui les rend indispensables pour tout, des infrastructures de centre de données robustes aux appareils grand public. Que vous planifiiez votre prochain grand déploiement d’IA ou que vous soyez simplement curieux de la pointe de la technologie, il est important de comprendre pourquoi les NPUs pourraient être la percée qui redéfinit l’IA – et la prochaine génération d’informatique.

Qu’est-ce qu’une unité de traitement neuronale (NPU) ?

Une unité de traitement neuronale (NPU) est un microprocesseur spécialisé construit desde le début pour gérer les exigences uniques des charges de travail d’IA et d’apprentissage automatique modernes. Alors que les unités centrales de traitement (CPU) et les unités de traitement graphique (GPU) ont historiquement alimenté les tâches informatiques traditionnelles et le rendu graphique, ils n’ont pas été conçus à l’origine pour résoudre l’intensité computationnelle des réseaux de neurones profonds. Les NPUs comblent cette lacune en se concentrant spécifiquement sur des opérations parallèles à débit élevé telles que les multiplications de matrices et les mathématiques de tenseurs – les fondements des modèles d’IA.

Les aspects clés qui différencient les NPUs des CPU et des GPU à usage général incluent :

  • Arithmétique d’IA optimisée : les NPUs utilisent couramment des types de données à faible précision (par exemple, des mathématiques entières 8 bits, ou même inférieures) pour équilibrer la puissance de traitement et l’efficacité énergétique, tandis que les CPU et les GPU s’appuient généralement sur des calculs à virgule flottante à plus haute précision.
  • Architecture parallélisée : les NPUs peuvent diviser les tâches d’IA en milliers (ou même en millions) de plus petites calculs qui s’exécutent simultanément, augmentant considérablement le débit.
  • Efficacité énergétique : en éliminant les instructions inutiles et en optimisant spécifiquement pour les tâches de réseau de neurones, les NPUs peuvent atteindre de meilleures performances à une puissance inférieure par rapport aux GPU ou aux CPU qui effectuent les mêmes charges de travail d’IA.

Également connus sous le nom d’accélérateurs d’IA, les NPUs apparaissent souvent comme un matériel distinct attaché aux cartes mères de serveur, ou comme partie d’un système sur puce (SoC) dans les smartphones, les ordinateurs portables ou les appareils de bord.

Pourquoi les NPUs comptent pour l’IA générative

L’explosion de l’IA générative – qui comprend les grands modèles de langage (LLM) comme ChatGPT, les outils de génération d’images comme DALL·E et les modèles de synthèse de vidéos – exige des plates-formes de calcul capables de gérer d’énormes quantités de données, de les traiter en temps réel et de les apprendre efficacement. Les processeurs traditionnels peuvent avoir du mal à répondre à ces exigences, ce qui entraîne une consommation d’énergie élevée, une latence accrue et des goulets d’étranglement de débit.

Avantages clés des NPUs pour l’IA générative

  1. Traitement en temps réel : les modèles d’IA générative tels que les transformateurs, les modèles de diffusion et les réseaux antagonistes génératifs (GAN) impliquent d’extensives opérations de matrices et de tenseurs. Les NPUs excellent dans la multiplication de matrices et l’ajout de vecteurs en parallèle, aidant les modèles génératifs à atteindre des performances à faible latence.
  2. Évolutivité : les NPUs sont conçus pour une mise à l’échelle parallèle, ce qui les rend adaptés aux grandes architectures utilisées dans l’IA générative. L’ajout de plus de cœurs NPU ou de NPUs à un cluster de centre de données peut augmenter linéairement les performances d’IA sans augmenter considérablement les coûts énergétiques.
  3. Efficacité énergétique : à mesure que la complexité des modèles génératifs augmente, leur consommation d’énergie augmente également. Les NPUs aident à maintenir l’empreinte énergétique sous contrôle en se concentrant précisément sur le type de mathématiques dont l’IA générative a besoin, en éliminant les surcoûts des autres calculs.

Caractéristiques clés des NPUs

  1. Traitement parallèle : en divisant les tâches de calcul en de nombreuses plus petites, les NPUs peuvent gérer les opérations de matrices étendues beaucoup plus rapidement que les CPU, qui exécutent généralement les instructions de manière plus linéaire ou sérielle. Ce parallélisme est critique pour les tâches d’apprentissage profond, où la formation et l’inférence impliquent de grandes quantités de données.
  2. Arithmétique à faible précision : la plupart des calculs de réseaux de neurones n’exigent pas la précision des opérations à virgule flottante 32 bits ou 64 bits. Les types de données à faible précision, tels que les entiers 8 bits, réduisent considérablement le nombre de bits traités par opération, permettant une exécution plus rapide et plus économe en énergie tout en maintenant l’exactitude du modèle.
  3. Mémoire sur puce à large bande passante : la capacité de conserver de grandes quantités de données de formation ou d’inférence près du processeur est cruciale pour les tâches d’IA. De nombreux NPUs disposent d’une mémoire à large bande passante (HBM) sur puce ou de systèmes de mémoire avancés conçus spécifiquement pour les réseaux de neurones, réduisant le besoin de communiquer constamment avec la mémoire externe.
  4. Techniques d’accélération matérielles : les architectures NPU modernes intègrent souvent des unités matérielles spécialisées comme des tableaux systoliques ou des cœurs de tenseurs, leur permettant d’effectuer des opérations de multiplication de matrices et d’autres opérations centrées sur l’IA à des vitesses incroyables avec un surcoût minimal.

Fonctionnement des NPUs : simulation du cerveau

Les NPUs s’inspirent des réseaux de neurones du cerveau humain. Tout comme des milliards de neurones et de synapses traitent l’information en parallèle, un NPU est composé de nombreux éléments de traitement capables de gérer simultanément de grandes quantités de données. Cette conception est particulièrement efficace pour des tâches telles que :

  • Reconnaissance et traitement d’images
  • Traitement du langage naturel (NLP) et reconnaissance vocale
  • Détection d’objets et navigation autonome
  • IA générative (par exemple, génération d’images et de texte)

Poids synaptiques et apprentissage

Un élément fondamental du calcul de réseau de neurones est le concept de poids, qui représentent la « force » ou l’« importance » de chaque connexion neuronale dans le réseau. Les NPUs intègrent ces poids directement dans le matériel, permettant des mises à jour plus rapides et plus économes en énergie à mesure que le modèle apprend.

Cœurs à haute capacité simplifiés

Alors que les CPU ont traditionnellement géré de multiples opérations diverses (allant de la navigation Web aux calculs de tableur), les NPUs rationalisent la conception pour se concentrer sur quelques opérations de base – comme la multiplication de matrices, les fonctions d’activation et la convolution – exécutées à plusieurs reprises en parallèle.

NPUs vs. GPU vs. CPU

Chaque type de processeur joue un rôle unique dans l’informatique moderne, bien qu’il y ait un certain chevauchement lorsqu’il s’agit de gérer les tâches d’IA. Voici un aperçu rapide :

Caractéristique CPU GPU NPU
Utilisation principale Tâches à usage général, logique et contrôle Render graphique, traitement parallèle pour les tâches HPC Traitement parallèle spécialisé pour l’IA, l’apprentissage automatique et l’apprentissage profond
Nombre de cœurs Peu (souvent 2-16 dans les puces grand public) Centaines à milliers de cœurs plus petits Matrice parallèle de cœurs spécialisés
Précision Typiquement haute précision (32 bits ou 64 bits) Mélange de précisions plus élevées et plus faibles (FP32, FP16, etc.) Se concentre sur la faible précision (8 bits ou inférieure)
Efficacité énergétique (IA) Moderée lorsqu’elle est mise à l’échelle pour une grande IA Bonne, mais peut être gourmande en énergie à grande échelle Haute efficacité, puissance plus faible par opération
Empreinte physique Intégré dans la carte mère ou le SoC Souvent des cartes autonomes (GPU distinctes) ou basées sur SoC Peut être autonome ou intégré dans le SoC (téléphones intelligents, etc.)

Résumé : Alors que les CPU restent cruciaux pour le contrôle du système et les flux de travail traditionnels, et que les GPU offrent une puissance de traitement parallèle robuste (en particulier pour les tâches graphiques lourdes), les NPUs sont conçus pour l’accélération de l’IA et fonctionnent souvent à une meilleure performance par watt pour les charges de travail d’apprentissage automatique.

Applications NPUs dans le monde réel

Centres de données et cloud AI

Les grands centres de données abritent des NPUs autonomes qui peuvent être attachés directement aux cartes mères de serveur. Ceux-ci accélèrent tout, des moteurs de recommandation (comme ceux qui alimentent Netflix et Amazon) à l’IA générative comme la génération de texte et d’images en temps réel.

Smartphones et appareils grand public

De nombreux smartphones, ordinateurs portables et tablettes haut de gamme d’aujourd’hui intègrent un NPU ou un moteur d’IA directement dans le SoC. Le Neural Engine d’Apple, l’Hexagon NPU de Qualcomm et le Neural Processing Engine de Samsung sont des exemples de solutions intégrées. Cette approche permet :

  • Le traitement d’images et de vidéos en temps réel (par exemple, flou d’arrière-plan sur les appels vidéo)
  • Les assistants vocaux sur l’appareil (avec reconnaissance vocale)
  • Les fonctionnalités intelligentes de l’appareil photo telles que la détection de scènes, la reconnaissance faciale et la stabilisation d’image avancée

Appareils de bord et IoT

Les NPUs sont devenus essentiels dans l’informatique de bord, où les appareils doivent traiter les données localement plutôt que de les envoyer au cloud. Cela est particulièrement précieux pour les applications nécessitant une faible latence, la confidentialité des données ou une rétroaction en temps réel – pensez aux appareils intelligents pour la maison, aux capteurs de l’industrie 4.0, aux drones, aux véhicules autonomes et plus encore.

Robotique

Des robots de stock automatisés aux assistants chirurgicaux robotisés, les NPUs peuvent prendre des décisions en un éclair sur la base des entrées des capteurs. Leur capacité à gérer les flux vidéo (détection d’objets et reconnaissance de modèles) et d’autres données de capteurs rapidement est transformatrice pour la prochaine génération de robots autonomes et semi-autonomes.

NPUs pour l’informatique de bord et l’IA sur l’appareil

Pourquoi l’informatique de bord compte

À mesure que l’IA se propage dans les accessoires, les capteurs à distance et d’autres appareils de l’Internet des objets (IoT), la capacité de traiter les données près de la source (plutôt que dans le cloud) peut être plus critique que jamais. L’IA de bord réduit les coûts de transfert de données, atténue les problèmes de latence et garde les informations sensibles sur l’appareil – améliorant à la fois la sécurité et la confidentialité.

Rôle des NPUs dans l’IA de bord

  1. Consommation d’énergie faible : les appareils de bord étant souvent alimentés par batterie ou gourmands en énergie, ils ont besoin d’un processeur d’IA qui puisse fonctionner sans épuiser les ressources. Les NPUs, optimisés pour les opérations de matrices efficaces, sont parfaitement adaptés.
  2. Connaissances en temps réel : que ce soit pour détecter des anomalies dans une usine ou réorienter un drone en plein vol, les décisions d’inférence en un éclair peuvent faire ou défaire la viabilité d’une application. Les NPUs offrent cette capacité avec un surcoût minimal.
  3. Applications sur smartphone : avec l’émergence de l’IA générative sur l’appareil, les NPUs dans les smartphones sont déjà en train d’alimenter des fonctionnalités de caméra avancées, des traductions de langage en temps réel et une assistance vocale contextuelle.

Le futur des NPUs et de l’IA

À mesure que l’IA générative continue d’augmenter exponentiellement en capacité, les exigences en matière de calcul haute performance et ultra-efficace augmenteront également. Déjà, les fabricants de matériel comme Intel, AMD, Nvidia, Apple, Qualcomm et Samsung sont en train de concurrencer ou d’affiner leurs propres architectures NPU. De même, les centres de données passent à des modèles de calcul hétérogènes – où les CPU, les GPU et les NPUs coexistent – pour gérer des charges de travail de plus en plus spécialisées à grande échelle.

NPUs pour l’IA générative de nouvelle génération

  • Latence plus faible : les NPUs futurs pourraient atteindre une inférence en temps réel presque instantanée, rendant les assistants personnels virtuels et la génération de contenu en temps réel une partie intégrante de la vie quotidienne.
  • Ajustements de modèle en temps réel : à mesure que les modèles deviennent plus dynamiques – en ajustant leur architecture et leurs poids en temps réel – les NPUs évolueront pour gérer des scénarios d’apprentissage en ligne continus.
  • Au-delà de la vision et du langage : l’IA générative s’étendra bientôt à des sorties multisensorielles complexes, notamment une rétroaction haptique en temps réel, une génération d’objets 3D ou même des expériences audiovisuelles immersives.

Collaboration multi-processeur

L’informatique hétérogène consiste à exploiter le bon processeur pour le bon travail. Le CPU gère les tâches généralisées et l’orchestration, le GPU s’attaque aux opérations parallèles à grande échelle (comme les graphiques ou les grandes opérations de matrices), et le NPU alimente les tâches d’IA spécialisées – en particulier l’inférence de réseau de neurones à grande échelle.

Dans ce scénario futur, les applications deviennent plus flexibles et plus puissantes :

  • Art génératif peut s’exécuter localement, avec votre NPU gérant les tâches de transfert de style ou de mise à l’échelle en temps réel.
  • Logiciel d’entreprise qui nécessite un traitement d’IA basé sur le langage naturel peut déléguer la correction grammaticale et la compréhension contextuelle aux NPUs tandis que le CPU coordonne avec le GPU pour la visualisation des données.
  • Simulations complexes dans la recherche scientifique peuvent être divisées entre CPU, GPU et NPUs pour gérer efficacement des milliards de points de données.

Innovation rapide du matériel et du logiciel

En raison de la nécessité d’une mise à l’échelle rapide de l’IA, les innovations matérielles et logicielles s’accélèrent :

  • Ensembles d’instructions personnalisés : de nombreux NPUs sont développés avec des ensembles d’instructions propriétaires alignés sur les algorithmes d’IA en évolution.
  • Frameworks d’IA unifiés : les frameworks d’IA (par exemple, TensorFlow, PyTorch, ONNX) continuent d’optimiser pour les backends NPU, simplifiant les flux de travail des développeurs.
  • Convergence du cloud et du bord : les mêmes charges de travail d’IA qui étaient autrefois reléguées au cloud peuvent désormais être réparties sur les GPU et les NPUs du cloud, ou directement sur les appareils de bord.

Conclusion

Les unités de traitement neuronales (NPUs) amorcent une nouvelle ère de matériel d’IA conçu à des fins spécifiques, répondant directement aux défis posés par l’apprentissage profond, l’IA générative et le traitement de grandes quantités de données. En se concentrant sur des charges de travail parallèles à faible précision, les NPUs offrent des performances, une efficacité énergétique et une évolutivité sans précédent – des avantages qui sont primordiaux non seulement pour l’IA cloud de pointe mais également pour les appareils grand public et les applications émergentes de bord.

Leur importance dans le futur de l’IA ne peut être surestimée. À mesure que la demande d’IA générative sur l’appareil explose et que l’informatique hétérogène devient la norme, les NPUs deviendront probablement aussi essentiels aux systèmes d’IA que le CPU l’a été pour l’informatique traditionnelle. Que ce soit pour permettre la traduction de langage en temps réel sur votre smartphone ou pour orchestrer les grands modèles de langage dans le centre de données, le NPU est sur le point de transformer la façon dont les machines apprennent et interagissent avec le monde – offrant un aperçu d’un avenir de calcul encore plus intelligent, personnalisé et économe en énergie.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.