Connect with us

L’essor des unités de traitement neuronales : amélioration de l’IA générative sur appareil pour la vitesse et la durabilité

Intelligence artificielle

L’essor des unités de traitement neuronales : amélioration de l’IA générative sur appareil pour la vitesse et la durabilité

mm

L’évolution de l’IA générative ne se contente pas de réinventer notre interaction et nos expériences avec les appareils de calcul, mais elle redéfinit également le calcul lui-même. L’un des principaux moteurs de cette transformation est le besoin d’exécuter l’IA générative sur des appareils à ressources computationnelles limitées. Cet article discute des défis que cela présente et de la manière dont les unités de traitement neuronales (NPUs) émergent pour les résoudre. De plus, l’article présente certains des derniers processeurs NPU qui ouvrent la voie dans ce domaine.

Les défis de l’infrastructure d’IA générative sur appareil

L’IA générative, la force motrice derrière la synthèse d’images, la génération de texte et la composition musicale, exige des ressources computationnelles considérables. Conventionallement, ces exigences ont été satisfaites en exploitant les vastes capacités des plateformes cloud. Bien que cela soit efficace, cette approche comporte son propre ensemble de défis pour l’IA générative sur appareil, notamment la dépendance à la connectivité internet constante et à l’infrastructure centralisée. Cette dépendance introduit de la latence, des vulnérabilités de sécurité et une consommation d’énergie accrue.

Le fondement de l’infrastructure d’IA basée sur le cloud repose largement sur les unités centrales de traitement (CPUs) et les unités de traitement graphique (GPUs) pour gérer les exigences computationnelles de l’IA générative. Cependant, lorsqu’elles sont appliquées à l’IA générative sur appareil, ces processeurs rencontrent des obstacles importants. Les CPUs sont conçus pour des tâches à usage général et manquent d’architecture spécialisée nécessaire pour une exécution efficace et à faible consommation d’énergie des charges de travail d’IA générative. Leurs capacités de traitement parallèle limitées entraînent une diminution du débit, une latence accrue et une consommation d’énergie plus élevée, ce qui les rend moins idéales pour l’IA sur appareil. D’un autre côté, bien que les GPUs puissent exceller dans le traitement parallèle, elles sont principalement conçues pour des tâches de traitement graphique. Pour effectuer efficacement des tâches d’IA générative, les GPUs nécessitent des circuits intégrés spécialisés, qui consomment une grande quantité de puissance et génèrent une chaleur importante. De plus, leur grande taille physique crée des obstacles à leur utilisation dans des applications compactes sur appareil.

L’émergence des unités de traitement neuronales (NPUs)

En réponse aux défis ci-dessus, les unités de traitement neuronales (NPUs) émergent comme une technologie transformatrice pour la mise en œuvre de l’IA générative sur appareil. L’architecture des NPUs est principalement inspirée de la structure et du fonctionnement du cerveau humain, notamment de la manière dont les neurones et les synapses collaborent pour traiter l’information. Dans les NPUs, les neurones artificiels agissent comme unités de base, imitant les neurones biologiques en recevant des entrées, en les traitant et en produisant des sorties. Ces neurones sont interconnectés par des synapses artificielles, qui transmettent des signaux entre les neurones avec des forces variables qui s’ajustent pendant le processus d’apprentissage. Cela imite le processus de changement de poids synaptique dans le cerveau. Les NPUs sont organisés en couches ; des couches d’entrée qui reçoivent les données brutes, des couches cachées qui effectuent un traitement intermédiaire et des couches de sortie qui génèrent les résultats. Cette structure en couches reflète la capacité de traitement d’information multistage et parallèle du cerveau. Puisque l’IA générative est également construite à l’aide d’une structure similaire de réseaux de neurones artificiels, les NPUs sont bien adaptés pour gérer les charges de travail d’IA générative. Cette alignment structurel réduit le besoin de circuits intégrés spécialisés, conduisant à des solutions plus compactes, économes en énergie, rapides et durables.

Répondre aux besoins computationnels divers de l’IA générative

L’IA générative englobe une large gamme de tâches, notamment la synthèse d’images, la génération de texte et la composition musicale, chacune avec son propre ensemble d’exigences computationnelles uniques. Par exemple, la synthèse d’images repose fortement sur les opérations matricielles, tandis que la génération de texte implique un traitement séquentiel. Pour répondre efficacement à ces besoins computationnels divers, les unités de traitement neuronales (NPUs) sont souvent intégrées dans la technologie System-on-Chip (SoC) aux côtés des CPUs et des GPUs.

Chacun de ces processeurs offre des forces computationnelles distinctes. Les CPUs sont particulièrement habiles dans le contrôle séquentiel et l’immédiateté, les GPUs excellent dans le traitement parallèle de données et les NPUs sont finement accordés pour les opérations d’IA de base, traitant les mathématiques scalaires, vectorielles et tensorielles. En exploitant une architecture de calcul hétérogène, les tâches peuvent être attribuées à des processeurs en fonction de leurs forces et des exigences de la tâche spécifique.

Les NPUs, étant optimisés pour les charges de travail d’IA, peuvent décharger efficacement les tâches d’IA générative du CPU principal. Cette décharge non seulement assure des opérations rapides et économes en énergie, mais accélère également les tâches d’inférence d’IA, permettant aux modèles d’IA générative de fonctionner plus en douceur sur l’appareil. Avec les NPUs gérant les tâches liées à l’IA, les CPUs et les GPUs sont libres d’allouer des ressources à d’autres fonctions, améliorant ainsi les performances globales de l’application tout en maintenant l’efficacité thermique.

Exemples réels de NPUs

Le progrès des NPUs gagne en momentum. Voici quelques exemples réels de NPUs :

  • Hexagon NPUs par Qualcomm est spécifiquement conçu pour accélérer les tâches d’inférence d’IA à faible puissance et à faibles ressources. Il est conçu pour gérer des tâches d’IA générative telles que la génération de texte, la synthèse d’images et le traitement audio. Le Hexagon NPU est intégré dans les plateformes Snapdragon de Qualcomm, offrant une exécution efficace des modèles de réseau de neurones sur les appareils équipés de produits Qualcomm d’IA.
  • Le Neural Engine d’Apple est un élément clé des puces A-series et M-series, alimentant diverses fonctionnalités d’IA telles que Face ID, Siri et la réalité augmentée (AR). Le Neural Engine accélère des tâches telles que la reconnaissance faciale pour Face ID sécurisé, le traitement du langage naturel (NLP) pour Siri et le suivi d’objets amélioré et la compréhension de scène pour les applications AR. Il améliore considérablement les performances des tâches liées à l’IA sur les appareils Apple, offrant une expérience utilisateur fluide et efficace.
  • L’NPU de Samsung est un processeur spécialisé conçu pour le calcul d’IA, capable de gérer des milliers de calculs simultanément. Intégré dans les derniers SoCs Exynos de Samsung, qui alimentent de nombreux téléphones Samsung, cette technologie NPU permet des calculs d’IA générative à faible puissance et à grande vitesse. La technologie NPU de Samsung est également intégrée dans les téléviseurs haut de gamme, permettant l’innovation sonore basée sur l’IA et améliorant l’expérience utilisateur.
  • L’architecture Da Vinci de Huawei sert de base à leur processeur d’IA Ascend, conçu pour améliorer la puissance de calcul d’IA. L’architecture exploite un moteur de calcul 3D à haute performance, le rendant puissant pour les charges de travail d’IA.

En résumé

L’IA générative transforme notre interaction avec les appareils et redéfinit l’informatique. Le défi de faire fonctionner l’IA générative sur des appareils à ressources computationnelles limitées est considérable, et les CPUs et les GPUs traditionnels sont souvent dépassés. Les unités de traitement neuronales (NPUs) offrent une solution prometteuse avec leur architecture spécialisée conçue pour répondre aux exigences de l’IA générative. En intégrant les NPUs dans la technologie System-on-Chip (SoC) aux côtés des CPUs et des GPUs, nous pouvons utiliser les forces de chaque processeur, conduisant à des performances d’IA plus rapides, plus efficaces et plus durables sur les appareils. À mesure que les NPUs continuent d’évoluer, ils sont destinés à améliorer les capacités d’IA sur appareil, rendant les applications plus réactives et économes en énergie.

Dr. Tehseen Zia est un professeur associé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en intelligence artificielle de l'Université technique de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté des contributions significatives avec des publications dans des revues scientifiques réputées. Dr. Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi en tant que consultant en intelligence artificielle.