Des leaders d'opinion

L’avenir de l’IA générative est à la pointe

Publié 19 octobre 2023

Ravi Annavajjhala

L'avènement de ChatGPT, et IA générative en général, il s’agit d’un moment décisif dans l’histoire de la technologie et est comparé à l’aube d’Internet et du smartphone. L'IA générative a montré un potentiel illimité dans sa capacité à tenir des conversations intelligentes, à réussir des examens, à générer des programmes/codes complexes et à créer des images et des vidéos accrocheuses. Bien que les GPU exécutent la plupart des modèles Gen AI dans le cloud – à la fois pour la formation et l’inférence – il ne s’agit pas d’une solution évolutive à long terme, en particulier pour l’inférence, en raison de facteurs tels que le coût, la puissance, la latence, la confidentialité et la sécurité. Cet article aborde chacun de ces facteurs ainsi que des exemples motivants pour déplacer les charges de travail de calcul Gen AI vers la périphérie.

La plupart des applications fonctionnent sur des processeurs hautes performances, soit sur des appareils (par exemple, smartphones, ordinateurs de bureau, ordinateurs portables), soit dans des centres de données. À mesure que la part des applications utilisant l’IA augmente, ces processeurs équipés uniquement de CPU sont inadéquats. En outre, l'expansion rapide des charges de travail de l'IA générative entraîne une demande exponentielle de serveurs compatibles avec l'IA dotés de GPU coûteux et gourmands en énergie, ce qui, à son tour, fait grimper les coûts d'infrastructure. Ces serveurs compatibles avec l'IA peuvent coûter jusqu'à 7 fois le prix d'un serveur classique et les GPU représentent 80 % de ce coût supplémentaire.

De plus, un serveur basé sur le cloud consomme entre 500 W et 2000 2000 W, tandis qu'un serveur compatible avec l'IA consomme entre 8000 4 W et 300 XNUMX W, soit XNUMX fois plus ! Pour prendre en charge ces serveurs, les centres de données ont besoin de modules de refroidissement supplémentaires et de mises à niveau de l'infrastructure, qui peuvent être encore plus élevées que l'investissement informatique. Les datacenters consomment déjà XNUMX TWH par an, près de 1% de la consommation électrique mondiale totale. Si la tendance à l’adoption de l’IA se poursuit, jusqu’à 5 % de l’énergie mondiale pourrait être utilisée par les centres de données d’ici 2030. De plus, il existe un investissement sans précédent dans les centres de données d’IA générative. On estime que les centres de données consommeront jusqu'à 500 milliards de dollars pour les dépenses en capital d’ici 2027, principalement alimenté par les exigences en matière d’infrastructure d’IA.

La consommation électrique des Datacenters, déjà de 300 TwH, va augmenter significativement avec l’adoption de l’IA générative.

Le coût de calcul de l’IA ainsi que la consommation d’énergie entraveront l’adoption massive de l’IA générative. Les défis de mise à l’échelle peuvent être surmontés en déplaçant le calcul de l’IA vers la périphérie et en utilisant des solutions de traitement optimisées pour les charges de travail d’IA. Avec cette approche, d’autres avantages profitent également au client, notamment la latence, la confidentialité, la fiabilité ainsi qu’une capacité accrue.

Le calcul suit les données jusqu'à la périphérie

Depuis qu’il y a dix ans, l’IA a émergé du monde universitaire, la formation et l’inférence de modèles d’IA ont eu lieu dans le cloud/centre de données. Une grande partie des données étant générées et consommées en périphérie (en particulier la vidéo), il était logique de déplacer l'inférence des données vers la périphérie, améliorant ainsi le coût total de possession (TCO) pour les entreprises grâce à la réduction des coûts de réseau et de calcul. Alors que les coûts d'inférence de l'IA sur le cloud sont récurrents, le coût de l'inférence à la périphérie est une dépense matérielle ponctuelle. Essentiellement, l’augmentation du système avec un processeur Edge AI réduit les coûts opérationnels globaux. À l'instar de la migration des charges de travail d'IA conventionnelles vers Edge (par exemple, appareil, appareil), les charges de travail d'IA générative suivront. Cela entraînera des économies significatives pour les entreprises et les consommateurs.

Le passage à la périphérie, associé à un accélérateur d'IA performant pour réaliser des fonctions d'inférence, offre également d'autres avantages, notamment la latence. Par exemple, dans les applications de jeu, les personnages non joueurs (PNJ) peuvent être contrôlés et améliorés grâce à l'IA générative. Grâce à des modèles LLM exécutés sur des accélérateurs d'IA en périphérie sur une console de jeu ou un PC, les joueurs peuvent assigner des objectifs précis à ces personnages afin qu'ils puissent participer pleinement à l'histoire. La faible latence de l'inférence locale en périphérie permettra aux paroles et aux mouvements des PNJ de répondre aux commandes et actions des joueurs en temps réel. Cela offrira une expérience de jeu hautement immersive, à moindre coût et avec une faible consommation d'énergie.

Dans des applications telles que les soins de santé, la confidentialité et la fiabilité sont extrêmement importantes (par exemple, évaluation des patients, recommandations de médicaments). Les données et les modèles Gen AI associés doivent être sur site pour protéger les données des patients (confidentialité) et toute panne de réseau qui bloquerait l'accès aux modèles d'IA dans le cloud peut être catastrophique. Une appliance Edge AI exécutant un modèle Gen AI spécialement conçu pour chaque entreprise cliente – dans ce cas, un prestataire de soins de santé – peut résoudre de manière transparente les problèmes de confidentialité et de fiabilité tout en offrant une latence et des coûts réduits.

L'IA générative sur les appareils de pointe garantira une faible latence dans les jeux, préservera les données des patients et améliorera la fiabilité des soins de santé.

De nombreux modèles Gen AI exécutés sur le cloud peuvent comporter près d’un billion de paramètres – ces modèles peuvent répondre efficacement aux requêtes à usage général. Cependant, les applications spécifiques à l'entreprise nécessitent que les modèles fournissent des résultats pertinents pour le cas d'utilisation. Prenons l'exemple d'un assistant basé sur la génération AI conçu pour prendre les commandes dans un restaurant de restauration rapide : pour que ce système ait une interaction client transparente, le modèle Gen AI sous-jacent doit être formé sur les éléments du menu du restaurant, connaissant également les allergènes et les ingrédients. . La taille du modèle peut être optimisée à l'aide d'un sur-ensemble de modèle LLM (Large Language Model) pour former un LLM relativement petit, de 10 à 30 milliards de paramètres, puis utiliser un réglage précis supplémentaire avec les données spécifiques du client. Un tel modèle peut fournir des résultats avec une précision et des capacités accrues. Et étant donné la taille réduite du modèle, il peut être déployé efficacement sur un accélérateur d'IA en périphérie.

Génération IA va gagner au bord

Il y aura toujours un besoin pour que la Gen AI fonctionne dans le cloud, en particulier pour les applications générales comme ChatGPT et Claude. Mais lorsqu'il s'agit d'applications spécifiques à l'entreprise, telles que le remplissage génératif d'Adobe Photoshop ou le copilote de Github, l'IA générative chez Edge n'est pas seulement l'avenir, c'est aussi le présent. Les accélérateurs d’IA spécialement conçus sont la clé pour rendre cela possible.

Rubriques connexes:bord informatique de pointe IA générative leaders d'opinion

Ravi Annavajjhala

En tant que vétéran de la Silicon Valley et PDG de Kinara Inc., Ravi Annavajjhala apporte plus de 20 ans d'expérience dans le développement commercial, le marketing et l'ingénierie, dans la création de produits technologiques de pointe et
les amener sur le marché. Dans son rôle actuel de PDG de Deep Vision, Ravi siège
son conseil d'administration et a levé 50 millions de dollars pour faire passer le processeur Ara-1 de l'entreprise du pré-silicium au
production à grande échelle et augmenter le volume du processeur de 2e génération, Ara-2. Avant de rejoindre
Deep Vision, Ravi a occupé des postes de direction chez Intel et SanDisk où il a joué des rôles clés
en stimulant la croissance des revenus, en faisant évoluer les partenariats stratégiques et en développant des feuilles de route de produits qui
a dominé l'industrie avec des fonctionnalités et des capacités de pointe.

Unite.AI

L’avenir de l’IA générative est à la pointe

Le calcul suit les données jusqu'à la périphérie

Génération IA va gagner au bord

Tu peux aimer