Suivez nous sur

L’avenir de l’IA gĂ©nĂ©rative est Ă  la pointe

Des leaders d'opinion

L’avenir de l’IA gĂ©nĂ©rative est Ă  la pointe

mm

L'avĂšnement de ChatGPT, et IA gĂ©nĂ©rative en gĂ©nĂ©ral, il s’agit d’un moment dĂ©cisif dans l’histoire de la technologie et est comparĂ© Ă  l’aube d’Internet et du smartphone. L'IA gĂ©nĂ©rative a montrĂ© un potentiel illimitĂ© dans sa capacitĂ© Ă  tenir des conversations intelligentes, Ă  rĂ©ussir des examens, Ă  gĂ©nĂ©rer des programmes/codes complexes et Ă  crĂ©er des images et des vidĂ©os accrocheuses. Bien que les GPU exĂ©cutent la plupart des modĂšles Gen AI dans le cloud – Ă  la fois pour la formation et l’infĂ©rence – il ne s’agit pas d’une solution Ă©volutive Ă  long terme, en particulier pour l’infĂ©rence, en raison de facteurs tels que le coĂ»t, la puissance, la latence, la confidentialitĂ© et la sĂ©curitĂ©. Cet article aborde chacun de ces facteurs ainsi que des exemples motivants pour dĂ©placer les charges de travail de calcul Gen AI vers la pĂ©riphĂ©rie.

La plupart des applications fonctionnent sur des processeurs hautes performances, soit sur des appareils (par exemple, smartphones, ordinateurs de bureau, ordinateurs portables), soit dans des centres de donnĂ©es. À mesure que la part des applications utilisant l’IA augmente, ces processeurs Ă©quipĂ©s uniquement de CPU sont inadĂ©quats. En outre, l'expansion rapide des charges de travail de l'IA gĂ©nĂ©rative entraĂźne une demande exponentielle de serveurs compatibles avec l'IA dotĂ©s de GPU coĂ»teux et gourmands en Ă©nergie, ce qui, Ă  son tour, fait grimper les coĂ»ts d'infrastructure. Ces serveurs compatibles avec l'IA peuvent coĂ»ter jusqu'Ă  7 fois le prix d'un serveur classique et les GPU reprĂ©sentent 80 % de ce coĂ»t supplĂ©mentaire.

De plus, un serveur basĂ© sur le cloud consomme entre 500 W et 2000 2000 W, tandis qu'un serveur compatible avec l'IA consomme entre 8000 4 W et 300 XNUMX W, soit XNUMX fois plus ! Pour prendre en charge ces serveurs, les centres de donnĂ©es ont besoin de modules de refroidissement supplĂ©mentaires et de mises Ă  niveau de l'infrastructure, qui peuvent ĂȘtre encore plus Ă©levĂ©es que l'investissement informatique. Les datacenters consomment dĂ©jĂ  XNUMX TWH par an, prĂšs de 1% de la consommation Ă©lectrique mondiale totale Si la tendance Ă  l’adoption de l’IA se poursuit, jusqu’à 5 % de l’énergie mondiale pourrait ĂȘtre utilisĂ©e par les centres de donnĂ©es d’ici 2030. De plus, il existe un investissement sans prĂ©cĂ©dent dans les centres de donnĂ©es d’IA gĂ©nĂ©rative. On estime que les centres de donnĂ©es consommeront jusqu'Ă  500 milliards de dollars pour les dĂ©penses en capital d’ici 2027, principalement alimentĂ© par les exigences en matiĂšre d’infrastructure d’IA.

La consommation Ă©lectrique des Datacenters, dĂ©jĂ  de 300 TwH, va augmenter significativement avec l’adoption de l’IA gĂ©nĂ©rative.

Le coĂ»t de calcul de l’IA ainsi que la consommation d’énergie entraveront l’adoption massive de l’IA gĂ©nĂ©rative. Les dĂ©fis de mise Ă  l’échelle peuvent ĂȘtre surmontĂ©s en dĂ©plaçant le calcul de l’IA vers la pĂ©riphĂ©rie et en utilisant des solutions de traitement optimisĂ©es pour les charges de travail d’IA. Avec cette approche, d’autres avantages profitent Ă©galement au client, notamment la latence, la confidentialitĂ©, la fiabilitĂ© ainsi qu’une capacitĂ© accrue.

Le calcul suit les données jusqu'à la périphérie

Depuis qu’il y a dix ans, l’IA a Ă©mergĂ© du monde universitaire, la formation et l’infĂ©rence de modĂšles d’IA ont eu lieu dans le cloud/centre de donnĂ©es. Une grande partie des donnĂ©es Ă©tant gĂ©nĂ©rĂ©es et consommĂ©es en pĂ©riphĂ©rie (en particulier la vidĂ©o), il Ă©tait logique de dĂ©placer l'infĂ©rence des donnĂ©es vers la pĂ©riphĂ©rie, amĂ©liorant ainsi le coĂ»t total de possession (TCO) pour les entreprises grĂące Ă  la rĂ©duction des coĂ»ts de rĂ©seau et de calcul. Alors que les coĂ»ts d'infĂ©rence de l'IA sur le cloud sont rĂ©currents, le coĂ»t de l'infĂ©rence Ă  la pĂ©riphĂ©rie est une dĂ©pense matĂ©rielle ponctuelle. Essentiellement, l’augmentation du systĂšme avec un processeur Edge AI rĂ©duit les coĂ»ts opĂ©rationnels globaux. À l'instar de la migration des charges de travail d'IA conventionnelles vers Edge (par exemple, appareil, appareil), les charges de travail d'IA gĂ©nĂ©rative suivront. Cela entraĂźnera des Ă©conomies significatives pour les entreprises et les consommateurs.

Le passage Ă  la pĂ©riphĂ©rie, associĂ© Ă  un accĂ©lĂ©rateur d'IA performant pour rĂ©aliser des fonctions d'infĂ©rence, offre Ă©galement d'autres avantages, notamment la latence. Par exemple, dans les applications de jeu, les personnages non joueurs (PNJ) peuvent ĂȘtre contrĂŽlĂ©s et amĂ©liorĂ©s grĂące Ă  l'IA gĂ©nĂ©rative. GrĂące Ă  des modĂšles LLM exĂ©cutĂ©s sur des accĂ©lĂ©rateurs d'IA en pĂ©riphĂ©rie sur une console de jeu ou un PC, les joueurs peuvent assigner des objectifs prĂ©cis Ă  ces personnages afin qu'ils puissent participer pleinement Ă  l'histoire. La faible latence de l'infĂ©rence locale en pĂ©riphĂ©rie permettra aux paroles et aux mouvements des PNJ de rĂ©pondre aux commandes et actions des joueurs en temps rĂ©el. Cela offrira une expĂ©rience de jeu hautement immersive, Ă  moindre coĂ»t et avec une faible consommation d'Ă©nergie.

Dans des applications telles que les soins de santĂ©, la confidentialitĂ© et la fiabilitĂ© sont extrĂȘmement importantes (par exemple, Ă©valuation des patients, recommandations de mĂ©dicaments). Les donnĂ©es et les modĂšles Gen AI associĂ©s doivent ĂȘtre sur site pour protĂ©ger les donnĂ©es des patients (confidentialitĂ©) et toute panne de rĂ©seau qui bloquerait l'accĂšs aux modĂšles d'IA dans le cloud peut ĂȘtre catastrophique. Une appliance Edge AI exĂ©cutant un modĂšle Gen AI spĂ©cialement conçu pour chaque entreprise cliente – dans ce cas, un prestataire de soins de santĂ© – peut rĂ©soudre de maniĂšre transparente les problĂšmes de confidentialitĂ© et de fiabilitĂ© tout en offrant une latence et des coĂ»ts rĂ©duits.

L'IA générative sur les appareils de pointe garantira une faible latence dans les jeux, préservera les données des patients et améliorera la fiabilité des soins de santé.

De nombreux modĂšles Gen AI exĂ©cutĂ©s sur le cloud peuvent comporter prĂšs d’un billion de paramĂštres – ces modĂšles peuvent rĂ©pondre efficacement aux requĂȘtes Ă  usage gĂ©nĂ©ral. Cependant, les applications spĂ©cifiques Ă  l'entreprise nĂ©cessitent que les modĂšles fournissent des rĂ©sultats pertinents pour le cas d'utilisation. Prenons l'exemple d'un assistant basĂ© sur la gĂ©nĂ©ration AI conçu pour prendre les commandes dans un restaurant de restauration rapide : pour que ce systĂšme ait une interaction client transparente, le modĂšle Gen AI sous-jacent doit ĂȘtre formĂ© sur les Ă©lĂ©ments du menu du restaurant, connaissant Ă©galement les allergĂšnes et les ingrĂ©dients. . La taille du modĂšle peut ĂȘtre optimisĂ©e Ă  l'aide d'un sur-ensemble de modĂšle LLM (Large Language Model) pour former un LLM relativement petit, de 10 Ă  30 milliards de paramĂštres, puis utiliser un rĂ©glage prĂ©cis supplĂ©mentaire avec les donnĂ©es spĂ©cifiques du client. Un tel modĂšle peut fournir des rĂ©sultats avec une prĂ©cision et des capacitĂ©s accrues. Et Ă©tant donnĂ© la taille rĂ©duite du modĂšle, il peut ĂȘtre dĂ©ployĂ© efficacement sur un accĂ©lĂ©rateur d'IA en pĂ©riphĂ©rie.

Génération IA va gagner au bord

Il y aura toujours un besoin pour que la Gen AI fonctionne dans le cloud, en particulier pour les applications gĂ©nĂ©rales comme ChatGPT et Claude. Mais lorsqu'il s'agit d'applications spĂ©cifiques Ă  l'entreprise, telles que le remplissage gĂ©nĂ©ratif d'Adobe Photoshop ou le copilote de Github, l'IA gĂ©nĂ©rative chez Edge n'est pas seulement l'avenir, c'est aussi le prĂ©sent. Les accĂ©lĂ©rateurs d’IA spĂ©cialement conçus sont la clĂ© pour rendre cela possible.

En tant que vétéran de la Silicon Valley et PDG de Kinara Inc., Ravi Annavajjhala apporte plus de 20 ans d'expérience dans le développement commercial, le marketing et l'ingénierie, dans la création de produits technologiques de pointe et
les amener sur le marché. Dans son rÎle actuel de PDG de Deep Vision, Ravi siÚge
son conseil d'administration et a levé 50 millions de dollars pour faire passer le processeur Ara-1 de l'entreprise du pré-silicium au
production à grande échelle et augmenter le volume du processeur de 2e génération, Ara-2. Avant de rejoindre
Deep Vision, Ravi a occupĂ© des postes de direction chez Intel et SanDisk oĂč il a jouĂ© des rĂŽles clĂ©s
en stimulant la croissance des revenus, en faisant évoluer les partenariats stratégiques et en développant des feuilles de route de produits qui
a dominé l'industrie avec des fonctionnalités et des capacités de pointe.