Des leaders d'opinion
Lâavenir de lâIA gĂ©nĂ©rative est Ă la pointe

L'avĂšnement de ChatGPT, et IA gĂ©nĂ©rative en gĂ©nĂ©ral, il sâagit dâun moment dĂ©cisif dans lâhistoire de la technologie et est comparĂ© Ă lâaube dâInternet et du smartphone. L'IA gĂ©nĂ©rative a montrĂ© un potentiel illimitĂ© dans sa capacitĂ© Ă tenir des conversations intelligentes, Ă rĂ©ussir des examens, Ă gĂ©nĂ©rer des programmes/codes complexes et Ă crĂ©er des images et des vidĂ©os accrocheuses. Bien que les GPU exĂ©cutent la plupart des modĂšles Gen AI dans le cloud â Ă la fois pour la formation et lâinfĂ©rence â il ne sâagit pas dâune solution Ă©volutive Ă long terme, en particulier pour lâinfĂ©rence, en raison de facteurs tels que le coĂ»t, la puissance, la latence, la confidentialitĂ© et la sĂ©curitĂ©. Cet article aborde chacun de ces facteurs ainsi que des exemples motivants pour dĂ©placer les charges de travail de calcul Gen AI vers la pĂ©riphĂ©rie.
La plupart des applications fonctionnent sur des processeurs hautes performances, soit sur des appareils (par exemple, smartphones, ordinateurs de bureau, ordinateurs portables), soit dans des centres de donnĂ©es. Ă mesure que la part des applications utilisant lâIA augmente, ces processeurs Ă©quipĂ©s uniquement de CPU sont inadĂ©quats. En outre, l'expansion rapide des charges de travail de l'IA gĂ©nĂ©rative entraĂźne une demande exponentielle de serveurs compatibles avec l'IA dotĂ©s de GPU coĂ»teux et gourmands en Ă©nergie, ce qui, Ă son tour, fait grimper les coĂ»ts d'infrastructure. Ces serveurs compatibles avec l'IA peuvent coĂ»ter jusqu'Ă 7 fois le prix d'un serveur classique et les GPU reprĂ©sentent 80 % de ce coĂ»t supplĂ©mentaire.
De plus, un serveur basĂ© sur le cloud consomme entre 500 W et 2000 2000 W, tandis qu'un serveur compatible avec l'IA consomme entre 8000 4 W et 300 XNUMX W, soit XNUMX fois plus ! Pour prendre en charge ces serveurs, les centres de donnĂ©es ont besoin de modules de refroidissement supplĂ©mentaires et de mises Ă niveau de l'infrastructure, qui peuvent ĂȘtre encore plus Ă©levĂ©es que l'investissement informatique. Les datacenters consomment dĂ©jĂ XNUMX TWH par an, prĂšs de 1% de la consommation Ă©lectrique mondiale totale. Si la tendance Ă lâadoption de lâIA se poursuit, jusquâĂ 5 % de lâĂ©nergie mondiale pourrait ĂȘtre utilisĂ©e par les centres de donnĂ©es dâici 2030. De plus, il existe un investissement sans prĂ©cĂ©dent dans les centres de donnĂ©es dâIA gĂ©nĂ©rative. On estime que les centres de donnĂ©es consommeront jusqu'Ă 500 milliards de dollars pour les dĂ©penses en capital dâici 2027, principalement alimentĂ© par les exigences en matiĂšre dâinfrastructure dâIA.

La consommation Ă©lectrique des Datacenters, dĂ©jĂ de 300 TwH, va augmenter significativement avec lâadoption de lâIA gĂ©nĂ©rative.
Le coĂ»t de calcul de lâIA ainsi que la consommation dâĂ©nergie entraveront lâadoption massive de lâIA gĂ©nĂ©rative. Les dĂ©fis de mise Ă lâĂ©chelle peuvent ĂȘtre surmontĂ©s en dĂ©plaçant le calcul de lâIA vers la pĂ©riphĂ©rie et en utilisant des solutions de traitement optimisĂ©es pour les charges de travail dâIA. Avec cette approche, dâautres avantages profitent Ă©galement au client, notamment la latence, la confidentialitĂ©, la fiabilitĂ© ainsi quâune capacitĂ© accrue.
Le calcul suit les données jusqu'à la périphérie
Depuis quâil y a dix ans, lâIA a Ă©mergĂ© du monde universitaire, la formation et lâinfĂ©rence de modĂšles dâIA ont eu lieu dans le cloud/centre de donnĂ©es. Une grande partie des donnĂ©es Ă©tant gĂ©nĂ©rĂ©es et consommĂ©es en pĂ©riphĂ©rie (en particulier la vidĂ©o), il Ă©tait logique de dĂ©placer l'infĂ©rence des donnĂ©es vers la pĂ©riphĂ©rie, amĂ©liorant ainsi le coĂ»t total de possession (TCO) pour les entreprises grĂące Ă la rĂ©duction des coĂ»ts de rĂ©seau et de calcul. Alors que les coĂ»ts d'infĂ©rence de l'IA sur le cloud sont rĂ©currents, le coĂ»t de l'infĂ©rence Ă la pĂ©riphĂ©rie est une dĂ©pense matĂ©rielle ponctuelle. Essentiellement, lâaugmentation du systĂšme avec un processeur Edge AI rĂ©duit les coĂ»ts opĂ©rationnels globaux. Ă l'instar de la migration des charges de travail d'IA conventionnelles vers Edge (par exemple, appareil, appareil), les charges de travail d'IA gĂ©nĂ©rative suivront. Cela entraĂźnera des Ă©conomies significatives pour les entreprises et les consommateurs.
Le passage Ă la pĂ©riphĂ©rie, associĂ© Ă un accĂ©lĂ©rateur d'IA performant pour rĂ©aliser des fonctions d'infĂ©rence, offre Ă©galement d'autres avantages, notamment la latence. Par exemple, dans les applications de jeu, les personnages non joueurs (PNJ) peuvent ĂȘtre contrĂŽlĂ©s et amĂ©liorĂ©s grĂące Ă l'IA gĂ©nĂ©rative. GrĂące Ă des modĂšles LLM exĂ©cutĂ©s sur des accĂ©lĂ©rateurs d'IA en pĂ©riphĂ©rie sur une console de jeu ou un PC, les joueurs peuvent assigner des objectifs prĂ©cis Ă ces personnages afin qu'ils puissent participer pleinement Ă l'histoire. La faible latence de l'infĂ©rence locale en pĂ©riphĂ©rie permettra aux paroles et aux mouvements des PNJ de rĂ©pondre aux commandes et actions des joueurs en temps rĂ©el. Cela offrira une expĂ©rience de jeu hautement immersive, Ă moindre coĂ»t et avec une faible consommation d'Ă©nergie.
Dans des applications telles que les soins de santĂ©, la confidentialitĂ© et la fiabilitĂ© sont extrĂȘmement importantes (par exemple, Ă©valuation des patients, recommandations de mĂ©dicaments). Les donnĂ©es et les modĂšles Gen AI associĂ©s doivent ĂȘtre sur site pour protĂ©ger les donnĂ©es des patients (confidentialitĂ©) et toute panne de rĂ©seau qui bloquerait l'accĂšs aux modĂšles d'IA dans le cloud peut ĂȘtre catastrophique. Une appliance Edge AI exĂ©cutant un modĂšle Gen AI spĂ©cialement conçu pour chaque entreprise cliente â dans ce cas, un prestataire de soins de santĂ© â peut rĂ©soudre de maniĂšre transparente les problĂšmes de confidentialitĂ© et de fiabilitĂ© tout en offrant une latence et des coĂ»ts rĂ©duits.

L'IA générative sur les appareils de pointe garantira une faible latence dans les jeux, préservera les données des patients et améliorera la fiabilité des soins de santé.
De nombreux modĂšles Gen AI exĂ©cutĂ©s sur le cloud peuvent comporter prĂšs dâun billion de paramĂštres â ces modĂšles peuvent rĂ©pondre efficacement aux requĂȘtes Ă usage gĂ©nĂ©ral. Cependant, les applications spĂ©cifiques Ă l'entreprise nĂ©cessitent que les modĂšles fournissent des rĂ©sultats pertinents pour le cas d'utilisation. Prenons l'exemple d'un assistant basĂ© sur la gĂ©nĂ©ration AI conçu pour prendre les commandes dans un restaurant de restauration rapide : pour que ce systĂšme ait une interaction client transparente, le modĂšle Gen AI sous-jacent doit ĂȘtre formĂ© sur les Ă©lĂ©ments du menu du restaurant, connaissant Ă©galement les allergĂšnes et les ingrĂ©dients. . La taille du modĂšle peut ĂȘtre optimisĂ©e Ă l'aide d'un sur-ensemble de modĂšle LLM (Large Language Model) pour former un LLM relativement petit, de 10 Ă 30 milliards de paramĂštres, puis utiliser un rĂ©glage prĂ©cis supplĂ©mentaire avec les donnĂ©es spĂ©cifiques du client. Un tel modĂšle peut fournir des rĂ©sultats avec une prĂ©cision et des capacitĂ©s accrues. Et Ă©tant donnĂ© la taille rĂ©duite du modĂšle, il peut ĂȘtre dĂ©ployĂ© efficacement sur un accĂ©lĂ©rateur d'IA en pĂ©riphĂ©rie.
Génération IA va gagner au bord
Il y aura toujours un besoin pour que la Gen AI fonctionne dans le cloud, en particulier pour les applications gĂ©nĂ©rales comme ChatGPT et Claude. Mais lorsqu'il s'agit d'applications spĂ©cifiques Ă l'entreprise, telles que le remplissage gĂ©nĂ©ratif d'Adobe Photoshop ou le copilote de Github, l'IA gĂ©nĂ©rative chez Edge n'est pas seulement l'avenir, c'est aussi le prĂ©sent. Les accĂ©lĂ©rateurs dâIA spĂ©cialement conçus sont la clĂ© pour rendre cela possible.












