stubs Ģeneratīvā mākslīgā intelekta nākotne ir galvenā — Unite.AI
Savienoties ar mums

Domu vadītāji

Ģeneratīvā AI nākotne ir priekšrocība

mm

Izdots

 on

ChatGPT parādīšanās un Ģeneratīvais AI kopumā ir pavērsiena brīdis tehnoloģiju vēsturē un tiek pielīdzināts interneta un viedtālruņa rītausmai. Ģeneratīvais mākslīgais intelekts ir parādījis neierobežotu potenciālu savā spējā vadīt viedas sarunas, nokārtot eksāmenus, ģenerēt sarežģītas programmas/kodu un radīt uzkrītošus attēlus un video. Lai gan GPU darbina lielāko daļu Gen AI modeļu mākonī — gan apmācībai, gan secinājumiem — šis nav ilgtermiņa mērogojams risinājums, jo īpaši, lai izdarītu secinājumus, ņemot vērā tādus faktorus kā izmaksas, jauda, ​​latentums, privātums un drošība. Šajā rakstā ir apskatīts katrs no šiem faktoriem, kā arī motivējoši piemēri, lai pārvietotu Gen AI skaitļošanas darba slodzi uz malu.

Lielākā daļa lietojumprogrammu darbojas augstas veiktspējas procesoros — vai nu ierīcēs (piemēram, viedtālruņos, galddatoros, klēpjdatoros), vai datu centros. Palielinoties lietojumprogrammu īpatsvaram, kas izmanto AI, šie procesori ar tikai centrālajiem procesoriem ir nepietiekami. Turklāt straujā ģeneratīvā AI darba slodžu paplašināšanās rada eksponenciālu pieprasījumu pēc AI iespējotiem serveriem ar dārgiem, jaudīgiem GPU, kas savukārt palielina infrastruktūras izmaksas. Šie ar AI iespējotie serveri var maksāt vairāk nekā 7 reizes par parastā servera cenu, un GPU veido 80% no šīm papildu izmaksām.

Turklāt mākoņa serveris patērē no 500 W līdz 2000 W, savukārt serveris ar iespējotu mākslīgo intelektu patērē no 2000 W līdz 8000 W — 4x vairāk! Lai atbalstītu šos serverus, datu centriem ir nepieciešami papildu dzesēšanas moduļi un infrastruktūras jauninājumi, kas var būt pat lielāki nekā skaitļošanas ieguldījumi. Datu centri jau patērē 300 TWH gadā, gandrīz 1% no kopējā pasaules enerģijas patēriņa Ja mākslīgā intelekta ieviešanas tendences turpināsies, līdz 5. gadam datu centri varētu izmantot pat 2030% no pasaules jaudas. Turklāt tiek veikti vēl nepieredzēti ieguldījumi ģeneratīvā AI datu centros. Tiek lēsts, ka datu centri patērēs līdz 500 miljardi dolāru kapitālizdevumiem līdz 2027. gadam, ko galvenokārt veicina AI infrastruktūras prasības.

Datu centru elektroenerģijas patēriņš, kas jau ir 300 TwH, ievērojami palielināsies, ieviešot ģeneratīvo AI.

AI aprēķināšanas izmaksas, kā arī enerģijas patēriņš kavēs ģeneratīvā AI masveida ieviešanu. Mērogošanas problēmas var pārvarēt, pārvietojot AI aprēķinu uz malu un izmantojot apstrādes risinājumus, kas optimizēti AI darba slodzei. Izmantojot šo pieeju, klients gūst arī citas priekšrocības, tostarp latentumu, privātumu, uzticamību, kā arī palielinātas iespējas.

Aprēķināšana seko datiem līdz Edge

Kopš pirms desmit gadiem, kad AI parādījās no akadēmiskās pasaules, AI modeļu apmācība un secinājumi ir notikusi mākoņa/datu centrā. Tā kā liela daļa datu tiek ģenerēti un patērēti malā, jo īpaši video, bija jēga tikai pārvietot datu secinājumus uz malu, tādējādi uzlabojot uzņēmumu kopējās īpašumtiesību izmaksas (TCO) samazinātu tīkla un aprēķinu izmaksu dēļ. Lai gan AI secinājumu izmaksas mākonī atkārtojas, izmaksas par secinājumu malu ir vienreizējas aparatūras izmaksas. Būtībā sistēmas papildināšana ar Edge AI procesoru samazina kopējās darbības izmaksas. Tāpat kā parasto AI darba slodžu migrācija uz Edge (piemēram, ierīce, ierīce), arī ģeneratīvā AI darba slodze sekos šim piemēram. Tas dos ievērojamus ietaupījumus uzņēmumiem un patērētājiem.

Pāreja uz malu kopā ar efektīvu AI paātrinātāju, lai veiktu secinājumu funkcijas, sniedz arī citas priekšrocības. Galvenais no tiem ir latentums. Piemēram, spēļu lietojumprogrammās ne-spēlētājus (NPC) var kontrolēt un papildināt, izmantojot ģeneratīvo AI. Izmantojot LLM modeļus, kas spēļu konsolē vai personālajā datorā darbojas uz malas AI paātrinātājiem, spēlētāji var šiem varoņiem izvirzīt konkrētus mērķus, lai viņi varētu jēgpilni piedalīties stāstā. Zemais latentums no vietējās malas secinājuma ļaus NPC runai un kustībām reaģēt uz spēlētāju komandām un darbībām reāllaikā. Tas nodrošinās ļoti iespaidīgu spēļu pieredzi rentablā un energoefektīvā veidā.

Tādos lietojumos kā veselības aprūpe privātums un uzticamība ir ārkārtīgi svarīgi (piemēram, pacienta novērtējums, zāļu ieteikumi). Datiem un saistītajiem Gen AI modeļiem ir jābūt lokāliem, lai aizsargātu pacienta datus (privātumu), un visi tīkla pārtraukumi, kas bloķēs piekļuvi AI modeļiem mākonī, var būt katastrofāli. Edge AI ierīce, kas darbojas ar Gen AI modeli, kas paredzēta katram uzņēmuma klientam — šajā gadījumā veselības aprūpes sniedzējam — var nemanāmi atrisināt privātuma un uzticamības problēmas, vienlaikus nodrošinot mazāku latentumu un izmaksas.

Ģeneratīvā AI uz malām ierīcēm nodrošinās zemu latentumu spēlēšanā un saglabās pacienta datus un uzlabos veselības aprūpes uzticamību.

Daudziem Gen AI modeļiem, kas darbojas mākonī, var būt tuvu triljonam parametru — šie modeļi var efektīvi risināt vispārējas nozīmes vaicājumus. Tomēr uzņēmuma specifiskām lietojumprogrammām modeļiem ir jāsniedz rezultāti, kas ir atbilstoši lietošanas gadījumam. Ņemiet piemēru ar Gen AI balstītu palīgu, kas izveidots, lai pieņemtu pasūtījumus ātrās ēdināšanas restorānā — lai šī sistēma nodrošinātu netraucētu mijiedarbību ar klientiem, pamatā esošajam Gen AI modelim jābūt apmācītam par restorāna ēdienkartēm, zinot arī alergēnus un sastāvdaļas. . Modeļa izmēru var optimizēt, izmantojot superkopu Large Language Model (LLM), lai apmācītu salīdzinoši mazu, 10–30 miljardu parametru LLM, un pēc tam izmantot papildu precizēšanu ar klienta specifiskiem datiem. Šāds modelis var nodrošināt rezultātus ar lielāku precizitāti un iespējām. Un, ņemot vērā modeļa mazāko izmēru, to var efektīvi izmantot AI paātrinātājā Edge.

Gen AI uzvarēs Edge

Vienmēr būs nepieciešams Gen AI, kas darbojas mākonī, jo īpaši vispārējas nozīmes lietojumprogrammām, piemēram, ChatGPT un Claude. Bet, runājot par uzņēmuma specifiskām lietojumprogrammām, piemēram, Adobe Photoshop ģeneratīvo aizpildījumu vai Github kopilotu, Edge ģeneratīvais AI ir ne tikai nākotne, bet arī tagadne. Mērķtiecīgi izstrādāti AI paātrinātāji ir galvenais, lai tas būtu iespējams.

Kā Silīcija ielejas veterāns un izpilddirektors Kinara Inc, Ravi Annavajjhala piedāvā vairāk nekā 20 gadu pieredzi uzņēmējdarbības attīstībā, mārketingā un inženierzinātnēs, progresīvu tehnoloģiju produktu veidošanā un
laist tos tirgū. Savā pašreizējā Deep Vision izpilddirektora amatā Ravi strādā
tā direktoru padome un ir palielinājusi $ 50 miljonus, pārņemot uzņēmuma Ara-1 procesoru no pirmssilīcija uz
pilna mēroga ražošanu un palielināt 2. paaudzes procesoru Ara-2 apjomu. Pirms pievienošanās
Deep Vision, Ravi ieņēma vadošos amatus Intel un SanDisk, kur viņam bija galvenās lomas
lai veicinātu ieņēmumu pieaugumu, attīstītu stratēģiskās partnerības un izstrādātu produktu ceļvežus
vadīja nozari ar vismodernākajām funkcijām un iespējām.