Domu vadītāji
Ģeneratīvā AI nākotne ir priekšrocība
ChatGPT parādīšanās un Ģeneratīvais AI kopumā ir pavērsiena brīdis tehnoloģiju vēsturē un tiek pielīdzināts interneta un viedtālruņa rītausmai. Ģeneratīvais mākslīgais intelekts ir parādījis neierobežotu potenciālu savā spējā vadīt viedas sarunas, nokārtot eksāmenus, ģenerēt sarežģītas programmas/kodu un radīt uzkrītošus attēlus un video. Lai gan GPU darbina lielāko daļu Gen AI modeļu mākonī — gan apmācībai, gan secinājumiem — šis nav ilgtermiņa mērogojams risinājums, jo īpaši, lai izdarītu secinājumus, ņemot vērā tādus faktorus kā izmaksas, jauda, latentums, privātums un drošība. Šajā rakstā ir apskatīts katrs no šiem faktoriem, kā arī motivējoši piemēri, lai pārvietotu Gen AI skaitļošanas darba slodzi uz malu.
Lielākā daļa lietojumprogrammu darbojas augstas veiktspējas procesoros — vai nu ierīcēs (piemēram, viedtālruņos, galddatoros, klēpjdatoros), vai datu centros. Palielinoties lietojumprogrammu īpatsvaram, kas izmanto AI, šie procesori ar tikai centrālajiem procesoriem ir nepietiekami. Turklāt straujā ģeneratīvā AI darba slodžu paplašināšanās rada eksponenciālu pieprasījumu pēc AI iespējotiem serveriem ar dārgiem, jaudīgiem GPU, kas savukārt palielina infrastruktūras izmaksas. Šie ar AI iespējotie serveri var maksāt vairāk nekā 7 reizes par parastā servera cenu, un GPU veido 80% no šīm papildu izmaksām.
Turklāt mākoņa serveris patērē no 500 W līdz 2000 W, savukārt serveris ar iespējotu mākslīgo intelektu patērē no 2000 W līdz 8000 W — 4x vairāk! Lai atbalstītu šos serverus, datu centriem ir nepieciešami papildu dzesēšanas moduļi un infrastruktūras jauninājumi, kas var būt pat lielāki nekā skaitļošanas ieguldījumi. Datu centri jau patērē 300 TWH gadā, gandrīz 1% no kopējā pasaules enerģijas patēriņa. Ja mākslīgā intelekta ieviešanas tendences turpināsies, līdz 5. gadam datu centri varētu izmantot pat 2030% no pasaules jaudas. Turklāt tiek veikti vēl nepieredzēti ieguldījumi ģeneratīvā AI datu centros. Tiek lēsts, ka datu centri patērēs līdz 500 miljardi dolāru kapitālizdevumiem līdz 2027. gadam, ko galvenokārt veicina AI infrastruktūras prasības.
AI aprēķināšanas izmaksas, kā arī enerģijas patēriņš kavēs ģeneratīvā AI masveida ieviešanu. Mērogošanas problēmas var pārvarēt, pārvietojot AI aprēķinu uz malu un izmantojot apstrādes risinājumus, kas optimizēti AI darba slodzei. Izmantojot šo pieeju, klients gūst arī citas priekšrocības, tostarp latentumu, privātumu, uzticamību, kā arī palielinātas iespējas.
Aprēķināšana seko datiem līdz Edge
Kopš pirms desmit gadiem, kad AI parādījās no akadēmiskās pasaules, AI modeļu apmācība un secinājumi ir notikusi mākoņa/datu centrā. Tā kā liela daļa datu tiek ģenerēti un patērēti malā, jo īpaši video, bija jēga tikai pārvietot datu secinājumus uz malu, tādējādi uzlabojot uzņēmumu kopējās īpašumtiesību izmaksas (TCO) samazinātu tīkla un aprēķinu izmaksu dēļ. Lai gan AI secinājumu izmaksas mākonī atkārtojas, izmaksas par secinājumu malu ir vienreizējas aparatūras izmaksas. Būtībā sistēmas papildināšana ar Edge AI procesoru samazina kopējās darbības izmaksas. Tāpat kā parasto AI darba slodžu migrācija uz Edge (piemēram, ierīce, ierīce), arī ģeneratīvā AI darba slodze sekos šim piemēram. Tas dos ievērojamus ietaupījumus uzņēmumiem un patērētājiem.
Pāreja uz malu kopā ar efektīvu AI paātrinātāju, lai veiktu secinājumu funkcijas, sniedz arī citas priekšrocības. Galvenais no tiem ir latentums. Piemēram, spēļu lietojumprogrammās ne-spēlētājus (NPC) var kontrolēt un papildināt, izmantojot ģeneratīvo AI. Izmantojot LLM modeļus, kas spēļu konsolē vai personālajā datorā darbojas uz malas AI paātrinātājiem, spēlētāji var šiem varoņiem izvirzīt konkrētus mērķus, lai viņi varētu jēgpilni piedalīties stāstā. Zemais latentums no vietējās malas secinājuma ļaus NPC runai un kustībām reaģēt uz spēlētāju komandām un darbībām reāllaikā. Tas nodrošinās ļoti iespaidīgu spēļu pieredzi rentablā un energoefektīvā veidā.
Tādos lietojumos kā veselības aprūpe privātums un uzticamība ir ārkārtīgi svarīgi (piemēram, pacienta novērtējums, zāļu ieteikumi). Datiem un saistītajiem Gen AI modeļiem ir jābūt lokāliem, lai aizsargātu pacienta datus (privātumu), un visi tīkla pārtraukumi, kas bloķēs piekļuvi AI modeļiem mākonī, var būt katastrofāli. Edge AI ierīce, kas darbojas ar Gen AI modeli, kas paredzēta katram uzņēmuma klientam — šajā gadījumā veselības aprūpes sniedzējam — var nemanāmi atrisināt privātuma un uzticamības problēmas, vienlaikus nodrošinot mazāku latentumu un izmaksas.
Daudziem Gen AI modeļiem, kas darbojas mākonī, var būt tuvu triljonam parametru — šie modeļi var efektīvi risināt vispārējas nozīmes vaicājumus. Tomēr uzņēmuma specifiskām lietojumprogrammām modeļiem ir jāsniedz rezultāti, kas ir atbilstoši lietošanas gadījumam. Ņemiet piemēru ar Gen AI balstītu palīgu, kas izveidots, lai pieņemtu pasūtījumus ātrās ēdināšanas restorānā — lai šī sistēma nodrošinātu netraucētu mijiedarbību ar klientiem, pamatā esošajam Gen AI modelim jābūt apmācītam par restorāna ēdienkartēm, zinot arī alergēnus un sastāvdaļas. . Modeļa izmēru var optimizēt, izmantojot superkopu Large Language Model (LLM), lai apmācītu salīdzinoši mazu, 10–30 miljardu parametru LLM, un pēc tam izmantot papildu precizēšanu ar klienta specifiskiem datiem. Šāds modelis var nodrošināt rezultātus ar lielāku precizitāti un iespējām. Un, ņemot vērā modeļa mazāko izmēru, to var efektīvi izmantot AI paātrinātājā Edge.
Gen AI uzvarēs Edge
Vienmēr būs nepieciešams Gen AI, kas darbojas mākonī, jo īpaši vispārējas nozīmes lietojumprogrammām, piemēram, ChatGPT un Claude. Bet, runājot par uzņēmuma specifiskām lietojumprogrammām, piemēram, Adobe Photoshop ģeneratīvo aizpildījumu vai Github kopilotu, Edge ģeneratīvais AI ir ne tikai nākotne, bet arī tagadne. Mērķtiecīgi izstrādāti AI paātrinātāji ir galvenais, lai tas būtu iespējams.