škrbina Budućnost generativne umjetne inteligencije je prednost - Unite.AI
Povežite se s nama

Vođe misli

Budućnost generativne umjetne inteligencije je prednost

mm

Objavljeno

 on

Pojava ChatGPT-a i Generativna AI općenito, prijelomni je trenutak u povijesti tehnologije i uspoređuje se s zorom interneta i pametnog telefona. Generativna umjetna inteligencija pokazala je neograničeni potencijal u svojoj sposobnosti održavanja inteligentnih razgovora, polaganja ispita, generiranja složenih programa/koda i stvaranja privlačnih slika i videa. Dok GPU-ovi pokreću većinu Gen AI modela u oblaku – i za obuku i za zaključivanje – ovo nije dugoročno skalabilno rješenje, posebno za zaključivanje, zbog faktora koji uključuju cijenu, snagu, latenciju, privatnost i sigurnost. Ovaj se članak bavi svakim od ovih čimbenika zajedno s motivirajućim primjerima za pomicanje računalnih opterećenja Gen AI-a na rub.

Većina aplikacija radi na procesorima visokih performansi – bilo na uređaju (npr. pametni telefoni, stolna računala, prijenosna računala) ili u podatkovnim centrima. Kako se udio aplikacija koje koriste AI povećava, ovi procesori sa samo CPU-ima su neadekvatni. Nadalje, brza ekspanzija radnih opterećenja Generative AI pokreće eksponencijalnu potražnju za poslužiteljima s omogućenom umjetnom inteligencijom sa skupim GPU-ovima gladnim energije koji zauzvrat povećavaju troškove infrastrukture. Ovi poslužitelji s omogućenom umjetnom inteligencijom mogu koštati više od 7X cijene običnog poslužitelja, a GPU-ovi čine 80% ovog dodatnog troška.

Dodatno, poslužitelj temeljen na oblaku troši 500 W do 2000 W, dok poslužitelj s omogućenom umjetnom inteligencijom troši između 2000 W i 8000 W – 4x više! Kako bi podržali te poslužitelje, podatkovni centri trebaju dodatne module za hlađenje i nadogradnje infrastrukture – što može biti čak i veće od ulaganja u računala. Podatkovni centri već troše 300 TWH godišnje, gotovo 1% ukupne svjetske potrošnje energije Ako se trendovi usvajanja umjetne inteligencije nastave, tada bi čak 5% svjetske energije mogli koristiti podatkovni centri do 2030. Dodatno, postoji ulaganje bez presedana u Generative AI podatkovne centre. Procjenjuje se da će podatkovni centri trošiti do 500 milijardi dolara za kapitalne izdatke do 2027, uglavnom potaknut zahtjevima AI infrastrukture.

Potrošnja električne energije u podatkovnim centrima, koja već iznosi 300 TwH, znatno će porasti usvajanjem generativne umjetne inteligencije.

Troškovi računanja umjetne inteligencije kao i potrošnja energije spriječit će masovno usvajanje Generative AI. Izazovi skaliranja mogu se prevladati pomicanjem AI računanja na rub i korištenjem rješenja za obradu optimiziranih za radna opterećenja AI. S ovim pristupom, kupac ima i druge prednosti, uključujući kašnjenje, privatnost, pouzdanost, kao i povećanu sposobnost.

Compute prati podatke do ruba

Još od prije deset godina, kada je umjetna inteligencija izašla iz akademskog svijeta, obuka i zaključivanje modela umjetne inteligencije odvijali su se u oblaku/podatkovnom centru. Budući da se velik dio podataka generirao i trošio na rubu – osobito video – imalo je smisla premjestiti zaključivanje podataka na rub, čime se poboljšava ukupni trošak vlasništva (TCO) za poduzeća zbog smanjenih mrežnih i računalnih troškova. Dok se troškovi zaključivanja umjetne inteligencije na oblaku ponavljaju, trošak zaključivanja na rubu je jednokratni, hardverski trošak. U biti, proširenje sustava s Edge AI procesorom smanjuje ukupne operativne troškove. Kao i migracija konvencionalnih AI radnih opterećenja na Edge (npr. uređaj, uređaj), Generative AI radna opterećenja će slijediti primjer. To će donijeti značajne uštede poduzećima i potrošačima.

Prelazak na rub u kombinaciji s učinkovitim AI akceleratorom za izvođenje funkcija zaključivanja donosi i druge prednosti. Najvažnija među njima je latencija. Na primjer, u aplikacijama za igre, likovi koji nisu igrači (NPC) mogu se kontrolirati i povećavati pomoću generativne umjetne inteligencije. Koristeći LLM modele koji rade na rubnim AI akceleratorima u igraćoj konzoli ili osobnom računalu, igrači mogu tim likovima dati specifične ciljeve, tako da mogu smisleno sudjelovati u priči. Niska latencija iz lokalnog rubnog zaključivanja omogućit će NPC govoru i pokretima da odgovore na naredbe i radnje igrača u stvarnom vremenu. Ovo će pružiti vrlo impresivno iskustvo igranja na isplativ i energetski učinkovit način.

U aplikacijama kao što je zdravstvena skrb, privatnost i pouzdanost su izuzetno važni (npr. procjena pacijenata, preporuke za lijekove). Podaci i pridruženi Gen AI modeli moraju biti na lokaciji kako bi se zaštitili podaci pacijenata (privatnost) i svi prekidi mreže koji će blokirati pristup modelima AI u oblaku mogu biti katastrofalni. Uređaj Edge AI koji pokreće Gen AI model namjenski izgrađen za svakog poslovnog korisnika – u ovom slučaju pružatelja zdravstvenih usluga – može besprijekorno riješiti pitanja privatnosti i pouzdanosti uz nižu latenciju i troškove.

Generativna umjetna inteligencija na rubnim uređajima osigurat će nisku latenciju u igricama i sačuvati podatke o pacijentima te poboljšati pouzdanost zdravstvene skrbi.

Mnogi modeli Gen AI koji rade u oblaku mogu imati blizu trilijun parametara – ti modeli mogu učinkovito odgovoriti na upite opće namjene. Međutim, aplikacije specifične za poduzeća zahtijevaju da modeli daju rezultate koji su relevantni za slučaj upotrebe. Uzmimo primjer asistenta temeljenog na Generacijskoj umjetnoj inteligenciji napravljenom za primanje narudžbi u restoranu brze hrane – da bi ovaj sustav imao besprijekornu interakciju s klijentima, temeljni model Generacijske umjetne inteligencije mora biti obučen za stavke jelovnika restorana, također poznavajući alergene i sastojke . Veličina modela može se optimizirati upotrebom nadskupa Large Language Model (LLM) za obuku relativno malog LLM-a od 10-30 milijardi parametara i zatim korištenje dodatnog finog podešavanja s podacima specifičnim za kupca. Takav model može dati rezultate s povećanom preciznošću i sposobnošću. A s obzirom na manju veličinu modela, može se učinkovito implementirati na AI akcelerator na Edgeu.

Gen AI pobijedit će na Rubu

Uvijek će postojati potreba za Gen AI koji radi u oblaku, posebno za aplikacije opće namjene kao što su ChatGPT i Claude. Ali kada je riječ o aplikacijama specifičnim za poduzeća, kao što je Adobe Photoshop generative fill ili Github copilot, Generative AI at Edge nije samo budućnost, već i sadašnjost. Namjenski izrađeni AI akceleratori ključni su za to.

Kao veteran Silicijske doline i izvršni direktor Kinara Inc, Ravi Annavajjhala donosi više od 20 godina iskustva u poslovnom razvoju, marketingu i inženjeringu, stvarajući vrhunske tehnološke proizvode i
dovodeći ih na tržište. U svojoj trenutnoj ulozi glavnog izvršnog direktora Deep Visiona, Ravi služi
svom upravnom odboru i prikupio je 50 milijuna dolara preuzimajući tvrtkin procesor Ara-1 od prije silicija do
proizvodnju u punom opsegu i povećanje količine procesora 2. generacije, Ara-2. Prije pridruživanja
Deep Vision, Ravi je bio na izvršnim vodećim pozicijama u Intelu i SanDisku gdje je igrao ključne uloge
u poticanju rasta prihoda, razvoju strateških partnerstava i razvoju planova proizvoda koji
vodio industriju s vrhunskim značajkama i mogućnostima.