škrbina Prihodnost generativne umetne inteligence je prednost - Unite.AI
Povežite se z nami

Voditelji misli

Prihodnost generativne umetne inteligence je prednost

mm

objavljeno

 on

Pojav ChatGPT in Generativna AI na splošno je prelomen trenutek v zgodovini tehnologije in ga primerjamo z zori interneta in pametnega telefona. Generativni AI je pokazal neomejen potencial v svoji zmožnosti vodenja inteligentnih pogovorov, opravljanja izpitov, ustvarjanja zapletenih programov/kode ter ustvarjanja privlačnih slik in videa. Medtem ko grafični procesorji poganjajo večino modelov Gen AI v oblaku – tako za usposabljanje kot sklepanje – to ni dolgoročna razširljiva rešitev, zlasti za sklepanje, zaradi dejavnikov, ki vključujejo stroške, moč, zakasnitev, zasebnost in varnost. Ta članek obravnava vsakega od teh dejavnikov skupaj z motivirajočimi primeri za premik računalniških delovnih obremenitev Gen AI na rob.

Večina aplikacij deluje na visoko zmogljivih procesorjih – bodisi v napravah (npr. pametnih telefonih, namiznih računalnikih, prenosnih računalnikih) bodisi v podatkovnih centrih. Ker se delež aplikacij, ki uporabljajo umetno inteligenco, povečuje, so ti procesorji s samo CPU neustrezni. Poleg tega hitra širitev delovnih obremenitev Generative AI spodbuja eksponentno povpraševanje po strežnikih, ki podpirajo AI, z dragimi grafičnimi procesorji, ki požrejo energijo, kar posledično povečuje stroške infrastrukture. Ti strežniki, ki podpirajo AI, lahko stanejo več kot 7-krat več kot cena običajnega strežnika, grafični procesorji pa predstavljajo 80 % teh dodanih stroškov.

Poleg tega strežnik v oblaku porabi od 500 W do 2000 W, medtem ko strežnik, ki podpira AI, porabi med 2000 W in 8000 W – 4x več! Podatkovni centri za podporo tem strežnikom potrebujejo dodatne hladilne module in nadgradnje infrastrukture – ki so lahko celo višje od naložbe v računalništvo. Podatkovni centri porabijo že 300 TWH na leto, skoraj 1 % celotne svetovne porabe energije Če se bodo trendi sprejemanja umetne inteligence nadaljevali, bi lahko podatkovni centri do leta 5 uporabljali kar 2030 % svetovne energije. Poleg tega gre za naložbe brez primere v podatkovne centre Generative AI. Ocenjuje se, da bodo podatkovni centri porabili do 500 milijard dolarjev za kapitalske izdatke do leta 2027, ki ga v glavnem spodbujajo zahteve po infrastrukturi umetne inteligence.

Poraba električne energije podatkovnih centrov, ki že znaša 300 TwH, se bo s sprejetjem generativne umetne inteligence močno povečala.

Stroški računanja AI in poraba energije bodo ovirali množično sprejetje Generative AI. Izzive skaliranja je mogoče premagati s premikanjem računalništva z umetno inteligenco na rob in uporabo rešitev za obdelavo, optimiziranih za delovne obremenitve z umetno inteligenco. S tem pristopom ima stranka tudi druge koristi, vključno z zakasnitvijo, zasebnostjo, zanesljivostjo in večjo zmogljivostjo.

Compute sledi podatkom do Edge

Že pred desetletjem, ko se je umetna inteligenca pojavila iz akademskega sveta, se je usposabljanje in sklepanje modelov umetne inteligence dogajalo v oblaku/podatkovnem centru. Ker je bilo veliko podatkov ustvarjenih in porabljenih na robu – zlasti videoposnetki – je bilo smiselno le premakniti sklepanje podatkov na rob in s tem izboljšati skupne stroške lastništva (TCO) za podjetja zaradi zmanjšanih stroškov omrežja in računalništva. Medtem ko se stroški sklepanja AI v oblaku ponavljajo, je strošek sklepanja na robu enkraten strošek strojne opreme. V bistvu razširitev sistema s procesorjem Edge AI zniža skupne operativne stroške. Tako kot selitev običajnih delovnih obremenitev umetne inteligence na Edge (npr. naprava, naprava), bodo temu sledile tudi delovne obremenitve generativne umetne inteligence. To bo podjetjem in potrošnikom prineslo znatne prihranke.

Premik na rob skupaj z učinkovitim pospeševalnikom umetne inteligence za izvajanje funkcij sklepanja prinaša tudi druge prednosti. Predvsem med njimi je zakasnitev. Na primer, v igralnih aplikacijah lahko neigralske like (NPC) nadzirate in nadgrajujete z generativnim AI. Z uporabo modelov LLM, ki delujejo na robnih pospeševalnikih AI v igralni konzoli ali osebnem računalniku, lahko igralci tem likom dajo posebne cilje, tako da lahko smiselno sodelujejo v zgodbi. Nizka zakasnitev iz lokalnega robnega sklepanja bo omogočila, da se govor in gibi NPC-ja odzovejo na ukaze in dejanja igralcev v realnem času. To bo zagotovilo izjemno poglobljeno igralno izkušnjo na stroškovno učinkovit in energetsko učinkovit način.

V aplikacijah, kot je zdravstvo, sta zasebnost in zanesljivost izjemno pomembni (npr. ocena bolnikov, priporočila za zdravila). Podatki in povezani modeli Gen AI morajo biti na mestu uporabe, da se zaščitijo podatki bolnikov (zasebnost) in kakršni koli izpadi omrežja, ki bodo blokirali dostop do modelov AI v oblaku, so lahko katastrofalni. Naprava Edge AI, ki poganja model Gen AI, zgrajen namensko za vsako poslovno stranko – v tem primeru ponudnika zdravstvenih storitev – lahko nemoteno reši vprašanja zasebnosti in zanesljivosti, hkrati pa zagotavlja nižjo zakasnitev in stroške.

Generativni AI na robnih napravah bo zagotovil nizko zakasnitev pri igranju iger in ohranil podatke o pacientih ter izboljšal zanesljivost za zdravstveno varstvo.

Mnogi modeli Gen AI, ki se izvajajo v oblaku, imajo lahko blizu bilijona parametrov – ti modeli lahko učinkovito obravnavajo splošne poizvedbe. Vendar aplikacije, specifične za podjetja, zahtevajo, da modeli zagotavljajo rezultate, ki ustrezajo primeru uporabe. Vzemimo primer pomočnika, ki temelji na umetni inteligenci generacije in je bil zgrajen za sprejemanje naročil v restavraciji s hitro prehrano – da bi ta sistem imel nemoteno interakcijo s strankami, mora biti osnovni model umetne inteligence generacije usposobljen za elemente menija restavracije, pri čemer je treba poznati tudi alergene in sestavine. . Velikost modela je mogoče optimizirati z uporabo nadnabora Large Language Model (LLM) za usposabljanje razmeroma majhnega LLM z 10–30 milijardami parametrov in nato z dodatno natančno nastavitvijo s podatki, specifičnimi za stranko. Takšen model lahko zagotovi rezultate z večjo natančnostjo in zmogljivostjo. Glede na manjšo velikost modela ga je mogoče učinkovito namestiti na pospeševalnik AI na Edge.

Gen AI bo zmagal na robu

Vedno bo obstajala potreba po Gen AI, ki deluje v oblaku, zlasti za aplikacije za splošne namene, kot sta ChatGPT in Claude. Ko pa gre za aplikacije, specifične za podjetja, kot sta generative fill Adobe Photoshop ali Github copilot, Generative AI at Edge ni le prihodnost, je tudi sedanjost. Namenski pospeševalniki umetne inteligence so ključnega pomena za to.

Kot veteran iz Silicijeve doline in izvršni direktor podjetja Kinara Inc, Ravi Annavajjhala prinaša več kot 20 let izkušenj na področju poslovnega razvoja, trženja in inženiringa, gradnje vrhunskih tehnoloških izdelkov in
jih spraviti na trg. V svoji trenutni vlogi glavnega izvršnega direktorja Deep Vision deluje Ravi
njegov upravni odbor in je zbral 50 milijonov dolarjev, s čimer je procesor podjetja Ara-1 prenesel iz predsilicija v
proizvodnjo v polnem obsegu in povečanje količine procesorja 2. generacije Ara-2. Pred pridružitvijo
Deep Vision je Ravi zasedal vodilne položaje pri Intelu in SanDisk, kjer je imel ključne vloge
pri spodbujanju rasti prihodkov, razvijanju strateških partnerstev in razvoju načrtov za izdelke, ki
vodil industrijo z vrhunskimi funkcijami in zmogljivostmi.