stub Fremtiden til generativ AI er kanten - Unite.AI
Kontakt med oss

Tankeledere

Fremtiden til generativ AI er kanten

mm

Publisert

 on

Fremkomsten av ChatGPT, og Generativ AI generelt, er et vannskille i teknologihistorien og sammenlignes med begynnelsen av Internett og smarttelefonen. Generativ AI har vist ubegrenset potensial i sin evne til å holde intelligente samtaler, bestå eksamener, generere komplekse programmer/kode og lage iøynefallende bilder og video. Mens GPU-er kjører de fleste Gen AI-modeller i skyen – både for trening og slutninger – er dette ikke en langsiktig skalerbar løsning, spesielt for slutninger, på grunn av faktorer som inkluderer kostnader, kraft, ventetid, personvern og sikkerhet. Denne artikkelen tar for seg hver av disse faktorene sammen med motiverende eksempler for å flytte Gen AI-beregningsarbeidsmengder til kanten.

De fleste applikasjoner kjører på prosessorer med høy ytelse – enten på enheter (f.eks. smarttelefoner, stasjonære datamaskiner, bærbare datamaskiner) eller i datasentre. Ettersom andelen applikasjoner som bruker AI øker, er disse prosessorene med bare CPUer utilstrekkelige. Videre driver den raske ekspansjonen i generative AI-arbeidsbelastninger en eksponentiell etterspørsel etter AI-aktiverte servere med dyre, strømkrevende GPUer som igjen øker infrastrukturkostnadene. Disse AI-aktiverte serverne kan koste oppover 7X prisen på en vanlig server og GPU-er står for 80 % av denne ekstra kostnaden.

I tillegg bruker en skybasert server 500W til 2000W, mens en AI-aktivert server bruker mellom 2000W og 8000W – 4 ganger mer! For å støtte disse serverne trenger datasentre ekstra kjølemoduler og infrastrukturoppgraderinger – som kan være enda høyere enn beregningsinvesteringen. Datasentre bruker allerede 300 TWH per år, nesten 1 % av det totale verdensomspennende strømforbruket Hvis trendene for AI-adopsjon fortsetter, kan så mye som 5 % av verdensomspennende kraft bli brukt av datasentre innen 2030. I tillegg er det en enestående investering i Generative AI-datasentre. Det er anslått at datasentre vil forbruke opptil 500 milliarder dollar for kapitalutgifter innen 2027, hovedsakelig drevet av AI-infrastrukturkrav.

Strømforbruket til datasentre, allerede 300 TwH, vil øke betraktelig med bruk av generativ AI.

AI-beregningskostnader så vel som energiforbruk vil hindre masseadopsjon av Generativ AI. Skaleringsutfordringer kan overvinnes ved å flytte AI-databehandling til kanten og bruke prosesseringsløsninger optimalisert for AI-arbeidsbelastninger. Med denne tilnærmingen tilfaller kunden også andre fordeler, inkludert ventetid, personvern, pålitelighet, samt økt kapasitet.

Compute følger data til Edge

Helt siden for et tiår siden, da AI dukket opp fra den akademiske verden, har trening og slutninger av AI-modeller skjedd i skyen/datasenteret. Siden mye av dataene blir generert og konsumert på kanten – spesielt video – var det bare fornuftig å flytte slutningen av dataene til kanten og dermed forbedre de totale eierkostnadene (TCO) for bedrifter på grunn av reduserte nettverks- og datakostnader. Mens AI-slutningskostnadene på skyen er tilbakevendende, er kostnadene for slutninger på kanten en engangsutgift for maskinvare. I hovedsak reduseres de totale driftskostnadene ved å utvide systemet med en Edge AI-prosessor. I likhet med migreringen av konvensjonelle AI-arbeidsbelastninger til Edge (f.eks. apparat, enhet), vil Generative AI-arbeidsbelastninger følge etter. Dette vil gi betydelige besparelser for bedrifter og forbrukere.

Flyttingen til kanten kombinert med en effektiv AI-akselerator for å utføre slutningsfunksjoner gir også andre fordeler. Fremst blant dem er latens. For eksempel, i spillapplikasjoner, kan ikke-spillerkarakterer (NPC) kontrolleres og utvides ved hjelp av generativ AI. Ved å bruke LLM-modeller som kjører på avanserte AI-akseleratorer i en spillkonsoll eller PC, kan spillere gi disse karakterene spesifikke mål, slik at de kan delta meningsfullt i historien. Den lave latensen fra lokal kantslutning vil tillate NPC-tale og -bevegelser å svare på spillernes kommandoer og handlinger i sanntid. Dette vil gi en svært oppslukende spillopplevelse på en kostnadseffektiv og strømeffektiv måte.

I applikasjoner som helsetjenester er personvern og pålitelighet ekstremt viktig (f.eks. pasientevaluering, legemiddelanbefalinger). Data og de tilknyttede Gen AI-modellene må være på stedet for å beskytte pasientdata (personvern), og eventuelle nettverksavbrudd som vil blokkere tilgang til AI-modeller i skyen kan være katastrofale. En Edge AI-enhet som kjører en Gen AI-modell som er spesialbygd for hver bedriftskunde – i dette tilfellet en helsepersonell – kan sømløst løse problemene med personvern og pålitelighet, samtidig som det gir lavere ventetid og kostnader.

Generative AI on edge-enheter vil sikre lav ventetid i spill og bevare pasientdata og forbedre påliteligheten for helsevesenet.

Mange Gen AI-modeller som kjører på skyen kan være nær en billion parametere – disse modellene kan effektivt adressere generelle spørsmål. Bedriftsspesifikke applikasjoner krever imidlertid at modellene leverer resultater som er relevante for brukssaken. Ta eksemplet med en Gen AI-basert assistent bygget for å ta imot bestillinger på en gatekjøkkenrestaurant – for at dette systemet skal ha en sømløs kundeinteraksjon, må den underliggende Gen AI-modellen trenes på restaurantens menyelementer, også kjenne til allergenene og ingrediensene . Modellstørrelsen kan optimaliseres ved å bruke en supersett Large Language Model (LLM) for å trene en relativt liten, 10-30 milliarder parameter LLM og deretter bruke ytterligere finjustering med kundespesifikke data. En slik modell kan levere resultater med økt nøyaktighet og kapasitet. Og gitt modellens mindre størrelse, kan den effektivt distribueres på en AI-akselerator ved Edge.

Gen AI vil vinne på Edge

Det vil alltid være behov for Gen AI som kjører i skyen, spesielt for generelle applikasjoner som ChatGPT og Claude. Men når det kommer til bedriftsspesifikke applikasjoner, som Adobe Photoshops generative fill eller Github copilot, er Generative AI at Edge ikke bare fremtiden, det er også nåtiden. Spesialbygde AI-akseleratorer er nøkkelen til å gjøre dette mulig.

Som Silicon Valley-veteran og administrerende direktør i Kinara Inc, Ravi Annavajjhala bringer med seg mer enn 20 års erfaring som spenner over forretningsutvikling, markedsføring og engineering, bygging av ledende teknologiprodukter og
bringe dem ut på markedet. I sin nåværende rolle som administrerende direktør i Deep Vision, tjener Ravi
styret og har samlet inn 50 millioner dollar som tar selskapets Ara-1-prosessor fra pre-silisium til
fullskala produksjon og å rampe 2. generasjons prosessor, Ara-2, i volum. Før du ble med
Deep Vision hadde Ravi ledende stillinger hos Intel og SanDisk hvor han spilte nøkkelroller
i å drive inntektsvekst, utvikle strategiske partnerskap og utvikle produktveikart som
ledet bransjen med banebrytende funksjoner og muligheter.