Connect with us

Tankeledere

Fremtiden for generativ AI er kanten

mm

Fremkomsten af ChatGPT og generativ AI generelt er et vendepunkt i teknologiens historie og ligner begyndelsen på internettet og smartphone’en. Generativ AI har vist ubegrænsede muligheder i sin evne til at føre intelligente samtaler, bestå eksamener, generere komplekse programmer/kode og skabe øjenfaldende billeder og video. Mens GPU’er kører de fleste Gen AI-modeller i skyen – både til træning og inferens – er dette ikke en langsigtsorienteret skalerbar løsning, særlig til inferens, på grund af faktorer, der inkluderer omkostninger, effekt, latency, privatliv og sikkerhed. Denne artikel behandler hver af disse faktorer sammen med motiverende eksempler til at flytte Gen AI-computerearbejdsbelastninger til kanten.

De fleste applikationer kører på højpræstationsprocessorer – enten på enheden (f.eks. smartphones, stationære computere, bærbare computere) eller i datacentre. Da andelen af applikationer, der udnytter AI, udvides, er disse processorer med kun CPU’er utilstrækkelige. Desuden driver den hurtige udvidelse af generative AI-arbejdsbelastninger en eksponentiel efterspørgsel efter AI-aktiverede servere med dyre, effektkrævende GPU’er, der igen driver op for infrastrukturomkostningerne. Disse AI-aktiverede servere kan koste op til 7 gange prisen for en almindelig server, og GPU’er står for 80% af denne ekstra omkostning.

Desuden forbruger en cloud-baseret server 500W til 2000W, mens en AI-aktiveret server forbruger mellem 2000W og 8000W – 4 gange mere! For at støtte disse servere har datacentre brug for ekstra kølemoduler og infrastruktur-opgraderinger – hvilket kan være endnu højere end compute-investeringen. Datacentre forbruger allerede 300 TWH om året, næsten 1% af den samlede verdensomspændende elforbrug. If the trends of AI adoption continue, then as much as 5% of worldwide power could be used by data centers by 2030. Desuden er der en udenforordentlig investering i generative AI-datacentre. Det estimeres, at datacentre vil forbruge op til 500 milliarder dollar for kapitaludgifter til 2027, primært drevet af AI-infrastrukturkrav.

Elforsyningen til datacentre, allerede 300 TwH, vil stige betydeligt med adoptionen af generativ AI.

AI-computereomkostninger samt elforbrug vil hindre en bred adoption af generativ AI. Skaleringudfordringer kan overvindes ved at flytte AI-computerearbejdsbelastninger til kanten og bruge procesløsninger, der er optimeret til AI-arbejdsbelastninger. Med denne tilgang opnår kunden også andre fordele, herunder latency, privatliv, pålidelighed samt øget kapacitet.

Compute følger data til kanten

Siden AI dukkede op fra den akademiske verden for et årti siden, er træning og inferens af AI-modeller sket i skyen/datacentret. Da meget af data genereres og forbruges på kanten – især video – var det kun logisk at flytte inferensen af data til kanten og dermed forbedre den samlede ejeromkostning (TCO) for virksomheder på grund af reducerede netværks- og computeomkostninger. Mens AI-inferensomkostningerne på skyen er tilbagevendende, er omkostningerne ved inferens på kanten en engangsomkostning, en hårdvaraftale. I virkeligheden reducerer tilføjelsen af et Edge AI-processor den samlede driftsomkostning. Ligesom migrationen af konventionelle AI-arbejdsbelastninger til kanten (f.eks. appliance, enhed), vil generative AI-arbejdsbelastninger følge samme mønster. Dette vil bringe betydelige besparelser til virksomheder og forbrugere.

Flytningen til kanten kombineret med en effektiv AI-accelerator til at udføre inferensfunktioner leverer også andre fordele. Frem for alt er det latency. For eksempel kan ikke-spillerfigurer (NPC’er) i spilapplikationer kontrolleres og udvides ved hjælp af generativ AI. Ved hjælp af LLM-modeller, der kører på Edge AI-acceleratorer i en spillekonsol eller pc, kan spillere give disse figurer bestemte mål, så de kan deltage meningsfuldt i historien. Den lave latency fra lokal edge-inferens vil tillade NPC-tale og -bevægelser at reagere på spillernes kommandoer og handlinger i realtid. Dette vil levere en højtydende spiloplevelse på en omkostningseffektiv og effekteffektiv måde.

I applikationer som sundhedspleje er privatliv og pålidelighed ekstremt vigtige (f.eks. patientevaluering, lægemiddelrekommandationer). Data og de tilhørende Gen AI-modeller skal være på stedet for at beskytte patientdata (privatliv) og enhver netværksfejl, der blokerer adgang til AI-modeller i skyen, kan være katastrofal. En Edge AI-appliance, der kører en Gen AI-model, der er specialbygget til hver enkelt virksomhedskunde – i dette tilfælde en sundhedsudbyder – kan uden besvær løse problemerne med privatliv og pålidelighed, samtidig med at den leverer lavere latency og omkostninger.

Generativ AI på kantenheder vil sikre lav latency i spil og beskytte patientdata og forbedre pålideligheden i sundhedspleje.

Mange Gen AI-modeller, der kører på skyen, kan være tæt på en billion parametre – disse modeller kan effektivt besvare generelle spørgsmål. Men virksomhedsspecifikke applikationer kræver, at modellerne leverer resultater, der er relevante for brugsfaldet. Tag for eksempel et Gen AI-baseret assistentbygget til at tage ordrer på en fastfoodrestaurant – for at dette system kan have en problemfri kundeinteraktion, skal den underliggende Gen AI-model være trænet på restaurantens menuelementer, samt kende allergener og ingredienser. Modelstørrelsen kan optimeres ved at bruge en superset Large Language Model (LLM) til at træne en relativt lille, 10-30 milliard parameter LLM og derefter bruge yderligere finjustering med kundespecifik data. En sådan model kan levere resultater med øget nøjagtighed og kapacitet. Og givet modelens mindre størrelse kan den effektivt deployes på en AI-accelerator på kanten.

Gen AI vil vinde på kanten

Der vil altid være behov for Gen AI, der kører i skyen, især til generelle formål som ChatGPT og Claude. Men når det kommer til virksomhedsspecifikke applikationer, som Adobe Photoshops generative udfyldning eller Github copilot, er Generativ AI på kanten ikke kun fremtiden, men også nutiden. Specialbyggede AI-acceleratorer er nøglen til at gøre dette muligt.

Som Silicon Valley-veteran og CEO af Kinara Inc, bringer Ravi Annavajjhala mere end 20 års erfaring, der spænder over forretningsudvikling, marketing og ingeniørarbejde, hvor han bygger førende teknologiprodukter og bringer dem på markedet. I sin nuværende rolle som administrerende direktør for Deep Vision, fungerer Ravi i bestyrelsen og har samlet 50M $, hvor han har taget selskabets Ara-1 processor fra pre-silicon til fuld skala produktion og til at øge den 2. generations processor, Ara-2, i volumen. Før han tiltrådte Deep Vision, havde Ravi ledende stillinger i Intel og SanDisk, hvor han spillede nøgleroller i at drive indtægtsvækst, udvikle strategiske partnerskaber og udvikle produktveje, der ledte industrien med førende funktioner og muligheder.