stub Fremtiden for generativ AI er kanten - Unite.AI
Følg os

Tanke ledere

Fremtiden for generativ AI er kanten

mm

Udgivet

 on

Fremkomsten af ​​ChatGPT, og Generativ AI i almindelighed, er et skelsættende øjeblik i teknologiens historie og sammenlignes med internettets og smartphonens begyndelse. Generativ AI har vist ubegrænset potentiale i sin evne til at holde intelligente samtaler, bestå eksamener, generere komplekse programmer/kode og skabe iøjnefaldende billeder og video. Mens GPU'er kører de fleste Gen AI-modeller i skyen - både til træning og inferens - er dette ikke en langsigtet skalerbar løsning, især til inferens, på grund af faktorer, der inkluderer omkostninger, strøm, latency, privatliv og sikkerhed. Denne artikel behandler hver af disse faktorer sammen med motiverende eksempler til at flytte Gen AI-beregningsarbejdsbelastninger til kanten.

De fleste applikationer kører på højtydende processorer – enten på enheder (f.eks. smartphones, stationære computere, bærbare computere) eller i datacentre. Efterhånden som andelen af ​​applikationer, der bruger AI, udvides, er disse processorer med kun CPU'er utilstrækkelige. Ydermere driver den hurtige udvidelse af generative AI-arbejdsbelastninger en eksponentiel efterspørgsel efter AI-aktiverede servere med dyre, strømkrævende GPU'er, der igen øger infrastrukturomkostningerne. Disse AI-aktiverede servere kan koste op mod 7X prisen for en almindelig server, og GPU'er tegner sig for 80% af disse ekstra omkostninger.

Derudover bruger en skybaseret server 500W til 2000W, mens en AI-aktiveret server bruger mellem 2000W og 8000W – 4x mere! For at understøtte disse servere har datacentre brug for yderligere kølemoduler og infrastrukturopgraderinger – som kan være endnu højere end beregningsinvesteringen. Datacentre bruger allerede 300 TWH om året, næsten 1 % af det samlede verdensomspændende strømforbrug Hvis tendenserne til AI-adoption fortsætter, så vil så meget som 5% af verdensomspændende strøm kunne blive brugt af datacentre i 2030. Derudover er der en hidtil uset investering i Generative AI-datacentre. Det vurderes, at datacentre vil forbruge op til 500 milliarder dollar til anlægsudgifter i 2027, hovedsageligt drevet af AI-infrastrukturkrav.

Elforbruget i datacentre, allerede 300 TwH, vil stige markant med indførelsen af ​​generativ AI.

AI-beregningsomkostninger såvel som energiforbrug vil hæmme masseadoption af Generativ AI. Skaleringsudfordringer kan overvindes ved at flytte AI-beregning til kanten og bruge behandlingsløsninger, der er optimeret til AI-arbejdsbelastninger. Med denne tilgang tilfalder kunden også andre fordele, herunder latens, privatliv, pålidelighed samt øget kapacitet.

Compute følger data til Edge

Lige siden for ti år siden, da AI dukkede op fra den akademiske verden, har træning og inferens af AI-modeller fundet sted i skyen/datacentret. Med meget af dataene, der genereres og forbruges ved kanten – især video – gav det kun mening at flytte konklusionen af ​​data til kanten og dermed forbedre de samlede ejeromkostninger (TCO) for virksomheder på grund af reducerede netværks- og computeromkostninger. Mens AI-slutningsomkostningerne i skyen er tilbagevendende, er omkostningerne ved inferens på kanten en engangs hardwareudgift. Grundlæggende sænker det at udvide systemet med en Edge AI-processor de samlede driftsomkostninger. Ligesom migreringen af ​​konventionelle AI-arbejdsbelastninger til Edge (f.eks. apparat, enhed), vil Generative AI-arbejdsbelastninger følge trop. Dette vil medføre betydelige besparelser for virksomheder og forbrugere.

Flytningen til kanten kombineret med en effektiv AI-accelerator til at udføre inferensfunktioner giver også andre fordele. Den vigtigste blandt dem er latency. For eksempel, i spilapplikationer, kan ikke-spillerfigurer (NPC'er) styres og udvides ved hjælp af generativ AI. Ved at bruge LLM-modeller, der kører på edge AI-acceleratorer i en spillekonsol eller pc, kan spillere give disse karakterer specifikke mål, så de meningsfuldt kan deltage i historien. Den lave latenstid fra lokal kantslutning vil tillade NPC-tale og -bevægelser at reagere på spillernes kommandoer og handlinger i realtid. Dette vil levere en yderst fordybende spiloplevelse på en omkostningseffektiv og strømeffektiv måde.

I applikationer som sundhedspleje er privatlivets fred og pålidelighed ekstremt vigtigt (f.eks. patientevaluering, lægemiddelanbefalinger). Data og de tilknyttede Gen AI-modeller skal være på stedet for at beskytte patientdata (privatliv), og ethvert netværksudfald, der vil blokere adgangen til AI-modeller i skyen, kan være katastrofalt. Et Edge AI-apparat, der kører en Gen AI-model, der er bygget til hver virksomhedskunde – i dette tilfælde en sundhedsudbyder – kan problemfrit løse problemerne med privatliv og pålidelighed, samtidig med at den leverer på lavere latenstid og omkostninger.

Generative AI on edge-enheder vil sikre lav latenstid i spil og bevare patientdata og forbedre pålideligheden for sundhedsvæsenet.

Mange Gen AI-modeller, der kører på skyen, kan være tæt på en billion parametre – disse modeller kan effektivt adressere generelle forespørgsler. Virksomhedsspecifikke applikationer kræver dog, at modellerne leverer resultater, der er relevante for brugssagen. Tag eksemplet med en Gen AI-baseret assistent bygget til at tage imod bestillinger på en fastfood-restaurant – for at dette system skal have en problemfri kundeinteraktion, skal den underliggende Gen AI-model trænes i restaurantens menupunkter, også kende allergener og ingredienser . Modelstørrelsen kan optimeres ved at bruge en supersæt Large Language Model (LLM) til at træne en relativt lille, 10-30 milliarder parameter LLM og derefter bruge yderligere finjustering med de kundespecifikke data. En sådan model kan levere resultater med øget nøjagtighed og kapacitet. Og i betragtning af modellens mindre størrelse, kan den effektivt implementeres på en AI-accelerator ved Edge.

Gen AI vil vinde på Edge

Der vil altid være behov for Gen AI, der kører i skyen, især for generelle applikationer som ChatGPT og Claude. Men når det kommer til virksomhedsspecifikke applikationer, såsom Adobe Photoshops generative fill eller Github copilot, er Generative AI at Edge ikke kun fremtiden, det er også nutiden. Specialbyggede AI-acceleratorer er nøglen til at gøre dette muligt.

Som Silicon Valley-veteran og administrerende direktør for Kinara Inc, Ravi Annavajjhala bringer mere end 20 års erfaring, der spænder over forretningsudvikling, marketing og teknik, opbygning af avancerede teknologiprodukter og
bringe dem på markedet. I sin nuværende rolle som administrerende direktør for Deep Vision tjener Ravi
dets bestyrelse og har rejst 50 millioner dollars for at tage virksomhedens Ara-1-processor fra præ-silicium til
fuldskala produktion og at rampe 2. generations processor, Ara-2, i volumen. Inden tilmelding
Deep Vision havde Ravi ledende stillinger hos Intel og SanDisk, hvor han spillede nøgleroller
i at drive omsætningsvækst, udvikle strategiske partnerskaber og udvikle produktkøreplaner, der
førte branchen med banebrydende funktioner og muligheder.