Connect with us

Myslitelé

Budoucnost generativní AI je na okraji

mm

Příchod ChatGPT a generativní AI obecně je zásadním momentem v historii technologií a je přirovnáván k úsvitu internetu a smartphonu. Generativní AI prokázala neomezený potenciál ve své schopnosti vést inteligentní konverzace, absolvovat zkoušky, generovat komplexní programy/kód a vytvářet atraktivní obrázky a videa. Zatímco většina modelů Gen AI běží v cloudu – jak pro školení, tak pro inferenci – není to dlouhodobě škálovatelné řešení, zejména pro inferenci, kvůli faktorům, jako jsou náklady, spotřeba energie, latence, soukromí a zabezpečení. Tento článek se zabývá každým z těchto faktorů spolu s motivujícími příklady pro přesun Gen AI výpočetních úloh na okraj.

Většina aplikací běží na vysokovýkonných procesorech – buď na zařízení (například smartphony, desktopy, notebooky) nebo v datových centrech. Jak se zvyšuje podíl aplikací, které využívají AI, jsou tyto procesory s pouze CPU nedostatečné. Kromě toho rychlá expanze generativní AI úloh pohání exponenciální poptávku po serverech s drahými, energeticky náročnými GPU, což zase zvyšuje náklady na infrastrukturu. Tyto AI-připravené servery mohou stát až 7krát více než běžný server a GPU představují 80 % této dodatečné ceny.

Kromě toho cloudový server spotřebuje 500W až 2000W, zatímco AI-připravený server spotřebuje mezi 2000W a 8000W – 4krát více! Pro podporu těchto serverů datová centra potřebují dodatečné chladicí moduly a upgrade infrastruktury – které mohou být dokonce vyšší než investice do výpočtů. Datová centra již spotřebují 300 TWH ročně, téměř 1% celosvětové spotřeby energie. Pokud budou trendy přijímání AI pokračovat, pak by až 5% celosvětové energie mohlo být spotřebováno datovými centry do roku 2030. Kromě toho je bezprecedentní investice do generativní AI datových center. Odhaduje se, že datová centra spotřebují až 500 miliard dolarů na kapitálové výdaje do roku 2027, hlavně poháněné požadavky na AI infrastrukturu.

Spotřeba elektřiny datových center, již 300 TWh, se výrazně zvýší s přijetím generativní AI.

Náklady na AI výpočet a spotřebu energie brání masovému přijetí generativní AI. Výzvy škálovatelnosti lze překonat přesunutím AI výpočtů na okraj a použitím řešení pro zpracování optimalizovaných pro AI úlohy. S tímto přístupem zákazník získává další výhody, včetně latence, soukromí, spolehlivosti a zvýšené schopnosti.

Výpočet sleduje data na okraji

Od doby, kdy před deseti lety AI vyšla z akademického světa, školení a inferencia AI modelů probíhají v cloudu/datovém centru. S ohledem na to, že většina dat je generována a spotřebována na okraji – zejména video – mělo smysl přesunout inferenci dat na okraj, a tím zlepšit celkové náklady na vlastnictví (TCO) pro podniky díky sníženým síťovým a výpočetním nákladům. Zatímco náklady na AI inferenci v cloudu jsou opakující se, náklady na inferenci na okraji jsou jednorázovým, hardwarovým nákladem. Základní augmentace systému s Edge AI procesorem snižuje celkové provozní náklady. Stejně jako migrace konvenčních AI úloh na okraj (například zařízení, zařízení), generativní AI úlohy budou následovat. To přinese významné úspory pro podniky a spotřebitele.

Přesun na okraj spojený s efektivním AI akcelerátorem pro provádění inferenčních funkcí přináší další výhody. Především mezi nimi je latence. Například v herních aplikacích lze nehráčské postavy (NPC) ovládat a doplňovat pomocí generativní AI. Používáním LLM modelů běžících na edge AI akcelerátorech v herní konzoli nebo PC mohou hráči těmto postavám zadat specifické cíle, aby mohly smysluplně participovat na příběhu. Nízká latence z místního edge inferencing umožní NPC řeči a pohyby reagovat na příkazy a akce hráčů v reálném čase. To poskytne vysoce imerzivní herní zkušenost nákladově efektivní a energeticky úspornou.

V aplikacích, jako je zdravotnictví, jsou soukromí a spolehlivost extrémně důležité (například hodnocení pacientů, doporučení léků). Data a související Gen AI modely musí být na místě, aby chránily data pacientů (soukromí), a jakékoli síťové výpadky, které zablokují přístup k AI modelům v cloudu, mohou být katastrofální. Edge AI zařízení běžící Gen AI model specificky navržen pro každého podnikového zákazníka – v tomto případě zdravotnického poskytovatele – může bezproblémově vyřešit problémy soukromí a spolehlivosti, zatímco dodává na nižší latenci a náklady.

Generativní AI na edge zařízeních zajistí nízkou latenci v herních aplikacích a zachová data pacientů a zvýší spolehlivost pro zdravotnictví.

Mnoho Gen AI modelů běžících v cloudu může být blízké jedné bilionu parametrů – tyto modely mohou efektivně řešit obecné dotazy. Nicméně, podnikově specifické aplikace vyžadují, aby modely dodávaly výsledky, které jsou relevantní pro případ použití. Vezměme si příklad Gen AI založeného asistenta postaveného pro objednávky v rychlém občerstvení – pro tento systém, aby měl bezproblémovou interakci se zákazníky, musí základní Gen AI model být školen na položkách menu restaurace, znalosti alergenů a ingrediencí. Velikost modelu může být optimalizována pomocí supersetu Large Language Model (LLM) pro školení relativně malého, 10-30 miliard parametrů LLM a poté použít další jemné doladění se zákaznickými specifickými daty. Takový model může dodávat výsledky se zvýšenou přesností a schopností. A s ohledem na menší velikost modelu, může být efektivně nasazen na AI akcelerátoru na okraji.

Gen AI vyhraje na okraji

Vždy bude existovat potřeba Gen AI běžící v cloudu, zejména pro obecné účely, jako je ChatGPT a Claude. Ale když se jedná o podnikově specifické aplikace, jako je Adobe Photoshop’s generativní vyplňování nebo Github copilot, Generativní AI na okraji není pouze budoucností, ale také přítomností. Účelově postavené AI akcelerátory jsou klíčem k tomu, aby to bylo možné.

Jako veterán Silicon Valley a CEO společnosti Kinara Inc, Ravi Annavajjhala přináší více než 20 let zkušeností z oblastí obchodního rozvoje, marketingu a inženýrství, při kterých buduje špičkové technologické produkty a uvádí je na trh. Ve své současné roli jako generální ředitel společnosti Deep Vision Ravi působí v její správní radě a získal 50 milionů dolarů, přičemž společnost přešla s procesorem Ara-1 z před-silikonové fáze do plné výroby a nyní zvyšuje objem výroby 2. generace procesoru Ara-2. Předtím, než se připojil k společnosti Deep Vision, Ravi zastával výkonné vedoucí pozice ve společnostech Intel a SanDisk, kde hrál klíčové role při růstu výnosů, rozvoji strategických partnerství a vytváření produktových roadmap, které vedly průmysl s předními funkcemi a schopnostmi.