Myšlenkové vůdce
Budoucnost generativní umělé inteligence je hrana

Příchod ChatGPT a Generativní AI obecně je přelomovým okamžikem v historii technologie a je přirovnáván k úsvitu internetu a smartphonu. Generativní umělá inteligence prokázala neomezený potenciál ve své schopnosti vést inteligentní konverzace, složit zkoušky, generovat složité programy/kódy a vytvářet poutavé obrázky a videa. Zatímco GPU provozuje většinu modelů Gen AI v cloudu – jak pro školení, tak pro odvození – nejde o dlouhodobé škálovatelné řešení, zejména pro odvození, kvůli faktorům, které zahrnují náklady, výkon, latenci, soukromí a zabezpečení. Tento článek se zabývá každým z těchto faktorů spolu s motivujícími příklady, jak přesunout výpočetní zátěž Gen AI na okraj.
Většina aplikací běží na vysoce výkonných procesorech – buď na zařízení (např. chytré telefony, stolní počítače, notebooky) nebo v datových centrech. S tím, jak se rozšiřuje podíl aplikací využívajících AI, jsou tyto procesory pouze s CPU nedostatečné. Kromě toho rychlá expanze pracovních zátěží generativní AI vede k exponenciální poptávce po serverech s podporou AI s drahými a energeticky náročnými GPU, což zase zvyšuje náklady na infrastrukturu. Tyto servery s umělou inteligencí mohou stát až 7násobek ceny běžného serveru a GPU tvoří 80 % těchto přidaných nákladů.
Cloudový server navíc spotřebuje 500 W až 2000 2000 W, zatímco server s podporou AI spotřebuje 8000 4 W až 300 XNUMX W – XNUMXx více! K podpoře těchto serverů potřebují datová centra další chladicí moduly a upgrady infrastruktury – což může být dokonce vyšší než investice do výpočetní techniky. Datová centra již spotřebují XNUMX TWH ročně, téměř 1 % celkové celosvětové spotřeby energie. Pokud budou trendy zavádění umělé inteligence pokračovat, pak by datová centra mohla do roku 5 využívat až 2030 % celosvětové energie. Kromě toho došlo k bezprecedentním investicím do datových center generativní umělé inteligence. Odhaduje se, že datová centra spotřebují až 500 miliard dolarů na kapitálové výdaje do roku 2027, poháněné především požadavky na infrastrukturu AI.

Spotřeba elektrické energie datových center, již 300 TwH, výrazně vzroste se zavedením generativní umělé inteligence.
Náklady na výpočet AI a spotřeba energie budou bránit masovému přijetí generativní AI. Problémy se škálováním lze překonat posunutím výpočtů AI na okraj a použitím řešení zpracování optimalizovaných pro pracovní zátěže AI. S tímto přístupem zákazník získá i další výhody, včetně latence, soukromí, spolehlivosti a také zvýšené schopnosti.
Počítat následuje data do Edge
Od doby před deseti lety, kdy se umělá inteligence objevila z akademického světa, došlo v cloudu/datovém centru ke školení a vyvozování modelů umělé inteligence. Vzhledem k tomu, že velká část dat se generuje a spotřebovává na okraji – zejména video – dávalo smysl pouze přesunout odvození dat na okraj, a tím zlepšit celkové náklady na vlastnictví (TCO) pro podniky díky sníženým nákladům na sítě a výpočetní techniku. Zatímco náklady na odvození AI v cloudu se opakují, náklady na odvození na hranici jsou jednorázové náklady na hardware. Rozšíření systému o procesor Edge AI v podstatě snižuje celkové provozní náklady. Stejně jako migrace konvenčních pracovních zátěží AI na Edge (např. zařízení, zařízení) budou generativní úlohy AI následovat. To přinese značné úspory podnikům a spotřebitelům.
Přechod na okraj sítě spolu s efektivním akcelerátorem umělé inteligence pro provádění inferenčních funkcí přináší i další výhody. Mezi nimi je nejdůležitější latence. Například v herních aplikacích lze nehráčské postavy (NPC) ovládat a vylepšovat pomocí generativní umělé inteligence. Pomocí modelů LLM běžících na akcelerátorech umělé inteligence na okraji sítě v herní konzoli nebo počítači mohou hráči těmto postavám zadat konkrétní cíle, aby se mohly smysluplně zapojit do příběhu. Nízká latence z lokální inference na okraji sítě umožní, aby řeč a pohyby NPC reagovaly na příkazy a akce hráčů v reálném čase. To zajistí vysoce pohlcující herní zážitek nákladově a energeticky úsporným způsobem.
V aplikacích, jako je zdravotnictví, jsou soukromí a spolehlivost extrémně důležité (např. hodnocení pacientů, doporučení léků). Data a související modely Gen AI musí být na místě, aby byla chráněna data pacientů (soukromí) a jakékoli výpadky sítě, které budou blokovat přístup k modelům AI v cloudu, mohou být katastrofální. Zařízení Edge AI s modelem Gen AI vytvořeným pro každého podnikového zákazníka – v tomto případě poskytovatele zdravotní péče – dokáže bezproblémově vyřešit problémy s soukromím a spolehlivostí při nižší latenci a nižších nákladech.

Generativní umělá inteligence na okrajových zařízeních zajistí nízkou latenci při hraní a uchová data pacientů a zlepší spolehlivost pro zdravotní péči.
Mnoho modelů Gen AI běžících v cloudu se může blížit bilionu parametrů – tyto modely mohou efektivně řešit obecné dotazy. Podnikové aplikace však vyžadují, aby modely poskytovaly výsledky, které jsou relevantní pro daný případ použití. Vezměme si příklad asistenta založeného na Gen AI vytvořeného pro přijímání objednávek v restauraci rychlého občerstvení – aby tento systém měl bezproblémovou interakci se zákazníky, musí být základní model Gen AI vyškolen na položkách menu restaurace a také znát alergeny a přísady. . Velikost modelu lze optimalizovat pomocí nadmnožiny velkého jazykového modelu (LLM) k trénování relativně malého LLM s 10–30 miliardami parametrů a poté pomocí dalšího jemného ladění s daty specifickými pro zákazníka. Takový model může poskytovat výsledky se zvýšenou přesností a schopností. A vzhledem k menší velikosti modelu jej lze efektivně nasadit na akcelerátor AI na Edge.
Gen AI vyhraje na Edge
Vždy bude potřeba, aby Gen AI běžela v cloudu, zejména pro univerzální aplikace, jako je ChatGPT a Claude. Ale pokud jde o podnikové aplikace, jako je generativní výplň Adobe Photoshop nebo kopilot Github, generativní umělá inteligence v Edge není jen budoucností, ale také přítomností. Klíčem k tomu jsou účelové akcelerátory AI.












