Myslitelé
Pět kroků, aby se paměť stala z největšího omezení AI konkurenční výhodou

V posledních několika letech se infrastruktura AI zaměřovala na výpočetní výkon nad všechny ostatní metriky. Více akcelerátorů, větší klastry a vyšší FLOPS určovaly směr konverzace pro využití GPU. Tento přístup měl smysl, když pokrok modelu závisel hlavně na škále školení. Nyní, když se prioritou stávají produkční nasazení AI, existuje nové omezení, na které se zaměřit: paměť.
Dnes se mnoho z nejobtížnějších omezení pro AI objevuje v kapacitě paměti, šířce pásma, latenci a čase a energetických nákladech na pohyb dat přes systém. Kontextové okna se stále rozšiřují, společnosti jako Anthropic nyní nabízejí milion tokenů ve svých standardních nabídkách. Zátěže inference rostou. Růst multiagentních systémů znamená, že systémy AI předávají větší objemy dat z jedné fáze do další. Operátoři mohou stále snažit se přidat více GPU, ale stále nedosahují požadovaného výkonu, protože tyto systémy jsou ochuzeny o dostatečnou RAM pro efektivní krmení akcelerátorů, když každý server pracuje samostatně, omezený na paměť v systému.
Tento posun ovlivňuje jak propustnost, tak náklady pro hyperscalery a operátory datových center. Když se paměť stává omezujícím faktorem, organizace často reagují nadměrným poskytováním drahého hardwaru, což vede k nevyužité kapacitě GPU a vyšších nákladech na energii a infrastrukturu. Další fáze růstu AI bude záviset méně na přidání surového výpočetního výkonu a více na budování architektur paměti, které odpovídají tomu, jak produkční AI skutečně běží.
Zde jsou pět kroků, které mohou infrastrukturní lídři podniknout nyní, aby se připravili na stále rostoucí požadavky na paměť.
1. Začněte měřením skutečného úzkého místa
Mnoho organizací stále vyhodnocuje výkon AI prostřednictvím výpočetního pohledu. Sledují využití klastrů, počet akcelerátorů a celkovou propustnost, a poté předpokládají, že zlepšení bude pocházet z přidání více akcelerátorů GPU. Tento pohled často přehlíží skutečný problém.
Tlak na paměť se často projeví jako zastavené akcelerátory, vyšší latence na token a nekonzistentní propustnost pod zatížením. Akcelerátor GPU může vypadat jako nevyužitý, pokud čeká na data, která mají přijít z jiné paměťové úrovně, jiného serveru nebo jiné fáze aplikace. Inference činí tento problém více viditelným, protože velikost cache KV roste a více současných relací soutěží o šířku pásma.
Operátoři potřebují lepší přehled o efektivní utilizaci paměti, sledují počet přenesených bytů na token, dobu zastavení akcelerátoru a vzorce přístupu k paměti přes CPU, GPU a sousední paměťové úrovně. Potřebují také pipeline tracing, které může oddělit zpoždění související s pamětí od problémů sítě nebo úložiště. Bez tohoto přehledu riskují týmy, že budou vydávat více peněz za výpočetní výkon, aniž by řešily skutečný zdroj zpomalení.
2. Snížení pohybu dat před přidáním další kapacity
Ve velkých systémech AI může pohyb dat vytvořit stejně velkou režii jako zpracování dat.
To je zvláště pravdivé pro inference. Když se kontextová okna rozšiřují, cache KV může se stát jedním z největších spotřebitelů systémové paměti ve stacku. Více tenantů a multiagentní pracovní postupy mohou přidat ještě více. První fáze generuje výstup, pak další spotřebuje a infrastruktura zpracovává tento handoff kopírováním velkých bloků dat mezi GPU, přes servery nebo prostřednictvím frameworkové serializace.
Tyto kopie mají skutečnou cenu. Spotřebovávají šířku pásma, přidávají latenci a nechávají drahé výpočetní zdroje čekat, až se dokončí další přenos. Také nutí operátory kupovat více drahé paměti, než pracovní zátěž skutečně vyžaduje.
Před investováním do dalších akcelerátorů by týmy měly identifikovat, kde v systému se data pohybují více, než je nutné. Přenosy GPU-GPU, kopie server-server a opakovaný pohyb mezilehlých stavů přes agentní kanály jsou dobrými místy pro začátek. Ve mnoha prostředích snižuje zbytečný pohyb více využitelný výkon než další server.
3. Budování úrovní paměti kolem chování pracovní zátěže
Infrastruktura AI funguje lépe, když operátoři přestanou považovat paměť za jediný zdroj a začnou ji považovat za hierarchii s rozdílnými úlohami.
Nejteplejší data by měla zůstat nejblíže akcelerátoru. To zahrnuje pracovní sady, které vyžadují nejnižší latenci a nejvyšší šířku pásma. Jiné aktivní vyrovnávací paměti a často přístupné stavy mohou sedět v DRAM. Větší struktury, které potřebují škálovatelnost více než absolutní rychlost, mohou být přesunuty do sdílené paměti. Chladnější data a méně aktivní modely patří dále dolů ve stacku.
Tento přístup vyžaduje, aby týmy porozuměly, která data se mění neustále, která data mnoho procesů sdílí a která data mohou tolerovat rozumnou latenci, aniž by ovlivňovala kvalitu služby. Mnoho nasazení stále výchozí nastavení tlačí všechno do nejrychlejší úrovně HBM, protože se to zdá bezpečnější. Tento přístup zvyšuje náklady a obvykle zanechává efektivitu na stole.
Strategie vrstvené paměti poskytuje operátorům více kontroly nad výkonem i ekonomikou. V produkční AI se toto vyvážení stává základním požadavkem návrhu.
4. Považovat sdílenou paměť za součást architektury pro agentic AI
Multiagentní AI zvyšuje náklady na fragmentovanou paměťový design.
V mnoha agenticích systémech jeden agent produkuje výstup, který jiný agent okamžitě spotřebuje. Třetí služba může vyhodnotit ten výstup, přidat kontext nebo jej směrovat do jiného modelu. Pokud každá fáze vytváří čerstvou kopii stejného stavu, provoz se rychle zvyšuje. Jak kontext roste, velikost kopírovaných dat roste s ním. Systém tráví více času pohybem informací než zpracováním dat.
Zde se sdílená paměť stává stále důležitější, zejména pro sdílenou cache KV a další stavy, ke kterým potřebují přistupovat více agenti nebo služby. Sdílená paměť může snížit redundatní kopie, snížit síťový provoz a zlepšit využití po celé aplikaci. Může také pomoci agenticím systémům škálovat efektivně, protože různé uzly nebo agenti mohou znovu použít cache KV se sdílenou pamětí.
Pro hyperscalery již není tento scénář okrajový. Jakmile agentic AI dospěje, sdílená paměť se stává praktickým požadavkem pro efektivní nasazení.
5. Přijetí CXL pro produkční infrastrukturu
V posledních několika letech pohlížela průmysl na CXL jako na slibný standard, který potřebuje více času, aby dozrál, protože CXL rychle přechází z verze 1 na 2. Nyní, s dostupností hardwaru 3.x, CXL dosahuje bodu, kdy je funkcionalitou kompletní, zpětně kompatibilní a připravený na produkční zatížení.
CXL dosáhl úrovně zralosti, kdy by ho hyperscalery a operátoři datových center měli považovat za praktickou možnost pro produkční rozšíření paměti, sdílení paměti a architektury sdílené paměti. Nyní patří do vážného infrastrukturního plánování, zejména pro prostředí, která potřebují více flexibilní škálování paměti a lepší ekonomiku kolem inference.
To neznamená, že by se každá pracovní zátěž měla přesunout na paměť založenou na CXL. Místní paměť zůstane nezbytnou pro nejteplejší a nejcitlivější data na latenci. Operátoři však již nemusí čekat na nějakou budoucí verzi standardu, než budou jednat. Více užitečná otázka je, kde CXL může řešit skutečné produkční problémy dnes.
Nejzřetelnější příležitosti jsou v rozšíření paměti, sdílené paměti a návrzích sdílené paměti, které snižují zbytečné kopie napříč pracovními postupy AI. Tyto použití se shodují přímo s aktuálními tlakovými body: rostoucími požadavky na cache KV, rostoucím přenosem dat mezi agenty a potřebou zlepšit využití GPU, aniž by se zvýšily celkové náklady na vlastnictví.
Operátoři stále potřebují pečlivě inženýrství. Latence, předvídatelnost a softwarová podpora stále záleží. Zásady správy paměti musí umístit data do správné úrovně ve správný čas. Tyto jsou však otázkami implementace, ne důvody, proč odkládat plánování.
V XCENA vidíme paměť, pohyb dat a využití jako centrální omezení produkční infrastruktury AI. Proto se zaměřujeme na výpočetní paměť založenou na CXL a architektury, které snižují zbytečné kopírování, podporují sdílený přístup a pomáhají operátorům lépe využívat drahé výpočetní zdroje.
Průmysl strávil roky, kdy považoval paměť za podpůrný zdroj za skutečným motorem pokroku AI. Tento pohled již nevyhovuje realitě produkčního nasazení. Paměť nyní formuje využití, efektivitu a náklady na každém úrovni stacku. Operátoři, kteří rozpoznají tento posun brzy, budou mít výhodu, která se měří nejen výkonem, ale také tím, jak efektivně škálovat AI v reálném světě.












