Connect with us

Infrastruktura umělé inteligence je rozbitá. Tokeny se stávají novou měrou hodnoty.

Myslitelé

Infrastruktura umělé inteligence je rozbitá. Tokeny se stávají novou měrou hodnoty.

mm

Průmysl umělé inteligence má problém s měřením.

Po mnoho let byl úspěch definován přístupem ke zpracování, jako je kdo má nejvíce GPU, největší klastry nebo nejrychlejší tréninkové běhy. Miliardy byly vloženy do infrastruktury, aby se vyhrál tento závod.

Ale když se umělá inteligence přesouvá z experimentování do produkce, tento model začíná selhávat.

Podniky nekoupí GPU. Nekoupí ani kapacitu inferencing. Koupí výsledky, jako jsou souhrny, doporučení, rozhodnutí, obsah. Jinými slovy, kupují tokeny.

Přesto je většina infrastruktury umělé inteligence stále navržena tak, jako by zpracování bylo konečným cílem. Není.

Skutečnou jednotkou hodnoty v umělé inteligenci je token. A společnosti, které uznají tento posun brzy, budou definovat další éru trhu.

Vzestup továrny na tokeny umělé inteligence

Pokud tokeny jsou produktem, pak infrastruktura umělé inteligence musí fungovat jako výrobní systém, ne jako vědecký projekt. To je místo, kde vstupuje koncept továrny na tokeny umělé inteligence.

Továrna na tokeny umělé inteligence není jednoduše další softwareová vrstva ve stacku. Je to přehodnocení stacku samotného. Místo optimalizace pro izolované modelové výkony nebo surovou hardwarovou utilizaci se zaměřuje na jeden výsledek: efektivní produkci tokenů ve velkém měřítku.

To znamená abstrakci složitosti infrastruktury, dynamické přidělování úloh napříč heterogenními prostředími a nepřetržité optimalizace pro propustnost, latenci, utilizaci a náklady na token.

Dnešní model je v podstatě pronájem GPU s extra kroky. Organizace zajišťují drahé hardwarové vybavení, spojují fragmentované nástroje a doufají, že utilizace nakonec ospravedlní investici.

Továrna na tokeny otočí tento vztah úplně. Dodává výstupy, ne infrastrukturu, a považuje efektivitu za základní návrhový princip od prvního dne. To není.incrementální pokrok. Je to posun od infrastruktury jako kapacity k infrastruktuře jako produkce.

Proč starý model nemůže fungovat

Současný model infrastruktury umělé inteligence není jen neefektivní. Je také stále méně udržitelný.

Nedostatek GPU odhalil první trhliny. Poptávka stále převyšuje nabídku, což nutí organizace do fragmentovaných, víceslužebných nasazení. Co začalo jako dočasné řešení se rychle stalo normou: heterogenní prostředí spojená bez ujednocující provozní vrstvy.

Problém je, že většina stávajících stacků nebyla postavena pro tuto realitu. Neoptimalizují efektivně napříč architekturami, neadaptují se v reálném čase nebo neposkytují jasnou viditelnost do výkonu a nákladů.

Jako výsledek se složitost zvyšuje rychleji než měřítko.

Každý nový model, rámec, akcelerátor nebo cloudová platforma zavádí další vrstvu provozní zátěže. Týmy tráví enormní množství času správou orchestrace, kompatibility, směrování, plánování a pozorovatelnosti místo zlepšování výsledků.

Co by mělo být výhodou měřítka, se rychle stává koordinačním problémem.

Ve stejnou dobu se ekonomika stává stále obtížnější ignorovat. Rané nasazení umělé inteligence mohlo maskovat neefektivitu za růst a experimentování. Tohle okno se zavírá.

Výkonní ředitelé nyní kladou obtížnější otázky: Proč jsou náklady na inferencing tak nepředvídatelné? Proč je utilizace GPU stále tak nízká? Proč organizace platí премiální ceny za hardwarové vybavení, které často stojí nečinně? Proč je tak obtížné vázat výdaje na infrastrukturu s obchodními výsledky?

Odpověď je jednoduchá: Systém byl navržen pro přístup, ne pro efektivitu.

Z compute-centrické na token-centrickou architekturu

Posun k továrnám na tokeny je jak filozofický, tak architektonický.

První, trh se přesouvá z GPU-as-a-service na outcome-as-a-service. Zákazníci nechtějí spravovat infrastrukturu; chtějí zaručené výsledky. Logický konečný stav je spotřeba založená na výstupech, ne na zdrojích.

Druhý, fragmentované stacky se mění na ujednocené řídicí roviny. V heterogenním prostředí je viditelnost a kontrola vším. Továrny na tokeny poskytují přehled o využití, nákladech a výkonu v reálném čase a schopnost jednat na základě toho. Organizace potřebují pochopit: Kdo generuje tokeny? Za jakou cenu? Na kterém hardwaru? Pod jakými úlohami? A s jakou úrovní efektivnosti? Bez těch odpovědí se optimalizace stává hádáním.

Nakonec se zaměření průmyslu přesouvá z provedení na nepřetržité optimalizace. Výzvou již není jen spuštění modelů, ale spuštění jich inteligentně, protože organizace určují: Které úlohy patří na který hardwar? Jak maximalizovat propustnost, zatímco se kontrolují náklady? Jak zabránit nekontrolovanému použití tokenů?

Továrny na tokeny považují tyto otázky za první-rádné problémy, ne za následky.

Proč dnešní model dodávky umělé inteligence selhává

Tradiční stack umělé inteligence (zahrnující hardwarové dodavatele, cloudové platformy, služby inferencing) byl postaven primárně pro rychlý růst, ne pro systémovou efektivitu.

Každá vrstva přidává hodnotu, ale také náklady, abstrakci a provozní fragmentaci. Výsledkem je systém se zásobními maržemi, omezenou transparentností a zvyšující se uzamčením dodavatele. Organizace končí optimalizací uvnitř sil, ne napříč systémem.

Továrny na tokeny fundamentálně zpochybňují ten model.

Odpojováním hardwaru od dodávky hodnoty umožňují optimalizaci od konce ke konci. Úlohy mohou plynule přecházet napříč prostředími. Architektury mohou evolucovat bez vyžadování masivních přepisů. Efektivita se stává měřitelnou, spravovatelnou a nepřetržitě zlepšovatelnou.

To je, jak podniky a vznikající neo-cloudy mohou soutěžit efektivněji s hyperscalery. Ne tím, že budou odpovídat jejich měřítku, ale tím, že budou překonávat na efektivitě.

Kdo vyhraje

Možná nejvíce rušivým aspektem tohoto přechodu je, koho to osvobodí. Není třeba vlastnit datové centrum nebo dokonce GPU, aby se provozovala továrna na tokeny.

Co je důležité, je kontrola nad orchestrací, optimalizací a dodávkou. To otevírá dveře mnohem širšímu spektru hráčů:

  • Podniky s velkými, trvalými úlohami umělé inteligence.
  • Neo-cloudoví poskytovatelé optimalizující pro konkrétní vertikály nebo použití.
  • Dodavatelé infrastruktury přesouvající se nahoru ve stacku.

V tomto modelu konkurenční výhoda nepřichází z hromadění zpracování. Přichází z produkce tokenů lépe, rychleji a levněji než kdokoli jiný.

Nová bitevní pole: Náklad na token

Následující fáze soutěže v umělé inteligenci nebude vyhrána pouze na kvalitě modelu. Bude vyhrána na efektivitě. Konkrétněji, náklad na token.

Kdo může dodat ekvivalentní nebo lepší výstupy za zlomek nákladů? Kdo může měřítkovat bez nekontrolovaných nákladů na infrastrukturu? Kdo může proměnit umělou inteligenci v předvídatelný, ziskový obchod?

Tyto nejsou otázky infrastruktury. Jsou to výrobní otázky, které vyžadují výrobní myšlení.

Budoucnost není postavena na GPU

GPU nezmizí, ale již nejsou příběhem. Tokeny jsou.

Organizace, které zůstávají zaměřeny na zpracování, čelí rostoucím nákladům a snižující se návratnosti. Ty, které se přesunou do token-centrických systémů, odemknou fundamentálně odlišný model, který zarovnává infrastrukturu s výsledky a náklady s hodnotou.

Továrny na tokeny umělé inteligence nejsou vzdáleným konceptem. Jsou nevyhnutelnou evolucí trhu. Jediná skutečná otázka je, kdo je postaví první a kdo zůstane pozadu.

Gaurav Shah je viceprezident pro rozvoj podnikání a strategii ve společnosti NeuReality, kde řídí zákaznické úsilí o revoluci v oblasti AI inference a urychlení jejího přijetí napříč sektory, včetně fintech, healthtech a vlády. Gaurav má tři desetiletí zkušeností v technologickém průmyslu, kde pracoval v roli produktového marketingu a managementu ve společnostech NVIDIA, Marvell, Tenstorrent a GlobalFoundries. Je umístěn v oblasti zálivu San Francisco.