Myslitelé
Svatý grál výpočetního výkonu v AI

Přes neuvěřitelný pokrok jsou schopnosti umělé inteligence stále omezené ve srovnání s očekáváním ze skutečného světa. Budujeme komplexní modely, spouštíme neuronové sítě a testujeme algoritmy, ale někdy pokrok stagnuje na místech, kde jsme to nejméně očekávali.
Problém často spočívá ne v algoritmech nebo datech, ale ve výpočetním výkonu, zdrojích, které umožňují modelům učit se a fungovat v potřebném měřítku. Co tedy stojí za touto bariérou? Podívejme se na kritický zdroj, bez kterého ani ty nejperspektivnější projekty AI nemohou překročit laboratorní hranice.
Deficit výpočtu a jeho důsledky
Abychom pochopili tuto problematiku, začněme s historií mobilních komunikací. Když se objevily sítě 3G a později 4G, internet byl již téměř globální. A když byla zavedena 5G, mnoho lidí se ptalo na zcela rozumnou otázku: „Internet bude rychlejší – ale co to znamená?“
Ve skutečnosti se zvyšování rychlosti internetu netýká pouze uživatelské pohodlnosti. Transformuje celou technologickou krajinu. Vznikají použití, která byla dříve nemožná. 5G se ukázalo být mnohem rychlejší než 4G, a tento skok nebyl postupný, jako skok z 1G na 2G, ale exponenciální. V důsledku toho mohou vzniknout nové aplikace, zařízení a celé třídy technologií.
Kamery na semaforech, systémy pro analýzu provozu v reálném čase a automatizované mechanismy řízení provozu – vše toto se stává možným díky novým komunikačním technologiím. Policie získává nové způsoby výměny dat a ve vesmíru mohou dalekohledy a satelity přenášet obrovské množství informací na Zemi. Kvalitativní skok v základní technologii pohání vývoj celého ekosystému.
Stejný princip platí i pro výpočetní výkon. Představte si celkovou výpočetní kapacitu lidstva v hypotetických jednotkách. Dnes můžeme mít, řekněme, deset takových jednotek. S nimi můžeme generovat obrázky a videa, psát texty, vytvářet marketingové materiály… To je již podstatné, ale rozsah aplikací je omezený hlavně.
Teď si představte, že bychom neměli deset, ale tisíc takových jednotek. Najednou se stávají technologie, které byly dříve příliš drahé, proveditelnými, a startupy, které byly opuštěny kvůli vysokým výpočetním nákladům, začínají mít ekonomický smysl.
Vezměme si například robotaxi. Dnes se většinou spoléhají na relativně slabé lokální počítače instalované ve vozidle. Pokud by však byl video tok přenesen do cloudu s enormním výpočetním výkonem, data by mohla být zpracována a vrácena v reálném čase. A to je kritické: auto pohybující se rychlostí 100 km/h musí učinit rozhodnutí za zlomek sekundy – jet rovně, zatáčet, brzdit nebo nebrzdit.
To je okamžik, kdy se plně funkční průmysl robotaxi stává možným, ne pouze izolované řešení, jaká vidíme dnes. Každý lokální počítač instalovaný v autě je inherentně omezený způsobem, který není spojený systém.
Čím rychleji můžeme škálovat, tím rychleji se bude měnit svět kolem nás.
Přístup k čipům a „zlatý lístek“ v AI
V kontextu výpočetního výkonu vyvstává otázka: stává se přístup k moderním čipům „zlatým lístkem“ pro vstup na trh AI? Vytvářejí velké hráči, kteří podepisují smlouvy s výrobci čipů nebo je sami vyrábějí, propast mezi velkými podniky a všemi ostatními?
Taková propast vzniká pouze v jednom případě: pokud je obchodní model zaměřen výhradně na prodej čipů velkým klientům. V praxi se výrobci jako NVIDIA snaží poskytnout cloudová řešení pro všechny. Jejich optimalizované čipy jsou dostupné v cloudu pro OpenAI i nezávislé vývojáře.
I strategická spojenectví mezi společnostmi jako Google, Anthropic, Microsoft, OpenAI, Amazon a NVIDIA jsou primárně partnerství pro sdílení zdrojů, spíše než pokusy o uzavření trhu. Tento model umožňuje efektivní alokaci výpočetního výkonu, a tím urychluje technologický vývoj.
Pokud sledujeme řetězec využití výpočetních zdrojů, začíná u koncového uživatele. Například když používáte WhatsApp pro videohovory a zasílání zpráv, společnost musí zajistit, aby služba fungovala: ukládat a zpracovávat data, spouštět modely pro čištění videa, přidávat efekty a zlepšovat kvalitu obrazu.
Udržování vlastních serverů je drahé, stárnou a vyžadují neustálou údržbu. Proto se objevila cloudová řešení, „cloud“. Trh dominují tři hráči: Google Cloud, AWS a Microsoft Azure. Ostatní společnosti nemohou soutěžit na této úrovni: měřítko infrastruktury je příliš rozsáhlé.
Cloudová služba jsou obrovská datová centra s chlazením, napájením a nepřetržitou údržbou. Obsahují servery a specializované čipy od NVIDIA, AMD a dalších výrobců, umožňující velké výpočetní procesy.
Zde se dostáváme k hlavnímu bodu, o kterém jsem diskutoval v předchozím sloupci o datových centrech, a chci zde pokračovat: co je hlavní překážka v tomto systému? Je to nedostatek elektřiny nebo obtížnost chlazení datových center v regionech, kde klima činí to zvláště náročným? Ve skutečnosti leží tajemství v čipech samotných…
Svatý grál
Proč je NVIDIA dnes hodnocena kolem 5 bilionů dolarů a počítána mezi nejúspěšnější veřejně obchodované společnosti na světě? Důvod je jednoduchý: NVIDIA vyrábí čipy, na kterých se trénují a spouští modely AI.
Každý z těchto čipů spotřebuje enormní množství elektřiny při trénování velkých modelů nebo zpracování neustále rostoucích objemů dat. Ale jak efektivně je tato energie využita? Zde přicházejí specializované čipy do hry; zpracovávají specifické úkoly mnohem efektivněji než obecné účelové GPU.
Modely AI se liší. OpenAI, například, má jednu rodinu modelů, Anthropic jinou. Koncepty mohou být podobné, ale matematické struktury a výpočetní procesy jsou odlišné. Jeden obecný účelový čip, při trénování modelů OpenAI (jako ChatGPT) ve srovnání s modely Anthropic (jako Claude), funguje jako „univerzální nástroj“, spotřebuje, řekněme, 100 000 hodin výpočtu pro jeden model a 150 000 pro druhý. Efektivita se značně liší a zřídka je optimální.
Společnosti řeší tento problém produkcí specializovaných čipů. Například jeden čip může být optimalizován pro architekturu ChatGPT a trénovat ji za, řekněme, 20 minut, zatímco jiný je uzpůsoben pro architekturu Anthropic a také dokončuje trénink za 20 minut. Spotřeba energie a tréninkový čas jsou redukovány mnohokrát ve srovnání s obecným účelovým čipem.
Když tyto čipy jsou prodávány velkým společnostem, jako je Google, Amazon, Microsoft nebo Azure, jsou nabízeny jako samostatné produkty. Uživatelé mohou zvolit, například, čip optimalizovaný pro model YOLO nebo jednodušší a levnější čip pro architekturu Xen. Tímto způsobem získávají společnosti přístup k výpočetním zdrojům přesně uzpůsobeným jejich úkolům, spíše než nákup obecných účelových GPU. Pokud má uživatel deset různých funkcí, může použít deset různých specializovaných čipů.
Trend je zřejmý: specializované čipy postupně nahrazují obecné účelové. Mnoho startupů nyní pracuje s ASIC (Application-Specific Integrated Circuits), čipy navržené pro specifické výpočetní úkoly. První ASIC se objevily pro těžbu Bitcoinu: inicializovaně se Bitcoin těžil na GPU NVIDIA, poté byly vytvořeny čipy výhradně pro Bitcoin a nebyly schopné provádět žádné jiné úkoly.
Vidím to v praxi: stejná hardwarová konfigurace může produkovat zcela odlišné výsledky v závislosti na úkolu. V mém startupu Introspector studujeme tyto procesy v reálných projektech, a jako strategický poradce Keymakr pozoruji, jak klienti získávají efektivitu ze specializovaných čipů, umožňující modelům běžet rychleji. Projekty, které dříve stagnovaly během tréninku nebo inference, dosahují stabilních výsledků s tímto přístupem.
Nicméně úzká specializace nese rizika. Čip optimalizovaný pro architekturu Anthropic nebude fungovat pro trénink modelů OpenAI, a naopak. Každá nová architektura vyžaduje novou generaci hardwaru, což vytváří riziko rozsáhlé „zastaralosti“. Pokud Anthropic vydá novou architekturu zítra, všechny předchozí generace čipů se stanou neefektivními nebo zbytečnými. Produkce nových čipů stojí miliardy dolarů a může trvat roky.
To vytváří dilema: měli bychom vyrábět specializované čipy, které fungují perfektně v úzkém scénáři, nebo pokračovat ve výrobě obecných účelových čipů, které řeší všechny úkoly středně dobře, ale nevyžadují kompletní výměnu, když se architektury mění?
Efektivita v tomto kontextu je měřena třemi primárními parametry: dobou běhu, spotřebou elektřiny a generací tepla. Tyto metriky jsou přímo související: čím déle systém běží, tím více energie spotřebuje a tím více tepla produkuje. Snížení jednoho parametru automaticky zlepšuje ostatní dva.
Zde leží „svatý grál“ výkonu AI: pokud lze alespoň jeden z fundamentálních efektivních metrik optimalizovat, ostatní metriky se téměř automaticky zlepšují také.
Udržitelný proces
S rostoucím používáním specializovaných čipů se stává problémem přeprodukce rizikem. V současné době je již přebytek zařízení významný, a společnosti řeší tuto otázku různými udržitelnými způsoby, včetně opětovného použití existujících zdrojů.
Recyklace zařízení se stala klíčovým prvkem udržitelného rozvoje v high-tech průmyslech. Čipy obsahují podstatné množství drahých a základních kovů, zlata, mědi, hliníku, palladia a vzácných materiálů, jakož i materiálů používaných v mikročipech a tranzistorech. Jakmile se zařízení stane zastaralým, tyto cenné zdroje mohou být vráceny do výroby, snižují náklady na nové komponenty a同时 snižují environmentální stopu průmyslu.
Některé specializované továrny a společnosti se zaměřují na recyklaci a extrakci drahých kovů ze zastaralých komponent. Například některé zařízení používají hydrometalurgické procesy a pokročilé chemické metody k extrakci zlata a mědi s vysokou čistotou, umožňující tyto materiály opětovně použít v nových čipech.
Kromě toho společnosti implementují uzavřené modely, kde stará zařízení jsou vylepšena nebo integrována do nových řešení, snižují tak potřebu primární extrakce zdrojů. Takové přístupy nejen pomáhají minimalizovat odpad, ale také snižují uhlíkovou stopu výroby, protože tradiční těžba a zpracování kovů vyžadují značné množství energie.
Udržitelné řízení životního cyklu čipů a zařízení by mohlo se stát průmyslovým standardem, kde technologický pokrok je spojen s environmentální odpovědností.












