Rozhovory
Nikunj Bajaj, spoluzakladatel a CEO TrueFoundry – Interview Series

Máte zkušenosti z oblasti výzkumu strojového učení, produkční AI ve Facebooku a velkých doporučovacích systémů, než jste založil TrueFoundry — jaké zkušenosti vás nejvíce přiměly k budování podnikové AI infrastruktury a jaký bolestivý bod nebyl v té době řešen?
V Meta jsme považovali strojové učení za speciální případ softwaru a GenAI jako speciální případ strojového učení, což vedlo k vertikálnímu stacku se softwarem na spodní straně, strojovým učením uprostřed a GenAI nahoře. V tomto nastavení, pokud jsem vývojář strojového učení, modely, které buduji, následují stejné nasazení jako zbytek softwaru, což činí škálování systémů velmi přímočarým.
Většina podniků však nasazovala paralelní stacky, což znamená, že měly samostatné stacky pro software, strojové učení a GenAI. Okamžik, kdy máte tyto paralelní stacky, škálování se stává složitějším kvůli ručním předáním mezi strojovým učením a softwarem.
Náš tým vždy pracoval na průsečíku budování modelů strojového učení a infrastruktury strojového učení, takže jsme měli jedinečný pohled, že bychom mohli přinést podobné vertikální stacky do podniků a přizpůsobit je jejich specifickým požadavkům. Měli jsme také hypotézu na konci roku 2021, že strojové učení se blíží inflexnímu bodu a že když k tomu dojde, více společností bude potřebovat vertikálně integrovaný stack pro nasazení a škálování těchto systémů efektivně. To nakonec vedlo k založení TrueFoundry a naše hypotéza byla správná. Adopce AI se zrychlila po spuštění ChatGPT na konci roku 2022.
Jak se AI systémy pohybují z experimentů do každodenních operací, co se změnilo v tom, jak by organizace měly uvažovat o spolehlivosti a selhání?
Sázky s Gen AI jsou podstatně vyšší ve srovnání s tradičními systémy strojového učení. Jak tyto systémy přecházejí do produkce, organizace se potýkají s mnohem vyšší úrovní nejistoty a nedeterminismu, protože LLM jsou stochastické povahy. Agentní systémy postavené na nich přidávají další nejistotu.
Kromě toho selhání již nejsou binární. Místo toho, aby systémy prostě selhaly nebo nefungovaly, mnoho problémů se objevuje jako částečná selhání nebo tichá degradace. Systémy mohou reagovat se zvýšeným latencí, degradovanými kvalitami nebo nesprávným chováním v průběhu času. V mnoha případech mohou být tyto degradace obtížnější k detekci a někdy dokonce více škodlivé než tvrdá výpadek.
Organizace potřebují uvažovat o spolehlivosti nejen z hlediska dostupnosti, ale také z hlediska degradace výkonu v průběhu času.
TrueFailover byl spuštěn uprostřed vlny vysokoprofilových cloudových a AI služeb. Jaké nedávné události ukázaly, že spolehlivost AI se změnila z „hezké věci“ na základní architektonický požadavek?
Jeden z našich zdravotnických zákazníků, který zpracovává reálné, časově citlivé požadavky pacientů související s předpisy, byl postižen výpadkem způsobeným selháním modelu. Jejich pracovní postupy generují tisíce dolarů výnosu za sekundu a výpadek narušil některé z těchto kritických pracovních postupů. Jako raný zákazník TrueFailover jsme mohli pomoci s rychlým zotavením a dopad byl omezen.
Incidenty jako tento vyvolávají důležitou otázku. Jak se sázky na systémy Gen AI zvyšují, proč jsou procesy zotavení stále převážně manuální? To potvrdilo náš názor, že systémy by měly být navrženy s předpokladem, že selhání nastane, a měly by být navrženy tak, aby se automaticky opravovaly. Spolehlivost musí být také vestavěna do AI stacku prostřednictvím použití AI Gateway, které mohou poskytnout centralizovanou směrování, pozorovatelnost, zábrany a inteligentní přepínání modelů napříč poskytovateli.
Mnoho AI výpadků je stále prezentováno jako technické závady. Kde vidíte skutečné ekonomické a lidské náklady začínající se objevovat, když AI systémy selžou?
Podniková AI se vyvinula do bodu, kdy tyto závady již neovlivňují pouze vnitřní pracovní postupy. Dnes výpadky a degradace přímo a okamžitě ovlivňují veřejný obraz a zisky, protože produkční použití jsou nyní zákaznicky orientovaná. Tento posun z interního testování na vysoce rizikové, zákaznicky orientované aplikace je důvodem, proč vidíme zvýšenou poptávku po pozornosti a dohledu vedení.
Jak AI systémy jsou hluboce integrovány do provozních pracovních postupů, výpadky již nejsou pouze technickými problémy. Stávají se stále více obchodními, zákaznickými a reputačními důsledky.
V kritických prostředích, jako jsou lékárny, zdravotnické operace nebo zákaznická podpora, jak rychle může AI výpadek eskalovat do provozního nebo reputačního rizika?
V kritických prostředích eskalace nastává téměř okamžitě, protože tyto systémy podporují reálné, časově citlivé pracovní postupy. I krátká porucha může zastavit kritické procesy, zpozdit dodání služeb nebo narušit 다운ström systémy, které závisí na těchto výstupech, vytvářející kaskádové provozní účinky napříč organizací.
V sektorech, jako je zdravotnictví, dopad sahá za provozní narušení zákaznické zkušenosti a servisních výsledků. Pokud pacient nemůže včas splnit svůj předpis, mohou nastat skutečné důsledky. To není pouze problém pro pacienta, ale může také poškodit reputaci lékárny nebo zdravotnického poskytovatele. V kritických prostředích, kde je důvěra faktorem, je zásadní, aby systémy zůstaly online. To je důvod, proč organizace stále více uznávají, že AI systémy musí být navrženy s předpokladem, že selhání nastane, a že mechanismy zotavení musí být aktivovány automaticky, aby se minimalizovalo riziko.
Řekl jste, že mnoho týmů architekturuje pro schopnost spíše než kontinuitu. Proč si myslíte, že odolnost byla historicky podceňována v návrhu AI systému?
To se převážně týká pobídek uvnitř organizací. Nové schopnosti jsou viditelné a vzrušující. Zamykají demo, funkce a produktové možnosti, které vedení může okamžitě vidět.
Kontinuita, podle definice, je neviditelná, když věci fungují dobře. Protože je to tak, odměňovací systémy jsou zkresleny ve prospěch nasazení nových funkcí spíše než zajištění, že nic nepraskne. V důsledku toho organizace často investují nerovnoměrně do rozvoje schopností spíše než do inženýrství odolnosti.
Jak podniky stále více spoléhají na externí modely a API, jaké nové křehkosti jsou zaváděny do AI stacku, které lídři možná ještě plně neocení?
LLM jsou fundamentalně sdílené zdroje a podniky je nevlastní, jako tradiční infrastrukturu. Kromě toho důležité podnikové kritické systémy běží na externích systémech, které nejsou plně časově testovány. LLM sami se rychle vyvíjejí, což znamená, že poskytovatel modelu nemůže být zodpovědný za věci, jako je latence nebo mírné snížení kvality modelu, protože rychle iterují na svém výzkumu.
Protože LLM jsou sdílené zdroje, latence může vzrůst, protože jiný spotřebitel těchto LLM provede konkrétní akci. Existuje mnoho těchto bodů selhání, které jsou zavedeny kvůli fundamentální povaze LLM a podniky v tomto novém světě jednoduše nemají plnou kontrolu. Bez plné kontroly může podnik nejlépe vytvořit dostatečné systémové redundance, aby navrhl odolný systém.
Bez zaměřování se na konkrétní produkty, jak by organizace měly přehodnotit AI architekturu, aby předpokládaly selhání spíše než považovaly výpadky za vzácné hraniční případy?
Organizace by se měly vrátit k základním principům distribuovaných systémů. Softwarové systémy byly postaveny na předpokladu, že síťové komponenty a stroje selžou a že celý region může jít dolů.
AI systémy by neměly být výjimkou. Měli bychom předpokládat, že poskytovatelé modelů budou mít problémy s latencí, degradací nebo výpadky a zahrnout redundanci, aby aplikace zůstaly odolné napříč různými scénáři selhání.
Očekáváte, že se AI odolnost stane rozhodujícím faktorem při výběru platformy a dodavatele, podobně jako to, jak dostupnost a redundance formovaly rozhodnutí o cloudové infrastruktuře?
Jakmile se více AI systémů přesune do produkce, odolnost se stane samozřejmostí. Pokud dodavatel nemůže ukázat své grafy a metriky dostupnosti a celkové odolnosti, nebude ani zvažován. Jakmile se odolnost stane základní očekáváním napříč dodavateli, rozhodující faktory se posunou směrem k uživatelské zkušenosti, optimalizaci výkonu, pozorovatelnosti a vyšší úroveň produktových schopností. V průběhu času se komponenty, jako je AI Gateway a automatická funkce převzetí, stanou základními prvky podnikové AI infrastruktury.
Pohledem do budoucna, co znamená „produkční připravenost“ AI ve světě, kde se AI očekává, že bude kontinuálně dostupná, ne pouze občas užitečná?
Produkční připravené AI systémy by měly být pozorovatelné, ovladatelné a zotavitelné. Všechny tři tyto podmínky musí být splněny.
Pro produkční AI, aby byla pozorovatelná, týmy potřebují hlubokou viditelnost do chování modelu, latence, chybových sazeb, tokenu, driftu a vzorců selhání. Bez silné pozorovatelnosti se stává velmi obtížné detekovat degradace, než uživatelé začnou něco zaznamenávat.
Pro systémy, aby byly ovladatelné, zahrnuje to tvarování provozu, omezení sazeb, zábrany, vynucování zásad, a inteligentní směrování napříč modely a poskytovateli. To je místo, kde se AI Gateway stává základním, fungujícím jako centralizovaná řídicí rovina, která vynucuje zábrany, poskytuje konzistentní správu a umožňuje dynamické přepínání modelů, když výkon nebo spolehlivost klesne.
A nakonec, co se týče zotavení, systémy by měly být navrženy s předpokladem, že komponenty mohou být částečně nebo zcela rozbité, ať už kvůli výpadkům poskytovatele, degradovaným kvalitám modelu, omezením sazeb nebo neočekávaným vstupům od škodlivých aktérů. Automatické převzetí a samoopravné mechanismy by měly být nativní pro architekturu, ne manuály spuštěné po tom, co něco půjde wrong.
Tento je směr, kterým se ubíráme v TrueFoundry. Dodavatelé, kteří definují produkční připravenost tímto způsobem, kombinují pozorovatelnost, centralizovanou kontrolu a automatické zotavení, získají dlouhodobou důvěru zákazníků a budou moci řešit nové problémy, jak se objevují.
Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit TrueFoundry.












