Rozhovory
Neetu Pathak, spoluzakladatelka a CEO Skymel – Interview Series

Neetu Pathak, spoluzakladatelka a CEO Skymel, vede společnost v revoluci umělých inferencí s inovativní technologií NeuroSplit™. Společně s technickým ředitelem Sushantem Tripathy řídí Skymel mise na zlepšení výkonu aplikací AI a snížení výpočetních nákladů.
NeuroSplit™ je adaptivní inferenční technologie, která dynamicky rozděluje AI zátěž mezi zařízení koncových uživatelů a cloud servery. Tento přístup využívá nevyužité výpočetní zdroje na zařízeních uživatelů, snižuje náklady na cloud infrastrukturu až o 60 %, urychluje rychlost inferencí, zajišťuje ochranu dat a umožňuje bezproblémové škálování.
Optimalizací lokální výpočetní síly umožňuje NeuroSplit™ spouštět AI aplikace efektivně i na starších GPU, významně snižuje náklady a zlepšuje uživatelský zážitek.
Co vás inspirovalo k založení Skymel a jakým hlavním problémům v AI infrastruktuře jste se snažili vyřešit s NeuroSplit?
Inspirace pro Skymel přišla z naší společné zkušenosti. Během svého působení v Google můj spoluzakladatel Sushant Tripathy nasazoval speech-based AI modely na miliardy zařízení Android. Zjistil, že na zařízeních koncových uživatelů je obrovské množství nevyužité výpočetní síly, ale většina společností nemůže efektivně využít tyto zdroje kvůli složitým inženýrským problémům při přístupu k těmto zdrojům bez ohrožení uživatelského zážitku.
Zatímco moje zkušenost z práce s podniky a startupy v Redis mi dala hluboké znalosti o tom, jak kritická je latence pro podniky. Jak se AI aplikace staly stále častějšími, bylo zřejmé, že musíme zpracování přesunout blíže k místu, kde jsou data vytvářena, místo aby se data neustále přenášela sem a tam do datových center.
To nás vedlo k tomu, že Sushant a já jsme si uvědomili, že budoucnost nebude o volbě mezi lokálním nebo cloudovým zpracováním – ale o vytvoření inteligentní technologie, která může adaptivně přepínat mezi lokálním, cloudovým nebo hybridním zpracováním na základě každé konkrétní inferenční žádosti. Tento vhled nás vedl k založení Skymel a vývoji NeuroSplit, který jde za hranice tradičních omezení infrastruktury, která brzdila inovace AI.
Můžete vysvětlit, jak NeuroSplit dynamicky optimalizuje výpočetní zdroje, zatímco zachovává uživatelskou ochranu dat a výkon?
Jedním z hlavních problémů lokálního AI inferencing je jeho statická výpočetní náročnost – tradičně vyžaduje spuštění AI modelu stejné výpočetní zdroje bez ohledu na podmínky zařízení nebo chování uživatele. Tento univerzální přístup ignoruje realitu, že zařízení mají různé hardwarové schopnosti, od různých čipů (GPU, NPU, CPU, XPU) až po různé síťové šířky pásma, a uživatelé mají různé chování při používání aplikací a nabíjení.
NeuroSplit nepřetržitě monitoruje různé telemetrické údaje zařízení – od hardwarových schopností po aktuální využití zdrojů, stav baterie a síťové podmínky. Zároveň zohledňujeme vzorce chování uživatelů, jako je počet spuštěných aplikací a typické vzorce používání zařízení. Tento komplexní monitoring umožňuje NeuroSplit dynamicky určit, kolik inferenční výpočetní síly lze bezpečně spustit na zařízení koncového uživatele, zatímco optimalizuje klíčové ukazatele výkonu pro vývojáře.
Když je ochrana dat zásadní, NeuroSplit zajišťuje, že surová data nikdy neopouštějí zařízení, zpracovávají citlivé informace lokálně a přitom zachovávají optimální výkon. Naše schopnost inteligentně rozdělit, zkrátit nebo odpojit AI modely umožňuje nám umístit 50-100 AI stub modelů do paměťového prostoru jediného kvantizovaného modelu na zařízení koncového uživatele. V praktických termínech to znamená, že uživatelé mohou spouštět významně více AI poháněných aplikací současně, zpracovávat citlivé data lokálně, ve srovnání s tradičními statickými výpočetními přístupy.
Jaké jsou hlavní výhody adaptivní inferencing NeuroSplit pro AI společnosti, zejména těch, které pracují se staršími GPU technologiemi?
NeuroSplit poskytuje tři transformační výhody pro AI společnosti. První, dramaticky snižuje náklady na infrastrukturu prostřednictvím dvou mechanismů: společnosti mohou efektivně využívat levnější, starší GPU a naše jedinečná schopnost umístit plné i stub modely na cloud GPU umožňuje významně vyšší využití GPU. Například aplikace, která obvykle vyžaduje několik NVIDIA A100 za 2,74 dolaru za hodinu, může nyní běžet na jednom A100 nebo několika V100 za pouhých 83 centů za hodinu.
Druhý, podstatně zlepšuje výkon zpracováváním primárních surových dat přímo na zařízeních uživatelů. To znamená, že data, která nakonec putují do cloudu, jsou mnohem menší, významně snižují síťovou latenci a přitom zachovávají přesnost. Tento hybridní přístup poskytuje společnostem nejlepší z obou světů – rychlost lokálního zpracování s mocí cloud computingu.
Třetí, zajišťuje, že citlivé primární data jsou zpracována na zařízení koncového uživatele, pomáhá společnostem zachovat silnou ochranu uživatelských dat bez ohrožení výkonu. To je stále kritičtější, protože předpisy na ochranu soukromí se stávají přísnějšími a uživatelé jsou stále více vědomi ochrany soukromí.
Jak Skymelova řešení snižuje náklady na AI inferencing bez ohrožení složitosti nebo přesnosti modelu?
První, rozděluje jednotlivé AI modely, distribuuje výpočetní sílu mezi zařízení uživatelů a cloud. První část běží na zařízení koncového uživatele, zpracovává 5 % až 100 % celkové výpočetní síly v závislosti na dostupných zdrojích zařízení. Pouze zbývající výpočetní síla musí být zpracována na cloud GPU.
Toto rozdělení znamená, že cloud GPU zpracovává sníženou výpočetní zátěž – pokud model původně vyžadoval plný A100 GPU, po rozdělení může stejná zátěž vyžadovat pouze 30-40 % kapacity GPU. To umožňuje společnostem používat více nákladově efektivní instance GPU, jako je V100.
Druhý, NeuroSplit optimalizuje využití GPU v cloudu. Efektivně umisťuje plné modely a stub modely (zbylé části rozdělených modelů) na stejném cloud GPU, dosahuje významně vyššího využití než tradiční přístupy. To znamená, že více modelů může běžet současně na stejném cloud GPU, dále snižuje náklady na inferenci.
Co odlišuje Skymelův hybridní (lokální + cloud) přístup od ostatních AI infrastrukturálních řešení na trhu?
Krajina AI je na fascinujícím obratu. Zatímco Apple, Samsung a Qualcomm demonstrují sílu hybridního AI prostřednictvím svých ekosystémových funkcí, tyto zůstávají uzavřené zahrady. Ale AI by nemělo být omezeno tím, které zařízení koncový uživatel používá.
NeuroSplit je fundamentalně zařízení-agnostic, cloud-agnostic a neuronová síť-agnostic. To znamená, že vývojáři mohou konečně dodávat konzistentní AI zážitky bez ohledu na to, zda jejich uživatelé používají iPhone, Android zařízení nebo laptop – nebo zda používají AWS, Azure nebo Google Cloud.
Zamyslete se nad tím, co to znamená pro vývojáře. Mohou postavit svou AI aplikaci jednou a vědět, že se bude adaptivně chovat napříč libovolným zařízením, libovolným cloudem a libovolnou neuronovou sítí. Už žádné budování různých verzí pro různé platformy nebo kompromisování funkcí na základě schopností zařízení.
Přinášíme podnikové hybridní AI schopnosti z uzavřených zahrad a děláme je univerzálně dostupnými. Jak se AI stává centrem každé aplikace, tato flexibilita a konzistence nejsou jen výhodou – jsou nezbytné pro inovace.
Jak Orchestrator Agent doplňuje NeuroSplit a jakou roli hraje v transformaci strategií nasazení AI?
Orchestrator Agent (OA) a NeuroSplit spolupracují na vytvoření samo-optimalizujícího se AI nasazení systému:
1. Vývojáři nastavují hranice:
- Omezení: povolené modely, verze, cloud poskytovatelé, zóny, pravidla dodržování
- Cíle: cílová latence, limity nákladů, požadavky na výkon, potřeby ochrany soukromí
2. OA pracuje v rámci těchto omezení, aby dosáhla cílů:
- Rozebírá, které modely/API použít pro každou žádost
- Adaptuje strategie nasazení na základě reálného výkonu
- Činí kompromisy, aby optimalizoval pro stanovené cíle
- Může být okamžitě rekonfigurován, jak se potřeby mění
3. NeuroSplit provádí rozhodnutí OA:
- Používá reálnou telemetrii zařízení k optimalizaci výkonu
- Rozděluje zpracování mezi zařízení a cloud, když je to výhodné
- Zajišťuje, že každá inferenční žádost běží optimálně vzhledem k aktuálním podmínkám
Je to jako mít AI systém, který se autonomně optimalizuje v rámci vašich definovaných pravidel a cílů, místo aby vyžadoval manuální optimalizaci pro každou situaci.
Vaším názorem, jak Orchestrator Agent změní způsob nasazení AI napříč odvětvími?
Řeší tři kritické výzvy, které brzdily přijetí a inovace AI.
První, umožňuje společnostem držet krok s nejnovějšími AI pokroky bez úsilí. S Orchestrator Agentem můžete okamžitě využít nejnovější modely a techniky bez rekonfigurace infrastruktury. To je významná konkurenční výhoda ve světě, kde se AI inovace pohybují rychlým tempem.
Druhý, umožňuje dynamickou, na žádost optimalizaci výběru AI modelů. Orchestrator Agent může inteligentně kombinovat modely z obrovské ekosystémové nabídky, aby dodal nejlepší možné výsledky pro každou uživatelskou interakci. Například AI zákaznický servis mohl by použít specializovaný model pro technické otázky a jiný pro fakturační dotazy, dodávající lepší výsledky pro každý typ interakce.
Třetí, maximalizuje výkon, zatímco minimalizuje náklady. Agent automaticky vyvažuje mezi spuštěním AI na uživatelském zařízení nebo v cloudu na základě toho, co má nejvíce smysl v danou chvíli. Když je ochrana soukromí důležitá, zpracovává data lokálně. Když je potřeba extra výpočetní síla, využívá cloud. To vše se děje na pozadí, vytváří plynulý zážitek pro uživatele a optimalizuje zdroje pro podniky.
Ale co skutečně odlišuje Orchestrator Agent je, jak umožňuje podnikům vytvářet next-generační hyper-personalizované zážitky pro své uživatele. Vzít si e-learning platformu – s naší technologií mohou postavit systém, který automaticky přizpůsobí svůj výukový přístup na základě každého studentova porozumění. Když uživatel hledá “machine learning”, platforma nezobrazí pouze obecné výsledky – může okamžitě vyhodnotit jejich současné porozumění a přizpůsobit vysvětlení pomocí konceptů, které už znají.
Nakonec Orchestrator Agent reprezentuje budoucnost nasazení AI – posun od statické, monolitické AI infrastruktury k dynamické, adaptivní, samo-optimalizující se AI orchestraci. Není to jen o tom, aby se nasazení AI usnadnilo – je to o tom, aby se umožnilo zcela nové třídy AI aplikací.
Jakou zpětnou vazbu jste dosud obdrželi od společností, které se účastní soukromé beta verze Orchestrator Agent?
Zpětná vazba od našich účastníků soukromé beta verze byla skvělé! Společnosti jsou nadšené, že mohou konečně vymanit se z infrastrukturního uzamčení, ať už se jedná o proprietární modely nebo hostingové služby. Schopnost budoucnosti libovolného nasazení rozhodnutí eliminuje obávané měsíce rekonfigurace, když se mění přístupy.
Naše výsledky NeuroSplit výkonu byly ničím jiným než pozoruhodné – nemůžeme se dočkat, až budeme moci sdílet data veřejně brzy. Co je zvláště zajímavé, je to, jak koncept adaptivního nasazení AI zachytil představivost. Skutečnost, že AI nasazuje sama sebe, zní futuristicky a není něco, co by očekávali nyní, takže z čistě technologického pokroku lidé se radují z možností a nových trhů, které to může vytvořit v budoucnu.
S rychlým pokrokem v generativní AI, co vidíte jako další hlavní překážky pro AI infrastrukturu a jak Skymel plánuje tyto překážky řešit?
Směřujeme se k budoucnosti, kterou většina lidí ještě plně nepochopila: nebude jeden dominantní AI model, ale miliardy z nich. I kdybychom vytvořili nejvýkonnější obecný AI model představitelný, budeme potřebovat personalizované verze pro každého člověka na Zemi, každou přizpůsobenou jedinečným kontextům, preferencím a potřebám. To znamená nejméně 8 miliard modelů, založených na světové populaci.
To představuje revoluční posun od dnešního univerzálního přístupu. Budoucnost vyžaduje inteligentní infrastrukturu, která může zvládnout miliardy modelů. V Skymel, naše technologická roadmapa již buduje základy pro to, co přijde dále.
Jak si představujete, že se AI infrastruktura bude vyvíjet v příštích pěti letech, a jakou roli budete hrát Skymel v této evoluci?
Krajina AI infrastruktury prochází fundamentální změnou. Zatímco dnešní zaměření je na škálování obecných velkých jazykových modelů v cloudu, příštích pět let uvidí AI stávat se hluboce personalizovaným a kontextově-aware. To není jen o fine-tuning – je to o AI, které se adaptuje na konkrétní uživatele, zařízení a situace v reálném čase.
Tento posun vytváří dvě hlavní infrastrukturální výzvy. První, tradiční přístup běhu všeho v centralizovaných datových centrech se stává technicky a ekonomicky neudržitelným. Druhý, rostoucí složitost AI aplikací znamená, že potřebujeme infrastrukturu, která může dynamicky optimalizovat napříč několika modely, zařízeními a výpočetními lokalitami.
V Skymel, budujeme infrastrukturu, která specificky řeší tyto výzvy. Naše technologie umožňuje AI běhat tam, kde to má nejvíce smysl – zda na zařízení, kde jsou data generována, v cloudu, kde je k dispozici více výpočetní síly, nebo inteligentně rozděleno mezi obě. Co je důležitější, tato rozhodnutí se přizpůsobují v reálném čase na základě měnících se podmínek a požadavků.
V budoucnu úspěšné AI aplikace nebudou definovány velikostí svých modelů nebo množstvím dostupné výpočetní síly. Budou definovány svou schopností dodávat personalizované, responsivní zážitky, zatímco efektivně spravují zdroje. Naším cílem je udělat tuto úroveň inteligentní optimalizace dostupnou pro každou AI aplikaci, bez ohledu na rozsah nebo složitost.
Děkuji za skvělý rozhovor, čtenáři, kteří chtějí dozvědět se více, by měli navštívit Skymel.












