Intervjuer
Neetu Pathak, medgrundare och VD för Skymel – Intervjuserie

Neetu Pathak, medgrundare och VD för Skymel, leder företaget i att revolutionera AI-inferens med sin banbrytande NeuroSplit™-teknologi. Tillsammans med CTO Sushant Tripathy driver hon Skymels mission att förbättra AI-applikationsprestanda samtidigt som de minskar beräkningskostnaderna.
NeuroSplit™ är en adaptiv inferensteknologi som dynamiskt distribuerar AI-arbetsbelastningar mellan slutanvändarens enheter och molnservrar. Denna metod utnyttjar outnyttjad beräkningskraft på användarens enheter, vilket minskar molninfrastrukturkostnaderna med upp till 60%, accelererar inferenstider, säkerställer dataskydd och möjliggör sömlös skalbarhet.
Genom att optimera lokal beräkningskraft tillåter NeuroSplit™ AI-applikationer att köras effektivt även på äldre GPU:er, vilket avsevärt minskar kostnaderna samtidigt som användarupplevelsen förbättras.
Vad inspirerade dig att medgrundande Skymel, och vilka nyckelutmaningar inom AI-infrastruktur försökte du lösa med NeuroSplit?
Inspirationen till Skymel kom från sammanflödet av våra kompletterande erfarenheter. Under sin tid på Google distribuerade min medgrundare, Sushant Tripathy, talbaserade AI-modeller över miljarder Android-enheter. Han upptäckte att det fanns en enorm mängd outnyttjad beräkningskraft tillgänglig på slutanvändarens enheter, men de flesta företag kunde inte utnyttja den effektivt på grund av de komplexa ingenjörsutmaningarna med att komma åt dessa resurser utan att äventyra användarupplevelsen.
Samtidigt gav min erfarenhet av att arbeta med företag och startups på Redis mig en djup insikt i hur kritisk latens blev för företag. När AI-applikationer blev allt vanligare var det tydligt att vi behövde flytta bearbetningen närmare där data skapades, snarare än att ständigt skicka data tillbaka och fram till datacenter.
Då insåg Sushant och jag att framtiden inte handlade om att välja mellan lokal eller molnbearbetning – det handlade om att skapa en intelligent teknik som kunde anpassa sig sömlöst mellan lokal, moln- eller hybridbearbetning baserat på varje specifik inferensbegäran. Denna insikt ledde oss till att grunda Skymel och utveckla NeuroSplit, och gå utöver de traditionella infrastrukturbegränsningarna som höll tillbaka AI-innovationen.
Kan du förklara hur NeuroSplit dynamiskt optimerar beräkningsresurser samtidigt som den upprätthåller användarprivatitet och prestanda?
En av de stora fallgroparna i lokal AI-inferens har varit dess statiska beräkningskrav – traditionellt sett kräver körning av en AI-modell samma beräkningsresurser oavsett enhetens tillstånd eller användarbetende. Denna en-storlek-passar-alla-approach försummar verkligheten att enheter har olika hårdvarukapaciteter, från olika chip (GPU, NPU, CPU, XPU) till varierande nätverksbandbredd, och användare har olika beteenden när det gäller applikationsanvändning och laddningsmönster.
NeuroSplit övervakar kontinuerligt olika enhetstelemetri – från hårdvarukapaciteter till nuvarande resursutnyttjande, batteristatus och nätverksförhållanden. Vi tar också hänsyn till användarbeteendemönster, som hur många andra applikationer som körs och typiska enhetsanvändningsmönster. Denna omfattande övervakning möjliggör för NeuroSplit att dynamiskt bestämma hur mycket inferensberäkning som kan köras på slutanvändarens enhet samtidigt som den optimerar för utvecklares nyckelprestandaindikatorer.
När dataskydd är av största vikt ser NeuroSplit till att rådata aldrig lämnar enheten, bearbetar känslig information lokalt samtidigt som den upprätthåller optimal prestanda. Vår förmåga att smarta splittra, trimma eller koppla loss AI-modeller möjliggör för oss att få plats med 50-100 AI-stubmodeller i minnesutrymmet för en enda kvantiserad modell på en slutanvändarens enhet. I praktiken innebär detta att användare kan köra avsevärt fler AI-drivna applikationer samtidigt, bearbeta känslig data lokalt, jämfört med traditionella statiska beräkningsapproach.
Vilka är de viktigaste fördelarna med NeuroSplits adaptiva inferens för AI-företag, särskilt de som arbetar med äldre GPU-teknik?
NeuroSplit erbjuder tre omvälvande fördelar för AI-företag. Först minskar den dramatiskt infrastrukturkostnaderna genom två mekanismer: företag kan utnyttja billigare, äldre GPU:er effektivt, och vår unika förmåga att få plats med både fulla och stubbmodeller på moln-GPU:er möjliggör avsevärt högre GPU-utnyttjandegrad. Till exempel kan en applikation som vanligtvis kräver flera NVIDIA A100 på 2,74 dollar per timme nu köras på antingen en enda A100 eller flera V100 på endast 83 cent per timme.
Som andra förbättrar vi avsevärt prestandan genom att bearbeta initiala rådata direkt på användarens enhet. Detta innebär att de data som slutligen skickas till molnet är mycket mindre i storlek, vilket avsevärt minskar nätverksfördröjningen samtidigt som det upprätthåller precisionen. Denna hybridapproach ger företag det bästa av två världar – hastigheten hos lokal bearbetning med kraften hos molnbearbetning.
Som tredje hjälper vi företag att upprätthålla starka användarprivatetsskydd utan att offra prestanda. Detta är alltmer kritiskt när dataskyddsföreskrifterna blir strängare och användarna mer medvetna om privatliv.
Hur minskar Skymels lösning kostnaderna för AI-inferens utan att kompromissa med modellkomplexitet eller precision?
Först, genom att splittra enskilda AI-modeller, distribuerar vi beräkningen mellan användarens enhet och molnet. Den första delen körs på användarens enhet, hanterar 5% till 100% av den totala beräkningen beroende på tillgängliga enhetsresurser. Endast den återstående beräkningen behöver bearbetas på moln-GPU:er.
Denna splittring innebär att moln-GPU:er hanterar en minskad beräkningsbörda – om en modell ursprungligen krävde en full A100-GPU, kan samma arbetsbelastning efter splittring bara kräva 30-40% av GPU:ns kapacitet. Detta möjliggör för företag att använda mer kostnadseffektiva GPU-instanser som V100.
Som andra optimerar NeuroSplit GPU-utnyttjandet i molnet. Genom att effektivt ordna både fulla modeller och stubbmodeller (de återstående delarna av splittrade modeller) på samma moln-GPU uppnår vi avsevärt högre utnyttjandegrad jämfört med traditionella approacher. Detta innebär att fler modeller kan köras samtidigt på samma moln-GPU, vilket ytterligare minskar per-inferenskostnaderna.
Vad skiljer Skymels hybridapproach (lokal + moln) från andra AI-infrastrukturlösningar på marknaden?
AI-landskapet befinner sig vid en fascinerande inflexionspunkt. Medan Apple, Samsung och Qualcomm visar kraften hos hybrid-AI genom sina ekossystemfunktioner, förblir dessa inhägnade trädgårdar. Men AI borde inte begränsas av vilken slutanvändarens enhet som används.
NeuroSplit är grundläggande enhetsagnostisk, molnagnostisk och neuralnätverksagnostisk. Detta innebär att utvecklare slutligen kan leverera konsekventa AI-upplevelser oavsett om deras användare är på en iPhone, en Android-enhet eller en laptop – eller om de använder AWS, Azure eller Google Cloud.
Tänk på vad detta innebär för utvecklare. De kan bygga sin AI-applikation en gång och veta att den kommer att anpassa sig intelligently över alla enheter, alla moln och alla neurala nätverksarkitekturer. Inga fler versioner för olika plattformar eller kompromissa med funktioner baserat på enhetsförmåga.
Vi för hybrid-AI-kapacitet av företagsklass ut ur inhägnade trädgårdar och gör dem universellt tillgängliga. När AI blir central för varje applikation är denna typ av flexibilitet och konsekvens inte bara en fördel – det är avgörande för innovation.
Hur kompletterar Orchestrator Agent NeuroSplit, och vilken roll spelar den i att omvandla AI-distributionsstrategier?
Orchestrator Agent (OA) och NeuroSplit arbetar tillsammans för att skapa ett självoptimerande AI-distributionssystem:
1. Utvecklare ställer in gränserna:
- Begränsningar: tillåtna modeller, versioner, molnleverantörer, zoner, regelefterlevnadsregler
- Mål: mållatens, kostgränser, prestandakrav, dataskyddskrav
2. OA arbetar inom dessa begränsningar för att uppnå målen:
- Beslutar vilka modeller/API:er som ska användas för varje begäran
- Anpassar distributionsstrategier baserat på verklig prestanda
- Gör avvägningar för att optimera för angivna mål
- Kan konfigureras om på nytt när behoven ändras
3. NeuroSplit utför OA: s beslut:
- Använder realtidsenhetstelemetri för att optimera körning
- Splittrar bearbetning mellan enhet och moln när det är fördelaktigt
- Ser till att varje inferens körs optimalt med tanke på aktuella förhållanden
Det är som att ha ett AI-system som självoptimerar sig inom dina definierade regler och mål, snarare än att kräva manuell optimering för varje scenario.
Hur tror du att Orchestrator Agent kommer att omvandla sättet AI distribueras över branscher?
Den löser tre kritiska utmaningar som har hindrat AI-antagande och innovation.
Först, den möjliggör för företag att hålla jämna steg med de senaste AI-framstegen utan ansträngning. Med Orchestrator Agent kan du direkt utnyttja de senaste modellerna och teknikerna utan att omkonfigurera din infrastruktur. Detta är en stor konkurrensfördel i en värld där AI-innovation rör sig i en rasande takt.
Som andra, den möjliggör dynamisk, per-begäran-optimering av AI-modellval. Orchestrator Agent kan intelligently blanda och matcha modeller från det stora ekosystemet av alternativ för att leverera de bästa möjliga resultaten för varje användarinteraktion. Till exempel, en kundtjänst-AI kunde använda en specialiserad modell för tekniska frågor och en annan för faktureringsförfrågningar, vilket ger bättre resultat för varje typ av interaktion.
Som tredje, den maximerar prestanda samtidigt som den minimerar kostnader. Agenten balanserar automatiskt mellan att köra AI på användarens enhet eller i molnet baserat på vad som är mest meningsfullt för tillfället. När dataskydd är viktigt, bearbetar den data lokalt. När extra beräkningskraft behövs, utnyttjar den molnet. Allt detta sker bakom kulisserna, skapar en sömlös upplevelse för användare samtidigt som det optimerar resurser för företag.
Men vad som verkligen särskiljer Orchestrator Agent är hur den möjliggör för företag att skapa nästa generations hyperpersonliga upplevelser för sina användare. Ta ett e-lärandeplattform – med vår teknik kan de bygga ett system som automatiskt anpassar sin undervisningsmetod baserat på varje students förståelsennivå. När en användare söker efter “maskinlärning”, visar plattformen inte bara generiska resultat – den kan omedelbart bedöma deras nuvarande förståelse och anpassa förklaringar med hjälp av koncept de redan känner till.
Slutligen representerar Orchestrator Agent framtiden för AI-distribution – en skiftning från statisk, monolitisk AI-infrastruktur till dynamisk, adaptiv, självoptimerande AI-orchestrering. Det handlar inte bara om att göra AI-distribution enklare – det handlar om att göra helt nya klasser av AI-applikationer möjliga.
Vilken typ av feedback har du fått hittills från företag som deltar i den privata betan av Orchestrator Agent?
Feedbacken från våra privata betadeltagare har varit fantastisk! Företag är lyriska över att upptäcka att de slutligen kan bryta sig loss från infrastruktur-låsning, antingen till proprietära modeller eller värdtjänster. Förmågan att framtidsäkra varje distributionsbeslut har varit en spelväxlare, som eliminerar de fruktade månaderna av omkonfigurering när man byter tillvägagångssätt.
Våra NeuroSplit-prestandaresultat har varit ingenting annat än anmärkningsvärda – vi kan inte vänta med att dela data offentligt snart. Vad som är särskilt spännande är hur den mycket konceptet med adaptiv AI-distribution har fångat fantasin. Det faktum att AI distribuerar sig själv låter som science fiction och inte något de förväntade sig nu, så bara från den tekniska framstegen blir människor upphetsade över möjligheterna och de nya marknaderna det kan skapa i framtiden.
Med den snabba utvecklingen inom generativ AI, vad ser du som de kommande stora hindren för AI-infrastruktur, och hur planerar Skymel att tackla dem?
Vi är på väg mot en framtid som de flesta inte helt har förstått ännu: det kommer inte att finnas en enda dominant AI-modell, utan miljarder av dem. Även om vi skapar den kraftfullaste allmänna AI-modellen som är tänkbar, kommer vi fortfarande att behöva personliga versioner för varje person på jorden, var och en anpassad till unika sammanhang, preferenser och behov. Detta markerar en revolutionerande skiftning från dagens en-storlek-passar-alla-approach.
Framtiden kräver intelligent infrastruktur som kan hantera miljarder modeller. På Skymel bygger vi inte bara lösningar för dagens distributionsutmaningar – vår tekniska roadmap bygger redan grunden för vad som kommer härnäst.
Hur ser du att AI-infrastruktur utvecklas under de kommande fem åren, och vilken roll tror du att Skymel kommer att spela i denna utveckling?
AI-infrastrukturlandskapet är på väg att genomgå en grundläggande förändring. Medan dagens fokus ligger på att skala generiska stora språkmodeller i molnet, kommer de kommande fem åren att se AI bli djupt personligt och sammanhangsberoende. Detta är inte bara om finjustering – det handlar om AI som anpassar sig till specifika användare, enheter och situationer i realtid.
Denna skiftning skapar två stora infrastruktursutmaningar. Först, den traditionella approachen att köra allt i centraliserade datacenter blir ohållbar både tekniskt och ekonomiskt. Som andra, den ökande komplexiteten hos AI-applikationer innebär att vi behöver infrastruktur som kan dynamiskt optimera över flera modeller, enheter och beräkningsplatser.
På Skymel bygger vi infrastruktur som specifikt adresserar dessa utmaningar. Vår teknik möjliggör för AI att köras var det är mest meningsfullt – antingen på enheten där data genereras, i molnet där mer beräkningskraft är tillgänglig, eller intelligent splittrad mellan de två. Viktigare, den anpassar dessa beslut i realtid baserat på förändrade förhållanden och krav.
Ser framåt, kommer framgångsrika AI-applikationer inte att definieras av modellens storlek eller den mängd beräkningskraft de kan komma åt. De kommer att definieras av sin förmåga att leverera personliga, responsiva upplevelser samtidigt som de effektivt hanterar resurser. Vårt mål är att göra denna nivå av intelligent optimering tillgänglig för varje AI-applikation, oavsett skala eller komplexitet.
Tack för den underbara intervjun, läsare som vill lära sig mer bör besöka Skymel.












