Interviews
Neetu Pathak, Co-Founder and CEO van Skymel – Interview Series

Neetu Pathak, Co-Founder en CEO van Skymel, leidt het bedrijf in de revolutie van AI-inferentie met zijn innovatieve NeuroSplit™-technologie. Samen met CTO Sushant Tripathy, drijft ze Skymel’s missie om de prestaties van AI-toepassingen te verbeteren en de computationele kosten te verlagen.
NeuroSplit™ is een adaptieve inferentietechnologie die AI-werklasten dynamisch verdeelt tussen eindgebruikersapparaten en cloudservers. Deze benadering maakt gebruik van idle computing-resources op gebruikersapparaten, waardoor cloud-infrastructuurkosten met maximaal 60% worden verlaagd, inferentiesnelheden worden versneld, gegevensbescherming wordt gewaarborgd en naadloze schaalbaarheid wordt mogelijk gemaakt.
Door de lokale rekenkracht te optimaliseren, stelt NeuroSplit™ AI-toepassingen in staat om efficiënt te draaien, zelfs op oudere GPU’s, waardoor de kosten aanzienlijk worden verlaagd en de gebruikerservaring wordt verbeterd.
Wat inspireerde je om Skymel mede op te richten, en welke belangrijke uitdagingen in AI-infrastructuur wilde je met NeuroSplit oplossen?
De inspiratie voor Skymel kwam voort uit de convergentie van onze complementaire ervaringen. Tijdens zijn tijd bij Google ontdekte mijn mede-oprichter, Sushant Tripathy, dat er een enorm aantal idle rekenkracht beschikbaar was op eindgebruikersapparaten, maar dat de meeste bedrijven deze resources niet effectief konden gebruiken vanwege de complexe technische uitdagingen om toegang te krijgen tot deze resources zonder de gebruikerservaring te schaden.
Ondertussen gaf mijn ervaring bij het werken met ondernemingen en startups bij Redis me diepe inzichten in hoe kritiek latentie werd voor bedrijven. Naarmate AI-toepassingen meer gebruikelijk werden, werd het duidelijk dat we de verwerking dichter bij de plek moesten brengen waar de gegevens werden gegenereerd, in plaats van voortdurend gegevens heen en weer te sturen naar datacenters.
Toen realiseerden Sushant en ik dat de toekomst niet ging over het kiezen tussen lokale of cloud-verwerking – het ging over het creëren van een intelligente technologie die naadloos kon aanpassen tussen lokale, cloud- of hybride verwerking op basis van elke specifieke inferentieaanvraag. Deze inzichten leidden ons ertoe om Skymel op te richten en NeuroSplit te ontwikkelen, waarmee we de traditionele infrastructuurbeperkingen die AI-innovatie tegenhielden, overstegen.
Kunt u uitleggen hoe NeuroSplit compute-resources dynamisch optimaliseert terwijl gebruikersprivacy en prestaties worden gehandhaafd?
Een van de belangrijkste valkuilen in lokale AI-inferentie was de statische rekenvereisten – traditioneel vereiste het uitvoeren van een AI-model dezelfde rekenresources, ongeacht de apparatencondities of gebruikersgedrag. Deze alles-in-één-aanpak negeerde de realiteit dat apparaten verschillende hardwaremogelijkheden hebben, van verschillende chips (GPU, NPU, CPU, XPU) tot variabele netwerkbandbreedte, en gebruikers verschillende gedragspatronen hebben in termen van app-gebruik en oplaadpatronen.
NeuroSplit bewaakt voortdurend verschillende apparaattelemetrie – van hardwaremogelijkheden tot huidige resource-gebruik, batterijstatus en netwerkcondities. We nemen ook gebruikersgedragspatronen in overweging, zoals hoeveel andere apps er worden uitgevoerd en typische apparaatgebruikspatronen. Deze uitgebreide bewaking stelt NeuroSplit in staat om dynamisch te bepalen hoeveel inferentieberekening veilig kan worden uitgevoerd op het eindgebruikersapparaat, terwijl ontwikkelaars’ belangrijkste prestatie-indicatoren worden geoptimaliseerd.
Wanneer gegevensbescherming van het grootste belang is, zorgt NeuroSplit ervoor dat ruwe gegevens nooit het apparaat verlaten, waarbij gevoelige informatie lokaal wordt verwerkt en optimale prestaties worden gehandhaafd. Onze mogelijkheid om AI-modellen slim te splitsen, te trimmen of los te koppelen, stelt ons in staat om 50-100 AI-stubmodellen in de geheugensruimte van slechts één gequantificeerd model op een eindgebruikersapparaat te plaatsen. In praktische termen betekent dit dat gebruikers aanzienlijk meer AI-gebaseerde apps tegelijkertijd kunnen uitvoeren, waarbij gevoelige gegevens lokaal worden verwerkt, in vergelijking met traditionele statische berekeningsbenaderingen.
Wat zijn de belangrijkste voordelen van NeuroSplit’s adaptieve inferentie voor AI-bedrijven, met name voor diegenen die werken met oudere GPU-technologie?
NeuroSplit levert drie transformatieve voordelen voor AI-bedrijven. Ten eerste verlaagt het de infrastructuurkosten aanzienlijk door twee mechanismen: bedrijven kunnen goedkopere, oudere GPU’s effectief gebruiken, en onze unieke mogelijkheid om zowel volledige als stub-modellen op cloud-GPU’s te plaatsen, maakt een aanzienlijk hogere GPU-gebruiksgraad mogelijk. Bijvoorbeeld kan een applicatie die normaal gesproken meerdere NVIDIA A100’s op $2,74 per uur vereist, nu draaien op één enkele A100 of meerdere V100’s voor slechts $0,83 per uur.
Ten tweede verbeteren we de prestaties aanzienlijk door de initiële ruwe gegevens rechtstreeks op gebruikersapparaten te verwerken. Dit betekent dat de gegevens die uiteindelijk naar de cloud worden gestuurd, veel kleiner zijn in omvang, waardoor netwerklatentie aanzienlijk wordt verlaagd, terwijl de nauwkeurigheid wordt gehandhaafd. Deze hybride benadering biedt bedrijven het beste van beide werelden – de snelheid van lokale verwerking en de kracht van cloud-computing.
Ten derde helpen we bedrijven om sterke gebruikersgegevensbescherming te handhaven zonder prestaties te offeren. Dit is steeds belangrijker naarmate privacyregelgeving strenger wordt en gebruikers meer bewust worden van hun privacy.
Hoe verlaagt Skymel’s oplossing de kosten voor AI-inferentie zonder afbreuk te doen aan modelcomplexiteit of nauwkeurigheid?
Ten eerste door individuele AI-modellen te splitsen, distribueren we de berekening tussen de gebruikersapparaten en de cloud. Het eerste deel draait op het apparaat van de eindgebruiker, waarbij 5% tot 100% van de totale berekening wordt afgehandeld, afhankelijk van de beschikbare apparaatresources. Alleen de resterende berekening hoeft op cloud-GPU’s te worden verwerkt.
Deze splitsing betekent dat cloud-GPU’s een gereduceerde berekeningslast afhandelen – als een model oorspronkelijk een volledige A100-GPU vereiste, hoeft dezelfde workload na splitsing mogelijk slechts 30-40% van de capaciteit van de GPU. Dit stelt bedrijven in staat om goedkopere GPU-exemplaren zoals de V100 te gebruiken.
Ten tweede optimaliseert NeuroSplit de GPU-gebruik in de cloud. Door volledige modellen en stub-modellen (de resterende delen van gesplitste modellen) efficiënt op dezelfde cloud-GPU te plaatsen, bereiken we aanzienlijk hogere gebruiksgraden in vergelijking met traditionele benaderingen. Dit betekent dat meer modellen tegelijkertijd op dezelfde cloud-GPU kunnen draaien, waardoor de per-inferentiekosten verder worden verlaagd.
Wat onderscheidt Skymel’s hybride (lokaal + cloud) benadering van andere AI-infrastructuuropplossingen op de markt?
Het AI-landschap bevindt zich op een fascinerend keerpunt. Terwijl Apple, Samsung en Qualcomm de kracht van hybride AI demonstreren via hun ecosysteemfuncties, blijven deze gesloten systemen. Maar AI zou niet beperkt moeten worden door het apparaat dat iemand toevallig gebruikt.
NeuroSplit is fundamenteel apparaatagnostisch, cloud-agnostisch en neurale netwerk-agnostisch. Dit betekent dat ontwikkelaars eindelijk consistent AI-ervaringen kunnen bieden, ongeacht of hun gebruikers een iPhone, Android-apparaat of laptop gebruiken – of of ze AWS, Azure of Google Cloud gebruiken.
Denk aan wat dit betekent voor ontwikkelaars. Ze kunnen hun AI-toepassing eenmaal bouwen en weten dat deze intelligent zal aanpassen aan elk apparaat, elke cloud en elke neurale netwerkarchitectuur. Geen verschillende versies meer voor verschillende platforms of functies inleveren op basis van apparaatmogelijkheden.
We brengen ondernemingsklasse hybride AI-mogelijkheden uit gesloten systemen en maken ze universeel toegankelijk. Naarmate AI centraal staat in elke toepassing, is dit soort flexibiliteit en consistentie niet alleen een voordeel, maar essentieel voor innovatie.
Hoe complementeert de Orchestrator Agent NeuroSplit, en welke rol speelt het in de transformatie van AI-implementatiestrategieën?
De Orchestrator Agent (OA) en NeuroSplit werken samen om een zelfoptimaliserend AI-implementatiesysteem te creëren:
1. Ontwikkelaars stellen de grenzen:
- Beperkingen: toegestane modellen, versies, cloudproviders, zones, complianceregels
- Doelen: doellatentie, kostenlimieten, prestatie-eisen, privacybehoeften
2. OA werkt binnen deze beperkingen om de doelen te bereiken:
- Bepaalt welke modellen/API’s voor elke aanvraag moeten worden gebruikt
- Past implementatiestrategieën aan op basis van daadwerkelijke prestaties
- Maakt compromissen om te optimaliseren voor gespecificeerde doelen
- Kan onmiddellijk opnieuw worden geconfigureerd als behoeften veranderen
3. NeuroSplit voert OA’s beslissingen uit:
- Gebruikt real-time apparaattelemetrie om uitvoering te optimaliseren
- Splitst verwerking tussen apparaat en cloud wanneer dit gunstig is
- Zorgt ervoor dat elke inferentie optimaal wordt uitgevoerd, gegeven de huidige omstandigheden
Het is alsof je een AI-systeem hebt dat zichzelf autonoom optimaliseert binnen je gedefinieerde regels en doelen, in plaats van handmatige optimalisatie voor elke scenario te vereisen.
Wat is uw mening over hoe de Orchestrator Agent de manier waarop AI wordt geïmplementeerd in verschillende industrieën zal veranderen?
Het lost drie kritieke uitdagingen op die AI-adoptie en innovatie hebben tegengehouden.
Ten eerste stelt het bedrijven in staat om gemakkelijk gelijke tred te houden met de nieuwste AI-vooruitgang. Met de Orchestrator Agent kunnen ze onmiddellijk profiteren van de nieuwste modellen en technieken zonder hun infrastructuur opnieuw in te richten. Dit is een groot concurrentievoordeel in een wereld waar AI-innovatie met razende snelheid evolueert.
Ten tweede maakt het dynamische, per-aanvraag-optimalisatie van AI-modelselectie mogelijk. De Orchestrator Agent kan intelligent modellen uit het enorme ecosysteem van opties mixen en matchen om de beste mogelijke resultaten te leveren voor elke gebruikersinteractie. Bijvoorbeeld kan een klantenservicetoepassing voor AI een gespecialiseerd model voor technische vragen en een ander model voor facturingsvragen gebruiken, waardoor betere resultaten voor elk type interactie worden geleverd.
Ten derde maximaliseert het prestaties terwijl kosten worden geminimaliseerd. De Agent balanceert automatisch tussen het uitvoeren van AI op het apparaat van de gebruiker of in de cloud, op basis van wat op dat moment het meest zinvol is. Wanneer privacy belangrijk is, worden gegevens lokaal verwerkt. Wanneer extra rekenkracht nodig is, wordt de cloud benut. Alles gebeurt achter de schermen, waardoor een naadloze ervaring voor gebruikers wordt gecreëerd, terwijl resources voor bedrijven worden geoptimaliseerd.
Maar wat de Orchestrator Agent echt onderscheidt, is hoe het bedrijven in staat stelt om next-generation hyper-persoonlijke ervaringen voor hun gebruikers te creëren. Neem een e-learningplatform – met onze technologie kunnen ze een systeem bouwen dat automatisch de onderwijsaanpak aanpast op basis van het begripsniveau van elke student. Wanneer een gebruiker zoekt naar “machine learning”, toont het platform niet alleen generieke resultaten – het kan onmiddellijk de huidige kennis van de gebruiker beoordelen en uitleg aanpassen met behulp van concepten die ze al kennen.
Uiteindelijk vertegenwoordigt de Orchestrator Agent de toekomst van AI-implementatie – een verschuiving van statische, monolithische AI-infrastructuur naar dynamische, adaptieve, zelfoptimaliserende AI-orchestratie. Het gaat niet alleen om het makkelijker maken van AI-implementatie – het gaat om het mogelijk maken van geheel nieuwe klassen van AI-toepassingen.
Wat voor soort feedback hebt u tot nu toe ontvangen van bedrijven die deelnemen aan de private beta van de Orchestrator Agent?
De feedback van onze private beta-deelnemers is geweldig! Bedrijven zijn enthousiast om te ontdekken dat ze eindelijk kunnen ontsnappen aan infrastructuurbinding, of het nu gaat om propriëtaire modellen of hostingdiensten. De mogelijkheid om elke implementatiebeslissing toekomstbestendig te maken, is een game-changer, waardoor de gevreesde maanden van herschrijven bij het overschakelen naar een andere benadering, worden geëlimineerd.
Onze NeuroSplit-prestatieresultaten zijn niets minder dan opmerkelijk – we kunnen niet wachten om de gegevens binnenkort publiekelijk te delen. Wat bijzonder opwindend is, is hoe het concept van adaptieve AI-implementatie de verbeelding heeft gevangen. Het feit dat AI zichzelf implementeert, klinkt futuristisch en is niet iets dat ze verwachtten, dus alleen al vanwege de technologische vooruitgang zijn mensen opgewonden over de mogelijkheden en nieuwe markten die het in de toekomst kan creëren.
Met de snelle vooruitgang in generatieve AI, wat ziet u als de volgende grote uitdagingen voor AI-infrastructuur, en hoe gaat Skymel deze aanpakken?
We gaan naar een toekomst die de meeste mensen nog niet volledig begrijpen: er zal geen enkel dominante AI-model zijn, maar miljarden. Zelfs als we het meest krachtige algemene AI-model ooit creëren, zullen we nog steeds gepersonaliseerde versies nodig hebben voor elke persoon op aarde, elk aangepast aan unieke contexten, voorkeuren en behoeften. Dat is minstens 8 miljard modellen, op basis van de wereldbevolking.
Dit markeert een revolutionaire verschuiving van de huidige een-maats-voor-alles-benadering. De toekomst vereist intelligente infrastructuur die miljarden modellen aankan. Bij Skymel zijn we niet alleen bezig met het oplossen van de implementatie-uitdagingen van vandaag – onze technologie-roadmap bouwt al aan de basis voor wat er daarna komt.
Hoe ziet u de evolutie van AI-infrastructuur zich ontwikkelen in de komende vijf jaar, en welke rol ziet u voor Skymel Away in deze evolutie?
Het AI-infrastructuurlandschap zal een fundamentele transformatie ondergaan. Terwijl de focus vandaag ligt op het schalen van generieke grote taalmodellen in de cloud, zal de komende vijf jaar zien dat AI diep gepersonaliseerd en contextueel bewust wordt. Dit is niet alleen een kwestie van fine-tuning – het gaat om AI die zich aanpast aan specifieke gebruikers, apparaten en situaties in real-time.
Deze verschuiving creëert twee grote infrastructuuruitdagingen. Ten eerste wordt de traditionele benadering van het uitvoeren van alles in centrale datacenters onhoudbaar, zowel technisch als economisch. Ten tweede betekent de toenemende complexiteit van AI-toepassingen dat we infrastructuur nodig hebben die dynamisch kan optimaliseren over meerdere modellen, apparaten en rekenlocaties.
Bij Skymel bouwen we infrastructuur die specifiek deze uitdagingen aanpakt. Onze technologie stelt AI in staat om overal te draaien waar het het meest zinvol is – of dat nu is op het apparaat waar de gegevens worden gegenereerd, in de cloud waar meer rekenkracht beschikbaar is, of intelligent tussen de twee. Nog belangrijker is dat het deze beslissingen in real-time aanpast op basis van veranderende omstandigheden en vereisten.
Kijkend naar de toekomst, zullen succesvolle AI-toepassingen niet worden gedefinieerd door de grootte van hun modellen of de hoeveelheid rekenkracht die ze kunnen benutten. Ze zullen worden gedefinieerd door hun vermogen om gepersonaliseerde, responsieve ervaringen te leveren, terwijl resources efficiënt worden beheerd. Ons doel is om dit niveau van intelligente optimalisatie toegankelijk te maken voor elke AI-toepassing, ongeacht schaal of complexiteit.
Bedankt voor het geweldige interview, lezers die meer willen leren, moeten Skymel bezoeken.












