Haastattelut
Neetu Pathak, Skymelin Co-Founder ja CEO – Haastattelu Sarja

Neetu Pathak, Skymelin Co-Founder ja CEO, johtaa yhtiötä vallankumouksellisen NeuroSplit™ -teknologian avulla tekoälyinferenssin parantamisessa. Yhdessä CTO Sushant Tripathyn kanssa hän ajaa Skymelin tehtävää parantaa tekoälysovellusten suorituskykyä ja vähentää laskennallisia kustannuksia.
NeuroSplit™ on adaptiivinen inferenssiteknologia, joka jakaa dynaamisesti tekoälytyön kuormituksen loppukäyttäjän laitteiden ja pilvipalvelimien välillä. Tämä lähestymistapa hyödyntää käyttäjän laitteiden tyhjää laskentaresursseja, mikä leikkaa pilvi-infrastruktuurin kustannuksia jopa 60 %, kiihdyttää inferenssin nopeutta, varmistaa tietosuojan ja mahdollistaa käytännöllisen skaalautuvuuden.
Optimoimalla paikallisen laskentatehon, NeuroSplit mahdollistaa tekoälysovellusten suorittamisen tehokkaasti jopa vanhemmilla GPU:illa, mikä merkitsee kustannusten laskua ja käyttökokemuksen parantamista.
Mikä innoitti sinua perustamaan Skymelin, ja mitkä olivat avainhaasteet tekoälyinfrastruktuurissa, joita halusit ratkaista NeuroSplitin avulla?
Innostus Skymelin perustamiseen tuli meidän kokemusten yhdistymisestä. Aikanaan Googlella työskennellessään minun co-founderini Sushant Tripathy toteutti puheperusteisia tekoälymalleja miljardeille Android-laitteille. Hän huomasi, että loppukäyttäjien laitteilla on valtavasti tyhjää laskentaresursseja, mutta useimmat yritykset eivät voi hyödyntää niitä tehokkaasti monimutkaisten insinööritieteellisten haasteiden vuoksi ilman käyttökokemuksen heikentymistä.
Samaan aikaan minun kokemukseni Redisillä työskennellessäni antoi minulle syvän ymmärryksen siitä, kuinka kriittinen viive on liiketoiminnalle. Tekoälysovellusten yleistyessä oli selvää, että meidän on siirrettävä prosessointi lähemmäs dataa, jotta voidaan välttää jatkuvaa datakuljetusta keskuslaitteistoihin.
Silloin Sushant ja minä tajusimme, että tulevaisuus ei ole valintaa paikallisen tai pilviprosessoinnin välillä – vaan luomisesta älykkäästä teknologiasta, joka voi sopeutua paikallisesta, pilvi- tai hybridi-prosessoinnista riippuen kunkin erityisen inferenssipyynnön mukaan. Tämä oivallus johti meidät Skymelin perustamiseen ja NeuroSplitin kehittämiseen, jolla siirrytään perinteisten infrastruktuurirajoitusten ohi, jotka ovat hidastaneet tekoälyinnovaatiota.
Voitko selittää, miten NeuroSplit dynaamisesti optimoi laskentaresursseja ylläpitäen käyttäjän tietosuojaa ja suorituskykyä?
Yksi suurimmista ongelmista paikallisessa tekoälyinferenssissä on ollut sen staattinen laskentavaatimus – perinteisesti tekoälymallin suorittaminen edellyttää samoja laskentaresursseja riippumatta laitteen olosuhteista tai käyttäjän käyttäytymisestä. Tämä yhdenkokoinen lähestymistapa jättää huomiotta sen tosiasian, että laitteilla on erilaiset laitteistokapasiteetit, alkaen erilaisista prosessoreista (GPU, NPU, CPU, XPU) ja vaihtelevasta verkkokaistasta, ja käyttäjillä on erilaisia käyttäytymismalleja sovelluksen käytön ja latausmallien suhteen.
NeuroSplit seuraa jatkuvasti erilaisia laitteiston telemetriatietoja – laitteiston kapasiteetista nykyiseen resurssien käyttöön, akun tilaan ja verkkotilanteisiin. Otamme myös huomioon käyttäjän käyttäytymismallit, kuten montako sovellusta on käynnissä ja tyypillinen laitteen käyttö. Tämä kattava seuranta mahdollistaa NeuroSplitin dynaamisen määrityksen siitä, kuinka paljon inferenssilaskentaa voidaan turvallisesti suorittaa loppukäyttäjän laitteella samalla, kun kehittäjien avainsuoritusindikaattoreita optimoidaan.
Kun tietosuojaa pidetään olennaisena, NeuroSplit varmistaa, että raakadata ei koskaan poistu laitteesta, ja se prosessoi arkaluontoisia tietoja paikallisesti ylläpitäen samalla optimaalista suorituskykyä. Kykyämme älykkäästi jakaa, leikata tai erottaa tekoälymallit mahdollistaa sille, että voimme mahtua 50-100 tekoälystubimallia yhden kvantitoidun mallin muistitilaan loppukäyttäjän laitteessa. Käytännössä tämä tarkoittaa, että käyttäjät voivat suorittaa merkittävästi enemmän tekoälysovelluksia samanaikaisesti, prosessoiden arkaluontoisia tietoja paikallisesti, verrattuna perinteisiin staattisiin laskentamenetelmiin.
Mitkä ovat NeuroSplitin adaptiivisen inferenssin pääasialliset hyödyt tekoälyyrityksille, erityisesti niille, jotka työskentelevät vanhemman GPU-teknologian kanssa?
NeuroSplit tarjoaa kolme mullistavaa hyötyä tekoälyyrityksille. Ensinnäkin se vähentää merkittävästi infrastruktuurikustannuksia kahdella tavalla: yritykset voivat hyödyntää edullisempia, vanhempia GPU:ita, ja meidän ainutlaatuinen kyky sijoittaa sekä täysiä että stub-malleja pilviprosessoreille mahdollistaa huomattavasti korkeamman prosessorin käyttöasteen. Esimerkiksi sovellus, joka tyypillisesti vaatii useita NVIDIA A100 -yksiköitä 2,74 dollarin hintaan tunnilta, voi nyt suorittaa joko yhdellä A100:lla tai useilla V100:lla vain 0,83 sentin hintaan tunnilta.
Toiseksi se parantaa merkittävästi suorituskykyä prosessoimalla alkuperäisiä raakadata suoraan käyttäjän laitteilla. Tämä tarkoittaa, että lopulta pilveen siirrettävä data on paljon pienempää kokoa, mikä vähentää verkkoviritystä samalla, kun säilytetään tarkkuutta. Tämä hybridi-lähestymistapa antaa yrityksille parhaan molemmista maailmoista – paikallisen prosessoinnin nopeuden ja pilvilaskennan voiman.
Kolmanneksi se auttaa yrityksiä ylläpitämään vahvaa käyttäjän tietosuojaa ilman suorituskyvyn uhraamista. Tämä on yhä tärkeämpää, kun tietosuojasäännökset kiristyy ja käyttäjät ovat tietoisempia yksityisyydestään.
Miten Skymelin ratkaisu vähentää tekoälyinferenssin kustannuksia ilman mallejen monimutkaisuuden tai tarkkuuden heikentymistä?
Ensinnäkin jakamalla yksittäisiä tekoälymalleja, jakamme laskennan käyttäjän laitteiden ja pilven välillä. Ensimmäinen osa suoritetaan käyttäjän laitteella, ja se käsittelee 5-100 %:ia koko laskennasta riippuen laitteen saatavilla olevista resursseista. Vain jäljelle jäävä laskenta on suoritettava pilviprosessoreilla.
Tämä jakaminen tarkoittaa, että pilviprosessorit käsittelevät vähennetyn laskentakuorman – jos malli alun perin vaati koko A100-prosessorin, jakamisen jälkeen sama työkuorma voi vaatia vain 30-40 %:ia prosessorin kapasiteetista. Tämä mahdollistaa yrityksille edullisempien GPU-ekземпляrien, kuten V100, käytön.
Toiseksi NeuroSplit optimoi GPU-käytön pilvessä. Järjestämällä tehokkaasti sekä täysiä malleja että stub-malleja (jakautuneiden mallien jäännöksiä) samalle pilviprosessorille, saavutamme merkittävästi korkeammat käyttöasteet verrattuna perinteisiin lähestymistapoihin. Tämä tarkoittaa, että useampi malli voidaan suorittaa samanaikaisesti samalla pilviprosessorilla, mikä vähentää kustannuksia inferenssi kohden.
Miten Skymelin hybridiratkaisu (paikallinen + pilvi) eroaa muista tekoälyinfrastruktuuriratkaisuista markkinoilla?
Tekoälymaisema on mielenkiintoisessa inflection-pisteessä. Vaikka Apple, Samsung ja Qualcomm osoittavat hybriditekoälyn voimaa omien ekosysteemien ominaisuuksilla, nämä ovat suljettuja puutarhoja. Mutta tekoäly ei pitäisi rajoittaa sen mukaan, mikä loppukäyttäjän laite on.
NeuroSplit on perustavanlaatuisesti laitteistoriippumaton, pilvirippumaton ja neuroverkkorakenteen riippumaton. Tämä tarkoittaa, että kehittäjät voivat lopulta toimittaa johdonmukaiset tekoälykokemukset riippumatta siitä, ovatko heidän käyttäjänsä iPhonella, Android-laitteella tai kannettavalla tietokoneella – tai ovatko he käyttävät AWS:ää, Azurea vai Google Cloudia.
Ajattele, mitä tämä tarkoittaa kehittäjille. He voivat rakentaa tekoälysovelluksensa kerran ja tietää, että se sopeutuu älykkäästi mihin tahansa laitteeseen, mihin tahansa pilveen ja mihin tahansa neuroverkkorakenteeseen. Ei enää eri versioita eri alustoille tai ominaisuuksien heikentämistä laitteen kykyjen perusteella.
Me tuomme yritysasteen hybriditekoälyominaisuudet suljettujen puutarhojen ulkopuolelle ja teemme niistä kaikkien saataville. Kun tekoäly tulee keskeiseksi jokaisessa sovelluksessa, tämänkaltaisen joustavuuden ja johdonmukaisuuden ei ole etu – se on välttämätöntä innovaatiolle.
Miten Orchestrator Agent täydentää NeuroSplitiä, ja mikä on sen rooli tekoälykonfiguraatiestrategioiden muuttamisessa?
Orchestrator Agent (OA) ja NeuroSplit toimivat yhdessä luomaan itseoptimoivan tekoälykonfiguraatiojärjestelmän:
1. Kehittäjät määrittävät rajoitukset:
- Rajoitukset: sallitut mallit, versiot, pilvipalveluntarjoajat, vyöhykkeet, vaatimukset
- Tavoitteet: kohdelatenssi, kustannusrajat, suorituskykyvaatimukset, tietosuojatarpeet
2. OA toimii näiden rajoitusten puitteissa tavoitteiden saavuttamiseksi:
- Päättää, mitkä mallit/API:t käytetään kussakin pyynnössä
- Soveltaa konfiguraatiestrategioita todellisen suorituskyvyn perusteella
- Tehdään kompromisseja määritettyjen tavoitteiden optimoimiseksi
- Voi olla konfiguroitavissa uudelleen tarpeiden muuttuessa
3. NeuroSplit toteuttaa OA:n päätökset:
- Käyttää laitteen reaaliaikaisia telemetriatietoja suorittamisen optimoimiseksi
- Jakaa prosessoinnin laitteen ja pilven välillä, kun se on hyödyllistä
- Varmistaa, että jokainen inferenssi suoritetaan optimaalisesti ottaen huomioon nykytilanne
Se on kuin sinulla olisi tekoälyjärjestelmä, joka optimoi itseään autonomisesti määritettyjen sääntöjen ja tavoitteiden puitteissa, eikä vaadi manuaalista optimointia jokaiselle skenaariolle.
Miten Orchestrator Agent muuttaa tekoälyn käyttöönoton tapaa eri aloilla?
Se ratkaisee kolme kriittistä haasteita, jotka ovat estäneet tekoälyn omaksumisen ja innovaation.
Ensinnäkin se mahdollistaa yrityksille pysymisen ajan tasalla viimeisimmän tekoälykeksinnön kanssa. Orchestrator Agentin avulla voit hyödyntää uusimpia malleja ja tekniikoita vaivattomasti ilman infrastruktuurin uudelleenmuokkaamista. Tämä on merkittävä kilpailuetu maailmassa, jossa tekoälyinnovaatio etenee nopeasti.
Toiseksi se mahdollistaa dynaamisen, pyynnöstä riippuvan tekoälymallin valinnan. Orchestrator Agent voi älykkäästi yhdistää ja vaihtaa malleja laajasta valikoimasta, jotta voidaan toimittaa parhaat mahdolliset tulokset kullekin käyttäjän vuorovaikutukselle. Esimerkiksi asiakaspalvelun tekoäly voi käyttää erikoistunutta mallia teknisiin kysymyksiin ja toista mallia laskutuskuuriin, toimittaen parempia tuloksia kummallekin vuorovaikutukselle.
Kolmanneksi se maksimoi suorituskyvyn vähentäen kustannuksia. Agentti automaattisesti tasapainottaa suorittamisen käyttäjän laitteella ja pilvessä sen mukaan, mikä on järkevintä kyseisellä hetkellä. Kun tietosuojaa pidetään tärkeänä, se prosessoi datan paikallisesti. Kun lisää laskentavoimaa tarvitaan, se hyödyntää pilveä. Kaikki tämä tapahtuu taustalla, luoden sileän käyttökokemuksen käyttäjille samalla, kun resursseja optimoidaan liiketoiminnan kannalta.
Mutta se, mikä erottaa Orchestrator Agentin, on se, miten se mahdollistaa liiketoiminnalle seuraavan sukupolven hyperhenkilökohtaiset kokemukset käyttäjilleen. Otetaan esimerkiksi e-oppimisalusta – meidän teknologiamme avulla he voivat rakentaa järjestelmän, joka sopeutuu automaattisesti opiskelijan ymmärryksen mukaan. Kun käyttäjä etsii “tekoälyä”, alusta ei vain näytä yleisiä tuloksia – se arvioi nopeasti käyttäjän nykyisen ymmärryksen ja räätälöi selityksiä käyttäen käsitteitä, joita he jo tuntevat.
Lopulta Orchestrator Agent edustaa tekoälyn käyttöönoton tulevaisuutta – siirtymistä staattisesta, monoliittisesta tekoälyinfrastruktuurista dynaamiseen, adaptiiviseen, itseoptimoivaan tekoälyorkestraatioon. Se ei ole vain tekoälyn käyttöönoton helpottamisesta – se on kokonaan uusien tekoälysovellusten mahdollistamisesta.
Mitä palautetta olet saanut yrityksiltä, jotka osallistuvat Orchestrator Agentin yksityiseen beetatestaukseen?
Palaute yksityisen beetatestaukseen osallistuneilta yrityksiltä on ollut erinomaista! Yritykset ovat innoissaan siitä, että he voivat lopulta päästä eroon infrastruktuurin lukituksesta, olipa se sitten omistettuja malleja tai isäntäpalveluja. Kyky varmistaa, että mikä tahansa käyttöönoton päätös on tulevaisuudessa turvattu, on ollut pelinmuuttaja, poistaen ne pelätyt kuukaudet uudelleenmuokkauksista, kun lähestymistapaa vaihdetaan.
NeuroSplitin suorituskykytulokset ovat olleet mitättömiä – emme voi odottaa, että jaamme datan julkisesti pian. Se, mikä on erityisen innostavaa, on se, miten adaptiivisen tekoälykonfiguraation käsite on valloittanut mielikuvituksen. Se, että tekoäly itse konfiguroi itsensä, kuulostaa tulevaisuudelta ja ei sellaiselta, mitä he odottivat nyt, joten pelkästään teknologisen edistysaskeleen vuoksi ihmiset innostuvat mahdollisuuksista ja uusista markkinoista, joita se voi luoda tulevaisuudessa.
Miten nopeiden edistysaskelien valossa generatiivisessa tekoälyssä, mitä pidät seuraavina suurina esteinä tekoälyinfrastruktuurissa, ja miten Skymel aikoo ratkaista ne?
Olemme menossa tulevaisuuteen, jota useimmat eivät ole vielä täysin ymmärtäneet: ei ole yhtä hallitsevaa tekoälymallia, vaan miljardeja niitä. Vaikka loisimme maailman voimakkaimman yleisen tekoälymallin, meillä olisi silti henkilökohtaisia versioita jokaiselle maailman asukkaalle, kullekin sovellettuna yksilöllisiin konteksteihin, mieltymyksiin ja tarpeisiin. Tämä on vähintään 8 miljardia mallia maailman väkiluvun perusteella.
Tämä merkitsee vallankumouksellista muutosta nykyisestä yhdenkokoinen-malli-lähestymistavasta. Tulevaisuus vaatii älykkään infrastruktuuria, joka pystyy käsittelemään miljardeja malleja. Skymelissä emme ratkaise vain tänään olevia käyttöönoton haasteita – teknologiamme tiekartta on jo rakentamassa perustaa sille, mitä tulee seuraavaksi.
Miten kuvailisit tekoälyinfrastruktuurin kehityksen seuraavan viiden vuoden aikana, ja mitä roolia Skymel näkee itsensä tässä kehityksessä?
Tekoälyinfrastruktuurin maisema on valmis perusrakenteelliseen muutokseen. Vaikka tänään fokus on skaalautuvissa yleisissä kielimalleissa pilvessä, seuraavat viisi vuotta näkevät tekoälyn muuttumisen syvällisesti henkilökohtaiseksi ja kontekstiajoittaiseksi. Tämä ei ole vain hienosäätöä – se on tekoälyä, joka mukautuu tarkalleen käyttäjille, laitteille ja tilanteille reaaliajassa.
Tämä siirtymä luo kaksi suurta infrastruktuurhaastetta. Ensinnäkin perinteinen keskitettyjen tietokeskusten lähestymistapa tulee taloudellisesti ja teknisesti kestämättömäksi. Toiseksi tekoälysovellusten kasvava monimutkaisuus edellyttää infrastruktuuria, joka voi dynaamisesti optimoida useita malleja, laitteita ja laskentasijainteja.
Skymelissä rakennamme infrastruktuuria, joka ratkaisee nämä haasteet. Teknologiamme mahdollistaa tekoälyn suorittamisen siellä, missä se on järkevintä – olipa se sitten loppukäyttäjän laitteella, jossa dataa luodaan, pilvessä, jossa on enemmän laskentaresursseja, tai älykkäästi jaettuna näiden välillä. Ennen kaikkea se sopeutuu näihin päätöksiin reaaliajassa muuttuvien olosuhteiden ja vaatimusten mukaan.
Katso, mitä tämä tarkoittaa kehittäjille. He eivät määrittele enää tekoälysovelluksia yhden laitteen tai yhden pilven mukaan – he luovat sovelluksia, jotka sopeutuvat älykkäästi mihin tahansa laitteeseen, mihin tahansa pilveen ja mihin tahansa neuroverkkorakenteeseen. Ei enää eri versioita eri alustoille – vain yksi sovellus, joka toimii joka paikassa.
Meidän tavoitteemme on tehdä tämänkaltaisesta älykkäästä optimoinnista saatavilla jokaiselle tekoälysovellukselle, riippumatta skaalasta tai monimutkaisuudesta.












