Connect with us

Nikunj Bajaj, TrueFoundryn perustaja ja toimitusjohtaja – Haastattelusarja

Haastattelut

Nikunj Bajaj, TrueFoundryn perustaja ja toimitusjohtaja – Haastattelusarja

mm

Nikunj Bajaj on TrueFoundryn perustaja ja toimitusjohtaja, jossa hän johtaa yrityksen visiota ja strategiaa luotettavien, yritysasteisten tekoälyalustojen kehittämisessä. Teknologia-alan tuotteiden ja tiimien skaalauksen kokemuksella hän keskittyy siihen, että organisaatiot voivat käyttää ja toimittaa tekoälyjärjestelmiä turvallisesti ja tehokkaasti. Hän kirjoittaa yritysten tekoälyadop­tion, tekoälyalustojen strategiasta ja tekoälyn tuotantoon liittyvistä uusista suuntauksista.

TrueFoundry on yritysten tekoälyinfrastruktuurin alusta, joka auttaa organisaatioita kehittämään, käyttämään, hallinnoimaan ja skaalamassa koneoppimisen ja generatiivisen tekoälyn sovelluksia Kubernetes-pohjaisissa ympäristöissä, olipa se pilvessä, paikallisesti tai hybridiympäristössä, vahvalla hallinnolla, turvallisuudella ja kustannusvalvonnalla. Se yhdistää tekoälyportin mallien, LLMien ja agenttityökalujen keskitetyyn käyttöön työkalujen kanssa mallien hienosäätöä, käyttöönottoa, seurantaa ja autoskaalausta varten, pyrkien yksinkertaisemaan MLOpsia ja nopeuttamaan arvon saantia data-tiede- ja insinööritiimille. TrueFoundryn kehittäjäkeskeinen, pilvi-agnostinen lähestymistapa korostaa yritysten mukautuvuutta ja noudattaa standardeja kuten SOC 2, HIPAA ja ITAR.

Olet työskennellyt koneoppimisen tutkimuksen, tuotantotekoälyn ja suurten suosittelujärjestelmien parissa ennen TrueFoundryn perustamista — mitkä kokemukset vaikuttivat suoraan siihen, että perustit yritysten tekoälyinfrastruktuurin yrityksen, ja mikä kipu ei ollut ratkaistu silloin?

Metassa me näimme koneoppimisen erityistapauksena ohjelmistoa, ja GenAI:ta erityistapauksena koneoppimista, mikä johti pystyyn pinorakenteeseen, jossa ohjelmisto oli alhaalla, koneoppiminen keskellä ja GenAI ylhäällä. Tässä asetelussa, jos olen koneoppimisen kehittäjä, mallit, joita kehitän, seuraavat samaa käyttöönottokaavaa kuin loput ohjelmistosta, mikä tekee järjestelmien skaalautumisen hyvin suoraviivaisen.

Useimmat yritykset kuitenkin käyttivät rinnakkaisia pinorakenteita, mikä tarkoitti, että heillä oli erilliset pinorakenteet ohjelmistolle, koneoppimiselle ja GenAI:lle. Hetkenä, kun sinulla on nämä rinnakkaiset pinorakenteet, skaalautuminen tulee monimutkaisemmaksi johtuen koneoppimisen ja ohjelmistomaailman välisistä luovutuksista.

Meidän tiimimme on aina työskennellyt koneoppimismallien ja -infrastruktuurin kehittämisen risteyksessä, joten meillä oli ainutlaatuinen näkökulma, jonka voimme tuoda yrityksiin ja sovittaa niiden tarpeisiin. Meillä oli myös hypoteesi vuoden 2021 lopulla, että koneoppiminen lähestyi käännepistettä, ja kun se tapahtuisi, enemmän yrityksiä tarvitsisi pystyä integroimaan pinorakenteita käyttöönottoon ja skaalaamaan nämä järjestelmät tehokkaasti. Tämä lopulta johti meidät perustamaan TrueFoundryn, ja hypoteesimme osoittautui oikeaksi. Tekoälyadop­tion kiihdytti ChatGPT:n julkaisun jälkeen vuoden 2022 lopulla.

Kun tekoälyjärjestelmät siirtyvät kokeilusta arkipäivän toimintaan, mitä on muuttunut siinä, miten organisaatiot pitäisi ajatella luotettavuudesta ja epäonnistumisesta?

Gen AI -järjestelmien panokset ovat merkittävästi korkeammat verrattuna perinteisiin koneoppimisen järjestelmiin. Kun nämä järjestelmät siirtyvät tuotantoon, organisaatiot kohtaavat paljon suuremman epävarmuuden ja ei-determinismin, koska LLM:t ovat stokastisia luonteeltaan. Agenttijärjestelmät, jotka on rakennettu niiden päälle, lisäävät epävarmuutta.

Lisäksi epäonnistumiset eivät ole enää binäärisiä. Sen sijaan, että järjestelmät vain epäonnistuvat tai eivät epäonnistu, monia ongelmia ilmenee osittaisina epäonnistumina tai hiljaisina heikkenemisinä. Järjestelmät voivat vastata suuremmalla viiveellä, heikentyneellä laadulla tai virheellisellä käyttäytymisellä ajan myötä. Monissa tapauksissa nämä heikkenemiset voivat olla vaikeampia havaita ja joskus jopa vahingollisempia kuin täysi katkos.

Organisaatioiden on tärkeää ajatella luotettavuutta ei vain käytettävyyden vaan myös suorituskyvyn heikkenemisen suhteen.

TrueFailover julkaistiin aallon hyvin näkyvien pilvi- ja tekoälypalvelujen keskeytyksien aikana. Mitkä viimeaikaiset tapahtumat osoittivat, että tekoälyn luotettavuus oli siirtynyt ”hyvän” toteutuksesta ydinarkkitehtuurin vaatimukseksi?

Yksi terveydenhuollon asiakkaistamme, joka käsittelee reaaliaikaisia, aikakriittisiä potilaspyyntöjä lääkemääräyksiin liittyen, vaikuttui mallin epäonnistumisesta johtuneesta katkoksesta. Heidän työvirranneista syntyy tuhansia dollareita sekunnissa, ja katkos häiritsi joitain näistä kriittisistä työvirranneista. Aikaisena TrueFailover-asiakkaana pystyimme auttamaan nopean palautumisen, ja vaikutus oli rajoitettu.

Tällaiset tapaukset herättävät tärkeän kysymyksen. Kun Gen AI -järjestelmien panokset jatkuvat kasvamista, miksi palautumisprosessit ovat edelleen pääosin manuaalisia? Se vahvisti ajatusta, että järjestelmiä tulisi rakentaa oletuksella, että epäonnistumiset tapahtuvat, ja ne tulisi suunnitella korjaamaan itsensä automaattisesti. Luotettavuus on myös rakennettava itse tekoälypinolle tekoälyporttien avulla, jotka voivat tarjota keskitetyn reitityksen, havainnollistamisen, varmistukset ja älykkään mallin vaihdon tarjoajien välillä.

Monet tekoälykatkokset esitetään edelleen teknisinä kömmähdyksinä. Missä näet todelliset taloudelliset ja inhimilliset kustannukset alkavan ilmetä, kun tekoälyjärjestelmät menevät pois käytöstä?

Yritysten tekoäly on kehittynyt siihen pisteeseen, että nämä kömmähdykset eivät vaikuta enää vain sisäisiin työvirtoihin. Nykyään katkokset ja heikkenemiset vaikuttavat suoraan julkiseen kuvaan ja voittoihin, koska tuotantokäyttötapaukset ovat nyt asiakaslähtöisiä. Tämä siirtyminen sisäisestä testaamisesta korkean panoksen, julkisiin sovelluksiin, on syynä, miksi näemme kasvavaa kysyntää johtajan huomion ja valvonnan osalta.

Kun tekoälyjärjestelmät uppoavat syvemmälle operatiivisiin työvirtoihin, katkokset eivät ole enää pelkästään teknisiä ongelmia. Ne ovat yhä enemmän suoria liiketoimintaa, asiakasta ja mainetta koskevia seuraamuksia.

Missä kriittisissä ympäristöissä, kuten apteekkeissa, terveydenhuollon toiminnassa tai asiakastuessa, tekoälyjärjestelmien katkeaminen voi nopeasti johtaa operatiiviseen tai mainetta koskevaan riskiin?

Kriittisissä ympäristöissä eskalaatio tapahtuu melkein välittömästi, koska nämä järjestelmät tukevat reaaliaikaisia, aikakriittisiä työvirtoja. Jopa lyhyt keskeytys voi pysäyttää kriittiset prosessit, viivästyttää palvelun toimittamista tai keskeyttää alijärjestelmiä, jotka riippuvat näistä tuloksista, luoden kaskadia operaatiivisia vaikutuksia koko organisaatiolle.

Terveydenhuollon aloilla vaikutus ulottuu operatiivisen häiriön lisäksi asiakaskokemukseen ja palvelun tuloksiin. Jos potilas ei pysty täyttämään lääkemääräystä ajoissa, se voi johtaa todellisiin seuraamuksiin. Se ei ole vain potilaan ongelma, vaan se voi myös vahingoittaa apteekin tai terveydenhuollon tarjoajan mainetta. Kriittisissä ympäristöissä, joissa luottamus on tekijä, on ensisijaisen tärkeää, että järjestelmät pysyvät päällä. Tämän vuoksi organisaatiot ovat yhä enemmän tunnistamassa, että tekoälyjärjestelmiä on suunniteltava oletuksella, että epäonnistumiset tapahtuvat, ja korjausmekanismit on aktivoitava automaattisesti minimoidakseen riskin.

Sanoit, että monet tiimit suunnittelevat kykyä eikä jatkuvuutta. Miksi luotettavuus on historiallisesti ollut aliarvostettu tekoälyjärjestelmien suunnittelussa?

Tämä johtuu pääosin organisaatioiden kannustimista. Uudet kyvyt ovat näkyviä ja jännittäviä. Ne avaavat esimakua, ominaisuuksia ja tuote mahdollisuuksia, joita johtajuus voi välittömästi nähdä.

Jatkuvuus on luonteeltaan näkymätön, kun asiat toimivat hyvin. Kannustimien järjestelmät ovat vinoutuneita uusien ominaisuuksien kehittämisen puolesta eikä niinkään järjestelmien luotettavuuden varmistamisen. Organisaatiot panostavat epäsuhteellisesti kykyjen kehittämiseen eikä niinkään luotettavuuden insinööritalouteen.

Kun yritykset riippuvat yhä enemmän ulkoisista malleista ja API:sta, mitä uusia haavoittuvuuksia tuodaan tekoälypinolle, joita johtajat eivät vielä täysin ymmärrä?

LLM:t ovat perustaltaan jaettuja resursseja, eikä yritykset omista niitä kuten perinteistä infrastruktuuria. Lisäksi tärkeitä liiketoimintakriittisiä järjestelmiä yrityksissä pyöritetään ulkoisilla järjestelmissä, jotka eivät ole täysin ajan tasalla. LLM:t itse kehittyvät nopeasti, mikä tarkoittaa, että mallin tarjoaja ei voi olla vastuussa asioista kuten viiveestä tai mallin suorituskyvyn hieman laskiessa, koska he ovat nopeasti iteroiden tutkimuksessaan.

Koska LLM:t ovat jaettuja resursseja, viive voi nousta, koska toinen näiden LLM:ien kuluttaja tekee tietyn toimen. On paljon näitä epäonnistumispisteitä, jotka tuodaan, koska LLM:ien perustava luonne. Yritykset eivät voi tällaisessa maailmassa kontrolloida asioita täysin. Ilman täydellistä valvontaa paras asia, minkä yritys voi tehdä, on luoda riittävästi järjestelmän redundansseja suunnitellakseen luotettavan järjestelmän.

Ilman tietyn tuotteen painostusta, miten organisaatioiden tulisi ajatella tekoälyarkkitehtuuri uudelleen olettaen epäonnistumista eikä kohdella katoksia harvinaisina reunatapauksina?

Organisaatioiden tulisi palata jakautuneiden järjestelmien suunnittelun periaatteisiin. Ohjelmistojärjestelmiä rakennettiin oletuksella, että verkkokomponentit ja koneet voivat epäonnistua, ja että koko alue voi mennä pois käytöstä.

Tekoälyjärjestelmien tulisi olla samanlaisia. Meidän tulisi olettaa, että mallin tarjoajat kohtaavat viiveongelmia, heikkenemisiä tai katoksia, ja sisällyttää redundansseja, jotta sovellukset säilyvät luotettavina eri epäonnistumisskenaarioissa.

Odotatko, että tekoälyn luotettavuus tulee olemaan ratkaiseva tekijä alustan ja toimittajan valinnassa, samalla tavalla kuin miten käytettävyys ja redundanssi muovasivat pilvi-infrastruktuurin päätöksiä?

Kun enemmän tekoälyjärjestelmiä siirtyy tuotantoon, luotettavuus tulee olemaan perusvaatimus. Jos toimittaja ei voi esittää graafejaan ja metriikkaansa käytettävyydestä ja yleisestä luotettavuudesta, he eivät edes ole valittavissa. Kun luotettavuus tulee perusodotuksiksi toimittajien kesken, ratkaiseviksi tekijöiksi tulevat käyttökokemus, suorituskyvyn optimointi, havainnollistaminen ja korkeamman tason tuoteominaisuudet. Ajan myötä komponentit kuten tekoälyportti ja automaattinen palautuskyky tulevat olemaan perustavanlaatuisia elementtejä yritysten tekoälyinfrastruktuurissa.

Edetessäsi, mitä ”tuotantovalmis” tekoäly todella tarkoittaa maailmassa, jossa tekoäly odotetaan olevan jatkuvasti käytettävissä, eikä vain toisinaan hyödyllinen?

Tuotantovalmiit tekoälyjärjestelmät tulisi olla havainnollistettavissa, kontrolloitavissa ja palautettavissa. Kaikki nämä kriteerit on täytettävä.

Tuotantotekoälyn havainnollistamiseksi tiimien on oltava syvä näkyvyys mallin käyttäytymiseen, viiveeseen, virheraportteihin, tokenin käyttöön, siirtymään ja epäonnistumismalleihin. Ilman vahvaa havainnollistamista on hyvin vaikea havaita heikkenemisiä ennen kuin käyttäjät alkavat huomata niitä.

Järjestelmien on oltava kontrolloitavissa, mikä sisältää liikenteen muotoilun, nopeusrajoituksen, varmistukset, käytäntöjen noudattamisen ja älykkään reitityksen mallien ja tarjoajien välillä. Tässä tekoälyportti tulee perustavanlaatuiseksi, toimien keskitettynä ohjaus tasona, joka noudattaa varmistuksia, tarjoaa johdonmukaista hallintaa ja mahdollistaa dynaamisen mallin vaihdon, kun suorituskyky tai luotettavuus laskee.

Ja lopulta, kun on kyse palautettavuudesta, järjestelmiä on rakennettava oletuksella, että komponentit voivat olla osittain tai täysin rikkoontuneita, joko tarjoajan katkoksen, heikentyneen mallin laadun, rajoitusten tai odottamattomien syötteiden vuoksi pahantahtaisilta toimijoilta. Automaattinen palautus ja itsestään korjaava mekanismi on rakennettava arkkitehtuuriin, eikä manuaaliseen kirjaan, jota käytetään, kun jotain menee pieleen.

Tämä on suunta, jossa työskentelemme TrueFoundryssa. Toimittajat, jotka määrittelevät tuotantovalmiuden tässä mielessä, yhdistäen havainnollistamisen, keskitetyn valvonnan ja automaattisen palautuksen, ansaitsevat pitkäaikaisen asiakasluottamuksen ja pystyvät jatkamaan uusien ongelmien ratkaisemista, kun ne ilmenevät.

Kiitos haastattelusta, lukijoille, jotka haluavat oppia lisää, kannattaa vierailla TrueFoundry:ssa.

Antoine on visionäärinen johtaja ja Unite.AI:n perustajakumppani, jota ohjaa horjumaton intohimo muokata ja edistää tulevaisuuden tekoälyä ja robottiikkaa. Sarjayrittäjänä hän uskoo, että tekoäly tulee olemaan yhtä mullistava yhteiskunnalle kuin sähkö, ja hänestä usein kuuluu ylistyksiä mullistavien teknologioiden ja AGI:n mahdollisuuksista.
Hänen ollessaan futuristi, hän on omistautunut tutkimiseen, miten nämä innovaatiot muokkaavat maailmaamme. Lisäksi hän on Securities.io:n perustaja, joka on alusta, joka keskittyy sijoittamiseen uraauurtaviin teknologioihin, jotka määrittelevät uudelleen tulevaisuuden ja muokkaavat koko sektoreita.