Connect with us

Nikunj Bajaj, Co-Fondator și CEO al TrueFoundry – Seria de Interviuri

Interviuri

Nikunj Bajaj, Co-Fondator și CEO al TrueFoundry – Seria de Interviuri

mm

Nikunj Bajaj este co-fondator și CEO al TrueFoundry, unde conduce viziunea și strategia companiei pentru construirea de platforme de inteligență artificială de încredere, de nivel întreprindere. Cu experiență în scalarea produselor și echipelor tehnologice, el se concentrează pe facilitarea deployării și operării sistemelor de inteligență artificială în mod sigur și eficient. El scrie despre adoptarea inteligenței artificiale la nivel de întreprindere, strategia platformelor de inteligență artificială și tendințele emergente în producția de inteligență artificială.

TrueFoundry este o platformă de infrastructură de inteligență artificială pentru întreprinderi care ajută organizațiile să construiască, să deployeze, să guverneze și să scaleze aplicații de învățare automată și inteligență artificială generativă în medii bazate pe Kubernetes, fie în cloud, on-premises sau hibride, cu o guvernanță puternică, securitate și control al costurilor. Ea combină o poartă de inteligență artificială pentru a centraliza accesul la modele, LLM și fluxuri de lucru ale agenților, cu unelte pentru finisarea modelului, deployare, monitorizare și autoscalare, urmărind să simplifice MLOps și să accelereze timpul de valoare pentru echipele de știință a datelor și inginerie. Abordarea TrueFoundry, centrată pe dezvoltator, și agnostică la cloud, pune accentul pe conformitatea întreprinderii și flexibilitate, permițând echipelor să gestioneze sarcini complexe de inteligență artificială fără blocarea furnizorului, în timp ce impune standarde precum SOC 2, HIPAA și ITAR.

Ați lucrat în cercetarea învățării automate, inteligența artificială de producție la Facebook și sisteme de recomandare la scară largă, înainte de a fonda TrueFoundry — care au fost experiențele care v-au împins cel mai direct spre construirea unei companii de infrastructură de inteligență artificială pentru întreprinderi, și ce durere nu a fost abordată la momentul respectiv?

La Meta, am considerat inteligența artificială ca pe un caz special de software, și GenAI ca pe un caz special de inteligență artificială, ceea ce a rezultat într-o stivă verticală cu software-ul la bază, inteligența artificială în mijloc și GenAI în vârf. În acest setup, dacă sunt un dezvoltator de inteligență artificială, modelele pe care le construiesc urmează același model de deployare ca și restul software-ului, ceea ce face ca scalarea sistemelor să fie foarte simplă.

Majoritatea întreprinderilor, însă, deployează stive paralele, ceea ce înseamnă că au stive separate pentru software, inteligență artificială și GenAI. În momentul în care aveți aceste stive paralele, scalarea devine mai complexă din cauza predărilor necesare între inteligența artificială și lumea software.

Echipa noastră a lucrat întotdeauna la intersecția construirii de modele de inteligență artificială și a infrastructurii de inteligență artificială, așa că am avut o perspectivă unică pe care am putut-o aduce stivelor verticale similare pentru întreprinderi și le-am adaptat pentru cerințele lor specifice. Am avut și o ipoteză la sfârșitul anului 2021 că inteligența artificială se apropia de un punct de inflexiune, și când s-a întâmplat, mai multe companii au avut nevoie de o stivă integrată vertical pentru a deploya și scala aceste sisteme în mod eficient. Acesta a fost factorul care ne-a condus în cele din urmă la fondarea TrueFoundry, și ipoteza noastră a fost corectă. Adoptarea inteligenței artificiale a accelerat după lansarea ChatGPT la sfârșitul anului 2022.

Pe măsură ce sistemele de inteligență artificială trec de la experimentare la operațiuni de zi cu zi, ce s-a schimbat în ceea ce privește modul în care organizațiile ar trebui să gândească despre fiabilitate și eșec?

Mizele pentru Gen AI sunt semnificativ mai mari comparativ cu sistemele tradiționale de inteligență artificială. Pe măsură ce aceste sisteme intră în producție, organizațiile se confruntă cu un nivel mult mai ridicat de ambiguitate și non-determinism, deoarece LLM-urile sunt stohastice prin natura lor. Sistemele agenților construite pe baza lor adaugă și mai multă ambiguitate.

În plus, eșecurile nu mai sunt binare. În loc ca sistemele să fie pur și simplu defecte sau nu, multe probleme apar sub forma unor eșecuri parțiale sau degradări silențioase. Sistemele pot răspunde cu o latență mai mare, o calitate degradată sau un comportament incorect în timp. În multe cazuri, aceste degradări pot fi mai greu de detectat și, uneori, chiar mai dăunătoare decât o întrerupere dură.

Organizațiile trebuie să gândească despre fiabilitate nu doar în termeni de timp de funcționare, ci și despre degradarea performanței în timp.

TrueFailover a fost lansat în mijlocul unei valuri de întreruperi ale serviciilor cloud și de inteligență artificială de înaltă vizibilitate. Care au fost evenimentele recente care au făcut clar că fiabilitatea inteligenței artificiale a trecut de la a fi “bună de avut” la a fi o cerință arhitecturală de bază?

Unul dintre clienții noștri din domeniul sănătății, care procesează solicitări în timp real și sensibile ale pacienților legate de prescripții medicale, a fost afectat de o întrerupere cauzată de o defecțiune a modelului. Fluxurile lor de lucru generează mii de dolari de venit pe secundă, și întreruperea a perturbat unele dintre aceste fluxuri critice. Ca client timpuriu al TrueFailover, am putut să-i ajutăm la o recuperare rapidă, și impactul a fost conținut.

Incidente de acest fel ridică o întrebare importantă. Pe măsură ce mizele sistemelor Gen AI continuă să crească, de ce procesele de recuperare sunt încă în mare măsură manuale? Acest lucru a întărit ideea că sistemele ar trebui să fie construite cu presupunerea că eșecurile vor apărea, și că ar trebui să fie proiectate pentru a se corecta automat. Fiabilitatea trebuie, de asemenea, să fie integrată în stiva de inteligență artificială prin utilizarea unor porți de inteligență artificială, care pot oferi rutare centralizată, observabilitate, limitatoare de viteză și comutare inteligentă a modelului între furnizori.

Multe întreruperi ale inteligenței artificiale sunt încă prezentate ca “hicuri” tehnice. Unde vedeți apărând costurile și consecințele umane reale atunci când sistemele de inteligență artificială sunt oprite?

Inteligența artificială la nivel de întreprindere a evoluat până la punctul în care aceste “hicuri” nu mai afectează doar fluxurile de lucru interne. Astăzi, întreruperile și degradările afectează direct percepția publică și profiturile, deoarece cazurile de utilizare în producție sunt acum orientate către clienți. Această schimbare de la testarea internă la aplicații cu riscuri mari, orientate către public, este motivul pentru care vedem o cerere crescută pentru atenția și supravegherea executivă.

Pe măsură ce sistemele de inteligență artificială se integrează mai profund în fluxurile de lucru operaționale, întreruperile nu mai sunt doar probleme tehnice. Ele au, din ce în ce mai mult, consecințe directe asupra afacerilor, clienților și reputației.

În medii critice pentru misiune, cum ar fi farmacii, operațiuni de sănătate sau suport clienți, cât de repede poate escalada timpul de întrerupere a inteligenței artificiale în risc operațional sau de reputație?

În medii critice pentru misiune, escaladarea are loc aproape imediat, deoarece aceste sisteme susțin fluxuri de lucru în timp real și sensibile. Chiar și o scurtă întrerupere poate opri procese critice, întârzia livrarea serviciilor sau întrerupe sistemele downstream care depind de acele ieșiri, creând efecte operaționale în cascadă în întreaga organizație.

În sectoare precum sănătatea, impactul se extinde dincolo de întreruperea operațională la experiența și rezultatele clienților. Dacă un pacient nu poate îndeplini prescripția la timp, pot apărea consecințe reale. Nu numai că acesta este un problemă pentru pacient, dar poate și deteriora reputația unei farmacii sau a unui furnizor de sănătate. În medii critice pentru misiune, în care încrederea este un factor, este esențial ca sistemele să rămână online. De aceea, organizațiile recunosc din ce în ce mai mult că sistemele de inteligență artificială trebuie să fie proiectate cu presupunerea că eșecurile vor apărea și că mecanismele de recuperare trebuie să se activeze automat pentru a minimiza riscul.

Ați spus că multe echipe proiectează pentru capacitate în loc de continuitate. De ce credeți că reziliența a fost istoric deprioritizată în proiectarea sistemelor de inteligență artificială?

Acest lucru se datorează în mare măsură stimulentelor din cadrul organizațiilor. Noile capacități sunt vizibile și interesante. Ele deblochează demo-uri, funcții și posibilități de produs pe care conducerea le poate vedea imediat.

Continuitatea, prin definiție, este invizibilă atunci când totul funcționează bine. Din cauza acestui fapt, sistemele de recompensare tind să fie distorsionate în favoarea dezvoltării de noi funcții, mai degrabă decât a asigurării faptului că nimic nu se strică. Ca rezultat, organizațiile investesc în mod disproporționat în dezvoltarea de capacități, mai degrabă decât în ingineria rezilienței.

Pe măsură ce întreprinderile se bazează din ce în ce mai mult pe modele și API-uri externe, care sunt noile fragilități introduse în stiva de inteligență artificială pe care liderii nu le pot aprecia pe deplin încă?

LLM-urile sunt, în esență, resurse partajate, și întreprinderile nu le dețin în mod direct, așa cum dețin infrastructura tradițională. În plus, sistemele critice pentru afaceri, care rulează în cadrul întreprinderilor, se bazează pe sisteme externe care nu sunt pe deplin testate în timp. LLM-urile însele evoluează rapid, ceea ce înseamnă că un furnizor de modele nu poate fi ținut responsabil pentru lucruri precum latența sau performanța modelului care scade ușor, deoarece ei sunt în proces de iterare rapidă a cercetării.

Deoarece LLM-urile sunt resurse partajate, latența poate crește din cauza faptului că un alt consumator al acestor LLM-uri efectuează o anumită acțiune. Există multe puncte de eșec care sunt introduse din cauza naturii fundamentale a LLM-urilor, și întreprinderile în acest nou mediu nu au control deplin. Fără control deplin, cel mai bun lucru pe care o întreprindere îl poate face este să creeze redundanțe suficiente în sistem pentru a proiecta un sistem rezilient.

Fără a se concentra pe produse specifice, cum ar trebui organizațiile să reconsidere arhitectura inteligenței artificiale pentru a presupune eșecul, mai degrabă decât a trata întreruperile ca cazuri rare de margine?

Organizațiile ar trebui să se întoarcă la principiile de bază ale proiectării sistemelor distribuite. Sistemele software au fost construite pe presupunerea că componentele rețelei și mașinile vor eșua, și că o întreagă regiune poate fi închisă.

Sistemele de inteligență artificială nu ar trebui să fie diferite. Ar trebui să presupunem că furnizorii de modele vor experimenta probleme de latență, degradări sau întreruperi, și să incorporăm redundanță, astfel încât aplicațiile să rămână reziliente în diferite scenarii de eșec.

Credeți că reziliența inteligenței artificiale va deveni un factor decisiv în selecția platformei și a furnizorului, similar cu modul în care timpul de funcționare și redundanța au modelat deciziile privind infrastructura cloud?

Pe măsură ce mai multe sisteme de inteligență artificială trec în producție, reziliența va deveni o condiție de bază. Dacă un furnizor nu poate prezenta grafice și metrici privind timpul de funcționare și reziliența generală, nu va fi luat în considerare. Odată ce reziliența devine o așteptare de bază în rândul furnizorilor, factorii decizionali se vor muta spre experiența utilizatorului, optimizarea performanței, observabilitate și capacități de produs de nivel superior. În timp, componente precum o poartă de inteligență artificială și capacități de comutare automată a eșecului vor deveni elemente fundamentale ale infrastructurii de inteligență artificială pentru întreprinderi.

Privind înainte, ce înseamnă cu adevărat “gata pentru producție” în lumea inteligenței artificiale, în care inteligența artificială este așteptată să fie disponibilă în mod continuu, nu doar ocazional utilă?

Sistemele de inteligență artificială gata pentru producție ar trebui să fie observabile, controlabile și recuperabile. Toate aceste trei cutii trebuie bifate.

Pentru ca inteligența artificială în producție să fie observabilă, echipele au nevoie de o vizibilitate profundă asupra comportamentului modelului, latenței, ratelor de eroare, utilizării token-urilor, degradării și modelelor de eșec. Fără o observabilitate puternică, devine foarte dificil să detectați degradările înainte ca utilizatorii să înceapă să le observe.

Pentru ca sistemele să fie controlabile, acest lucru include modelarea traficului, limitarea ratei, limitatoare de viteză, aplicarea politicilor și rutarea inteligentă între modele și furnizori. Acesta este punctul în care o poartă de inteligență artificială devine fundamentală, acționând ca un plan de control centralizat care impune limitatoare de viteză, oferă guvernanță consistentă și permite comutarea dinamică a modelului atunci când performanța sau fiabilitatea scade.

Și, în cele din urmă, atunci când vine vorba de a fi recuperabil, sistemele ar trebui să fie construite cu presupunerea că componentele pot fi parțial sau complet defecte, fie din cauza întreruperilor furnizorului, a calității degradate a modelului, a limitărilor de rată sau a intrărilor neașteptate de la actori malici. Mecanismele de comutare automată a eșecului și de auto-reparare ar trebui să fie native arhitecturii, nu cărți de joc manuale activate după ce ceva merge prost.

Acesta este direcția în care lucrăm la TrueFoundry. Furnizorii care definesc “gata pentru producție” în acest fel, combinând observabilitate, control centralizat și recuperare automată, vor câștiga încrederea pe termen lung a clienților și vor putea continua să rezolve noi probleme pe măsură ce apar.

Mulțumim pentru acest interviu minunat; cititorii care doresc să afle mai multe ar trebui să viziteze TrueFoundry.

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintita pentru a da forma și a promova viitorul inteligenței artificiale și al roboticii. Un antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea, și este adesea prins vorbind cu entuziasm despre potențialul tehnologiilor disruptive și al inteligenței artificiale generale.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.