taló Jay Mishra, COO d'Astera Software - Sèrie d'entrevistes - Unite.AI
Connecteu-vos amb nosaltres

entrevistes

Jay Mishra, COO de Astera Software - Sèrie d'entrevistes

mm
actualitzat on

Jay Mishra és el director d'operacions (COO) de Programari Astera, un proveïdor de solucions de dades preparades per a empreses en ràpid creixement. Ajuden els usuaris empresarials a superar la bretxa entre les dades i la informació amb un conjunt de solucions d'extracció de dades fàcils d'utilitzar però d'alt rendiment, qualitat de dades, integració de dades, emmagatzematge de dades i intercanvi electrònic de dades, que utilitzen tant empreses mitjanes com Fortune 500. a través d'una sèrie d'indústries.

Què et va atraure inicialment de la informàtica?

Sempre he tingut una passió molt arrelada per les matemàtiques, i el meu viatge a la informàtica va ser una extensió natural d'això. La meva formació de grau era en Matemàtiques i Informàtica, i va ser la progressió lògica del món de les matemàtiques al regne de la informàtica el que em va fascinar. El que em va cridar especialment l'atenció va ser l'intricat funcionament dels algorismes i els processos algorísmics avançats que em van portar a especialitzar-me en algorismes durant el meu màster en Informàtica. Des d'aleshores, la meva connexió amb la informàtica s'ha mantingut forta, i m'esforce contínuament per estar al dia dels últims desenvolupaments en el camp.

Actualment ets el director d'operacions d'Astera, pots compartir amb nosaltres què implica el teu dia a dia?

Com a COO d'Astera, el meu paper és polifacètic, reflectint la naturalesa dinàmica de la nostra empresa. He estat a Astera des dels seus inicis, i les meves responsabilitats han abastat diferents àrees de l'organització. Això inclou des de contribuir activament al desenvolupament i codificació dels nostres productes fins a garantir que les nostres funcions s'alineen amb les necessitats en evolució dels nostres clients. Col·laboro estretament amb els nostres clients, treballant conjuntament amb ells per perfeccionar les nostres solucions. El meu paper s'estén més enllà del desenvolupament de productes per incloure vendes i màrqueting, on portem les nostres ofertes al mercat.

A mesura que estem en una fase de creixement, he assumit responsabilitats addicionals, com ara supervisar els nostres objectius d'ingressos i ampliar estratègicament la nostra cartera de productes per arribar a nous mercats. Essencialment, participo en gairebé tots els aspectes de les nostres operacions, assegurant-me que no només fabriquem productes excepcionals, sinó que també els comercialitzem amb èxit i complim els nostres objectius comercials.

Per als lectors que no estan familiaritzats amb aquest terme, què és l'emmagatzematge de dades?

L'emmagatzematge de dades és un patró arquitectònic que s'utilitza per consolidar totes les dades de la vostra empresa en un repositori centralitzat que us servirà de base a partir del qual podeu generar diversos tipus d'anàlisi, informes i taulers que presentaran la imatge real d'on el vostre negoci. és i també preveure com anirà el negoci en el futur. Per atendre tot això, ajunteu les vostres dades d'una manera determinada i aquesta arquitectura s'anomena magatzem de dades.

En realitat, el terme prové d'un magatzem de la vida real on els vostres productes s'emmagatzemen en prestatges organitzats. Però quan arribeu al món de les dades, esteu aportant les vostres dades de diverses fonts. Esteu aportant les vostres dades de la producció, el vostre lloc web, els vostres clients, vendes i màrqueting, finances i el vostre departament de recursos humans. Ajunteu totes les dades, les poseu en un sol lloc, i això és el que s'anomenarà un magatzem de dades i està dissenyat d'una determinada manera perquè els informes, especialment basats en la cronologia, siguin fàcils. Aquest és l'objectiu principal d'un magatzem de dades.

Quines són algunes de les tendències clau en l'emmagatzematge de dades actuals?

L'emmagatzematge de dades ha evolucionat força en els últims 20-25 anys. Fa aproximadament una dècada, vam presenciar l'aparició de l'emmagatzematge de dades automatitzat, un canvi de paradigma que va accelerar el procés de construcció de models de dades i magatzems de dades. Recentment, l'automatització ha pres el protagonisme. Aborda la naturalesa repetitiva de les tasques d'emmagatzematge de dades, racionalitzant els processos per estalviar temps i recursos.

El nostre producte, Constructor de magatzems de dades Astera, per exemple, ofereix un enfocament holístic de l'automatització en l'emmagatzematge de dades. Cobreix tot, des de l'automatització de canonades ETL (Extract, Transform, Load) i el modelatge de dades fins a la càrrega automàtica de dades en estructures com ara esquemes estrella o voltes de dades. A més, manté eficaçment aquestes estructures mitjançant mecanismes de captura de dades de canvi (CDC). Aquesta automatització tot inclòs ha sorgit com una tendència clau en el panorama de l'emmagatzematge de dades.

A més, la tendència més recent és la fusió entre l'emmagatzematge de dades i la intel·ligència artificial (IA). Concretament, la IA generativa ha portat l'automatització a noves altures. No només automatitza les tasques, sinó que també ajuda els usuaris en la presa de decisions.

La configuració dels components de l'emmagatzematge de dades, les canonades i els punts de decisió es pot guiar per IA, fent que l'emmagatzematge de dades sigui més potent i eficient que mai. En essència, es tracta d'automatització amb esteroides i està transformant el panorama de l'emmagatzematge de dades. La intersecció entre la IA i l'emmagatzematge de dades és una tendència que promet una immensa promesa per al futur.

Quins són els quatre principis fonamentals que les empreses haurien de tenir en compte per al desenvolupament del seu magatzem de dades?

1. Definició d'objectius clars

És essencial començar per entendre amb precisió el que necessiteu del vostre magatzem de dades. Eviteu el parany comú de recollir dades excessives sense un propòsit clar. En lloc d'això, identifiqueu els objectius específics que voleu assolir amb el vostre magatzem de dades. Quins informes i coneixements busques? En centrar-vos en els vostres objectius, podeu assegurar-vos que només introduïu les dades rellevants, en lloc d'acumular indiscriminadament grans quantitats d'informació. Tenint en compte la disminució dels costos d'emmagatzematge i potència de càlcul, és crucial utilitzar aquests recursos de manera intel·ligent i ètica.

2. Escollir el patró arquitectònic adequat

Els patrons arquitectònics són molt importants. Ells decideixen si la vostra solució d'emmagatzematge de dades tindrà èxit o no. Hi ha diverses opcions, que van des de l'emmagatzematge de dades a l'estil Inmon fins als esquemes estrella de Ralph Kimball, així com patrons més nous com Data Vault i l'enfocament d'una taula gran defensat pels venedors de bases de dades de columna. No tots els patrons seran adequats per a tots els escenaris.

Estem veient principalment una combinació d'esquemes d'estrelles a la part superior d'una volta de dades. Per tant, una combinació de Data Vault i Star Schema segueix sent el patró més utilitzat. Però, com he dit, per a cada requisit o per a cada escenari hi haurà una resposta diferent. Així que feu-ho als experts, mireu quin patró arquitectònic s'adapta bé al vostre escenari.

3. Selecció de les eines adequades

Són molt importants i tornen a marcar una gran diferència en el temps i les fonts necessàries per construir una solució, i també en la precisió i la qualitat de la vostra solució, que es determina pels productes que utilitzareu per crear la vostra solució. magatzem de dades i mantenir-lo. Presteu molta atenció a la capacitat dels productes i mireu els productes que són capaços d'aportar més requisits sota un mateix paraigua. Hi ha determinades àrees com ETL (Extract, Transform, Load), la qualitat de les dades, el modelatge de dades, la càrrega de dades i la publicació de dades, tots juguen un paper important. Si intenteu utilitzar diversos productes per a cadascuna d'aquestes àrees, serà difícil. Així que mireu els productes que es poden utilitzar per fer la majoria, si no tots, dels diferents components.

4. El teu equip

Finalment, però no menys important, l'equip de persones que formeu per crear la vostra solució de magatzem de dades és la part més important. Recomanem tenir algú amb una sòlida formació en patrons arquitectònics de dades. Pel que fa a la composició de l'equip, els equips multifuncionals són la millor manera de fer-ho, on teniu una barreja d'usuaris empresarials i persones amb formació en programació o, almenys, experiència en dades i amb una estreta col·laboració entre els vostres custodios de dades, les persones que s'encarreguen de les dades i, per descomptat, del negoci. Si fomenteu una estreta cooperació entre aquestes diferents facetes de la vostra organització, podeu crear un equip cohesionat i eficaç responsable de crear i mantenir la vostra solució d'emmagatzematge de dades.

L'èxit en l'emmagatzematge de dades depèn d'aconseguir un equilibri entre aquests quatre principis. Aquests principis, quan es segueixen acuradament, han demostrat ser una recepta per a l'èxit en la nostra experiència.

Per què les empreses necessiten una pila de dades moderna?

Depèn de com definim "modern" i això no para de canviar, de vegades per any, mes i fins i tot dia. Hem de considerar conjunts d'eines modernes dissenyats tenint en compte el panorama canviant de les dades. Durant els últims anys, hi ha hagut canvis significatius en la naturalesa i el volum de les dades. L'auge del Big Data ha transformat el panorama de les dades, amb dades que arriben de fonts com ara llocs web de comerç electrònic, bases de dades de producció i diverses parts del vostre negoci. Aquestes dades estan canviant no només en volum sinó també en la seva naturalesa.

En el passat, les dades estaven estructurades principalment, però ara les dades no estructurades tenen un paper important. A més, ha augmentat la velocitat a la qual es generen les dades i es posen a disposició per al seu ús. Tenint en compte aquests canvis en les dades, hem d'avaluar i adaptar contínuament el nostre conjunt d'eines per abordar amb eficàcia aquests reptes de dades en evolució.

La pila de dades moderna està dissenyada per gestionar totes les variacions en les estructures i la velocitat de les dades, i està ben equipada per adaptar-se als patrons arquitectònics emergents que han evolucionat durant els últims anys. Per tant, si voleu fer el millor ús de les vostres dades, heu de mirar de modernitzar la vostra pila de dades. Aquesta és l'única manera d'estar al dia amb els nous reptes de dades.

Hem vist que les empreses es mantenen amb solucions existents que semblen funcionar. És crucial reconèixer que les dades en si són inherentment dinàmiques. Evoluciona contínuament, presenta nous reptes i oportunitats. És possible que les solucions existents no estiguin equipades per adaptar-se a aquests canvis. Per tant, per aprofitar tot el potencial de les seves dades, les empreses han d'adoptar el concepte de modernitzar la seva pila de dades. No es tracta de trencar allò que funciona; es tracta de mantenir-se àgil i sensible a la naturalesa en evolució de les dades. Mitjançant l'avaluació i la integració contínua dels avenços en la tecnologia de dades, les empreses poden seguir sent competitives i prendre decisions informades en un món cada cop més basat en dades.

Quins són alguns dels reptes actuals de gestió de dades que es veuen a la indústria?

1. Velocitat i integració de dades

Un dels grans reptes als quals ens enfrontem avui és el gran volum de dades que arriben de diverses aplicacions. Si agafeu qualsevol organització informàtica típica, s'ocupen de noves aplicacions que apareixen tot el temps: desenes, de vegades fins i tot centenars cada any, especialment a les organitzacions mitjanes.

Ara, totes aquestes aplicacions generen dades i aquestes dades contenen informació valuosa. La preocupació principal aquí és la capacitat d'integrar ràpidament aquestes noves fonts de dades a les canalitzacions de dades existents i consolidar-les en una visió unificada. La velocitat amb què les organitzacions poden adaptar-se i incorporar aquests nous fluxos de dades és el repte més gran que veiem.

2. Formats de dades variables

Un altre repte crític prové de la naturalesa de les dades en si, particularment la creixent prevalença de dades no estructurades. Amb les dades no estructurades hi ha, per descomptat, diferents escoles de pensament sobre com gestionar-les.

Les organitzacions han de decidir si emmagatzemen aquestes dades directament en data llacs per a un ús posterior o si les extreuen i les transformen en un format més estructurat per al seu consum immediat. El repte de com gestionar les dades no estructurades segueix sent, i veiem que fins i tot les empreses mitjanes o petites se'n veuen afectades. Per tant, dissenyar estratègies efectives per manejar dades no estructurades és essencial.

3. Publicació i intercanvi de dades

Tot i que la integració i la consolidació de dades són crucials, la capacitat de compartir dades de manera eficaç és igual d'important. Les organitzacions necessiten mecanismes per publicar i distribuir dades als departaments interns, proveïdors de tercers, socis i altres parts interessades. Aquest repte va més enllà del simple fet de fer accessibles les dades; implica garantir la seguretat de les dades, la privadesa i el compliment de la normativa. A mesura que l'intercanvi de dades esdevé una necessitat per a empreses de totes les mides, les tecnologies i els productes d'aquest espai estan evolucionant ràpidament per satisfer la demanda.

Quines són algunes de les maneres en què Astera ha integrat la IA al flux de treball del client?

Mirem la IA que es creua amb la gestió de dades de dues maneres diferents.

1. Millora de la usabilitat amb IA generativa

El nostre profund compromís amb la usabilitat és una pedra angular de la nostra filosofia de desenvolupament de productes. Durant els darrers 12 o 13 anys, hem construït una gran reputació per dissenyar productes amb una corba d'aprenentatge curta, fent-los accessibles fins i tot per a usuaris no tècnics. Amb només una quantitat modesta de formació, les persones poden utilitzar de manera eficaç els nostres productes per realitzar tasques significatives amb les seves dades.

Amb la introducció de la IA generativa, Astera ha portat la usabilitat al següent nivell. Hem utilitzat IA generativa per crear una interfície d'usuari que permet als clients interactuar amb el producte mitjançant ordres de llenguatge natural. Aquesta interfície basada en IA simplifica les tasques de configuració, fent-la més intuïtiva i eficient per als usuaris.

A més, Astera ha integrat l'automatització impulsada per IA per gestionar tasques que abans requerien diverses hores de treball manual, especialment en la configuració de productes de gestió de dades. El factor de cost més important de la creació d'una solució de gestió de dades no va ser només la compra d'un producte, sinó el temps i l'esforç dedicat a configurar-lo. Hem intentat solucionar-ho amb la IA. Aquest enfocament redueix significativament el temps i els recursos que es dediquen tradicionalment a la configuració del producte.

A tall d'exemple, el producte d'Astera, ReportMiner, simplifica l'extracció de dades de documents no estructurats, ja que permet als usuaris crear plantilles d'extracció basades en regles. La IA ara pot generar la plantilla inicial en qüestió de segons, una tasca que abans trigava entre dues i tres hores per a un usuari típic. El primer tall d'una plantilla generada per IA pot no ser perfecte, però gestiona aproximadament el 90% de la càrrega de treball, cosa que permet als usuaris fer ajustos ràpids i completar la tasca en minuts en lloc d'hores. Aquest enfocament és només un exemple de com Astera aprofita la IA per millorar la usabilitat dels seus productes.

Estem fent coses similars a tota la nostra pila de dades on estem obtenint un augment significatiu de la usabilitat amb intel·ligència artificial.

2. Funcionalitat de la IA com a conjunt d'eines

Astera ofereix una pila de dades unificada que cobreix diversos aspectes de la gestió de dades, com ara la ingestió, la transformació, la qualitat de les dades, l'emmagatzematge de dades, les API i la publicació de dades. L'empresa reconeix la importància de proporcionar funcionalitat d'IA com a conjunt d'eines versàtils per als seus usuaris. Dins d'aquest conjunt d'eines, els clients d'Astera poden accedir a la IA a tot l'espectre de la ciència de dades, des de la creació i el desplegament de models d'aprenentatge automàtic fins a la gestió de ML Ops (operacions d'aprenentatge automàtic). Astera també admet l'ús de models basats en codi obert, inclosos els grans models de llenguatge (LLM) i facilita l'ajustament per a casos d'ús específics.

Aquesta funcionalitat d'IA més àmplia permet als usuaris d'Astera aprofitar la IA per a diverses tasques relacionades amb les dades, com ara la implementació de models d'aprenentatge automàtic, la implementació de ML Ops i l'ajust de models de codi obert. A més, Astera treballa contínuament per ampliar el seu suport d'IA, abastant àrees com ara bases de dades vectorials, cerques de semblança, incrustacions i molt més.

Quines són algunes de les millors pràctiques per aprofitar els models d'IA i ML en la gestió de dades per a grans empreses?

1. Mantingueu-vos a l'avantguarda dels desenvolupaments d'IA i ML

El camp dels grans models lingüístics està evolucionant ràpidament. Per obtenir un avantatge competitiu, les grans empreses han d'estar informades sobre els últims avenços. Astera, per exemple, va ser un dels primers adoptants de la IA generativa, utilitzant models com OpenAI i LAMA. El seguiment continu de les tecnologies emergents garanteix que esteu ben preparat per aprofitar-les de manera eficaç.

2. Experimenta amb múltiples models i configuracions

Mitjançant l'ajustament de LLMS, vam poder desplegar mides petites, com ara models de paràmetres de 8 a 13 mil milions, i implementar-los localment. És una cosa que ens ha funcionat molt bé i el que us recomanem és que en comptes d'utilitzar un contra l'altre, proveu diferents models bàsics i configuracions diferents i vegeu quina us funciona.

Els grans models d'idiomes vénen en diferents sabors, cadascun amb les seves capacitats úniques. Creeu una configuració que us permeti triar entre una àmplia gamma d'opcions, reflectint el que fan els desenvolupadors i els científics de dades en els seus viatges en ciència de dades.

Per capacitar els usuaris, hem creat un sistema de configuració que ofereix una àmplia gamma d'opcions, semblant a les que els desenvolupadors i els científics de dades es troben quan treballen amb biblioteques de codi obert en els seus esforços basats en dades. El nostre objectiu ha estat integrar perfectament aquestes opcions al nostre producte, facilitant una experiència dinàmica i adaptable als usuaris.

3. Prioritzeu el desplegament local sobre les API

Quan es tracta de productes centrats en les dades, és primordial reduir els retards. Confiar només en les API per a l'accés als models d'IA i ML pot introduir retards inacceptables, especialment quan es gestionen grans volums de dades. És recomanable prioritzar el desplegament local de models afinats, dedicats al vostre escenari específic. Aquest enfocament pot millorar significativament els temps de resposta i el rendiment general.

Per què Astera és una solució superior a les plataformes competidores?

  • Les solucions d'Astera tenen una interfície visual intuïtiva i lliure de codi, juntament amb una usabilitat millorada impulsada per IA, que facilita l'execució de processos de dades complexos per a tots els usuaris, independentment de les seves habilitats tècniques.
  • Les funcions d'automatització de la nostra pila de dades redueixen les tasques manuals repetibles i estalvien temps i recursos de desenvolupament.
  • La nostra plataforma unificada pot ajudar els usuaris a executar processos de dades d'extrem a extrem sense canviar de solució. Això elimina la despesa d'aprenentatge i gestió de múltiples sistemes en silos.

Gràcies per la gran entrevista, els lectors que vulguin aprendre més haurien de visitar Programari Astera.

Soci fundador de unit.AI i membre de la Consell Tecnològic de Forbes, Antoine és un futurista apassionat pel futur de la IA i la robòtica.

També és el fundador de Securities.io, un lloc web que se centra a invertir en tecnologia disruptiva.