Connecteu-vos amb nosaltres

entrevistes

Xavier Conort, cofundador i CPO de FeatureByte – Sèrie d'entrevistes

mm

publicat

 on

Xavier Conort és un científic de dades visionari amb més de 25 anys d'experiència en dades. Va començar la seva carrera com a actuari en la indústria d'assegurances abans de passar a la ciència de dades. És un dels millors competidors de Kaggle i va ser el científic cap de dades de DataRobot abans de cofundar FeatureByte.

FeatureByte té la missió d'escalar la IA empresarial, simplificant i industrialitzant radicalment les dades d'IA. La plataforma d'enginyeria i gestió de funcions permet als científics de dades crear i compartir funcions d'última generació i canalitzacions de dades preparades per a la producció en qüestió de minuts, en comptes de setmanes o mesos.

Vau començar la vostra carrera com a actuari en el sector de les assegurances abans de passar a Data Science, què va causar aquest canvi?

Un moment determinant va ser guanyar el GE Flight Quest, una competició organitzada per GE amb un premi conjunt de 250 dòlars, on els participants havien de predir els retards dels vols nacionals dels EUA. Part d'aquest èxit li dec a una pràctica d'assegurances valuosa: el modelatge en 2 etapes. Aquest enfocament ajuda a controlar el biaix de les característiques que no tenen prou representació a les dades d'entrenament disponibles. Juntament amb altres victòries a Kaggle, aquest assoliment em va convèncer que la meva formació actuarial m'ofereix un avantatge competitiu en el camp de la ciència de dades.

Durant el meu viatge a Kaggle, també vaig tenir el privilegi de connectar amb altres científics de dades entusiastes, inclosos Jeremy Achin i Tom De Godoy, que més tard es convertirien en els fundadors de DataRobot. Compartim un bagatge comú en assegurances i havíem aconseguit èxits notables a Kaggle. Quan finalment es van llançar DataRobot, una empresa especialitzada en AutoML, em van convidar a unir-me a ells com a director científic de dades. La seva visió de combinar les millors pràctiques de la indústria de les assegurances amb el poder de l'aprenentatge automàtic em va entusiasmar, presentant una oportunitat per crear quelcom innovador i impactant.

A DataRobot i van ser fonamentals per construir el seu full de ruta per a la ciència de dades. Quin tipus de reptes de dades us heu enfrontat?

El repte més important que vam enfrontar va ser la qualitat variable de les dades proporcionades com a entrada a la nostra solució AutoML. Aquest problema sovint va donar lloc a una col·laboració llarga entre el nostre equip i els clients o a resultats decebedors en la producció si no es tractava adequadament. Els problemes de qualitat van derivar de múltiples fonts que van requerir la nostra atenció.

Un dels principals reptes va sorgir de l'ús general d'eines d'intel·ligència empresarial per a la preparació i gestió de dades. Tot i que aquestes eines són valuoses per generar informació, no tenen les capacitats necessàries per garantir la correcció puntual per a la preparació de dades d'aprenentatge automàtic. Com a resultat, es podrien produir fuites en les dades d'entrenament, la qual cosa comporta un sobreajustament i un rendiment del model inexact.

La mala comunicació entre els científics de dades i els enginyers de dades va ser un altre repte que va afectar la precisió dels models durant la producció. Les inconsistències entre les fases de formació i producció, derivades de la desalineació entre aquests dos equips, podrien afectar el rendiment del model en un entorn del món real.

Quins van ser alguns dels punts clau d'aquesta experiència?

La meva experiència a DataRobot va destacar la importància de la preparació de dades en l'aprenentatge automàtic. En abordar els reptes de generar dades d'entrenament del model, com ara la correcció puntual, els buits d'experiència, el coneixement del domini, les limitacions d'eines i l'escalabilitat, podem millorar la precisió i la fiabilitat dels models d'aprenentatge automàtic. Vaig arribar a la conclusió que la racionalització del procés de preparació de dades i la incorporació de tecnologies innovadores seran fonamentals per desbloquejar tot el potencial de la IA i complir les seves promeses.

També hem sentit el vostre cofundador Razi Raziuddin sobre la història de la gènesi darrere de FeatureByte, podríem obtenir la vostra versió dels esdeveniments?

Quan vaig parlar de les meves observacions i idees amb el meu cofundador Razi Raziuddin, ens vam adonar que compartíem una comprensió comuna dels reptes de la preparació de dades per a l'aprenentatge automàtic. Durant les nostres discussions, vaig compartir amb Razi la meva visió dels avenços recents de la comunitat MLOps. Vaig poder observar l'aparició de magatzems de funcions i plataformes de funcions que les empreses tecnològiques primeres en intel·ligència artificial van posar en marxa per reduir la latència de la publicació de funcions, fomentar la reutilització de funcions o simplificar la materialització de funcions en dades d'entrenament alhora que garanteix la coherència de la prestació de la formació. Tanmateix, ens era evident que encara hi havia un buit per satisfer les necessitats dels científics de dades. Razi va compartir amb mi les seves idees sobre com la pila de dades moderna ha revolucionat la BI i l'anàlisi, però no s'està aprofitant completament per a la IA.

Tant per a Razi com per a mi es va fer evident que vam tenir l'oportunitat de tenir un impacte significatiu simplificant radicalment el procés d'enginyeria de funcions i proporcionant als científics de dades i als enginyers de ML les eines i l'experiència d'usuari adequades per a l'experimentació de funcions i la publicació de funcions sense problemes.

Quins van ser alguns dels vostres reptes més importants per fer la transició de científic de dades a emprenedor?

La transició d'un científic de dades a un emprenedor em va obligar a canviar d'una perspectiva tècnica a una mentalitat més àmplia orientada als negocis. Tot i que tenia una base sòlida per entendre els punts dolorosos, crear un full de ruta, executar plans, crear un equip i gestionar pressupostos, vaig trobar que elaborar el missatge adequat que realment ressonava amb el nostre públic objectiu era un dels meus majors obstacles.

Com a científic de dades, el meu enfocament principal sempre havia estat analitzar i interpretar dades per obtenir informació valuosa. Tanmateix, com a empresari, necessitava redirigir el meu pensament cap al mercat, els clients i el negoci en general.

Afortunadament, vaig poder superar aquest repte aprofitant l'experiència d'algú com el meu cofundador Razi.

Hem sentit de Razi sobre per què l'enginyeria de funcions és tan difícil, segons la teva opinió, què la fa tan difícil?

L'enginyeria de funcions té dos reptes principals:

  1. Transformació de columnes existents: això implica convertir les dades en un format adequat per als algorismes d'aprenentatge automàtic. S'utilitzen tècniques com la codificació única, l'escala de funcions i mètodes avançats com ara transformacions de text i imatges. La creació de noves funcions a partir de les existents, com ara les d'interacció, pot millorar molt el rendiment del model. Biblioteques populars com scikit-learn i Hugging Face ofereixen un gran suport per a aquest tipus d'enginyeria de funcions. Les solucions d'AutoML també tenen com a objectiu simplificar el procés.
  2. Extracció de columnes noves de dades històriques: les dades històriques són crucials en dominis problemàtics com ara sistemes de recomanació, màrqueting, detecció de fraus, preus d'assegurances, puntuació de crèdit, previsió de demanda i processament de dades de sensors. Extraure columnes informatives d'aquestes dades és un repte. Els exemples inclouen el temps des de l'últim esdeveniment, les agregacions d'esdeveniments recents i les incrustacions de seqüències d'esdeveniments. Aquest tipus d'enginyeria de funcions requereix experiència en el domini, experimentació, habilitats sòlides de codificació i enginyeria de dades i un coneixement profund de la ciència de dades. També cal tenir en compte factors com la fuga de temps, la gestió de grans conjunts de dades i l'execució eficient de codi.

En general, l'enginyeria de funcions requereix experiència, experimentació i construcció de canalitzacions de dades complexes ad-hoc en absència d'eines dissenyades específicament per a això.

Podríeu compartir com FeatureByte apodera els professionals de la ciència de dades alhora que simplifica les canalitzacions de funcions?

FeatureByte permet als professionals de la ciència de dades simplificant tot el procés en l'enginyeria de funcions. Amb un SDK de Python intuïtiu, permet la creació i l'extracció ràpides de funcions de les taules d'esdeveniments i elements XLarge. La computació es gestiona de manera eficient aprofitant l'escalabilitat de plataformes de dades com Snowflake, DataBricks i Spark. Els quaderns faciliten l'experimentació, mentre que la compartició i la reutilització de funcions estalvien temps. L'auditoria garanteix la precisió de les funcions, mentre que el desplegament immediat elimina els mals de cap de la gestió de pipelines.

A més d'aquestes capacitats que ofereix la nostra biblioteca de codi obert, la nostra solució empresarial ofereix un marc complet per gestionar i organitzar les operacions d'IA a escala, inclosos els fluxos de treball de govern i una interfície d'usuari per al catàleg de funcions.

Quina és la teva visió del futur de FeatureByte?

La nostra visió final de FeatureByte és revolucionar el camp de la ciència de dades i l'aprenentatge automàtic, donant poder als usuaris per alliberar tot el seu potencial creatiu i extreure un valor sense precedents dels seus actius de dades.

Estem especialment entusiasmats amb el ràpid progrés de la IA generativa i els transformadors, que obre un món de possibilitats per als nostres usuaris. A més, ens dediquem a democratitzar l'enginyeria de funcions. La IA generativa té el potencial de reduir la barrera d'entrada per a l'enginyeria de funcions creatives, fent-la més accessible per a un públic més ampli.

En resum, la nostra visió per al futur de FeatureByte gira al voltant de la innovació contínua, aprofitar el poder de l'IA generativa i democratitzar l'enginyeria de funcions. Volem ser la plataforma de referència que permeti als professionals de les dades transformar les dades en brut en inputs accionables per a l'aprenentatge automàtic, impulsant avenços i avenços en totes les indústries.

Tens algun consell per als aspirants a emprenedors d'IA?

Defineix el teu espai, manté la concentració i dona la benvinguda a les novetats.

En definir l'espai que voleu tenir, podreu diferenciar-vos i establir una forta presència en aquesta zona. Investigueu el mercat, entengueu les necessitats i els problemes dels clients potencials i intenteu oferir una solució única que abordi aquests reptes de manera eficaç.

Definiu la vostra visió a llarg termini i establiu objectius clars a curt termini que s'alinein amb aquesta visió. Concentreu-vos en construir una base sòlida i oferir valor a l'espai que hàgiu escollit.

Finalment, tot i que és important mantenir-se enfocat, no defugiu abraçar la novetat i explorar noves idees dins del vostre espai definit. El camp de la IA està en constant evolució i els enfocaments innovadors poden obrir noves oportunitats.

Gràcies per la gran entrevista, els lectors que vulguin aprendre més haurien de visitar FeatureByte.

Soci fundador de unit.AI i membre de la Consell Tecnològic de Forbes, Antoine és un futurista apassionat pel futur de la IA i la robòtica.

També és el fundador de Securities.io, un lloc web que se centra a invertir en tecnologia disruptiva.