Interviste

Xavier Conort, Co-Fondatore e CPO di FeatureByte – Serie di Interviste

Published June 28, 2023

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Xavier Conort è un visionario scienziato dei dati con più di 25 anni di esperienza nei dati. Ha iniziato la sua carriera come attuario nell’industria assicurativa prima di passare alla scienza dei dati. È un concorrente di Kaggle di alto livello e è stato il Chief Data Scientist di DataRobot prima di co-fondare FeatureByte.

FeatureByte ha una missione di scalare l’AI aziendale, semplificando radicalmente e industrializzando i dati dell’AI. La piattaforma di ingegneria e gestione delle caratteristiche consente ai data scientist di creare e condividere caratteristiche all’avanguardia e pipeline di dati pronte per la produzione in pochi minuti – invece di settimane o mesi.

Ha iniziato la sua carriera come attuario nell’industria assicurativa prima di passare alla scienza dei dati, cosa ha causato questo cambiamento?

Un momento decisivo è stato la vittoria del GE Flight Quest, una competizione organizzata da GE con un premio di 250.000 dollari, in cui i partecipanti dovevano prevedere i ritardi dei voli domestici negli Stati Uniti. Devo parte di questo successo a una pratica di assicurazione preziosa: la modellazione in due fasi. Questo approccio aiuta a controllare il bias nelle caratteristiche che mancano di una rappresentazione sufficiente nei dati di training disponibili. Insieme ad altre vittorie su Kaggle, questo risultato mi ha convinto che la mia formazione attuariale mi ha dato un vantaggio competitivo nel campo della scienza dei dati.

Durante il mio percorso su Kaggle, ho anche avuto il privilegio di connettermi con altri entusiasti scienziati dei dati, tra cui Jeremy Achin e Tom De Godoy, che in seguito sarebbero diventati i fondatori di DataRobot. Condividevamo una formazione comune nell’industria assicurativa e avevamo ottenuto successi notevoli su Kaggle. Quando hanno lanciato DataRobot, un’azienda specializzata in AutoML, mi hanno invitato a unirmi a loro come Chief Data Scientist. La loro visione di combinare le migliori pratiche dell’industria assicurativa con il potere dell’apprendimento automatico mi ha entusiasmato, presentando un’opportunità di creare qualcosa di innovativo e di impatto.

Al DataRobot e sono stato determinante nella costruzione della roadmap della scienza dei dati. Quali sono stati i principali sfidi relativi ai dati che ha affrontato?

La sfida più significativa che abbiamo affrontato è stata la varietà della qualità dei dati forniti come input alla nostra soluzione AutoML. Questo problema ha spesso portato a una collaborazione lunga e noiosa tra il nostro team e i clienti o a risultati deludenti in produzione se non affrontati adeguatamente. I problemi di qualità provenivano da diverse fonti che richiedevano la nostra attenzione.

Una delle principali sfide è emersa dall’uso generale di strumenti di business intelligence per la preparazione e la gestione dei dati. Sebbene questi strumenti siano preziosi per generare insight, mancano delle capacità necessarie per garantire la correttezza puntuale per la preparazione dei dati dell’apprendimento automatico. Di conseguenza, possono verificarsi perdite di dati di training, portando a un sovrapprendimento e a prestazioni del modello inaccurate.

Un’altra sfida è stata la mancanza di comunicazione tra scienziati dei dati e ingegneri dei dati, che ha influenzato l’accuratezza dei modelli durante la produzione. Le incoerenze tra le fasi di training e produzione, derivanti da una mancanza di allineamento tra questi due team, potevano impattare sulle prestazioni del modello in un ambiente del mondo reale.

Quali sono stati alcuni dei principali punti di forza di questa esperienza?

La mia esperienza al DataRobot ha evidenziato l’importanza della preparazione dei dati nella scienza dei dati. Affrontando le sfide della generazione dei dati di training dei modelli, come la correttezza puntuale, le lacune di competenza, la conoscenza del dominio, le limitazioni degli strumenti e la scalabilità, possiamo migliorare l’accuratezza e l’affidabilità dei modelli di apprendimento automatico. Sono giunto alla conclusione che semplificare il processo di preparazione dei dati e incorporare tecnologie innovative sarà fondamentale per sbloccare il pieno potenziale dell’AI e mantenere le sue promesse.

Abbiamo anche ascoltato da Razi Raziuddin la storia della genesi dietro FeatureByte, potremmo avere la sua versione degli eventi?

Quando ho discusso le mie osservazioni e intuizioni con il mio co-fondatore Razi Raziuddin, abbiamo realizzato che condividevamo una comprensione comune delle sfide nella preparazione dei dati per l’apprendimento automatico. Durante le nostre discussioni, ho condiviso con Razi le mie intuizioni sugli sviluppi recenti nella comunità MLOps. Ho potuto osservare l’emergere di feature store e piattaforme di caratteristiche che le aziende tecnologiche AI-first mettono in atto per ridurre la latenza della fornitura di caratteristiche, incoraggiare il riutilizzo delle caratteristiche o semplificare la materializzazione dei dati di training mentre si garantisce la coerenza tra training e servizio. Tuttavia, era evidente per noi che c’era ancora un divario nel soddisfare le esigenze dei data scientist. Razi ha condiviso con me le sue intuizioni su come lo stack di dati moderno abbia rivoluzionato il BI e l’analisi, ma non viene utilizzato appieno per l’AI.

È diventato chiaro sia per Razi che per me che avevamo l’opportunità di fare un impatto significativo semplificando radicalmente il processo di ingegneria delle caratteristiche e fornendo ai data scientist e agli ingegneri di apprendimento automatico gli strumenti e l’esperienza utente giusti per un’esperimentazione senza soluzione di continuità e la fornitura di caratteristiche.

Quali sono stati alcuni dei suoi più grandi sfidi nel passaggio da scienziato dei dati a imprenditore?

Il passaggio da scienziato dei dati a imprenditore ha richiesto di cambiare da una prospettiva tecnica a una più ampia mentalità orientata al business. Sebbene avessi una solida base nella comprensione dei punti deboli, nella creazione di una roadmap, nell’esecuzione dei piani, nella costruzione di un team e nella gestione dei budget, ho trovato che creare il messaggio giusto che risuonasse veramente con il nostro pubblico di riferimento è stato uno dei miei più grandi ostacoli.

Come scienziato dei dati, la mia principale attenzione era sempre stata sull’analisi e l’interpretazione dei dati per trarre insight preziosi. Tuttavia, come imprenditore, ho dovuto riorientare il mio pensiero verso il mercato, i clienti e l’intera attività.

Fortunatamente, sono stato in grado di superare questa sfida sfruttando l’esperienza di qualcuno come il mio co-fondatore Razi.

Abbiamo ascoltato da Razi perché l’ingegneria delle caratteristiche è così difficile, secondo la sua opinione cosa la rende così impegnativa?

L’ingegneria delle caratteristiche ha due sfide principali:

Trasformare colonne esistenti: ciò comporta la conversione dei dati in un formato adatto agli algoritmi di apprendimento automatico. Tecniche come one-hot encoding, feature scaling e metodi avanzati come trasformazioni di testo e immagine vengono utilizzati. La creazione di nuove caratteristiche da quelle esistenti, come caratteristiche di interazione, può migliorare notevolmente le prestazioni del modello. Librerie popolari come scikit-learn e Hugging Face offrono un ampio supporto per questo tipo di ingegneria delle caratteristiche. Le soluzioni AutoML mirano a semplificare il processo.
Estrazione di nuove colonne da dati storici: i dati storici sono cruciali in domini di problemi come sistemi di raccomandazione, marketing, rilevamento di frodi, prezzi assicurativi, punteggi di credito, previsioni della domanda e elaborazione dei dati dei sensori. L’estrazione di colonne informative da questi dati è impegnativa. Esempi includono il tempo trascorso dall’ultimo evento, aggregazioni su eventi recenti e embedding da sequenze di eventi. Questo tipo di ingegneria delle caratteristiche richiede competenze nel dominio, sperimentazione, forti capacità di codifica e conoscenze approfondite della scienza dei dati. Fattori come la perdita di tempo, la gestione di grandi set di dati e l’esecuzione efficiente del codice devono anche essere considerati.

Nel complesso, l’ingegneria delle caratteristiche richiede competenze, sperimentazione e costruzione di pipeline di dati complesse e ad hoc in assenza di strumenti specificamente progettati per essa.

Potrebbe condividere come FeatureByte consente ai professionisti della scienza dei dati di semplificare le pipeline di caratteristiche?

FeatureByte consente ai professionisti della scienza dei dati di semplificare l’intero processo di ingegneria delle caratteristiche. Con un SDK Python intuitivo, consente la creazione rapida di caratteristiche e l’estrazione da tabelle di eventi e oggetti XLarge. I calcoli vengono gestiti efficientemente sfruttando la scalabilità di piattaforme di dati come Snowflake, DataBricks e Spark. I notebook facilitano l’esperimentazione, mentre la condivisione e il riutilizzo delle caratteristiche risparmiano tempo. L’auditing garantisce l’accuratezza delle caratteristiche, mentre la distribuzione immediata elimina i problemi di gestione delle pipeline.

Oltre a queste capacità offerte dalla nostra libreria open-source, la nostra soluzione aziendale fornisce un framework completo per la gestione e l’organizzazione delle operazioni di AI su larga scala, inclusi flussi di lavoro di governance e un’interfaccia utente per il catalogo delle caratteristiche.

Qual è la sua visione per il futuro di FeatureByte?

La nostra visione ultima per FeatureByte è quella di rivoluzionare il campo della scienza dei dati e dell’apprendimento automatico, consentendo agli utenti di sbloccare il loro pieno potenziale creativo e di estrarre un valore senza precedenti dai loro asset di dati.

Siamo particolarmente entusiasti dei rapidi progressi nell’AI generativa e nei trasformatori, che aprono un mondo di possibilità per i nostri utenti. Inoltre, siamo impegnati a democratizzare l’ingegneria delle caratteristiche. L’AI generativa ha il potenziale di abbassare la barriera di ingresso per l’ingegneria delle caratteristiche creative, rendendola più accessibile a un pubblico più ampio.

In sintesi, la nostra visione per il futuro di FeatureByte ruota attorno all’innovazione continua, allo sfruttamento del potere dell’AI generativa e alla democratizzazione dell’ingegneria delle caratteristiche. Ci proponiamo di essere la piattaforma di riferimento che consente ai professionisti dei dati di trasformare i dati grezzi in input azionabili per l’apprendimento automatico, guidando innovazioni e progressi in tutti i settori.

Ha qualche consiglio per gli aspiranti imprenditori di AI?

Definisci il tuo spazio, resta focalizzato e accetta la novità.

Definendo lo spazio che vuoi possedere, puoi differenziarti e stabilire una presenza solida in quell’area. Ricerca il mercato, comprendi le esigenze e i punti deboli dei potenziali clienti e cerca di fornire una soluzione unica che affronti efficacemente quelle sfide.

Definisci la tua visione a lungo termine e stabilisci obiettivi a breve termine chiari che si allineano a quella visione. Concentrati sulla costruzione di una solida base e sulla consegna di valore nello spazio scelto.

Infine, mentre è importante rimanere focalizzato, non esitare ad accettare la novità e a esplorare nuove idee all’interno del tuo spazio definito. Il campo dell’AI è in costante evoluzione e approcci innovativi possono aprire nuove opportunità.

Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare FeatureByte.

Unite.AI

Xavier Conort, Co-Fondatore e CPO di FeatureByte – Serie di Interviste

You may like