Entretiens
Xavier Conort, Co-Fondateur et CPO de FeatureByte – Série d’entretiens

Xavier Conort est un visionnaire data scientist avec plus de 25 ans d’expérience dans les données. Il a commencé sa carrière en tant qu’actuaire dans l’industrie de l’assurance avant de passer à la science des données. Il est un concurrent Kaggle de haut rang et était le Chief Data Scientist chez DataRobot avant de co-fonder FeatureByte.
FeatureByte est sur une mission pour mettre à l’échelle l’IA d’entreprise, en simplifiant radicalement et en industrialisant les données d’IA. La plateforme de conception et de gestion de fonctionnalités permet aux data scientists de créer et de partager des fonctionnalités de pointe et des pipelines de données prêts pour la production en quelques minutes – au lieu de semaines ou de mois.
Vous avez commencé votre carrière en tant qu’actuaire dans l’industrie de l’assurance avant de passer à la science des données, qu’est-ce qui a causé ce changement ?
Un moment déterminant a été de gagner le GE Flight Quest, un concours organisé par GE avec un prix de 250 000 $, où les participants devaient prédire les retards des vols intérieurs américains. Je dois une partie de ce succès à une pratique d’assurance précieuse : la modélisation en 2 étapes. Cette approche aide à contrôler les biais dans les fonctionnalités qui manquent de représentation suffisante dans les données d’entraînement disponibles. Avec d’autres victoires sur Kaggle, cette réalisation m’a convaincu que mon expérience actuarielle me donnait un avantage concurrentiel dans le domaine de la science des données.
Au cours de mon parcours Kaggle, j’ai également eu le privilège de me connecter avec d’autres data scientists enthousiastes, notamment Jeremy Achin et Tom De Godoy, qui deviendraient plus tard les fondateurs de DataRobot. Nous partagions un passé commun dans l’assurance et avions obtenu des succès notables sur Kaggle. Lorsqu’ils ont lancé DataRobot, une entreprise spécialisée dans l’AutoML, ils m’ont invité à les rejoindre en tant que Chief Data Scientist. Leur vision de combiner les meilleures pratiques de l’industrie de l’assurance avec le pouvoir de l’apprentissage automatique m’a enthousiasmé, offrant une opportunité de créer quelque chose d’innovant et d’impactant.
À DataRobot, vous avez joué un rôle instrumental dans l’élaboration de la feuille de route de la science des données. Quels types de défis de données avez-vous rencontrés ?
Le défi le plus important que nous avons rencontré était la qualité variable des données fournies en entrée à notre solution AutoML. Ce problème a souvent entraîné une collaboration fastidieuse entre notre équipe et les clients ou des résultats décevants en production si cela n’était pas abordé correctement. Les problèmes de qualité provenaient de plusieurs sources qui nécessitaient notre attention.
L’un des défis principaux provenait de l’utilisation générale d’outils de business intelligence pour la préparation et la gestion des données. Même si ces outils sont précieux pour générer des insights, ils manquent des capacités nécessaires pour garantir la correction au moment opportun pour la préparation des données d’apprentissage automatique. En conséquence, des fuites dans les données d’entraînement pouvaient survenir, entraînant un surajustement et des performances de modèle inexactes.
Une mauvaise communication entre les data scientists et les data engineers était un autre défi qui affectait la précision des modèles pendant la production. Les incohérences entre les phases d’entraînement et de production, résultant d’un manque d’alignement entre ces deux équipes, pouvaient avoir un impact sur les performances du modèle dans un environnement réel.
Quelles étaient certaines des principales conclusions de cette expérience ?
Mon expérience chez DataRobot a mis en évidence l’importance de la préparation des données dans l’apprentissage automatique. En abordant les défis de la génération de données d’entraînement de modèles, tels que la correction au moment opportun, les lacunes en matière d’expertise, les connaissances de domaine, les limitations des outils et la scalabilité, nous pouvons améliorer la précision et la fiabilité des modèles d’apprentissage automatique. Je suis arrivé à la conclusion que la simplification du processus de préparation des données et l’intégration de technologies innovantes seront essentielles pour débloquer tout le potentiel de l’IA et tenir ses promesses.
Nous avons également entendu de votre co-fondateur Razi Raziuddin l’histoire de la genèse derrière FeatureByte, pourriez-vous nous donner votre version des événements ?
Lorsque j’ai discuté de mes observations et de mes insights avec mon co-fondateur Razi Raziuddin, nous avons réalisé que nous partagions une compréhension commune des défis de la préparation des données pour l’apprentissage automatique. Au cours de nos discussions, j’ai partagé avec Razi mes insights sur les progrès récents dans la communauté MLOps. J’ai pu observer l’émergence de magasins de fonctionnalités et de plateformes de fonctionnalités que les entreprises de technologie axées sur l’IA mettent en place pour réduire la latence de la fourniture de fonctionnalités, encourager la réutilisation de fonctionnalités ou simplifier la matérialisation de fonctionnalités dans les données d’entraînement tout en garantissant la cohérence entre l’entraînement et la production. Cependant, il était clair pour nous qu’il y avait encore un fossé dans la satisfaction des besoins des data scientists. Razi m’a partagé ses insights sur la façon dont la pile de données moderne a révolutionné le BI et l’analyse, mais n’est pas pleinement exploitée pour l’IA.
Il est devenu évident pour Razi et moi que nous avions l’opportunité de faire un impact significatif en simplifiant radicalement le processus d’ingénierie de fonctionnalités et en fournissant aux data scientists et aux ingénieurs de l’apprentissage automatique les bons outils et l’expérience utilisateur pour une experimentation et une fourniture de fonctionnalités sans effort.
Quels étaient certains de vos plus grands défis pour passer de data scientist à entrepreneur ?
La transition de data scientist à entrepreneur a nécessité que je change de perspective technique à une mentalité plus large et orientée business. Même si j’avais une solide base pour comprendre les points de douleur, créer une feuille de route, exécuter des plans, construire une équipe et gérer des budgets, j’ai trouvé que la création du bon message qui résonne vraiment avec notre public cible était l’un de mes plus grands obstacles.
En tant que data scientist, mon objectif principal a toujours été d’analyser et d’interpréter les données pour dériver des insights précieux. Cependant, en tant qu’entrepreneur, j’ai dû réorienter ma pensée vers le marché, les clients et l’ensemble de l’entreprise.
Heureusement, j’ai pu surmonter ce défi en exploitant l’expérience de quelqu’un comme mon co-fondateur Razi.
Nous avons entendu de Razi pourquoi l’ingénierie de fonctionnalités est si difficile, à votre avis, qu’est-ce qui la rend si complexe ?
L’ingénierie de fonctionnalités a deux défis majeurs :
- Transformer les colonnes existantes : cela implique de convertir les données dans un format approprié pour les algorithmes d’apprentissage automatique. Des techniques telles que le codage one-hot, la mise à l’échelle de fonctionnalités et des méthodes avancées telles que les transformations de texte et d’image sont utilisées. La création de nouvelles fonctionnalités à partir de celles existantes, comme les fonctionnalités d’interaction, peut considérablement améliorer les performances du modèle. Des bibliothèques populaires comme scikit-learn et Hugging Face offrent un soutien étendu pour ce type d’ingénierie de fonctionnalités. Les solutions AutoML visent à simplifier le processus.
- Extraire de nouvelles colonnes à partir de données historiques : les données historiques sont cruciales dans des domaines de problème tels que les systèmes de recommandation, le marketing, la détection de fraude, le tarification de l’assurance, la notation de crédit, la prévision de la demande et le traitement des données de capteurs. Extraire des colonnes informatives de ces données est complexe. Des exemples incluent le temps écoulé depuis le dernier événement, les agrégations sur les événements récents et les embeddings à partir de séquences d’événements. Ce type d’ingénierie de fonctionnalités nécessite une expertise de domaine, une expérimentation, de solides compétences en codage et en ingénierie de données, ainsi que des connaissances approfondies en science des données. Des facteurs tels que la fuite de temps, la gestion de grands ensembles de données et l’exécution efficace du code doivent également être pris en compte.
Dans l’ensemble, l’ingénierie de fonctionnalités nécessite une expertise, une expérimentation et la construction de pipelines de données complexes ad hoc en l’absence d’outils spécifiquement conçus à cet effet.
Pouvez-vous partager comment FeatureByte donne le pouvoir aux professionnels de la science des données tout en simplifiant les pipelines de fonctionnalités ?
FeatureByte donne le pouvoir aux professionnels de la science des données en simplifiant l’ensemble du processus d’ingénierie de fonctionnalités. Avec un SDK Python intuitif, il permet la création rapide de fonctionnalités et l’extraction à partir de grandes tables d’événements et d’éléments. Le calcul est géré de manière efficace en exploitant la scalabilité des plates-formes de données telles que Snowflake, DataBricks et Spark. Les carnets de notes facilitent l’expérimentation, tandis que le partage et la réutilisation de fonctionnalités économisent du temps. L’audit garantit la précision des fonctionnalités, tandis que le déploiement immédiat élimine les problèmes de gestion de pipeline.
En plus des capacités offertes par notre bibliothèque open source, notre solution d’entreprise offre un cadre complet pour gérer et organiser les opérations d’IA à grande échelle, notamment des flux de travail de gouvernance et une interface utilisateur pour le catalogue de fonctionnalités.
Quelle est votre vision pour l’avenir de FeatureByte ?
Notre vision ultime pour FeatureByte est de révolutionner le domaine de la science des données et de l’apprentissage automatique en donnant aux utilisateurs les moyens de libérer tout leur potentiel créatif et d’extraire une valeur sans précédent de leurs actifs de données.
Nous sommes particulièrement enthousiastes à l’égard des progrès rapides de l’IA générative et des transformateurs, qui ouvrent un monde de possibilités pour nos utilisateurs. De plus, nous nous engageons à démocratiser l’ingénierie de fonctionnalités. L’IA générative a le potentiel de réduire les barrières à l’entrée pour l’ingénierie de fonctionnalités créative, la rendant plus accessible à un public plus large.
En résumé, notre vision pour l’avenir de FeatureByte tourne autour de l’innovation continue, de l’harnessing du pouvoir de l’IA générative et de la démocratisation de l’ingénierie de fonctionnalités. Nous visons à être la plateforme de choix qui permet aux professionnels de la données de transformer les données brutes en entrée actionnable pour l’apprentissage automatique, conduisant à des avancées et des progrès dans tous les secteurs.
Avez-vous des conseils pour les entrepreneurs de l’IA en herbe ?
Définissez votre espace, restez concentrés et accueillez la nouveauté.
En définissant l’espace que vous souhaitez posséder, vous pouvez vous différencier et établir une présence solide dans ce domaine. Recherchez le marché, comprenez les besoins et les points de douleur des clients potentiels et essayez de fournir une solution unique qui répond à ces défis de manière efficace.
Définissez votre vision à long terme et établissez des objectifs à court terme clairs qui s’alignent sur cette vision. Concentrez-vous sur la construction d’une base solide et la fourniture de valeur dans votre espace choisi.
Enfin, même si il est important de rester concentré, n’ayez pas peur de vous ouvrir à la nouveauté et d’explorer de nouvelles idées dans votre espace défini. Le domaine de l’IA évolue constamment, et les approches innovantes peuvent ouvrir de nouvelles opportunités.
Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter FeatureByte.












