Interviews
Xavier Conort, co-fondateur et CPO de FeatureByte – Série d'interviews

Xavier Conort est un data scientist visionnaire avec plus de 25 ans d'expérience dans les données. Il a commencé sa carrière en tant qu'actuaire dans le secteur de l'assurance avant de passer à la science des données. Il est l'un des meilleurs concurrents de Kaggle et était le scientifique en chef des données chez DataRobot avant de cofonder FeatureByte.
Octet de fonctionnalité a pour mission de faire évoluer l'IA d'entreprise, en simplifiant et en industrialisant radicalement les données d'IA. La plate-forme d'ingénierie et de gestion des fonctionnalités permet aux scientifiques des données de créer et de partager des fonctionnalités de pointe et des pipelines de données prêts pour la production en quelques minutes, au lieu de plusieurs semaines ou mois.
Vous avez commencé votre carrière en tant qu'actuaire dans le secteur de l'assurance avant de passer à la science des données, qu'est-ce qui a provoqué ce changement ?
Un moment décisif a été de gagner le GE Flight Quest, un concours organisé par GE avec un prix de 250 2 $, où les participants devaient prévoir les retards des vols intérieurs aux États-Unis. Je dois une partie de ce succès à une précieuse pratique de l'assurance : la modélisation en XNUMX étapes. Cette approche permet de contrôler les biais dans les fonctionnalités qui ne sont pas suffisamment représentées dans les données de formation disponibles. Avec d'autres victoires sur Kaggle, cette réalisation m'a convaincu que ma formation en actuariat m'offrait un avantage concurrentiel dans le domaine de la science des données.
Au cours de mon parcours Kaggle, j'ai également eu le privilège de rencontrer d'autres data scientists enthousiastes, dont Jeremy Achin et Tom De Godoy, qui deviendront plus tard les fondateurs de DataRobot. Nous partagions une expérience commune dans le domaine de l'assurance et avions obtenu des succès notables sur Kaggle. Quand ils ont finalement lancé DataRobot, une société spécialisée dans AutoML, ils m'ont invité à les rejoindre en tant que Chief Data Scientist. Leur vision de combiner les meilleures pratiques du secteur de l’assurance avec la puissance de l’apprentissage automatique m’a enthousiasmé, offrant l’opportunité de créer quelque chose d’innovant et d’impactant.
Chez DataRobot et ont joué un rôle déterminant dans la construction de leur feuille de route Data Science. À quel type de défis liés aux données avez-vous été confronté ?
Le défi le plus important auquel nous avons été confrontés était la qualité variable des données fournies en entrée de notre solution AutoML. Ce problème entraînait souvent une collaboration chronophage entre notre équipe et nos clients ou des résultats décevants en production s'il n'était pas traité de manière appropriée. Les problèmes de qualité provenaient de multiples sources qui ont nécessité notre attention.
L'un des principaux défis découlait de l'utilisation généralisée des outils d'intelligence d'affaires pour la préparation et la gestion des données. Bien que ces outils soient précieux pour générer des informations, ils n'ont pas les capacités requises pour garantir l'exactitude à un moment donné pour la préparation des données d'apprentissage automatique. Par conséquent, des fuites dans les données de formation pourraient se produire, entraînant un surajustement et des performances de modèle inexactes.
La mauvaise communication entre les scientifiques des données et les ingénieurs des données était un autre défi qui affectait la précision des modèles pendant la production. Les incohérences entre les phases de formation et de production, résultant d'un mauvais alignement entre ces deux équipes, pourraient avoir un impact sur les performances du modèle dans un environnement réel.
Quels ont été les principaux enseignements de cette expérience ?
Mon expérience chez DataRobot a mis en évidence l'importance de la préparation des données dans l'apprentissage automatique. En relevant les défis liés à la génération de données de formation de modèles, tels que l'exactitude ponctuelle, les lacunes en matière d'expertise, la connaissance du domaine, les limites des outils et l'évolutivité, nous pouvons améliorer la précision et la fiabilité des modèles d'apprentissage automatique. Je suis arrivé à la conclusion que la rationalisation du processus de préparation des données et l'intégration de technologies innovantes contribueront à libérer tout le potentiel de l'IA et à tenir ses promesses.
Nous avons également entendu parler de votre co-fondateur Razi Raziuddin à propos de l'histoire de la genèse derrière FeatureByte, pourrions-nous avoir votre version des événements ?
Lorsque j'ai discuté de mes observations et de mes idées avec mon co-fondateur Razi Raziuddin, nous avons réalisé que nous partagions une compréhension commune des défis de la préparation des données pour l'apprentissage automatique. Au cours de nos discussions, j'ai partagé avec Razi mes idées sur les récentes avancées de la communauté MLOps. J'ai pu observer l'émergence de magasins de fonctionnalités et de plates-formes de fonctionnalités que les entreprises technologiques axées sur l'IA ont mis en place pour réduire la latence du service de fonctionnalités, encourager la réutilisation des fonctionnalités ou simplifier la matérialisation des fonctionnalités dans les données de formation tout en garantissant la cohérence de la formation. Cependant, il était évident pour nous qu'il y avait encore un écart pour répondre aux besoins des scientifiques des données. Razi a partagé avec moi ses idées sur la façon dont la pile de données moderne a révolutionné la BI et l'analyse, mais n'est pas pleinement exploitée pour l'IA.
Il est devenu évident pour Razi et moi que nous avions l'opportunité d'avoir un impact significatif en simplifiant radicalement le processus d'ingénierie des fonctionnalités et en fournissant aux scientifiques des données et aux ingénieurs ML les bons outils et l'expérience utilisateur pour une expérimentation et un service de fonctionnalités transparents.
Quels ont été certains de vos plus grands défis lors de la transition de data scientist à entrepreneur ?
Passer d'un scientifique de données à un entrepreneur m'a obligé à passer d'une perspective technique à un état d'esprit plus large axé sur les affaires. Alors que j'avais une base solide pour comprendre les points faibles, créer une feuille de route, exécuter des plans, constituer une équipe et gérer des budgets, j'ai trouvé que l'élaboration du bon message qui résonnait vraiment avec notre public cible était l'un de mes plus grands obstacles.
En tant que data scientist, mon objectif principal a toujours été d'analyser et d'interpréter les données pour en tirer des informations précieuses. Cependant, en tant qu'entrepreneur, j'avais besoin de réorienter ma réflexion vers le marché, les clients et l'entreprise dans son ensemble.
Heureusement, j'ai pu surmonter ce défi en tirant parti de l'expérience de quelqu'un comme mon co-fondateur Razi.
Nous avons entendu Razi pourquoi l'ingénierie des fonctionnalités est si difficile, à votre avis, qu'est-ce qui la rend si difficile ?
L'ingénierie des fonctionnalités a deux défis principaux :
- Transformer les colonnes existantes : cela implique de convertir les données dans un format adapté aux algorithmes d'apprentissage automatique. Des techniques telles que l'encodage à chaud, la mise à l'échelle des fonctionnalités et des méthodes avancées telles que les transformations de texte et d'image sont utilisées. La création de nouvelles fonctionnalités à partir de fonctionnalités existantes, telles que les fonctionnalités d'interaction, peut considérablement améliorer les performances du modèle. Les bibliothèques populaires telles que scikit-learn et Hugging Face fournissent un support étendu pour ce type d'ingénierie de fonctionnalités. Les solutions AutoML visent également à simplifier le processus.
- Extraction de nouvelles colonnes à partir de données historiques : les données historiques sont cruciales dans des domaines problématiques tels que les systèmes de recommandation, le marketing, la détection des fraudes, la tarification des assurances, la notation du crédit, la prévision de la demande et le traitement des données des capteurs. Extraire des colonnes informatives à partir de ces données est un défi. Les exemples incluent le temps écoulé depuis le dernier événement, les agrégations sur les événements récents et les intégrations à partir de séquences d'événements. Ce type d'ingénierie de fonctionnalités nécessite une expertise du domaine, de l'expérimentation, de solides compétences en codage et en ingénierie des données, ainsi qu'une connaissance approfondie de la science des données. Des facteurs tels que les fuites de temps, la gestion de grands ensembles de données et l'exécution efficace du code doivent également être pris en compte.
Dans l'ensemble, l'ingénierie des fonctionnalités nécessite une expertise, une expérimentation et la construction de pipelines de données ad hoc complexes en l'absence d'outils spécifiquement conçus pour cela.
Pourriez-vous expliquer comment FeatureByte permet aux professionnels de la science des données tout en simplifiant les pipelines de fonctionnalités ?
FeatureByte permet aux professionnels de la science des données de simplifier l'ensemble du processus d'ingénierie des fonctionnalités. Avec un SDK Python intuitif, il permet la création et l'extraction rapides de fonctionnalités à partir des tables d'événements et d'éléments XLarge. Le calcul est géré efficacement en tirant parti de l'évolutivité des plates-formes de données telles que Snowflake, DataBricks et Spark. Les blocs-notes facilitent l'expérimentation, tandis que le partage et la réutilisation des fonctionnalités permettent de gagner du temps. L'audit garantit la précision des fonctionnalités, tandis que le déploiement immédiat élimine les maux de tête liés à la gestion du pipeline.
En plus de ces fonctionnalités offertes par notre bibliothèque open source, notre solution d'entreprise fournit un cadre complet pour la gestion et l'organisation des opérations d'IA à grande échelle, y compris des workflows de gouvernance et une interface utilisateur pour le catalogue de fonctionnalités.
Quelle est votre vision du futur de FeatureByte ?
Notre vision ultime pour FeatureByte est de révolutionner le domaine de la science des données et de l'apprentissage automatique en permettant aux utilisateurs de libérer tout leur potentiel créatif et d'extraire une valeur sans précédent de leurs actifs de données.
Nous sommes particulièrement enthousiasmés par les progrès rapides de l'IA générative et des transformateurs, qui ouvrent un monde de possibilités pour nos utilisateurs. De plus, nous nous engageons à démocratiser l'ingénierie des fonctionnalités. L'IA générative a le potentiel de réduire la barrière d'entrée pour l'ingénierie des fonctionnalités créatives, la rendant plus accessible à un public plus large.
En résumé, notre vision de l'avenir de FeatureByte s'articule autour de l'innovation continue, de l'exploitation de la puissance de l'IA générative et de la démocratisation de l'ingénierie des fonctionnalités. Notre objectif est d'être la plate-forme incontournable qui permet aux professionnels des données de transformer les données brutes en données exploitables pour l'apprentissage automatique, entraînant des percées et des avancées dans tous les secteurs.
Avez-vous des conseils pour les aspirants entrepreneurs en IA ?
Définissez votre espace, restez concentré et accueillez la nouveauté.
En définissant l'espace que vous souhaitez posséder, vous pouvez vous différencier et établir une forte présence dans ce domaine. Étudiez le marché, comprenez les besoins et les difficultés des clients potentiels et efforcez-vous de fournir une solution unique qui réponde efficacement à ces défis.
Définissez votre vision à long terme et fixez des objectifs clairs à court terme qui correspondent à cette vision. Concentrez-vous sur la construction d'une base solide et la création de valeur dans l'espace que vous avez choisi.
Enfin, bien qu'il soit important de rester concentré, n'hésitez pas à adopter la nouveauté et à explorer de nouvelles idées dans votre espace défini. Le domaine de l'IA est en constante évolution et des approches innovantes peuvent ouvrir de nouvelles opportunités.
Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter Octet de fonctionnalité.