stomp Xavier Conort, mede-oprichter en CPO van FeatureByte - Interviewreeks - Unite.AI
Verbind je met ons

Interviews

Xavier Conort, mede-oprichter en CPO van FeatureByte - Interviewserie

mm

gepubliceerd

 on

Xavier Conort is een visionaire datawetenschapper met meer dan 25 jaar data-ervaring. Hij begon zijn carrière als actuaris in de verzekeringssector voordat hij overstapte naar datawetenschap. Hij is een vooraanstaande Kaggle-concurrent en was de Chief Data Scientist bij DataRobot voordat hij FeatureByte medeoprichtte.

FeatureByte is op een missie om enterprise AI te schalen, door AI-gegevens radicaal te vereenvoudigen en te industrialiseren. Het feature engineering- en beheerplatform stelt datawetenschappers in staat om binnen enkele minuten state-of-the-art features en productieklare datapijplijnen te creëren en te delen - in plaats van weken of maanden.

Je begon je carrière als actuaris in de verzekeringssector voordat je overstapte naar Data Science, wat veroorzaakte deze verschuiving?

Een beslissend moment was het winnen van de GE Flight Quest, een wedstrijd georganiseerd door GE met een prijzenpot van $ 250, waarbij deelnemers vertragingen van Amerikaanse binnenlandse vluchten moesten voorspellen. Een deel van dat succes heb ik te danken aan een waardevolle verzekeringspraktijk: de 2 stages modelling. Deze aanpak helpt bij het beheersen van vooringenomenheid in functies die niet voldoende vertegenwoordigd zijn in de beschikbare trainingsgegevens. Samen met andere overwinningen op Kaggle, overtuigde deze prestatie me ervan dat mijn actuariële achtergrond me een concurrentievoordeel opleverde op het gebied van datawetenschap.

Tijdens mijn Kaggle-reis had ik ook het voorrecht om in contact te komen met andere enthousiaste datawetenschappers, waaronder Jeremy Achin en Tom De Godoy, die later de oprichters van DataRobot zouden worden. We deelden een gemeenschappelijke achtergrond in verzekeringen en hadden opmerkelijke successen behaald op Kaggle. Toen ze uiteindelijk gelanceerd GegevensRobot, een bedrijf gespecialiseerd in AutoML, nodigden ze mij uit om bij hen te komen werken als Chief Data Scientist. Hun visie om de beste praktijken uit de verzekeringssector te combineren met de kracht van machinaal leren maakte mij enthousiast en bood een kans om iets innovatiefs en impactvols te creëren.

Bij DataRobot en hebben we een belangrijke rol gespeeld bij het opstellen van hun Data Science-roadmap. Met welk type data-uitdagingen werd u geconfronteerd?

De grootste uitdaging waarmee we werden geconfronteerd, was de variërende kwaliteit van de gegevens die werden aangeleverd als input voor onze AutoML-oplossing. Dit probleem resulteerde vaak in tijdrovende samenwerking tussen ons team en klanten of teleurstellende resultaten in de productie als het niet op de juiste manier werd aangepakt. De kwaliteitsproblemen kwamen voort uit meerdere bronnen die onze aandacht vereisten.

Een van de belangrijkste uitdagingen kwam voort uit het algemene gebruik van business intelligence-tools voor gegevensvoorbereiding en -beheer. Hoewel deze tools waardevol zijn voor het genereren van inzichten, missen ze de mogelijkheden die nodig zijn om point-in-time correctheid te garanderen voor de voorbereiding van machine learning-gegevens. Als gevolg hiervan kunnen er lekken in trainingsgegevens optreden, wat leidt tot overfitting en onnauwkeurige modelprestaties.

Miscommunicatie tussen datawetenschappers en data-ingenieurs was een andere uitdaging die de nauwkeurigheid van modellen tijdens de productie beïnvloedde. Inconsistenties tussen de trainings- en productiefasen, die het gevolg zijn van een verkeerde afstemming tussen deze twee teams, kunnen van invloed zijn op de prestaties van het model in een reële omgeving.

Wat waren enkele van de belangrijkste afhaalrestaurants van deze ervaring?

Mijn ervaring bij DataRobot benadrukte het belang van gegevensvoorbereiding bij machine learning. Door de uitdagingen van het genereren van modeltrainingsgegevens aan te pakken, zoals point-in-time correctheid, expertiselacunes, domeinkennis, toolbeperkingen en schaalbaarheid, kunnen we de nauwkeurigheid en betrouwbaarheid van machine learning-modellen verbeteren. Ik kwam tot de conclusie dat het stroomlijnen van het gegevensvoorbereidingsproces en het integreren van innovatieve technologieën een belangrijke rol zullen spelen bij het ontsluiten van het volledige potentieel van AI en het waarmaken van zijn beloften.

We hebben ook gehoord van uw mede-oprichter Razi Raziuddin over het ontstaansverhaal achter FeatureByte, kunnen we jouw versie van de gebeurtenissen krijgen?

Toen ik mijn observaties en inzichten besprak met mijn mede-oprichter Razi Raziuddin, realiseerden we ons dat we een gemeenschappelijk begrip deelden van de uitdagingen bij het voorbereiden van gegevens voor machine learning. Tijdens onze discussies deelde ik met Razi mijn inzichten in de recente vorderingen in de MLOps-gemeenschap. Ik zag de opkomst van functiewinkels en functieplatforms die AI-eerste technologiebedrijven hebben opgezet om de latentie van het aanbieden van functies te verminderen, het hergebruik van functies aan te moedigen of het materialiseren van functies in trainingsgegevens te vereenvoudigen en tegelijkertijd de consistentie van de training te waarborgen. Het was ons echter duidelijk dat er nog steeds een hiaat was om aan de behoeften van datawetenschappers te voldoen. Razi deelde zijn inzichten met mij over hoe de moderne datastack een revolutie teweeg heeft gebracht in BI en analyse, maar niet volledig wordt benut voor AI.

Het werd zowel Razi als mij duidelijk dat we de kans hadden om een ​​aanzienlijke impact te maken door het feature-engineeringproces radicaal te vereenvoudigen en datawetenschappers en ML-engineers de juiste tools en gebruikerservaring te bieden voor naadloze feature-experimenten en feature-serving.

Wat waren enkele van je grootste uitdagingen bij het maken van de overgang van datawetenschapper naar ondernemer?

De overgang van een datawetenschapper naar een ondernemer vereiste dat ik moest veranderen van een technisch perspectief naar een bredere bedrijfsgerichte mindset. Hoewel ik een sterke basis had in het begrijpen van pijnpunten, het maken van een stappenplan, het uitvoeren van plannen, het bouwen van een team en het beheren van budgetten, ontdekte ik dat het opstellen van de juiste berichten die echt resoneerden met onze doelgroep een van mijn grootste obstakels was.

Als datawetenschapper lag mijn primaire focus altijd op het analyseren en interpreteren van gegevens om waardevolle inzichten te verkrijgen. Als ondernemer moest ik mijn denken echter verleggen naar de markt, klanten en het bedrijf als geheel.

Gelukkig kon ik deze uitdaging overwinnen door gebruik te maken van de ervaring van iemand als mijn medeoprichter Razi.

We hoorden van Razi over waarom feature engineering zo moeilijk is, wat maakt het volgens jou zo uitdagend?

Feature engineering heeft twee belangrijke uitdagingen:

  1. Bestaande kolommen transformeren: dit omvat het converteren van gegevens naar een geschikt formaat voor machine learning-algoritmen. Technieken zoals one-hot codering, functieschaling en geavanceerde methoden zoals tekst- en beeldtransformaties worden gebruikt. Het creëren van nieuwe functies van bestaande, zoals interactiefuncties, kan de modelprestaties aanzienlijk verbeteren. Populaire bibliotheken zoals scikit-learn en Hugging Face bieden uitgebreide ondersteuning voor dit type functie-engineering. AutoML-oplossingen zijn ook bedoeld om het proces te vereenvoudigen.
  2. Nieuwe kolommen extraheren uit historische gegevens: historische gegevens zijn cruciaal in probleemdomeinen zoals aanbevelingssystemen, marketing, fraudedetectie, verzekeringsprijzen, kredietscores, vraagprognoses en verwerking van sensorgegevens. Het extraheren van informatieve kolommen uit deze gegevens is een uitdaging. Voorbeelden zijn de tijd sinds de laatste gebeurtenis, aggregaties van recente gebeurtenissen en inbeddingen van reeksen gebeurtenissen. Dit type feature-engineering vereist domeinexpertise, experimenten, sterke vaardigheden op het gebied van coderen en data-engineering en diepgaande kennis van datawetenschap. Er moet ook rekening worden gehouden met factoren als tijdverlies, het verwerken van grote datasets en het efficiënt uitvoeren van code.

Over het algemeen vereist feature-engineering expertise, experimenten en constructie van complexe ad-hoc datapijplijnen bij gebrek aan tools die er speciaal voor zijn ontworpen.

Kun je vertellen hoe FeatureByte data science-professionals in staat stelt terwijl feature-pijplijnen worden vereenvoudigd?

FeatureByte stelt data science-professionals in staat door het hele proces in feature engineering te vereenvoudigen. Met een intuïtieve Python SDK maakt het snel het maken en extraheren van functies uit XLarge Event- en Item Tables mogelijk. Berekening wordt efficiënt afgehandeld door gebruik te maken van de schaalbaarheid van dataplatforms zoals Snowflake, DataBricks en Spark. Notebooks vergemakkelijken het experimenteren, terwijl het delen en hergebruiken van functies tijd bespaart. Auditing zorgt voor nauwkeurigheid van functies, terwijl onmiddellijke implementatie hoofdpijn op het gebied van pijplijnbeheer elimineert.

Naast deze mogelijkheden die worden geboden door onze open-sourcebibliotheek, biedt onze bedrijfsoplossing een uitgebreid raamwerk voor het op schaal beheren en organiseren van AI-operaties, inclusief governance-workflows en een gebruikersinterface voor de functiecatalogus.

Wat is jouw visie voor de toekomst van FeatureByte?

Onze ultieme visie voor FeatureByte is om een ​​revolutie teweeg te brengen op het gebied van datawetenschap en machine learning door gebruikers in staat te stellen hun volledige creatieve potentieel te ontketenen en ongekende waarde uit hun data-assets te halen.

We zijn vooral enthousiast over de snelle vooruitgang op het gebied van generatieve AI en transformatoren, die een wereld aan mogelijkheden voor onze gebruikers opent. Bovendien zijn we toegewijd aan het democratiseren van feature engineering. Generatieve AI heeft het potentieel om de toetredingsdrempel voor creatieve feature-engineering te verlagen, waardoor het toegankelijker wordt voor een breder publiek.

Samenvattend draait onze visie voor de toekomst van FeatureByte om continue innovatie, het benutten van de kracht van generatieve AI en het democratiseren van feature-engineering. We streven ernaar het go-to-platform te zijn dat dataprofessionals in staat stelt om ruwe data om te zetten in bruikbare input voor machine learning, om doorbraken en vooruitgang in verschillende sectoren te stimuleren.

Heb je advies voor aspirant-AI-ondernemers?

Definieer uw ruimte, blijf gefocust en verwelkom nieuwigheden.

Door de ruimte te definiëren die u wilt bezitten, kunt u zich onderscheiden en een sterke aanwezigheid in dat gebied vestigen. Onderzoek de markt, begrijp de behoeften en pijnpunten van potentiële klanten en streef ernaar een unieke oplossing te bieden die deze uitdagingen effectief aanpakt.

Definieer uw langetermijnvisie en stel duidelijke kortetermijndoelen vast die aansluiten bij die visie. Concentreer u op het bouwen van een sterke basis en het leveren van waarde in de door u gekozen ruimte.

Ten slotte, hoewel het belangrijk is om gefocust te blijven, moet u niet terugdeinzen om nieuwe dingen te omarmen en nieuwe ideeën te verkennen binnen uw gedefinieerde ruimte. Het AI-veld evolueert voortdurend en innovatieve benaderingen kunnen nieuwe kansen bieden.

Bedankt voor het geweldige interview, lezers die meer willen weten, zouden moeten bezoeken FeatureByte.

Een van de oprichters van unite.AI en lid van de Forbes Technologieraad, Antoine is een futuristisch die gepassioneerd is over de toekomst van AI en robotica.

Hij is tevens de oprichter van Effecten.io, een website die zich richt op het investeren in disruptieve technologie.