Interviews
Xavier Conort, Co-Founder og CPO af FeatureByte – Interview Serie

Xavier Conort er en visionær datavidenskabsmand med mere end 25 års erfaring med data. Han startede sin karriere som aktuar i forsikringsindustrien, før han skiftede til datavidenskab. Han er en top-rangeret Kaggle-deltager og var Chief Data Scientist i DataRobot, før han co-foundede FeatureByte.
FeatureByte er på en mission for at skala enterprise AI ved at radikalt simplificere og industrialisere AI-data. Feature-engineering- og management-platformen giver datavidenskabsmænd mulighed for at oprette og dele state-of-the-art-funktioner og produktionsklare data-pipelines på få minutter – i stedet for uger eller måneder.
I startede din karriere som aktuar i forsikringsindustrien, før du skiftede til datavidenskab, hvad var årsagen til denne skift?
Et definerende øjeblik var, da jeg vandt GE Flight Quest, en konkurrence arrangeret af GE med en pris på 250.000 dollars, hvor deltagerne skulle forudsige forsinkelser af indenrigsfly i USA. Jeg skylder en del af denne succes til en værdifuld forsikringspraksis: 2-stages-modellering. Denne tilgang hjælper med at kontrollere bias i funktioner, der mangler tilstrækkelig repræsentation i den tilgængelige træningsdata. Sammen med andre sejre på Kaggle overbeviste dette mig om, at min aktuariske baggrund gav mig en konkurrencemæssig fordel i feltet datavidenskab.
Under min Kaggle-rejse havde jeg også privileiet at forbinde mig med andre entusiastiske datavidenskabsmænd, herunder Jeremy Achin og Tom De Godoy, som senere blev grundlæggerne af DataRobot. Vi delte en fælles baggrund i forsikring og havde opnået bemærkelsesværdige succeser på Kaggle. Da de til sidst lancerede DataRobot, et selskab, der specialiserer sig i AutoML, inviterede de mig til at slutte mig til dem som Chief Data Scientist. Deres vision om at kombinere bedste praksis fra forsikringsindustrien med kraften fra maskinel læring begejstrede mig og gav mig mulighed for at skabe noget nyt og betydningsfuldt.
Under din tid i DataRobot var du instrumental i opbygning af deres datavidenskabs-vejledning. Hvad slags data-udfordringer mødte du?
Den største udfordring, vi mødte, var den varierende kvalitet af data, der blev leveret som input til vores AutoML-løsning. Dette problem resulterede ofte i tidskrævende samarbejde mellem vores team og kunder eller skuffende resultater i produktion, hvis det ikke blev behandlet på en passende måde. Kvalitetsproblemerne stammede fra multiple kilder, der krævede vores opmærksomhed.
En af de primære udfordringer opstod fra den generelle brug af business intelligence-værktøjer til data-forberedelse og -styring. Mens disse værktøjer er værdifulde til at generere indsigt, manglede de de nødvendige funktioner til at sikre punkt-i-tiden-korrekthed for maskinel læring-dataforberedelse. Dette resulterede i, at der kunne opstå lækager i træningsdata, der førte til overfitting og ukorrekt modelpræstation.
Misforståelser mellem datavidenskabsmænd og dataingeniører var en anden udfordring, der påvirkede modellens præstation under produktion. Inkonsistenser mellem trænings- og produktionsfaser, der opstod på grund af misforståelser mellem disse to teams, kunne påvirke modellens præstation i en virkelig verden.
Hvad var nogle af de vigtigste erkendelser fra denne oplevelse?
Min oplevelse i DataRobot fremhævede betydningen af dataforberedelse i maskinel læring. Ved at løse udfordringerne i forbindelse med at generere modeltræningsdata, såsom punkt-i-tiden-korrekthed, ekspertglækker, domæneviden, værktøjsbegrænsninger og skalerbarhed, kan vi forbedre nøjagtigheden og pålideligheden af maskinel læring-modeller. Jeg kom til den konklusion, at strømlining af dataforberedelsesprocessen og integration af innovative teknologier vil være afgørende for at låse den fulde potentiale af AI og leve op til dens løfter.
Vi hørte fra din Co-Founder Razi Raziuddin om genesis-historien bag FeatureByte, kunne vi få din version af begivenhederne?
Da jeg diskuterede mine observationer og indsigt med min Co-Founder Razi Raziuddin, indså vi, at vi delte en fælles forståelse af udfordringerne i dataforberedelse til maskinel læring. Under vores diskussioner delte jeg mine indsigt i de seneste fremskridt i MLOps-fællesskabet. Jeg kunne observere opkomsten af funktion-butikker og funktion-platforme, som AI-først-teknologi-virksomheder har implementeret for at reducere latency i funktionstjeneste, opmuntre funktion-genbrug eller simplificere funktion-materiale i træningsdata, mens de sikrer træning-tjeneste-konsistens. Det var dog tydeligt for os, at der stadig var et hul i at imødekomme datavidenskabsmænds behov. Razi delte sine indsigt i, hvordan den moderne data-stak har revolutioneret BI og analytics, men ikke er blevet fuldt udnyttet til AI.
Det blev tydeligt for både Razi og mig, at vi havde mulighed for at gøre en betydningsfuld indvirkning ved at radikalt simplificere funktion-ingeniørprocessen og give datavidenskabsmænd og ML-ingeniører de rigtige værktøjer og brugeroplevelse til ubesværet funktion-eksperiment og funktionstjeneste.
Hvad var nogle af dine største udfordringer i at skifte fra datavidenskabsmand til iværksætter?
At skifte fra datavidenskabsmand til iværksætter krævede, at jeg skiftede fra en teknisk perspektiv til et bredere forretnings-orienteret mindset. Mens jeg havde en stærk grundlag i at forstå smertepunkter, opbygge en vejledning, udføre planer, bygge et team og styre budgetter, fandt jeg, at det at skabe den rigtige besked, der virkelig resonerede med vores målgruppe, var en af mine største hindringer.
Som datavidenskabsmand havde mit primære fokus altid været på at analysere og fortolke data for at udlede værdifulde indsigt. Men som iværksætter måtte jeg omrette min tænkning mod markedet, kunderne og den overordnede forretning.
Heldigvis kunne jeg overvinde denne udfordring ved at udnytte erfaringen fra en person som min Co-Founder Razi.
Vi hørte fra Razi om, hvorfor funktion-ingeniørarbejde er så svært, i din mening, hvad gør det så udfordrende?
Funktion-ingeniørarbejde har to primære udfordringer:
- Transformering af eksisterende kolonner: Dette indebærer konvertering af data til en passende format for maskinel læring-algoritmer. Teknikker som one-hot-kodning, funktion-skala og avancerede metoder som tekst- og billed-transformationer bruges. Oprettelse af nye funktioner fra eksisterende, såsom interaktionsfunktioner, kan betydeligt forbedre modellens præstation. Populære biblioteker som scikit-learn og Hugging Face giver omfattende støtte til denne type funktion-ingeniørarbejde. AutoML-løsninger sigter på at simplificere processen.
- Ekstraktion af nye kolonner fra historisk data: Historisk data er afgørende i problem-domæner som anbefalings-systemer, marketing, svindel-afsløring, forsikrings-prisfastsættelse, kredit-vurdering, efterspørgsels-prognose og sensor-data-behandling. Ekstraktion af informative kolonner fra denne data er udfordrende. Eksempler inkluderer tid siden sidste begivenhed, aggregationer over seneste begivenheder og indlejring fra sekvenser af begivenheder. Denne type funktion-ingeniørarbejde kræver domæne-ekspertise, eksperiment, stærke kodnings- og data-ingeniør-færdigheder og dyb datavidenskabs-kundskab. Faktorer som tid-lækage, håndtering af store datasæt og effektiv kode-kørsel kræver også overvejelse.
I alt kræver funktion-ingeniørarbejde ekspertise, eksperiment og konstruktion af komplekse ad-hoc data-pipelines i mangelen på værktøjer specifikt designede til det.
Kunne du dele, hvordan FeatureByte giver datavidenskabs-mænd mulighed for, samtidig med at det simplificerer funktion-pipelines?
FeatureByte giver datavidenskabsmænd mulighed for at simplificere hele processen i funktion-ingeniørarbejde. Med en intuitiv Python-SDK giver det mulighed for hurtig funktion-oprettelse og -ekstraktion fra store begivenheds- og artikel-tabeller. Beregning håndteres effektivt ved at udnytte skalerbarheden af data-platforme som Snowflake, DataBricks og Spark. Notebooks faciliterer eksperiment, mens funktion-delning og -genbrug sparer tid. Revision sikrer funktion-præcision, mens øjeblikkelig installation eliminerer pipeline-styrings-hovedpiner.
Ud over disse funktioner, der tilbydes af vores open-source-bibliotek, giver vores enterprise-løsning en omfattende ramme for at styre og organisere AI-operationer i skala, herunder styre-arbejdsgange og en brugergrænseflade til funktion-kataloget.
Hvad er din vision for FeatureBytes fremtid?
Vores ultimative vision for FeatureByte er at revolutionere feltet datavidenskab og maskinel læring ved at give brugerne mulighed for at frigøre deres fulde kreative potentiale og udlede hidtil usete værdi fra deres data-aktiver.
Vi er særligt begejstrede over de hurtige fremskridt i Generative AI og transformers, som åbner op for en verden af muligheder for vores brugere. Desuden er vi dedikeret til at demokratisere funktion-ingeniørarbejde. Generative AI har potentialet til at sænke barrieren for kreativ funktion-ingeniørarbejde og gøre det mere tilgængeligt for en bredere målgruppe.
I sammenfattende er vores vision for FeatureBytes fremtid centreret omkring kontinuerlig innovation, udnyttelse af kraften fra Generative AI og demokratisering af funktion-ingeniørarbejde. Vi sigter på at være den gå-to-platform, der giver data-fagfolk mulighed for at omdanne rådata til handlebart input for maskinel læring, og drive gennembrud og fremskridt på tværs af industrier.
Har du nogen råd til aspirerende AI-iværksættere?
Definer din plads, bliv fokuseret og velkommen nyt.
Ved at definere den plads, du ønsker at eje, kan du differentiere dig selv og etablere en stærk tilstedeværelse i det område. Forsk i markedet, forstå behov og smertepunkter hos potentielle kunder og stræb efter at levere en unik løsning, der effektivt løser disse udfordringer.
Definer din langsigtede vision og sæt klare kortfristede mål, der er i tråd med den vision. Koncentrer dig om at opbygge en stærk grundlag og levere værdi i dit valgte område.
Til sidst, mens det er vigtigt at blive fokuseret, skal du ikke være bange for at omfavne nyt og udforske nye idéer inden for dit definerede område. AI-feltet udvikler sig konstant, og innovative tilgange kan åbne op for nye muligheder.
Tak for det gode interview, læsere, der ønsker at lære mere, skal besøge FeatureByte.












