Connect with us

Intervjuer

Xavier Conort, Medgründer og CPO av FeatureByte – Intervju-serie

mm

Xavier Conort er en visjonær dataforsker med mer enn 25 års erfaring med data. Han startet sin karriere som aktuar i forsikringsindustrien før han gikk over til datavitenskap. Han er en topprangert Kaggle-konkurrent og var Chief Data Scientist i DataRobot før han co-grunnla FeatureByte.

FeatureByte har som mål å skalle entreprise AI ved å radikalt forenkle og industrialisere AI-data. Plattformen for funksjonsingeniør og -håndtering gir dataforskere mulighet til å lage og dele state-of-the-art-funksjoner og produksjonsklare datapiper i minutter – i stedet for uker eller måneder.

Du startet din karriere som aktuar i forsikringsindustrien før du gikk over til datavitenskap, hva var årsaken til denne endringen?

Et avgjørende øyeblikk var å vinne GE Flight Quest, en konkurranse organisert av GE med en premie på 250 000 dollar, der deltakerne måtte forutsi forsinkelser av innenlandske flyreiser i USA. Jeg skylder en del av denne suksessen til en verdifull forsikringspraksis: 2-stegsmodellering. Denne tilnærmingen hjelper til å kontrollere forvrengning i funksjoner som mangler tilstrekkelig representasjon i tilgjengelig treningdata. I tillegg til andre seiere på Kaggle, overbeviste denne prestasjonen meg om at min aktuariske bakgrunn ga meg en konkurransefordel i feltet datavitenskap.

Under min Kaggle-reise, hadde jeg også privileget til å koble til andre entusiastiske dataforskere, inkludert Jeremy Achin og Tom De Godoy, som senere skulle bli grunnleggerne av DataRobot. Vi delte en felles bakgrunn fra forsikringsindustrien og hadde oppnådd merkede suksesser på Kaggle. Når de til slutt lanserte DataRobot, et selskap som spesialiserte seg på AutoML, inviterte de meg til å bli med dem som Chief Data Scientist. Deres visjon om å kombinere beste praksis fra forsikringsindustrien med kraften fra maskinlæring, begeistrte meg, og ga meg en mulighet til å skape noe innovativt og betydningsfullt.

På DataRobot og var instrumental i å bygge deres datavitenskapsvei. Hva slags datautfordringer møtte du?

Den største utfordringen vi møtte, var variasjonen i kvaliteten på data som ble levert som innputt til vår AutoML-løsning. Dette problemet resulterte ofte i tidskrevende samarbeid mellom vårt team og kunder, eller skuffende resultater i produksjon hvis det ikke ble håndtert på riktig måte. Kvalitetsproblemer stammet fra flere kilder som krevde vår oppmerksomhet.

En av de primære utfordringene oppstod fra den generelle bruken av business intelligence-verktøy for datapreparering og -håndtering. Mens disse verktøyene er verdifulle for å generere innsikt, mangler de evnen til å sikre punkt-i-tiden-korrekt for maskinlæring datapreparering. Som resultat kunne det oppstå lekkasjer i treningdata, noe som kunne føre til overfitting og uakkurat modellprestasjon.

Misforståelse mellom dataforskere og dataingeniører var en annen utfordring som påvirkte modellens nøyaktighet under produksjon. Uoverensstemmelser mellom trening- og produksjonsfasene, som oppstod fra misforståelse mellom disse to teamene, kunne påvirke modellprestasjonen i en virkelig verden.

Hva var noen av de viktigste lærdommene fra denne erfaringen?

Min erfaring på DataRobot viste meg betydningen av datapreparering i maskinlæring. Ved å håndtere utfordringene med å generere modelltreningdata, som punkt-i-tiden-korrekt, kompetansegap, domenekunnskap, verktøybegrensninger og skalerbarhet, kan vi forbedre nøyaktigheten og påliteligheten til maskinlæringmodeller. Jeg kom til slutsatsen at å forenkle datapreparingsprosessen og inkorporere innovative teknologier vil være avgjørende for å låse opp det fulle potensialet til AI og levere på dens løfter.

Vi hørte fra din medgründer Razi Raziuddin om opphavsfortellingen bak FeatureByte, kunne vi få din versjon av hendelsene?

Når jeg diskuterte mine observasjoner og innsikter med min medgründer Razi Raziuddin, innsett vi at vi delte en felles forståelse av utfordringene i datapreparering for maskinlæring. Under våre diskusjoner, delte jeg mine innsikter i de nyeste fremgangene i MLOps-samfunnet. Jeg kunne observere oppblomstringen av funksjonsbutikker og funksjonsplattformer som AI-først teknologiselskaper satte i plass for å redusere latencyen i funksjonstjeneste, oppmuntre funksjons-gjenbruk eller forenkle funksjonsmateriell i treningdata mens de sikret trening-tjeneste-konsistens. Men det var åpenbart for oss at det fortsatt var et gap i å møte behovene til dataforskere. Razi delte med meg sine innsikter i hvordan den moderne datastaken har revolusjonert BI og analytics, men ikke ble fullt utnyttet for AI.

Det ble åpenbart for både Razi og meg at vi hadde en mulighet til å gjøre en betydelig innvirkning ved å radikalt forenkle funksjonsingeniørprosessen og gi dataforskere og ML-ingeniører de riktige verktøyene og brukeropplevelsen for ubesværet funksjonseksperiment og funksjonstjeneste.

Hva var noen av dine største utfordringer i å gå over fra dataforsker til entrepreneur?

Overgangen fra dataforsker til entrepreneur krevde at jeg endret fra et teknisk perspektiv til et bredere forretningsorientert tankesett. Mens jeg hadde en sterk grunn i å forstå smerte-punkter, skape en veikart, utføre planer, bygge et team og håndtere budsjetter, fant jeg at å forme den riktige meldingen som virkelig resonnerte med vårt målpublikum, var en av mine største hindringer.

Som dataforsker, hadde min primære fokus alltid vært på å analysere og tolke data for å trekke verdifulle innsikter. Men som entrepreneur, måtte jeg omrette mitt tenkning mot markedet, kunder og den overordnede forretningen.

Heldigvis kunne jeg overvinne denne utfordringen ved å utnytte erfaringen til noen som min medgründer Razi.

Vi hørte fra Razi om hvorfor funksjonsingeniør er så vanskelig, i din mening hva gjør det så utfordrende?

Funksjonsingeniør har to hovedutfordringer:

  1. Transformere eksisterende kolonner: Dette innebærer å konvertere data til en passende format for maskinlæring-algoritmer. Teknikker som one-hot encoding, funksjonsskaling og avanserte metoder som tekst- og bilde-transformasjoner brukes. Å lage nye funksjoner fra eksisterende, som interaksjonsfunksjoner, kan forbedre modellprestasjonen betydelig. Populære biblioteker som scikit-learn og Hugging Face gir omfattende støtte for denne type funksjonsingeniør. AutoML-løsninger søker å forenkle prosessen også.
  2. Ekstrahere nye kolonner fra historisk data: Historisk data er avgjørende i problemområder som anbefalingsystemer, markedsføring, svindel-oppdaging, forsikringsprising, kreditscoring, etterspørselsprognose og sensor-data-prosesser. Å ekstrahere informasjon fra denne dataen er utfordrende. Eksempler inkluderer tid siden siste hendelse, aggregasjoner over nylige hendelser og innkapslinger fra hendelsessekvenser. Denne type funksjonsingeniør krever domenekunnskap, eksperiment, sterk kode- og dataingeniør-kompetanse og dypt datavitenskapelig kunnskap. Faktorer som tidslekkasje, håndtering av store datasett og effektiv kodekøyring må også tas i betraktning.

I alt krever funksjonsingeniør ekspertise, eksperiment og konstruksjon av komplekse ad-hoc datapiper i fravær av verktøy spesifikt designet for det.

Kunne du dele hvordan FeatureByte gir dataforskningsprofesjonelle mulighet til å forenkle funksjons-piper?

FeatureByte gir dataforskningsprofesjonelle mulighet til å forenkle hele prosessen i funksjonsingeniør. Med en intuitiv Python-SDK, muliggjør det rask funksjonsopprettelse og -ekstraksjon fra store hendelse- og varetabeller. Beregning håndteres effektivt ved å utnytte skalerbarheten til data-plattformer som Snowflake, DataBricks og Spark. Notebook-fasiliteter eksperiment, mens funksjonsdeling og -gjenbruk sparer tid. Revisjon sikrer funksjonsnøyaktighet, mens umiddelbar deployering eliminerer pipeline-hodepiner.

I tillegg til disse evnene som tilbys av vår åpne kilde-bibliotek, tilbyr vår bedriftsløsning en omfattende ramme for å håndtere og organisere AI-operasjoner i skala, inkludert styre-arbeidsflyter og en brukergrensesnitt for funksjonskatalogen.

Hva er din visjon for fremtiden til FeatureByte?

Vår ultimate visjon for FeatureByte er å revolusjonere feltet datavitenskap og maskinlæring ved å gi brukerne mulighet til å utnytte sitt fulle kreative potensiale og trekke uforutsett verdi fra sine data-tilganger.

Vi er spesielt begeistret for den raske fremgangen i Generative AI og transformatorer, som åpner opp en verden av muligheter for våre brukere. Videre er vi dedikert til å demokratisere funksjonsingeniør. Generative AI har potensialet til å senke barrieren for kreativ funksjonsingeniør, og gjøre det mer tilgjengelig for en bredere publikum.

I sammenfatning dreier vår visjon for fremtiden til FeatureByte seg om kontinuerlig innovasjon, å utnytte kraften fra Generative AI og å demokratisere funksjonsingeniør. Vi søker å være den gå-to-plattformen som muliggjør dataforskere å transformere rådata til handlebart innputt for maskinlæring, og drive gjennombrudd og fremgang over hele industrien.

Har du noen råd for aspirerende AI-entrepreneurer?

Definer din plass, hold fokus og velkommen nyskaping.

Ved å definere plassen du ønsker å eie, kan du differensiere deg selv og etablere en sterk tilstedeværelse i det området. Forsk i markedet, forstå behovene og smerte-punktene til potensielle kunder, og streb etter å levere en unik løsning som møter disse utfordringene effektivt.

Definer din langtidsvisjon og sett klare korttidsmål som sammenfaller med den visjonen. Konsentrer deg om å bygge en sterk grunn og levere verdi i ditt valgte område.

Til slutt, mens det er viktig å holde fokus, skal du ikke sky away fra å omfavne nyskaping og utforske nye ideer innenfor ditt definerte område. AI-feltet utvikler seg konstant, og innovative tilnærminger kan åpne opp nye muligheter.

Takk for det flotte intervjuet, lesere som ønsker å lære mer bør besøke FeatureByte.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.