ciot Xavier Conort, co-fondator și CPO al FeatureByte - Seria de interviuri - Unite.AI
Conectează-te cu noi

interviuri

Xavier Conort, co-fondator și CPO al FeatureByte – Seria de interviuri

mm

Publicat

 on

Xavier Conort este un om de date vizionar cu peste 25 de ani de experiență în date. Și-a început cariera ca actuar în industria asigurărilor înainte de a trece la știința datelor. Este un concurent Kaggle de top și a fost Chief Data Scientist la DataRobot înainte de a co-fonda FeatureByte.

FeatureByte are misiunea de a extinde IA pentru întreprinderi, prin simplificarea și industrializarea radicală a datelor AI. Platforma de inginerie și gestionare a caracteristicilor le permite oamenilor de știință de date să creeze și să partajeze caracteristici de ultimă generație și conducte de date pregătite pentru producție în câteva minute – în loc de săptămâni sau luni.

Ți-ai început cariera ca actuar în industria asigurărilor înainte de a trece la Data Science, ce a cauzat această schimbare?

Un moment decisiv a fost câștigarea GE Flight Quest, o competiție organizată de GE cu un premiu de 250 USD, unde participanții trebuiau să prezică întârzierile zborurilor interne din SUA. O parte din acest succes îi datorez unei practici de asigurări valoroase: modelarea în 2 etape. Această abordare ajută la controlul părtinirii caracteristicilor care nu au o reprezentare suficientă în datele de antrenament disponibile. Alături de alte victorii la Kaggle, această realizare m-a convins că experiența mea actuarială mi-a oferit un avantaj competitiv în domeniul științei datelor.

În timpul călătoriei mele Kaggle, am avut, de asemenea, privilegiul de a intra în legătură cu alți cercetători entuziaști ai datelor, inclusiv Jeremy Achin și Tom De Godoy, care mai târziu aveau să devină fondatorii DataRobot. Am împărtășit un fundal comun în domeniul asigurărilor și am obținut succese notabile pe Kaggle. Când s-au lansat în cele din urmă DataRobot, o companie specializată în AutoML, m-au invitat să mă alătur lor ca Chief Data Scientist. Viziunea lor de a combina cele mai bune practici din industria asigurărilor cu puterea învățării automate m-a entuziasmat, prezentând o oportunitate de a crea ceva inovator și de impact.

La DataRobot și au fost esențiale în construirea foii de parcurs pentru știința datelor. Cu ce ​​tipuri de provocări de date v-ați confruntat?

Cea mai importantă provocare cu care ne-am confruntat a fost calitatea variată a datelor furnizate ca intrare în soluția noastră AutoML. Această problemă a dus adesea fie la o colaborare îndelungată între echipa noastră și clienți, fie la rezultate dezamăgitoare în producție, dacă nu sunt abordate în mod corespunzător. Problemele de calitate au provenit din mai multe surse care au cerut atenția noastră.

Una dintre provocările principale a apărut din utilizarea generală a instrumentelor de business intelligence pentru pregătirea și gestionarea datelor. Deși aceste instrumente sunt valoroase pentru generarea de informații, le lipsesc capacitățile necesare pentru a asigura corectitudinea la un moment dat pentru pregătirea datelor de învățare automată. Ca urmare, ar putea apărea scurgeri de date de antrenament, ceea ce duce la supraadaptare și performanță inexactă a modelului.

Comunicarea greșită între oamenii de știință de date și inginerii de date a fost o altă provocare care a afectat acuratețea modelelor în timpul producției. Neconcordanțe între fazele de instruire și producție, care decurg din nealinierea dintre aceste două echipe, ar putea afecta performanța modelului într-un mediu real.

Care au fost câteva dintre principalele concluzii din această experiență?

Experiența mea la DataRobot a evidențiat importanța pregătirii datelor în învățarea automată. Abordând provocările generării de date de formare a modelului, cum ar fi corectitudinea la un moment dat, lipsurile de expertiză, cunoștințele de domeniu, limitările instrumentelor și scalabilitatea, putem îmbunătăți acuratețea și fiabilitatea modelelor de învățare automată. Am ajuns la concluzia că eficientizarea procesului de pregătire a datelor și încorporarea tehnologiilor inovatoare vor fi esențiale în deblocarea întregului potențial al inteligenței artificiale și în îndeplinirea promisiunilor sale.

Am auzit și de la co-fondatorul tău Razi Raziuddin despre povestea genezei din spatele FeatureByte, am putea obține versiunea dvs. a evenimentelor?

Când am discutat despre observațiile și concluziile mele cu co-fondatorul meu Razi Raziuddin, am realizat că împărtășim o înțelegere comună a provocărilor în pregătirea datelor pentru învățarea automată. În timpul discuțiilor noastre, i-am împărtășit lui Razi cunoștințele mele despre progresele recente din comunitatea MLOps. Am putut observa apariția magazinelor de caracteristici și a platformelor de caracteristici pe care companiile tehnologice de AI le-au pus în funcțiune pentru a reduce latența difuzării funcțiilor, pentru a încuraja reutilizarea caracteristicilor sau pentru a simplifica materializarea caracteristicilor în datele de instruire, asigurând în același timp consistența serviciului de instruire. Cu toate acestea, ne-a fost evident că există încă un decalaj în satisfacerea nevoilor cercetătorilor de date. Razi mi-a împărtășit cunoștințele sale despre modul în care stiva modernă de date a revoluționat BI și analiza, dar nu este pe deplin valorificată pentru AI.

A devenit evident atât pentru Razi, cât și pentru mine că am avut oportunitatea de a avea un impact semnificativ simplificând radical procesul de inginerie a caracteristicilor și oferind oamenilor de știință de date și inginerilor ML instrumentele și experiența utilizatorului potrivite pentru experimentarea și difuzarea funcțiilor fără întreruperi.

Care au fost unele dintre cele mai mari provocări ale tale în a face tranziția de la data scientist la antreprenor?

Trecerea de la un cercetător de date la un antreprenor mi-a cerut să mă schimb dintr-o perspectivă tehnică la o mentalitate mai largă orientată spre afaceri. Deși aveam o bază solidă în înțelegerea punctelor dureroase, crearea unei foi de parcurs, executarea planurilor, construirea unei echipe și gestionarea bugetelor, am descoperit că crearea mesajelor potrivite, care să rezoneze cu adevărat cu publicul nostru țintă, a fost unul dintre cele mai mari obstacole ale mele.

În calitate de om de știință a datelor, atenția mea principală a fost întotdeauna pe analizarea și interpretarea datelor pentru a obține informații valoroase. Cu toate acestea, ca antreprenor, a trebuit să-mi redirecționez gândirea către piață, clienți și întreaga afacere.

Din fericire, am reușit să depășesc această provocare valorificând experiența cuiva precum co-fondatorul meu Razi.

Am auzit de la Razi despre de ce ingineria caracteristicilor este atât de dificilă, din punctul tău de vedere, ce o face atât de provocatoare?

Ingineria caracteristicilor are două provocări principale:

  1. Transformarea coloanelor existente: aceasta implică conversia datelor într-un format adecvat pentru algoritmii de învățare automată. Sunt utilizate tehnici precum codificarea one-hot, scalarea caracteristicilor și metode avansate, cum ar fi transformările de text și imagini. Crearea de noi caracteristici din cele existente, cum ar fi funcțiile de interacțiune, poate îmbunătăți considerabil performanța modelului. Bibliotecile populare precum scikit-learn și Hugging Face oferă suport extins pentru acest tip de inginerie a caracteristicilor. Soluțiile AutoML urmăresc să simplifice și procesul.
  2. Extragerea de noi coloane din datele istorice: Datele istorice sunt esențiale în domenii cu probleme, cum ar fi sistemele de recomandare, marketing, detectarea fraudelor, prețurile asigurărilor, scorul de credit, prognoza cererii și procesarea datelor senzorilor. Extragerea coloanelor informative din aceste date este o provocare. Exemplele includ timpul de la ultimul eveniment, agregarea evenimentelor recente și încorporarea din secvențe de evenimente. Acest tip de inginerie a caracteristicilor necesită experiență în domeniu, experimentare, abilități puternice de codificare și inginerie a datelor și cunoștințe aprofundate în știința datelor. Factori precum scurgerea de timp, manipularea seturilor mari de date și execuția eficientă a codului trebuie de asemenea luați în considerare.

În general, ingineria caracteristicilor necesită expertiză, experimentare și construirea unor conducte complexe de date ad-hoc, în absența instrumentelor concepute special pentru aceasta.

Ați putea să împărtășiți modul în care FeatureByte împuternicește profesioniștii din știința datelor, simplificând în același timp conductele de caracteristici?

FeatureByte împuternicește profesioniștii în știința datelor prin simplificarea întregului proces în ingineria caracteristicilor. Cu un SDK Python intuitiv, permite crearea și extragerea rapidă a caracteristicilor din tabelele de evenimente și articole Xlarge. Calculul este gestionat eficient prin valorificarea scalabilității platformelor de date precum Snowflake, DataBricks și Spark. Notebook-urile facilitează experimentarea, în timp ce partajarea și reutilizarea funcțiilor economisesc timp. Auditul asigură acuratețea caracteristicilor, în timp ce implementarea imediată elimină durerile de cap în managementul conductelor.

Pe lângă aceste capabilități oferite de biblioteca noastră open-source, soluția noastră de întreprindere oferă un cadru cuprinzător pentru gestionarea și organizarea operațiunilor AI la scară, inclusiv fluxurile de lucru de guvernare și o interfață cu utilizatorul pentru catalogul de caracteristici.

Care este viziunea ta pentru viitorul FeatureByte?

Viziunea noastră supremă pentru FeatureByte este să revoluționăm domeniul științei datelor și al învățării automate, dându-le utilizatorilor putere să-și dezvolte întregul potențial creativ și să extragă valoare fără precedent din activele lor de date.

Suntem deosebit de încântați de progresul rapid în IA generativă și transformatoare, care deschide o lume de posibilități pentru utilizatorii noștri. În plus, suntem dedicați democratizării ingineriei caracteristicilor. AI generativ are potențialul de a reduce bariera de intrare pentru ingineria caracteristicilor creative, făcând-o mai accesibilă unui public mai larg.

Pe scurt, viziunea noastră pentru viitorul FeatureByte se învârte în jurul inovației continue, valorificarea puterii AI generative și democratizarea ingineriei caracteristicilor. Ne propunem să fim platforma de bază care să le permită profesioniștilor de date să transforme datele brute în intrări acționabile pentru învățarea automată, conducând descoperiri și progrese în toate industriile.

Aveți vreun sfat pentru aspiranții antreprenori AI?

Definiți-vă spațiul, rămâneți concentrat și bineveniți noutățile.

Prin definirea spațiului pe care doriți să-l dețineți, vă puteți diferenția și vă puteți stabili o prezență puternică în acea zonă. Cercetați piața, înțelegeți nevoile și punctele dureroase ale potențialilor clienți și încercați să oferiți o soluție unică care să abordeze aceste provocări în mod eficient.

Definiți-vă viziunea pe termen lung și stabiliți obiective clare pe termen scurt, care să se alinieze cu acea viziune. Concentrează-te pe construirea unei fundații puternice și pe oferirea de valoare în spațiul ales.

În cele din urmă, deși este important să rămâneți concentrat, nu vă sfiați de a accepta noutatea și de a explora idei noi în spațiul definit. Domeniul AI este în continuă evoluție, iar abordările inovatoare pot deschide noi oportunități.

Mulțumim pentru interviul minunat, cititorii care doresc să afle mai multe ar trebui să viziteze FeatureByte.

Un partener fondator al unit.AI și un membru al Consiliul Tehnologic Forbes, Antoine este un futurist care este pasionat de viitorul AI și al roboticii.

El este, de asemenea, fondatorul Securities.io, un site web care se concentrează pe investițiile în tehnologie disruptivă.