Connect with us

Xavier Conort, spoluzakladatel a CPO FeatureByte – Interview Series

Rozhovory

Xavier Conort, spoluzakladatel a CPO FeatureByte – Interview Series

mm

Xavier Conort je vizionářský data scientist s více než 25 lety zkušeností s daty. Začal svou kariéru jako aktuár v pojišťovacím průmyslu, než přešel k datové vědě. Je top-rankovaným soutěžícím na Kaggle a byl Chief Data Scientistem v DataRobot, než se stal spoluzakladatelem FeatureByte.

FeatureByte má za cíl rozšířit podnikový AI tak, že radikálně zjednoduší a zprůmyslní AI data. Platforma pro feature engineering a management umožňuje datovým vědcům vytvářet a sdílet špičkové funkce a připravené datové potrubí v minutách – místo týdnů nebo měsíců.

Začali jste svou kariéru jako aktuár v pojišťovacím průmyslu, než jste přešli k datové vědě, co způsobilo tuto změnu?

Definujícím okamžikem bylo vyhrání soutěže GE Flight Quest, soutěže pořádané společností GE s cenou 250 000 dolarů, kde účastníci museli předpovídat zpoždění domácích letů ve Spojených státech. Částečně jsem tento úspěch vděčil cenné pojistné praxi: 2 fázové modelování. Tento přístup pomáhá kontrolovat zkreslení funkcí, které postrádají dostatečnou reprezentaci v dostupných trénovacích datech. Kromě dalších úspěchů na Kaggle mě tento úspěch přesvědčil, že má moje aktuariská minulost konkurenční výhodu v oblasti datové vědy.

Během mé cesty na Kaggle jsem také měl možnost spojit se s dalšími nadšenými datovými vědci, včetně Jeremyho Achina a Toma De Godoye, kteří později založili DataRobot. Sdíleli jsme společnou minulost v pojišťovnictví a dosáhli jsme pozoruhodných úspěchů na Kaggle. Když nakonec spustili DataRobot, společnost specializující se na AutoML, pozvali mě, abych se k nim připojil jako Chief Data Scientist. Jejich vize spojení nejlepších praktik z pojišťovacího průmyslu se silou strojového učení mě nadchla, a představovala příležitost vytvořit něco inovativního a vlivného.

V DataRobot jste byliinstrumentální při budování datové vědecké roadmap. Jaké typy datových výzev jstečel?

Největší výzvou, se kterou jsme se setkali, byla proměnlivá kvalita dat poskytovaných jako vstup do našeho AutoML řešení. Tento problém často vedl k časově náročné spolupráci mezi našim týmem a klienty nebo k zklamáním výsledků v produkci, pokud nebyly řešeny vhodně. Problémy s kvalitou pocházely z více zdrojů, které vyžadovaly naší pozornost.

Jednou z hlavních výzev byla obecná použití nástrojů pro obchodní inteligenci pro přípravu a správu dat. Zatímco tyto nástroje jsou cenné pro generování přehledů, postrádají schopnosti nezbytné pro zajištění bodu v čase správnosti pro přípravu dat pro strojové učení. V důsledku toho mohly nastat úniky v trénovacích datech, vedoucí k přeučení a nepřesnému výkonu modelu.

Další výzvou byla špatná komunikace mezi datovými vědci a inženýry, která ovlivňovala přesnost modelů během produkce. Nesrovnalosti mezi fázemi trénování a produkce, vznikající z nesouladu mezi těmito dvěma týmy, mohly ovlivnit výkon modelu v reálném prostředí.

Jaké byly některé z hlavních poznatků z této zkušenosti?

Má zkušenost v DataRobot podtrhla význam přípravy dat ve strojovém učení. Řešením problémů s generováním trénovacích dat, jako je bod v čase správnosti, mezery v odborných znalostech, doménové znalosti, omezení nástrojů a škálovatelnost, můžeme zlepšit přesnost a spolehlivost modelů strojového učení. Došel jsem k závěru, že zjednodušení procesu přípravy dat a začlenění inovativních technologií bude rozhodující pro odemknutí plného potenciálu AI a splnění jejích slibů.

Také jsme slyšeli od vašeho spoluzakladatele Razi Raziuddina o příběhu vzniku FeatureByte, mohli bychom získat vaši verzi událostí?

Když jsem diskutoval o svých pozorováních a poznatcích s mým spoluzakladatelem Razi Raziuddinem, uvědomili jsme si, že sdílíme společné pochopení problémů v přípravě dat pro strojové učení. Během našich diskusí jsem sdílel s Razi své poznatky o nedávných pokrocích v komunitě MLOps. Mohl jsem pozorovat vznik funkcionalit a funkcionalit, které AI-first technologie umístily, aby snížily latenci funkce, povzbudily funkci opětovného použití nebo zjednodušily materializaci funkcí do trénovacích dat, zatímco zajišťovaly konzistenci trénování a služby. Nicméně, bylo zřejmé, že stále existuje mezera ve splnění potřeb datových vědců. Razi sdílel se mnou své poznatky o tom, jak moderní datový stack revolucionizoval obchodní inteligenci a analytiku, ale není plně využíván pro AI.

Stalo se zřejmým, že cả Razi i já máme příležitost mít významný dopad tím, že radikálně zjednodušíme proces feature engineeringu a poskytneme datovým vědcům a inženýrům správné nástroje a uživatelský zážitek pro bezproblémové experimentování s funkcemi a službami funkcí.

Jaké byly některé z vašich největších výzev při přechodu z datového vědce na podnikatele?

Přechod z datového vědce na podnikatele vyžadoval, abych změnil svůj pohled z technického na širší obchodní orientovaný. Zatímco jsem měl silný základ pro pochopení bolestivých míst, vytváření roadmap, provádění plánů, budování týmu a správu rozpočtů, zjistil jsem, že vytváření správného zasílání zpráv, které skutečně rezonuje s našimi cílovými skupinami, bylo jednou z mých největších překážek.

Jako datový vědec byla moje primární pozornost vždy zaměřena na analýzu a interpretaci dat za účelem získání cenných poznatků. Nicméně, jako podnikatel, musel jsem změnit své myšlení směrem k trhu, zákazníkům a celému podnikání.

Naštěstí jsem byl schopen překonat tuto výzvu využitím zkušeností někoho jako můj spoluzakladatel Razi.

Slyšeli jsme od Razi o tom, proč je feature engineering tak obtížný, podle vašeho názoru, co ho činí tak obtížným?

Feature engineering má dvě hlavní výzvy:

  1. Přeměna existujících sloupců: To zahrnuje převod dat do vhodného formátu pro algoritmy strojového učení. Používají se techniky, jako je one-hot encoding, feature scaling a pokročilé metody, jako je text a obrazová transformace. Vytváření nových funkcí z existujících, jako jsou interakční funkce, může výrazně zlepšit výkon modelu. Populární knihovny, jako je scikit-learn a Hugging Face, poskytují rozsáhlou podporu pro tento typ feature engineeringu. Řešení AutoML také usilují o zjednodušení procesu.
  2. Extrahování nových sloupců z historických dat: Historická data jsou zásadní v problémech, jako jsou systémy doporučení, marketing, detekce podvodů, pojišťovací sazby, hodnocení úvěru, předpověď poptávky a zpracování senzorických dat. Extrahování informativních sloupců z těchto dat je obtížné. Příklady zahrnují dobu od posledního události, agregace nad nedávnými událostmi a vložené z posloupností událostí. Tento typ feature engineeringu vyžaduje odborné znalosti, experimentování, silné kodovací a datové inženýrské dovednosti a hluboké znalosti datové vědy. Faktory, jako je časová únik, zpracování velkých dat a efektivní spuštění kódu, také vyžadují pozornost.

Celkově feature engineering vyžaduje odborné znalosti, experimentování a konstrukci komplexních ad-hoc datových potrubí v nepřítomnosti nástrojů speciálně navržených pro něj.

Můžete sdílet, jak FeatureByte posiluje profesionály v oblasti datové vědy, zatímco zjednodušuje funkce potrubí?

FeatureByte posiluje profesionály v oblasti datové vědy zjednodušením celého procesu feature engineeringu. S intuitivním Python SDK umožňuje rychlé vytváření a extrahování funkcí z XLarge Event a Item Tables. Výpočet je efektivně zpracován využitím škálovatelnosti datových platforem, jako je Snowflake, DataBricks a Spark. Poznámky usnadňují experimentování, zatímco sdílení a opětovné použití funkcí šetří čas. Auditing zajišťuje přesnost funkcí, zatímco okamžitá nasazení eliminuje potíže s správou potrubí.

Kromě těchto schopností nabízených naší open-source knihovnou naše podnikové řešení poskytuje komplexní rámec pro správu a organizaci AI operací v měřítku, včetně pracovních postupů správy a uživatelského rozhraní pro katalog funkcí.

Jaký je váš výhled do budoucnosti FeatureByte?

Náš konečný výhled pro FeatureByte je revolucionizovat oblast datové vědy a strojového učení tím, že uživatelům umožní využít svůj plný tvůrčí potenciál a získat bezprecedentní hodnotu z jejich datových aktiv.

Jsme zvláště nadšeni rychlým pokrokem v oblasti Generative AI a transformátorů, který otevírá svět možností pro naše uživatele. Kromě toho se zavazujeme k demokratizaci feature engineeringu. Generative AI má potenciál snížit bariéru vstupu pro kreativní feature engineering, což ho činí přístupnějším pro širší publikum.

Stručně řečeno, náš výhled do budoucnosti FeatureByte se točí kolem kontinuální inovace, využití síly Generative AI a demokratizace feature engineeringu. Cílíme být platformou, která umožňuje datovým profesionálům transformovat surová data na akční vstup pro strojové učení, pohánějící průlomy a pokroky v různých odvětvích.

Máte nějaké rady pro aspirující AI podnikatele?

Definujte svůj prostor, zůstaňte soustředění a vítají novinky.

Definováním prostoru, který chcete vlastnit, můžete se odlišit a etablovat silnou přítomnost v této oblasti. Prošetřete trh, pochopíte potřeby a bolestivá místa potenciálních zákazníků a snažte se poskytnout jedinečné řešení, které řeší tyto výzvy efektivně.

Definujte svou dlouhodobou vizi a nastavte jasně krátkodobé cíle, které jsou v souladu s touto vizí. Soustřeďte se na budování silného základu a poskytování hodnoty ve svém zvoleném prostoru.

Nakonec, zatímco je důležité zůstat soustředěný, neštítte se přijmout novinky a prozkoumat nové nápady ve svém definovaném prostoru. Oblast AI se neustále vyvíjí a inovativní přístupy mohou otevřít nové příležitosti.

Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit FeatureByte.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.