stub Xavier Conort, współzałożyciel i CPO FeatureByte – Seria wywiadów – Unite.AI
Kontakt z nami

Wywiady

Xavier Conort, współzałożyciel i CPO FeatureByte – seria wywiadów

mm

Opublikowany

 on

Xaviera Conorta to wizjonerski analityk danych z ponad 25-letnim doświadczeniem w przetwarzaniu danych. Rozpoczął karierę jako aktuariusz w branży ubezpieczeniowej, a następnie zajął się analityką danych. Jest czołowym konkurentem Kaggle i był głównym analitykiem danych w firmie DataRobot, zanim był współzałożycielem FeatureByte.

Bajt funkcji ma misję skalowania sztucznej inteligencji w przedsiębiorstwach poprzez radykalne upraszczanie i industrializację danych AI. Platforma inżynierii i zarządzania funkcjami umożliwia analitykom danych tworzenie i udostępnianie najnowocześniejszych funkcji oraz gotowych do produkcji potoków danych w ciągu kilku minut – zamiast tygodni lub miesięcy.

Rozpocząłeś karierę jako aktuariusz w branży ubezpieczeniowej, zanim przeszedłeś do Data Science. Co spowodowało tę zmianę?

Decydującym momentem było zwycięstwo w GE Flight Quest, konkursie organizowanym przez GE z pulą nagród w wysokości 250 tys. dolarów, w której uczestnicy musieli przewidzieć opóźnienia lotów krajowych w USA. Część tego sukcesu zawdzięczam cennej praktyce ubezpieczeniowej: modelowaniu dwuetapowemu. Takie podejście pomaga kontrolować błąd w funkcjach, którym brakuje wystarczającej reprezentacji w dostępnych danych szkoleniowych. Wraz z innymi zwycięstwami w Kaggle, to osiągnięcie przekonało mnie, że moje doświadczenie aktuarialne zapewniło mi przewagę konkurencyjną w dziedzinie analityki danych.

Podczas mojej podróży do Kaggle miałem także zaszczyt nawiązać kontakt z innymi entuzjastycznymi badaczami danych, w tym z Jeremym Achinem i Tomem De Godoyem, którzy później zostali założycielami DataRobot. Mieliśmy wspólne doświadczenie w ubezpieczeniach i osiągnęliśmy znaczące sukcesy w Kaggle. Kiedy w końcu wystartowali DaneRobota, firmy specjalizującej się w AutoML, zaprosili mnie, abym dołączył do nich jako Chief Data Scientist. Ich wizja połączenia najlepszych praktyk z branży ubezpieczeniowej z siłą uczenia maszynowego mnie podekscytowała, dając możliwość stworzenia czegoś innowacyjnego i wywierającego wpływ.

w DataRobot i odegrali kluczową rolę w budowaniu planu działania w zakresie nauki o danych. Z jakimi wyzwaniami związanymi z danymi się spotkałeś?

Najbardziej znaczącym wyzwaniem, przed jakim stanęliśmy, była różna jakość danych dostarczanych jako dane wejściowe do naszego rozwiązania AutoML. Ten problem często skutkował albo czasochłonną współpracą między naszym zespołem a klientami, albo rozczarowującymi wynikami w produkcji, jeśli nie został odpowiednio rozwiązany. Problemy z jakością wynikały z wielu źródeł i wymagały naszej uwagi.

Jedno z głównych wyzwań wynikało z powszechnego stosowania narzędzi analityki biznesowej do przygotowywania danych i zarządzania nimi. Chociaż narzędzia te są cenne do generowania spostrzeżeń, brakuje im możliwości wymaganych do zapewnienia poprawności w określonym momencie podczas przygotowywania danych uczenia maszynowego. W rezultacie mogą wystąpić wycieki danych szkoleniowych, prowadzące do nadmiernego dopasowania i niedokładnego działania modelu.

Kolejnym wyzwaniem wpływającym na dokładność modeli podczas produkcji były nieporozumienia między analitykami danych a inżynierami danych. Niespójności pomiędzy fazami szkolenia i produkcji, wynikające z niedopasowania tych dwóch zespołów, mogą mieć wpływ na wydajność modelu w środowisku rzeczywistym.

Jakie były najważniejsze wnioski z tego doświadczenia?

Moje doświadczenie w DataRobot podkreśliło znaczenie przygotowania danych w uczeniu maszynowym. Podejmując wyzwania związane z generowaniem danych szkoleniowych modeli, takie jak poprawność w określonym momencie, luki specjalistyczne, wiedza dziedzinowa, ograniczenia narzędzi i skalowalność, możemy zwiększyć dokładność i niezawodność modeli uczenia maszynowego. Doszedłem do wniosku, że usprawnienie procesu przygotowania danych i włączenie innowacyjnych technologii odegra kluczową rolę w uwolnieniu pełnego potencjału sztucznej inteligencji i spełnieniu jej obietnic.

Słyszeliśmy także od waszego współzałożyciela Razi Raziuddina jeśli chodzi o historię powstania FeatureByte, czy możemy poznać Twoją wersję wydarzeń?

Kiedy omawiałem moje obserwacje i spostrzeżenia z moim współzałożycielem Razim Raziuddinem, zdaliśmy sobie sprawę, że podobnie rozumiemy wyzwania związane z przygotowaniem danych na potrzeby uczenia maszynowego. Podczas naszych dyskusji podzieliłem się z Razim moimi spostrzeżeniami na temat ostatnich postępów w społeczności MLOps. Mogłem zaobserwować pojawienie się sklepów z funkcjami i platform z funkcjami, które firmy technologiczne stawiające na sztuczną inteligencję wdrożyły, aby zmniejszyć opóźnienia w udostępnianiu funkcji, zachęcić do ponownego wykorzystania funkcji lub uprościć materializację funkcji w danych szkoleniowych, zapewniając jednocześnie spójność obsługi szkoleń. Było jednak dla nas oczywiste, że nadal istnieje luka w zaspokajaniu potrzeb analityków danych. Razi podzielił się ze mną swoimi spostrzeżeniami na temat tego, jak nowoczesny stos danych zrewolucjonizował BI i analitykę, ale nie jest w pełni wykorzystywany w sztucznej inteligencji.

Zarówno dla Raziego, jak i dla mnie stało się jasne, że mamy okazję wywrzeć znaczący wpływ, radykalnie upraszczając proces inżynierii funkcji i zapewniając badaczom danych i inżynierom ML odpowiednie narzędzia i doświadczenie użytkownika do płynnego eksperymentowania z funkcjami i udostępniania funkcji.

Jakie były Twoje największe wyzwania podczas przejścia od analityka danych do przedsiębiorcy?

Przejście z analityka danych na przedsiębiorcę wymagało ode mnie zmiany podejścia z technicznego punktu widzenia na szerzej zorientowane na biznes. Chociaż miałam mocne podstawy w rozumieniu słabych punktów, tworzeniu planu działania, wykonywaniu planów, budowaniu zespołu i zarządzaniu budżetami, odkryłam, że jedną z moich największych przeszkód było stworzenie odpowiedniego przekazu, który naprawdę odbiłby się echem wśród naszych docelowych odbiorców.

Jako analityk danych zawsze skupiałem się przede wszystkim na analizie i interpretacji danych w celu uzyskania cennych spostrzeżeń. Jednak jako przedsiębiorca musiałem przekierować swoje myślenie na rynek, klientów i cały biznes.

Na szczęście udało mi się pokonać to wyzwanie, korzystając z doświadczenia kogoś takiego jak mój współzałożyciel Razi.

Słyszeliśmy od Raziego o tym, dlaczego inżynieria funkcji jest tak trudna, co Twoim zdaniem czyni ją tak wymagającą?

Inżynieria cech ma dwa główne wyzwania:

  1. Przekształcanie istniejących kolumn: obejmuje to konwersję danych do formatu odpowiedniego dla algorytmów uczenia maszynowego. Stosowane są techniki takie jak kodowanie one-hot, skalowanie funkcji i metody zaawansowane, takie jak transformacja tekstu i obrazu. Tworzenie nowych funkcji na podstawie istniejących, takich jak funkcje interakcji, może znacznie zwiększyć wydajność modelu. Popularne biblioteki, takie jak scikit-learn i Hugging Face, zapewniają szerokie wsparcie dla tego typu inżynierii funkcji. Rozwiązania AutoML mają również na celu uproszczenie tego procesu.
  2. Wyodrębnianie nowych kolumn z danych historycznych: Dane historyczne mają kluczowe znaczenie w obszarach problemowych, takich jak systemy rekomendacji, marketing, wykrywanie oszustw, ustalanie cen ubezpieczeń, scoring kredytowy, prognozowanie popytu i przetwarzanie danych z czujników. Wyodrębnienie kolumn informacyjnych z tych danych jest wyzwaniem. Przykłady obejmują czas od ostatniego zdarzenia, agregacje ostatnich zdarzeń i osadzanie z sekwencji zdarzeń. Ten typ inżynierii funkcji wymaga specjalistycznej wiedzy dziedzinowej, eksperymentowania, silnych umiejętności kodowania i inżynierii danych oraz głębokiej wiedzy z zakresu analityki danych. Należy wziąć pod uwagę takie czynniki, jak wyciek czasu, obsługa dużych zbiorów danych i wydajne wykonywanie kodu.

Ogólnie rzecz biorąc, inżynieria funkcji wymaga wiedzy specjalistycznej, eksperymentów i budowy złożonych potoków danych ad hoc w przypadku braku narzędzi specjalnie do tego zaprojektowanych.

Czy mógłbyś opowiedzieć, w jaki sposób FeatureByte wspiera specjalistów zajmujących się analizą danych, jednocześnie upraszczając potoki funkcji?

FeatureByte zwiększa możliwości specjalistów zajmujących się analizą danych, upraszczając cały proces inżynierii funkcji. Dzięki intuicyjnemu pakietowi SDK języka Python umożliwia szybkie tworzenie funkcji i wyodrębnianie ich z tabel zdarzeń i elementów XLarge. Obliczenia są efektywnie obsługiwane dzięki wykorzystaniu skalowalności platform danych, takich jak Snowflake, DataBricks i Spark. Notatniki ułatwiają eksperymentowanie, a udostępnianie funkcji i ponowne ich wykorzystywanie oszczędzają czas. Audyt zapewnia dokładność funkcji, a natychmiastowe wdrożenie eliminuje problemy związane z zarządzaniem rurociągami.

Oprócz tych możliwości oferowanych przez naszą bibliotekę open source, nasze rozwiązanie dla przedsiębiorstw zapewnia kompleksową platformę do zarządzania operacjami AI i organizowania ich na dużą skalę, w tym przepływy pracy związane z zarządzaniem i interfejs użytkownika dla katalogu funkcji.

Jaka jest Twoja wizja przyszłości FeatureByte?

Naszą ostateczną wizją FeatureByte jest zrewolucjonizowanie dziedziny nauki o danych i uczenia maszynowego poprzez umożliwienie użytkownikom uwolnienia ich pełnego potencjału twórczego i wydobycia bezprecedensowej wartości ze swoich zasobów danych.

Jesteśmy szczególnie podekscytowani szybkim postępem w dziedzinie generatywnej sztucznej inteligencji i transformatorów, który otwiera przed naszymi użytkownikami świat możliwości. Ponadto jesteśmy zaangażowani w demokratyzację inżynierii funkcji. Generatywna sztuczna inteligencja może obniżyć barierę wejścia dla kreatywnej inżynierii funkcji, czyniąc ją bardziej dostępną dla szerszego grona odbiorców.

Podsumowując, nasza wizja przyszłości FeatureByte koncentruje się na ciągłych innowacjach, wykorzystaniu mocy generatywnej sztucznej inteligencji i demokratyzacji inżynierii funkcji. Naszym celem jest bycie platformą, po której specjaliści ds. danych będą mogli przekształcać surowe dane w przydatne dane wejściowe do uczenia maszynowego, przyczyniając się do przełomów i postępów w różnych branżach.

Czy masz jakąś radę dla początkujących przedsiębiorców AI?

Zdefiniuj swoją przestrzeń, skoncentruj się i powitaj nowość.

Definiując przestrzeń, którą chcesz posiadać, możesz wyróżnić się i zapewnić sobie silną obecność w tym obszarze. Zbadaj rynek, poznaj potrzeby i bolesne punkty potencjalnych klientów i staraj się zapewnić unikalne rozwiązanie, które skutecznie sprosta tym wyzwaniom.

Zdefiniuj swoją długoterminową wizję i ustal jasne cele krótkoterminowe, które są zgodne z tą wizją. Skoncentruj się na budowaniu mocnych fundamentów i dostarczaniu wartości w wybranej przestrzeni.

Wreszcie, choć ważne jest, aby zachować koncentrację, nie wahaj się przyjmować nowości i odkrywać nowe pomysły w określonej przestrzeni. Dziedzina sztucznej inteligencji stale się rozwija, a innowacyjne podejścia mogą otworzyć nowe możliwości.

Dziękuję za wspaniały wywiad. Czytelnicy chcący dowiedzieć się więcej powinni odwiedzić nas Bajt funkcji.

Partner-założyciel unite.AI i członek Rada Technologiczna Forbesa, Antoine jest futurysta który jest pasjonatem przyszłości sztucznej inteligencji i robotyki.

Jest także Założycielem Securities.io, witryna internetowa skupiająca się na inwestowaniu w przełomowe technologie.