Интервюта

Ксавие Конорт, съосновател и CPO на FeatureByte – Interview Series

Публикуван

Преди 12 месеца

Юни 28, 2023

Ксавие Конорт е далновиден специалист по данни с повече от 25 години опит в областта на данните. Той започва кариерата си като актюер в застрахователната индустрия, преди да премине към науката за данни. Той е най-високо класиран състезател на Kaggle и беше главен специалист по данни в DataRobot, преди да стане съосновател на FeatureByte.

FeatureByte е на мисия да мащабира корпоративния AI чрез радикално опростяване и индустриализиране на AI данни. Платформата за инженеринг и управление на функции дава възможност на специалистите по данни да създават и споделят най-съвременни функции и готови за производство канали за данни за минути – вместо седмици или месеци.

Започнахте кариерата си като актюер в застрахователната индустрия, преди да преминете към Data Science, какво причини тази промяна?

Определящ момент беше спечелването на GE Flight Quest, състезание, организирано от GE с обща награда от $250 2, където участниците трябваше да предвидят закъснения на вътрешните полети в САЩ. Дължа част от този успех на една ценна застрахователна практика: двуетапното моделиране. Този подход помага да се контролира отклонението в характеристики, които нямат достатъчно представяне в наличните данни за обучение. Заедно с други победи на Kaggle, това постижение ме убеди, че моята актюерска подготовка ми дава конкурентно предимство в областта на науката за данни.

По време на моето пътуване с Kaggle имах привилегията да се свържа с други ентусиазирани учени по данни, включително Джереми Ачин и Том Де Годой, които по-късно ще станат основатели на DataRobot. Споделяхме общ опит в застраховането и бяхме постигнали забележителни успехи в Kaggle. Когато в крайна сметка стартираха DataRobot, компания, специализирана в AutoML, ме поканиха да се присъединя към тях като главен специалист по данни. Тяхната визия за съчетаване на най-добрите практики от застрахователната индустрия със силата на машинното обучение ме развълнува, представяйки възможност за създаване на нещо иновативно и въздействащо.

В DataRobot и изиграха важна роля в изграждането на тяхната пътна карта за Data Science. С какъв тип предизвикателства с данните се сблъскахте?

Най-значимото предизвикателство, с което се сблъскахме, беше различното качество на данните, предоставени като входни данни за нашето решение AutoML. Този проблем често водеше или до отнемащо време сътрудничество между нашия екип и клиенти, или до разочароващи резултати в производството, ако не беше решен по подходящ начин. Проблемите с качеството произтичат от множество източници, които изискват нашето внимание.

Едно от основните предизвикателства възникна от общото използване на инструменти за бизнес разузнаване за подготовка и управление на данни. Въпреки че тези инструменти са ценни за генериране на прозрения, им липсват възможностите, необходими за осигуряване на коректност към даден момент за подготовка на данни за машинно обучение. В резултат на това може да възникнат течове на данни за обучение, което да доведе до пренастройване и неточно представяне на модела.

Неразбирателството между учените по данни и инженерите по данни беше друго предизвикателство, което повлия на точността на моделите по време на производството. Несъответствията между фазите на обучение и производство, произтичащи от несъгласуваност между тези два екипа, могат да повлияят на производителността на модела в реална среда.

Какви бяха някои от основните изводи от това преживяване?

Моят опит в DataRobot подчерта значението на подготовката на данни в машинното обучение. Като се справяме с предизвикателствата на генерирането на данни за обучение на модели, като коректност към даден момент, пропуски в експертизата, познания за домейни, ограничения на инструментите и мащабируемост, можем да подобрим точността и надеждността на моделите за машинно обучение. Стигнах до извода, че рационализирането на процеса на подготовка на данни и включването на иновативни технологии ще бъде инструмент за отключване на пълния потенциал на ИИ и изпълнение на неговите обещания.

Чухме и от вашия съосновател Рази Разиудин относно историята на генезиса зад FeatureByte, можем ли да получим вашата версия на събитията?

Когато обсъдих моите наблюдения и прозрения с моя съосновател Рази Разиудин, разбрахме, че споделяме общо разбиране за предизвикателствата при подготовката на данни за машинно обучение. По време на нашите дискусии споделих с Рази своите прозрения за скорошния напредък в общността на MLOps. Мога да наблюдавам появата на хранилища за функции и платформи за функции, които технологичните компании, които са първи в областта на изкуствения интелект, въвеждат, за да намалят латентността на обслужването на функции, да насърчат повторното използване на функции или да опростят материализирането на функции в данни за обучение, като същевременно гарантират последователност при обслужването на функциите. За нас обаче беше очевидно, че все още има празнина в посрещането на нуждите на учените за данни. Рази сподели с мен своите прозрения за това как модерният стек от данни направи революция в BI и анализа, но не се използва напълно за AI.

И за Рази, и за мен стана ясно, че имахме възможността да окажем значително влияние чрез радикално опростяване на процеса на инженеринг на функции и предоставяне на учените по данни и инженерите на ML с правилните инструменти и потребителско изживяване за безпроблемно експериментиране с функции и обслужване на функции.

Кои бяха някои от най-големите ви предизвикателства при прехода от специалист по данни към предприемач?

Преходът от учен по данни към предприемач изискваше от мен да променя техническата гледна точка към по-широко ориентирано към бизнеса мислене. Въпреки че имах солидна основа в разбирането на болезнените точки, създаването на пътна карта, изпълнението на планове, изграждането на екип и управлението на бюджети, открих, че изработването на правилните съобщения, които наистина резонират с нашата целева аудитория, е едно от най-големите ми пречки.

Като учен по данни моят основен фокус винаги е бил върху анализирането и интерпретирането на данни, за да извлека ценни прозрения. Въпреки това, като предприемач, трябваше да пренасоча мисленето си към пазара, клиентите и цялостния бизнес.

За щастие успях да преодолея това предизвикателство, използвайки опита на някой като моя съосновател Рази.

Чухме се с Рази за това защо инженерството на функции е толкова трудно, според вас какво го прави толкова предизвикателно?

Инженерингът на функции има две основни предизвикателства:

Трансформиране на съществуващи колони: Това включва преобразуване на данни в подходящ формат за алгоритми за машинно обучение. Използват се техники като еднократно кодиране, мащабиране на функции и усъвършенствани методи като трансформации на текст и изображения. Създаването на нови функции от съществуващи, като функции за взаимодействие, може значително да подобри производителността на модела. Популярни библиотеки като scikit-learn и Hugging Face предоставят обширна поддръжка за този тип инженеринг на функции. Решенията на AutoML също имат за цел да опростят процеса.
Извличане на нови колони от исторически данни: историческите данни са от решаващо значение в проблемни области като системи за препоръки, маркетинг, откриване на измами, ценообразуване на застраховки, кредитен рейтинг, прогнозиране на търсенето и обработка на данни от сензори. Извличането на информативни колони от тези данни е предизвикателство. Примерите включват време от последното събитие, агрегации за скорошни събития и вграждания от поредици от събития. Този тип инженеринг на функции изисква опит в областта, експериментиране, силни умения за кодиране и инженеринг на данни и задълбочени познания в науката за данните. Фактори като изтичане на време, работа с големи масиви от данни и ефективно изпълнение на код също трябва да бъдат взети предвид.

Като цяло инженерството на функции изисква опит, експериментиране и изграждане на сложни ad-hoc тръбопроводи за данни при липса на инструменти, специално проектирани за това.

Бихте ли споделили как FeatureByte дава възможност на професионалистите в областта на науката за данни, като същевременно опростява функциите?

FeatureByte дава възможност на професионалистите в областта на науката за данни, като опростява целия процес на инженеринг на функции. С интуитивен Python SDK, той позволява бързо създаване и извличане на функции от XLarge Event и Item Tables. Изчисленията се обработват ефективно чрез използване на мащабируемостта на платформи за данни като Snowflake, DataBricks и Spark. Преносимите компютри улесняват експериментирането, докато споделянето и повторната употреба на функции спестяват време. Одитът гарантира точност на функциите, докато незабавното внедряване елиминира главоболията при управлението на конвейера.

В допълнение към тези възможности, предлагани от нашата библиотека с отворен код, нашето корпоративно решение предоставя цялостна рамка за управление и организиране на операции с изкуствен интелект в мащаб, включително работни процеси за управление и потребителски интерфейс за каталога с функции.

Каква е вашата визия за бъдещето на FeatureByte?

Нашата крайна визия за FeatureByte е да направим революция в областта на науката за данни и машинното обучение, като дадем възможност на потребителите да разгърнат пълния си творчески потенциал и да извлекат безпрецедентна стойност от своите активи с данни.

Ние сме особено развълнувани от бързия напредък в Generative AI и трансформаторите, което отваря свят от възможности за нашите потребители. Освен това, ние сме посветени на демократизирането на инженеринга на функциите. Generative AI има потенциала да намали бариерата за навлизане в инженерството на творчески функции, което го прави по-достъпен за по-широка аудитория.

В обобщение, нашата визия за бъдещето на FeatureByte се върти около непрекъснати иновации, овладяване на силата на Generative AI и демократизиране на инженеринга на функции. Ние се стремим да бъдем основната платформа, която позволява на професионалистите в областта на данните да трансформират необработените данни в полезна информация за машинно обучение, стимулирайки пробиви и напредък в индустриите.

Имате ли съвет за начинаещи предприемачи с ИИ?

Определете вашето пространство, останете фокусирани и приветствайте новостите.

Чрез определяне на пространството, което искате да притежавате, можете да се разграничите и да установите силно присъствие в тази област. Проучете пазара, разберете нуждите и болезнените точки на потенциалните клиенти и се стремете да предоставите уникално решение, което се справя ефективно с тези предизвикателства.

Определете своята дългосрочна визия и поставете ясни краткосрочни цели, които са в съответствие с тази визия. Концентрирайте се върху изграждането на здрава основа и предоставянето на стойност в избраното от вас пространство.

И накрая, въпреки че е важно да останете фокусирани, не се притеснявайте да приемате новостите и да изследвате нови идеи в рамките на вашето определено пространство. Сферата на ИИ непрекъснато се развива и иновативните подходи могат да открият нови възможности.

Благодаря ви за страхотното интервю, читателите, които искат да научат повече, трябва да го посетят FeatureByte.