Интервью

Xavier Conort, сооснователь и CPO FeatureByte – Интервью

Published June 28, 2023

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Xavier Conort – это видный ученый в области данных с более чем 25-летним опытом работы с данными. Он начал свою карьеру в качестве актуария в страховой индустрии, прежде чем перейти в область науки о данных. Он является одним из лучших участников конкурса Kaggle и был главным ученым в области данных в DataRobot, прежде чем стать сооснователем FeatureByte.

FeatureByte ставит своей миссией масштабирование корпоративного ИИ, радикально упрощая и индустриализируя данные ИИ. Платформа для инженерии и управления функциями позволяет ученым создавать и делиться передовыми функциями и готовыми к производству конвейерами данных за считанные минуты – вместо недель или месяцев.

Вы начали свою карьеру в качестве актуария в страховой индустрии, прежде чем перейти в область науки о данных, что стало причиной этого перехода?

Одним из определяющих моментов стало победа в конкурсе GE Flight Quest, организованном компанией GE с призовым фондом в 250 тысяч долларов, где участникам предлагалось предсказать задержки внутренних рейсов в США. Я обязан частью этого успеха ценной практике страхования: двухэтапному моделированию. Этот подход помогает контролировать предвзятость в функциях, которые не имеют достаточного представительства в доступных данных для обучения. Вместе с другими победами на Kaggle это достижение убедило меня, что мой актуарный опыт дает мне конкурентное преимущество в области науки о данных.

Во время моего пути на Kaggle у меня также была возможность связаться с другими энтузиастами науки о данных, включая Джереми Ачина и Тома Де Годоя, которые позже стали сооснователями DataRobot. У нас был общий опыт работы в страховой индустрии, и мы добились заметных успехов на Kaggle. Когда они в конечном итоге запустили DataRobot, компанию, специализирующуюся на AutoML, они пригласили меня присоединиться к ним в качестве главного ученого в области данных. Их видение сочетания лучших практик из страховой индустрии с мощью машинного обучения вдохновило меня, представив возможность создать что-то инновационное и влиятельное.

В DataRobot вы были инструментальны в построении их дорожной карты науки о данных. Какие данные вызовы вы столкнулись?

Самым значительным вызовом, с которым мы столкнулись, была переменная качество данных, предоставляемых в качестве входных данных для нашего решения AutoML. Этот вопрос часто приводил либо к трудоемкому сотрудничеству между нашей командой и клиентами, либо к разочаровывающим результатам в производстве, если не были приняты соответствующие меры. Проблемы качества были вызваны несколькими источниками, которые требовали нашего внимания.

Одним из основных вызовов было общее использование инструментов бизнес-интеллекта для подготовки и управления данными. Хотя эти инструменты ценны для генерации洞察ений, они не имеют возможностей, необходимых для обеспечения точности во времени для подготовки данных машинного обучения. В результате могли возникать утечки в данных для обучения, что приводило к переобучению и неточной производительности модели.

Недостаточная коммуникация между учеными и инженерами по данным была еще одним вызовом, который влиял на точность моделей в производстве. Несоответствия между фазами обучения и производства, возникающие из-за несоответствия между этими двумя командами, могли повлиять на производительность модели в реальном мире.

Какие были некоторые из ключевых выводов из этого опыта?

Мой опыт в DataRobot подчеркнул значение подготовки данных в машинном обучении. Решая проблемы генерации данных для обучения моделей, таких как точность во времени, пробелы в экспертизе, знания домена, ограничения инструментов и масштабируемость, мы можем повысить точность и надежность моделей машинного обучения. Я пришел к выводу, что упрощение процесса подготовки данных и включение инновационных технологий будут инструментальны в разблокировании полного потенциала ИИ и выполнении его обещаний.

Мы также услышали от вашего сооснователя Razi Raziuddin о генезисе FeatureByte, могли бы мы услышать вашу версию событий?

Когда я обсуждал свои наблюдения и идеи с моим сооснователем Razi Raziuddin, мы поняли, что разделяем общее понимание проблем в подготовке данных для машинного обучения. Во время наших дискуссий я поделился с Razi своими идеями о недавних достижениях в сообществе MLOps. Я мог наблюдать появление хранилищ функций и платформ функций, которые компании, ориентированные на ИИ, используют для снижения задержки обслуживания функций, поощрения повторного использования функций или упрощения материализации функций в данные для обучения, обеспечивая при этом согласованность между обучением и производством. Однако было очевидно, что все еще существует пробел в удовлетворении потребностей ученых по данным. Razi поделился со мной своими идеями о том, как современный стек данных революционизировал бизнес-аналитику и аналитику, но не используется в полной мере для ИИ.

Стало очевидным, что и Razi, и я имеем возможность оказать существенное влияние, радикально упрощая процесс инженерии функций и предоставляя ученым и инженерам по машинному обучению правильные инструменты и опыт для бесшовного экспериментирования с функциями и обслуживания функций.

Какие были некоторые из ваших самых больших вызовов в переходе от ученого по данным к предпринимателю?

Переход от ученого по данным к предпринимателю потребовал от меня сменить техническую точку зрения на более широкую, ориентированную на бизнес точку зрения. Хотя у меня была прочная основа в понимании болевых точек, создании дорожной карты, выполнении планов, построении команды и управлении бюджетами, я обнаружил, что создание правильного послания, которое действительно резонирует с нашей целевой аудиторией, было одним из моих самых больших препятствий.

Как ученый по данным, моя основная концентрация всегда была на анализе и интерпретации данных для получения ценных洞察ений. Однако как предприниматель, мне нужно было перенаправить свое мышление на рынок, клиентов и общий бизнес.

К счастью, я смог преодолеть этот вызов, используя опыт человека вроде моего сооснователя Razi.

Мы услышали от Razi о том, почему инженерия функций так сложна, в вашем мнении, что делает ее такой сложной?

Инженерия функций имеет два основных вызова:

Преобразование существующих столбцов: это включает в себя преобразование данных в подходящий формат для алгоритмов машинного обучения. Техники, такие как однократное кодирование, масштабирование функций и продвинутые методы, такие как преобразования текста и изображений, используются. Создание новых функций из существующих, таких как функции взаимодействия, может значительно повысить производительность модели. Популярные библиотеки, такие как scikit-learn и Hugging Face, предоставляют обширную поддержку этого типа инженерии функций. Решения AutoML также направлены на упрощение этого процесса.
Извлечение новых столбцов из исторических данных: исторические данные имеют решающее значение в таких областях, как системы рекомендаций, маркетинг, обнаружение мошенничества, страховые тарифы, кредитный скоринг, прогнозирование спроса и обработка данных датчиков. Извлечение информативных столбцов из этих данных является сложной задачей. Примеры включают время с момента последнего события, агрегации по недавним событиям и встраивания из последовательностей событий. Этот тип инженерии функций требует знаний домена, экспериментирования, сильных навыков программирования и инженерии данных, а также глубоких знаний науки о данных. Факторы, такие как утечка времени, обработка больших наборов данных и эффективное выполнение кода, также требуют внимания.

В целом, инженерия функций требует экспертизы, экспериментирования и строительства сложных ад-хок конвейеров данных в отсутствие инструментов, специально предназначенных для этого.

Могли бы вы поделиться, как FeatureByte наделяет ученых по данным полномочиями, упрощая конвейеры функций?

FeatureByte наделяет ученых по данным полномочиями, упрощая весь процесс инженерии функций. С помощью интуитивно понятного Python SDK он позволяет быстро создавать и извлекать функции из больших таблиц событий и предметов. Расчеты эффективно обрабатываются за счет масштабируемости платформ данных, таких как Snowflake, DataBricks и Spark. Ноутбуки облегчают экспериментирование, а обмен и повторное использование функций экономят время. Аудит гарантирует точность функций, а немедленное развертывание устраняет головные боли, связанные с управлением конвейерами.

Помимо этих возможностей, предлагаемых нашей открытым библиотекой, наше корпоративное решение предоставляет комплексную основу для управления и организации операций ИИ в масштабе, включая рабочие процессы управления и пользовательский интерфейс для каталога функций.

Каково ваше видение будущего FeatureByte?

Наше окончательное видение для FeatureByte заключается в том, чтобы революционизировать область науки о данных и машинного обучения, наделив пользователей возможностью раскрыть свой полный творческий потенциал и извлечь беспрецедентную ценность из своих активов данных.

Мы особенно взволнованы быстрым прогрессом в области генеративного ИИ и трансформеров, который открывает мир возможностей для наших пользователей. Кроме того, мы посвящены демократизации инженерии функций. Генеративный ИИ имеет потенциал снизить барьер входа для творческой инженерии функций, сделав ее более доступной для более широкой аудитории.

Вкратце, наше видение будущего FeatureByte заключается в постоянных инновациях, использовании потенциала генеративного ИИ и демократизации инженерии функций. Мы стремимся быть платформой, которая позволяет профессионалам по данным преобразовывать сырые данные в действенные входные данные для машинного обучения, стимулируя прорывы и достижения в различных отраслях.

У вас есть какие-либо советы для начинающих предпринимателей в области ИИ?

Определите свое пространство, оставайтесь сосредоточенными и приветствуйте новизну.

Определяя пространство, которое вы хотите владеть, вы можете отличаться и установить сильное присутствие в этой области. Исследуйте рынок, поймите потребности и болевые точки потенциальных клиентов и стремитесь предоставить уникальное решение, которое эффективно решает эти проблемы.

Определите свою долгосрочную видение и установите четкие краткосрочные цели, соответствующие этому видению. Сосредоточьтесь на построении прочной основы и предоставлении ценности в вашем выбранном пространстве.

Наконец, хотя важно оставаться сосредоточенным, не бойтесь принять новизну и исследовать новые идеи в вашем определенном пространстве. Область ИИ постоянно развивается, и инновационные подходы могут открыть новые возможности.

Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить FeatureByte.

Unite.AI

Xavier Conort, сооснователь и CPO FeatureByte – Интервью

You may like