заглушки Ксавьер Конорт, соучредитель и главный директор FeatureByte — серия интервью — Unite.AI
Свяжитесь с нами:

Интервью

Ксавьер Конорт, соучредитель и главный директор FeatureByte — серия интервью

mm

опубликованный

 on

Ксавьер Конорт — дальновидный специалист по данным с более чем 25-летним опытом работы с данными. Он начал свою карьеру в качестве актуария в страховой отрасли, а затем перешел в науку о данных. Он является ведущим конкурентом Kaggle и был главным специалистом по данным в DataRobot до того, как стал соучредителем FeatureByte.

FeatureByte стремится масштабировать корпоративный ИИ за счет радикального упрощения и индустриализации данных ИИ. Платформа проектирования и управления функциями позволяет специалистам по данным создавать и совместно использовать современные функции и готовые к работе конвейеры данных за считанные минуты, а не недели или месяцы.

Вы начали свою карьеру в качестве актуария в страховой отрасли, а затем перешли в науку о данных. Чем вызван этот переход?

Определяющим моментом стала победа в конкурсе GE Flight Quest, организованном GE, с общим призовым фондом в 250 2 долларов, участники которого должны были предсказать задержку внутренних рейсов в США. Отчасти этим успехом я обязан ценной страховой практике: двухэтапному моделированию. Этот подход помогает контролировать предвзятость в функциях, которые недостаточно представлены в доступных обучающих данных. Наряду с другими победами на Kaggle, это достижение убедило меня в том, что мой актуарный опыт дает мне конкурентное преимущество в области науки о данных.

Во время моего путешествия в Kaggle я также имел честь общаться с другими энтузиастами-исследователями данных, включая Джереми Ачина и Тома Де Годоя, которые позже стали основателями DataRobot. У нас был общий опыт в сфере страхования, и мы добились заметных успехов на Kaggle. Когда они в конце концов запустили Датаробот, компании, специализирующейся на AutoML, они пригласили меня присоединиться к ним в качестве главного специалиста по данным. Их видение объединения лучших практик страховой отрасли с мощью машинного обучения вдохновило меня, предоставив возможность создать что-то инновационное и эффективное.

В DataRobot и сыграли важную роль в создании дорожной карты Data Science. С какими проблемами данных вы сталкивались?

Самой серьезной проблемой, с которой мы столкнулись, было различное качество данных, предоставляемых в качестве входных данных для нашего решения AutoML. Эта проблема часто приводила либо к длительному сотрудничеству между нашей командой и клиентами, либо к разочаровывающим результатам в производстве, если ее не решать должным образом. Проблемы с качеством возникли из нескольких источников и требовали нашего внимания.

Одна из основных проблем возникла из-за общего использования инструментов бизнес-аналитики для подготовки данных и управления ими. Хотя эти инструменты ценны для получения информации, им не хватает возможностей, необходимых для обеспечения корректности подготовки данных машинного обучения на определенный момент времени. В результате могут возникнуть утечки в обучающих данных, что приведет к переоснащению и неточной работе модели.

Недопонимание между учеными и инженерами данных было еще одной проблемой, которая повлияла на точность моделей во время производства. Несоответствия между этапами обучения и производства, возникающие из-за несогласованности между этими двумя командами, могут повлиять на производительность модели в реальной среде.

Каковы некоторые из ключевых выводов из этого опыта?

Мой опыт работы в DataRobot показал важность подготовки данных в машинном обучении. Решая проблемы создания данных для обучения моделей, таких как точность на определенный момент времени, пробелы в знаниях, знание предметной области, ограничения инструментов и масштабируемость, мы можем повысить точность и надежность моделей машинного обучения. Я пришел к выводу, что оптимизация процесса подготовки данных и внедрение инновационных технологий будут способствовать раскрытию всего потенциала ИИ и выполнению его обещаний.

Мы также слышали от вашего соучредителя Рази Разиуддина Что касается истории происхождения FeatureByte, можем ли мы получить вашу версию событий?

Когда я обсудил свои наблюдения и идеи с моим соучредителем Рази Разиуддином, мы поняли, что разделяем общее понимание проблем подготовки данных для машинного обучения. Во время наших обсуждений я поделился с Рази своим мнением о последних достижениях в сообществе MLOps. Я мог наблюдать появление хранилищ функций и платформ функций, которые технологические компании, специализирующиеся на искусственном интеллекте, внедряют для уменьшения задержки обслуживания функций, поощрения повторного использования функций или упрощения материализации функций в данные обучения, обеспечивая при этом согласованность обслуживания обучения. Однако для нас было очевидно, что пробел в удовлетворении потребностей специалистов по обработке и анализу данных все еще существует. Рази поделился со мной своим мнением о том, как современный стек данных произвел революцию в бизнес-аналитике и аналитике, но не в полной мере используется для ИИ.

И для Рази, и для меня стало очевидно, что у нас есть возможность оказать существенное влияние, радикально упростив процесс разработки функций и предоставив специалистам по данным и инженерам по машинному обучению правильные инструменты и пользовательский опыт для беспрепятственного экспериментирования с функциями и обслуживания функций.

С какими самыми большими проблемами вы столкнулись при переходе от специалиста по данным к предпринимателю?

Переход от специалиста по данным к предпринимателю потребовал от меня перехода от технической точки зрения к более широкому бизнес-ориентированному мышлению. Хотя у меня была прочная основа для понимания болевых точек, создания дорожной карты, выполнения планов, создания команды и управления бюджетом, я обнаружил, что создание правильного сообщения, которое действительно находит отклик у нашей целевой аудитории, было одним из моих самых больших препятствий.

Как специалист по данным, я всегда уделял основное внимание анализу и интерпретации данных для получения ценной информации. Однако как предпринимателю мне нужно было перенаправить свое мышление на рынок, клиентов и бизнес в целом.

К счастью, я смог преодолеть эту проблему, используя опыт кого-то вроде моего соучредителя Рази.

Мы слышали от Рази о том, почему разработка функций так сложна, что, на ваш взгляд, делает ее такой сложной?

Разработка функций имеет две основные проблемы:

  1. Преобразование существующих столбцов: это включает преобразование данных в формат, подходящий для алгоритмов машинного обучения. Используются такие методы, как горячее кодирование, масштабирование функций и расширенные методы, такие как преобразование текста и изображений. Создание новых функций из существующих, таких как функции взаимодействия, может значительно повысить производительность модели. Популярные библиотеки, такие как scikit-learn и Hugging Face, обеспечивают обширную поддержку для этого типа разработки функций. Решения AutoML также направлены на упрощение процесса.
  2. Извлечение новых столбцов из исторических данных. Исторические данные имеют решающее значение в проблемных областях, таких как системы рекомендаций, маркетинг, обнаружение мошенничества, страховое ценообразование, кредитный скоринг, прогнозирование спроса и обработка данных датчиков. Извлечение информативных столбцов из этих данных является сложной задачей. Примеры включают время, прошедшее с момента последнего события, агрегирование последних событий и встраивание из последовательностей событий. Этот тип разработки функций требует знаний в предметной области, экспериментирования, сильных навыков кодирования и обработки данных, а также глубоких знаний в области науки о данных. Также необходимо учитывать такие факторы, как утечка времени, обработка больших наборов данных и эффективное выполнение кода.

В целом, разработка признаков требует опыта, экспериментов и создания сложных специализированных конвейеров данных при отсутствии инструментов, специально предназначенных для этого.

Не могли бы вы поделиться тем, как FeatureByte расширяет возможности специалистов по науке о данных, упрощая конвейеры функций?

FeatureByte расширяет возможности специалистов по обработке и анализу данных, упрощая весь процесс разработки функций. Благодаря интуитивно понятному Python SDK он позволяет быстро создавать и извлекать функции из XLarge Event Tables и Item Tables. Вычисления эффективно обрабатываются за счет использования масштабируемости платформ данных, таких как Snowflake, DataBricks и Spark. Ноутбуки облегчают эксперименты, а совместное использование функций и их повторное использование экономят время. Аудит обеспечивает точность функций, а немедленное развертывание устраняет проблемы с управлением конвейером.

В дополнение к этим возможностям, предлагаемым нашей библиотекой с открытым исходным кодом, наше корпоративное решение предоставляет комплексную платформу для управления и организации операций ИИ в масштабе, включая рабочие процессы управления и пользовательский интерфейс для каталога функций.

Каким вы видите будущее FeatureByte?

Наше конечное видение FeatureByte — произвести революцию в области науки о данных и машинного обучения, предоставив пользователям возможность полностью раскрыть свой творческий потенциал и извлечь беспрецедентную ценность из своих активов данных.

Мы особенно рады быстрому развитию генеративного ИИ и трансформеров, которые открывают целый мир возможностей для наших пользователей. Кроме того, мы стремимся к демократизации разработки функций. Генеративный ИИ может снизить входной барьер для творческой разработки функций, сделав его более доступным для более широкой аудитории.

Таким образом, наше видение будущего FeatureByte основано на непрерывных инновациях, использовании возможностей генеративного ИИ и демократизации разработки функций. Мы стремимся стать популярной платформой, которая позволит специалистам по данным преобразовывать необработанные данные в действенные исходные данные для машинного обучения, обеспечивая прорывы и достижения в различных отраслях.

Есть ли у вас какие-либо советы для начинающих ИИ-предпринимателей?

Определите свое пространство, оставайтесь сосредоточенными и приветствуйте новизну.

Определив пространство, которым вы хотите владеть, вы сможете выделиться и закрепиться в этой области. Изучите рынок, узнайте потребности и болевые точки потенциальных клиентов и стремитесь предоставить уникальное решение, которое эффективно решает эти проблемы.

Определите свое долгосрочное видение и поставьте четкие краткосрочные цели, соответствующие этому видению. Сконцентрируйтесь на создании прочного фундамента и обеспечении ценности в выбранном вами пространстве.

Наконец, несмотря на то, что важно оставаться сосредоточенным, не уклоняйтесь от новизны и изучения новых идей в определенном пространстве. Область ИИ постоянно развивается, и инновационные подходы могут открывать новые возможности.

Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить FeatureByte.

Партнер-основатель unite.AI и член Технологический совет Форбс, Антуан - это футурист который увлечен будущим искусственного интеллекта и робототехники.

Он также является основателем Ценные бумаги.io, веб-сайт, посвященный инвестициям в прорывные технологии.