Інтерв’ю
Xavier Conort, співзасновник і CPO FeatureByte – Інтерв’ю Серія

Xavier Conort є видатним вченим-даними з більш ніж 25-річним досвідом роботи з даними. Він розпочав свою кар’єру як актуарій в страховій галузі, а потім перейшов до науки про дані. Він є одним з найкращих конкурентів Kaggle і був головним вченим-даними в DataRobot до співзаснування FeatureByte.
FeatureByte має на меті масштабувати корпоративний штучний інтелект, радикально спрощуючи та індустріалізуючи дані штучного інтелекту. Платформа інженерії та управління функціями дозволяє вченим-даним створювати та обмінюватися функціями найвищого рівня та готовими до виробництва даними за хвилини – замість тижнів чи місяців.
Ви розпочали свою кар’єру як актуарій в страховій галузі, а потім перейшли до науки про дані, що стало причиною цього переходу?
Визначальним моментом було перемога в змаганні GE Flight Quest, організованому GE з призовим фондом у 250 тисяч доларів, де учасники мали передбачити затримки внутрішніх рейсів у США. Я зобов’язаний частиною цього успіху цінному страховому досвіду: двостадійному моделюванні. Цей підхід допомагає контролювати упередженість у функціях, які не мають достатнього представлення в наявних тренувальних даних. Разом з іншими перемогами на Kaggle, це досягнення переконало мене, що мій актуарний досвід надав мені конкурентну перевагу в галузі науки про дані.
Під час свого шляху на Kaggle я також мав привілей з’єднатися з іншими ентузіастами-вченими-даними, включаючи Джеремі Ачін та Тома Де Годой, які пізніше стали засновниками DataRobot. Ми мали спільний досвід роботи в страховій галузі та досягли помітних успіхів на Kaggle. Коли вони запустили DataRobot, компанію, що спеціалізується на AutoML, вони запросили мене приєднатися до них як головного вченого-даних. Їхня візія поєднання найкращих практик з страхової галузі з потужністю машинного навчання надихнула мене, представивши можливість створити щось інноваційне та впливове.
На DataRobot ви були інструментальними у створенні дорожньої карти науки про дані. Які дані виклики ви зустріли?
Найбільш значним викликом, з яким ми зіштовхнулися, була різна якість даних, наданих як вхідні дані для нашого рішення AutoML. Ця проблема часто призводила до тривалих співробітництв між нашою командою та клієнтами або розчаровуючих результатів у виробництві, якщо не були належним чином вирішені. Проблеми з якістю даних походили з кількох джерел, які вимагали нашої уваги.
Одним з основних викликів було загальне використання інструментів бізнес-інтелекту для підготовки та управління даними. Хоча ці інструменти цінні для генерації інсайтів, вони не мають можливостей, необхідних для забезпечення точності даних у момент часу для підготовки даних машинного навчання. В результаті могли виникнути витоки тренувальних даних, що призводило до переобучення та неточного виконання моделі.
Недорозуміння між вченими-даними та інженерами-даними було ще одним викликом, який вплинув на точність моделей під час виробництва. Несумісності між тренувальними та виробничими фазами, що виникли через недорозуміння між цими двома командами, могли вплинути на виконання моделі в реальному світі.
Які були деякі з ключових висновків з цього досвіду?
Мій досвід у DataRobot підкреслив значення підготовки даних у машинному навчанні. Вирішуючи проблеми генерації тренувальних даних моделей, таких як точність у момент часу, прогалини в експертизі, знання галузі, обмеження інструментів та масштабованість, ми можемо поліпшити точність та надійність моделей машинного навчання. Я прийшов до висновку, що спрощення процесу підготовки даних та впровадження інноваційних технологій будуть інструментальними у розблокуванні повного потенціалу штучного інтелекту та виконання його обіцянок.
Ми також чули від вашого співзасновника Razi Raziuddin про генезис історії FeatureByte, чи можете ви поділитися своєю версією подій?
Коли я обговорював свої спостереження та інсайти з моїм співзасновником Razi Raziuddin, ми зрозуміли, що ми маємо спільне розуміння викликів у підготовці даних для машинного навчання. Під час наших обговорень я поділився з Razi своїми інсайтами щодо недавніх досягнень у спільноті MLOps. Я міг спостерігати появу магазинів функцій та платформ функцій, які компанії, орієнтовані на штучний інтелект, впроваджують для giảm latency служб функцій, заохочення повторного використання функцій або спрощення матеріалізації функцій у тренувальні дані, забезпечуючи при цьому узгодженість тренування та обслуговування. Однак було очевидно, що все ще існував розрив у задоволенні потреб вчених-даних. Razi поділився зі мною своїми інсайтами щодо того, як сучасний стек даних революціонізував бізнес-інтелект та аналіз, але не був повністю використаний для штучного інтелекту.
Стало очевидним, що як Razi, так і я мали можливість зробити значний вплив, радикально спрощуючи процес інженерії функцій та надаючи вченим-даним та інженерам-машинному навчанню правильні інструменти та досвід користування для безперешкодної експериментації з функціями та службою функцій.
Які були деякі з ваших найбільших викликів у переході від вченого-даних до підприємця?
Перехід від вченого-даних до підприємця вимагав від мене зміни з технічної точки зору на більш широкий бізнес-орієнтований погляд. Хоча у мене була сильна основа для розуміння болісних точок, створення дорожньої карти, виконання планів, будівництва команди та управління бюджетами, я виявив, що створення правильного повідомлення, яке справді резонувало з нашою цільовою аудиторією, було однією з моїх найбільших перешкод.
Як вчений-дані, моя основна увага завжди була зосереджена на аналізі та інтерпретації даних для отримання цінних інсайтів. Однак як підприємцю, мені потрібно було перенаправити своє мислення на ринок, клієнтів та загальний бізнес.
На щастя, я зміг подолати цей виклик, використовуючи досвід людини, як моя співзасновник Razi.
Ми чули від Razi про те, чому інженерія функцій така складна, на вашу думку, що робить її такою складною?
Інженерія функцій має два основні виклики:
- Трансформація існуючих колонок: це включає в себе перетворення даних у відповідний формат для алгоритмів машинного навчання. Техніки, такі як один-горяче кодування, масштабування функцій та просунуті методи, такі як перетворення тексту та зображень, використовуються. Створення нових функцій з існуючих, таких як функції взаємодії, може суттєво покращити виконання моделі. Популярні бібліотеки, такі як scikit-learn та Hugging Face, забезпечують розширену підтримку цього типу інженерії функцій. Рішення AutoML також спрямовані на спрощення процесу.
- Витягування нових колонок з історичних даних: історичні дані мають вирішальне значення в таких галузях, як системи рекомендацій, маркетинг, виявлення шахрайства, страхові тарифи, кредитний скорінг, прогнозування попиту та обробка даних з датчиків. Витягування інформативних колонок з цих даних є складним. Приклади включають час з останньої події, агрегації за останніми подіями та вкладення з послідовностей подій. Цей тип інженерії функцій вимагає знань галузі, експериментів, сильних навичок програмування та глибоких знань науки про дані. Фактори, такі як витік часу, обробка великих наборів даних та ефективне виконання коду, також потребують уваги.
Загалом, інженерія функцій вимагає експертизи, експериментів та будівництва складних спеціальних даних трубопроводів у відсутність інструментів, спеціально розроблених для цього.
Чи можете ви поділитися, як FeatureByte наділяє вчених-даних можливостями, спрощуючи трубопроводи функцій?
FeatureByte наділяє вчених-даних можливостями, спрощуючи весь процес інженерії функцій. З інтуїтивним Python SDK, воно дозволяє швидко створювати та витягувати функції з великих таблиць подій та предметів. Обчислення ефективно обробляються за допомогою масштабованості платформ даних, таких як Snowflake, DataBricks та Spark. Ноутбуки полегшують експериментування, а спільне використання функцій та повторне використання економлять час. Аудитування забезпечує точність функцій, а негайне розгортання усуває головні болі управління трубопроводами.
Крім цих можливостей, пропонованих нашою відкритою бібліотекою, наше корпоративне рішення забезпечує комплексну основу для управління та організації операцій штучного інтелекту у масштабі, включаючи робочі потоки управління та інтерфейс користування для каталогу функцій.
Яка ваша візія майбутнього FeatureByte?
Наша кінцева візія для FeatureByte полягає в тому, щоб революціонізувати галузь науки про дані та машинного навчання, наділяючи користувачів можливостями звільнити свій повний творчий потенціал та витягнути безпрецедентну цінність з їхніх активів даних.
Ми особливо зацікавлені у швидкому прогресі в генераційному штучному інтелекті та трансформерах, який відкриває світ можливостей для наших користувачів. Крім того, ми присвячені демократизації інженерії функцій. Генераційний штучний інтелект має потенціал знизити бар’єр входу для творчої інженерії функцій, роблячи її більш доступною для ширшої аудиторії.
Під сумою, наша візія майбутнього FeatureByte полягає у безперервній інновації, використанні потужності генераційного штучного інтелекту та демократизації інженерії функцій. Ми маємо на меті бути платформою, яка дозволяє фахівцям-даним перетворювати сирі дані на діючий вхід для машинного навчання, забезпечуючи прориви та прогрес у різних галузях.
Чи маєте ви якусь пораду для аспірант-підприємців штучного інтелекту?
Визначте свій простір, залишайтесь сфокусованими та вітаєте новизну.
Визначивши простір, який ви хочете володіти, ви можете відрізнити себе та створити сильну присутність у цій галузі. Дослідіть ринок, зрозумійте потреби та болісні точки потенційних клієнтів та прагніть надати унікальне рішення, яке ефективно вирішує ці виклики.
Визначте свою довгострокову візію та встановіть чіткі короткострокові цілі, які відповідають цій візії. Зосередьтеся на будівництві сильної основи та наданні цінності у вашому вибраному просторі.
Нарешті, хоча залишається важливим залишатися сфокусованим, не бояться вітати новизну та дослідження нових ідей у вашому визначеному просторі. Галузь штучного інтелекту постійно еволюціонує, а інноваційні підходи можуть відкрити нові можливості.
Дякую за велике інтерв’ю, читачі, які бажають дізнатися більше, повинні відвідати FeatureByte.












