スタブ Xavier Conort 氏、FeatureByte 共同創設者兼 CPO - インタビュー シリーズ - Unite.AI
私達と接続

記事執筆

Xavier Conort 氏、FeatureByte 共同創設者兼 CPO – インタビュー シリーズ

mm

公開済み

 on

ザビエル・コノルト は、25 年以上のデータ経験を持つ先見の明のあるデータ サイエンティストです。 彼は保険業界で保険数理士としてキャリアをスタートし、その後データ サイエンスに転身しました。 彼は Kaggle のトップクラスの競合他社であり、FeatureByte を共同設立する前は DataRobot のチーフ データ サイエンティストを務めていました。

フィーチャーバイト は、AI データを根本的に簡素化し産業化することで、エンタープライズ AI を拡張するという使命を担っています。 機能エンジニアリングおよび管理プラットフォームにより、データ サイエンティストは、数週間や数か月ではなく、数分で最先端の機能と本番環境に対応したデータ パイプラインを作成して共有できるようになります。

あなたはデータ サイエンスに移行する前に、保険業界でアクチュアリーとしてキャリアをスタートされましたが、この変化の原因は何ですか?

決定的な瞬間は、参加者が米国国内線の遅延を予測しなければならない、GE が主催し、賞金総額 250 万ドルのコンペティションである GE Flight Quest で優勝したことです。 この成功の一部は、2 段階モデリングという貴重な保険実践のおかげです。 このアプローチは、利用可能なトレーニング データに十分な表現が欠けている特徴のバイアスを制御するのに役立ちます。 Kaggle での他の勝利とともに、この成果により、私の保険数理の経歴がデータ サイエンスの分野で競争上の優位性をもたらしてくれると確信しました。

Kaggle の旅の間、私は、後に DataRobot の創設者となる Jeremy Achin や Tom De Godoy など、他の熱心なデータ サイエンティストとつながる機会にも恵まれました。 私たちは保険分野で共通の背景を持ち、Kaggle で顕著な成功を収めてきました。 最終的に発売されたとき DataRobot、AutoML を専門とする会社から、私をチーフ データ サイエンティストとして入社するよう誘われました。保険業界のベストプラクティスと機械学習の力を組み合わせるという彼らのビジョンは、革新的で影響力のあるものを生み出す機会を提供し、私を興奮させました。

DataRobot では、データ サイエンス ロードマップの構築に貢献しました。 どのような種類のデータの課題に直面しましたか?

私たちが直面した最も重要な課題は、AutoML ソリューションへの入力として提供されるデータの品質の変化でした。 この問題は、多くの場合、適切に対処しなかった場合、チームとクライアント間のコラボレーションに時間がかかるか、本番環境で期待外れの結果を招く結果となりました。 品質問題は複数の原因から発生しており、当社の対応が必要でした。

主な課題の XNUMX つは、データの準備と管理のためのビジネス インテリジェンス ツールの一般的な使用から発生しました。 これらのツールは洞察を生成するのに役立ちますが、機械学習データの準備における特定時点の正確性を保証するために必要な機能が欠けています。 その結果、トレーニング データの漏洩が発生し、過剰適合や不正確なモデルのパフォーマンスにつながる可能性があります。

データ サイエンティストとデータ エンジニアの間のコミュニケーションの誤りも、実稼働中のモデルの精度に影響を与えるもう XNUMX つの課題でした。 これら XNUMX つのチーム間の調整の不一致から生じる、トレーニング フェーズと本番フェーズの間の不一致は、現実世界の環境でのモデルのパフォーマンスに影響を与える可能性があります。

この経験から得られた重要な点は何でしょうか?

DataRobot での私の経験は、機械学習におけるデータ準備の重要性を強調しました。 時点の正確性、専門知識のギャップ、ドメイン知識、ツールの制限、スケーラビリティなど、モデル トレーニング データを生成する際の課題に対処することで、機械学習モデルの精度と信頼性を向上させることができます。 私は、データ準備プロセスを合理化し、革新的なテクノロジーを組み込むことが、AI の可能性を最大限に引き出し、その約束を実現するのに役立つという結論に達しました。

共同創設者のラジ・ラジウディンからも話を聞きました FeatureByte の背後にある起源のストーリーについて、イベントに関するあなたのバージョンを入手できますか?

私の観察と洞察について共同創設者の Razi Raziuddin と話し合ったとき、機械学習のためのデータ準備における課題について共通の理解を共有していることに気付きました。 ディスカッション中に、私は MLOps コミュニティの最近の進歩についての洞察を Razi と共有しました。 AI ファーストのテクノロジー企業が、トレーニングと提供の一貫性を確保しながら、機能提供のレイテンシーを短縮し、機能の再利用を促進し、トレーニング データへの機能の実体化を簡素化するために導入した機能ストアと機能プラットフォームの出現を観察することができました。 しかし、データ サイエンティストのニーズを満たすにはまだギャップがあることは明らかでした。 Razi 氏は、最新のデータ スタックがどのように BI と分析に革命をもたらしたものの、AI には十分に活用されていないという洞察を私に教えてくれました。

Razi と私にとって、特徴量エンジニアリング プロセスを根本的に簡素化し、データ サイエンティストと ML エンジニアにシームレスな機能実験と機能提供のための適切なツールとユーザー エクスペリエンスを提供することで、大きな影響を与える機会があることが明らかになりました。

データサイエンティストから起業家への移行における最大の課題は何でしたか?

データサイエンティストから起業家への転身では、技術的な観点からより広範なビジネス指向の考え方に変える必要がありました。 私には、問題点の理解、ロードマップの作成、計画の実行、チームの構築、予算の管理に関する強力な基礎がありましたが、ターゲット ユーザーの心に響く適切なメッセージを作成することが最大の障害の XNUMX つであることがわかりました。

データサイエンティストとして、私の主な焦点は常に、データを分析して解釈して貴重な洞察を引き出すことにありました。 しかし、起業家として、私は市場、顧客、そしてビジネス全体に思考を向け直す必要がありました。

幸いなことに、私は共同創設者のラジのような人の経験を活用することで、この課題を克服することができました。

ラジさんから聞きました 特徴量エンジニアリングがなぜそれほど難しいのかについてですが、何がそんなに難しいと思いますか?

特徴量エンジニアリングには XNUMX つの主な課題があります。

  1. 既存の列の変換: これには、データを機械学習アルゴリズムに適した形式に変換することが含まれます。 ワンホット エンコーディング、機能スケーリングなどの技術、およびテキストや画像の変換などの高度な手法が使用されます。 インタラクション機能など、既存の機能から新しい機能を作成すると、モデルのパフォーマンスを大幅に向上させることができます。 scikit-learn や Hugging Face などの人気のあるライブラリは、このタイプの特徴量エンジニアリングに対する広範なサポートを提供します。 AutoML ソリューションは、プロセスを簡素化することも目的としています。
  2. 履歴データからの新しい列の抽出: 履歴データは、推奨システム、マーケティング、不正行為検出、保険価格設定、信用スコアリング、需要予測、センサー データ処理などの問題領域において重要です。 このデータから有益な列を抽出するのは困難です。 例には、最後のイベントからの時間、最近のイベントの集計、一連のイベントからの埋め込みなどが含まれます。 このタイプの特徴エンジニアリングには、ドメインの専門知識、実験、強力なコーディングおよびデータ エンジニアリングのスキル、および深いデータ サイエンスの知識が必要です。 時間の漏れ、大規模なデータセットの処理、効率的なコード実行などの要素も考慮する必要があります。

全体として、特徴量エンジニアリングには、専用に設計されたツールがない場合、専門知識、実験、複雑なアドホック データ パイプラインの構築が必要です。

FeatureByte が機能パイプラインを簡素化しながら、データ サイエンスの専門家にどのように力を与えているかを共有していただけますか?

FeatureByte は、特徴量エンジニアリングのプロセス全体を簡素化することで、データ サイエンスの専門家を支援します。 直感的な Python SDK を使用すると、XLarge イベント テーブルとアイテム テーブルからの素早いフィーチャの作成と抽出が可能になります。 計算は、Snowflake、DataBricks、Spark などのデータ プラットフォームのスケーラビリティを活用することで効率的に処理されます。 ノートブックは実験を容易にし、機能の共有と再利用により時間を節約します。 監査により機能の正確性が確保され、即時導入によりパイプライン管理の悩みが解消されます。

オープンソース ライブラリが提供するこれらの機能に加え、当社のエンタープライズ ソリューションは、ガバナンス ワークフローや機能カタログのユーザー インターフェイスなど、大規模な AI 運用を管理および組織するための包括的なフレームワークを提供します。

FeatureByte の将来に対するビジョンは何ですか?

FeatureByte の最終的なビジョンは、ユーザーが創造的な可能性を最大限に発揮し、データ資産から前例のない価値を引き出すことができるようにすることで、データ サイエンスと機械学習の分野に革命を起こすことです。

私たちは、ユーザーに可能性の世界を開くジェネレーティブ AI とトランスフォーマーの急速な進歩に特に興奮しています。 さらに、私たちは特徴量エンジニアリングの民主化にも注力しています。 ジェネレーティブ AI は、クリエイティブな特徴エンジニアリングの参入障壁を下げ、より幅広いユーザーが利用しやすくする可能性を秘めています。

要約すると、FeatureByte の将来に対する私たちのビジョンは、継続的なイノベーション、生成 AI の力の活用、および特徴エンジニアリングの民主化を中心に展開しています。 当社は、データ専門家が生データを機械学習用の実用的な入力に変換し、業界全体のブレークスルーと進歩を推進できる頼りになるプラットフォームになることを目指しています。

AI起業家を目指す人たちに何かアドバイスはありますか?

自分のスペースを定義し、集中力を維持し、目新しいものを歓迎します。

自分が所有したい空間を定義することで、自分自身を差別化し、その領域で強い存在感を確立することができます。 市場を調査し、潜在的な顧客のニーズと問題点を理解し、それらの課題に効果的に対処する独自のソリューションを提供するよう努めます。

長期的なビジョンを定義し、そのビジョンに沿った明確な短期目標を設定します。 強力な基盤を構築し、選択したスペースで価値を提供することに集中してください。

最後に、集中力を維持することは重要ですが、目新しさを受け入れ、定義された空間内で新しいアイデアを模索することを躊躇しないでください。 AI 分野は常に進化しており、革新的なアプローチにより新たな機会が開かれる可能性があります。

素晴らしいインタビューをありがとうございました。さらに詳しく知りたい読者は、こちらをご覧ください。 フィーチャーバイト.

Unite.AI の創設パートナーであり、 フォーブステクノロジー評議会、 アントワーヌさんは、 未来派 AI とロボット工学の未来に情熱を持っている人。

彼はの創設者でもあります 証券.io、破壊的テクノロジーへの投資に焦点を当てたウェブサイト。