インタビュー

アナイス・ドティス=ジョルジョウ、InfluxDataのDeveloper Advocate – インタビュー・シリーズ

mm

アナイス・ドティス=ジョルジョウは、InfluxDataのDeveloper Advocateです。彼女は、データ分析、AI、機械学習を使用してデータを美しくすることに情熱を持ちます。彼女は収集したデータを分析し、研究、探索、エンジニアリングを組み合わせて、機能的、価値のある、美しいものに変換します。画面の前で作業していないときは、外で絵を描いたり、ストレッチしたり、ボードに乗ったり、サッカーのボールを追ったりしています。

InfluxDataは、InfluxDBを開発している会社です。InfluxDBは、世界中の100万を超える開発者によって使用されているオープンソースの時系列データベースです。InfluxDataの使命は、開発者が時系列データを使用してインテリジェントなリアルタイム・システムを構築することを支援することです。

あなたのキャリアを、研究アシスタントからInfluxDataのリード・デベロッパー・アドボケートに至るまで、少し詳しくお話しください。データ分析と機械学習の背景は、あなたの現在の役割にどのように影響していますか?

私は、化学工学の学士号を取得し、バイオメディカル・エンジニアリングに焦点を当てて勉強しました。そこで、ワクチン開発と先天性自閉症の検出を行う研究室で働きました。その後、液体ハンドリング・ロボットのプログラミングを始め、データ科学者が異常検出のパラメーターを理解するのを支援しました。そこで、プログラミングに興味を持つようになりました。

その後、オラクルのセールス・デベロップメント・リプレゼンタティブになり、コーディングに集中する必要性を実感しました。テキサス大学でデータ分析のブートキャンプを受講し、テクノロジー業界、特にデベロッパー・リレーションズに進出することができました。

私は技術的な背景から来ていますので、それが現在の役割に影響しています。開発の経験はありませんでしたが、エンジニアリングの背景を持つ人たちと共感でき、ソフトウェアを学ぼうとしている人たちを支援することができました。したがって、コンテンツを作成したり、技術的なチュートリアルを作成したりするときに、技術的な課題を克服するのを支援することができました。

あなたの仕事は、創造性と技術的専門知識を組み合わせているようです。InfluxDataでの日常の仕事に、データを「美しく」するという情熱をどのように取り入れていますか?

最近は、データ分析よりもデータエンジニアリングに重点を置いています。データ分析にあまり焦点を当てていないですが、数学が好きです。アルゴリズムの背後にある数学を説明する機会があれば、喜んで説明します。

InfluxDBは、時系列データの分野で重要な存在です。オープンソース・コミュニティは、InfluxDBの開発と進化にどのように影響していますか?

InfluxDataは、オープンなデータ・アーキテクチャとApacheエコシステムに強くコミットしています。昨年、InfluxDB 3.0を発表しました。InfluxDB 3.0は、Rustで書かれ、Apache Flight、DataFusion、Arrow、Parquet(FDAPスタックと呼ばれる)で構築されています。InfluxDataのエンジニアがこれらのアップストリーム・プロジェクトに貢献し続けるにつれて、コミュニティが成長し、Apache Arrowのプロジェクトがより使いやすくなり、機能が豊富になり、相互運用性が向上しています。

時系列データとAIの文脈で、最近見たオープンソース・プロジェクトや貢献の中で、最も興味深いものは何ですか?

時系列データにLLM(大規模言語モデル)を適用することが面白いです。Autolabには、オープンソースの時系列言語モデルが収集されています。また、TimeGPTも興味深いプロジェクトです。

さらに、BytewaxやMage.aiなどのオープンソースのストリーム・プロセッシング・ライブラリもあります。これらのライブラリを使用すると、Hugging Faceのモデルを活用して組み込むことができます。

InfluxDataは、オープンソース・イニシアチブを、開発者コミュニティにとって関連性のあるものであり続けるために、どのようにして維持していますか?特に、AIと機械学習の急速な進歩の文脈で?

InfluxDataのイニシアチブは、AIに特化した会社も利用するオープンソース・プロジェクトに貢献することによって、関連性と利益を維持しています。たとえば、InfluxDBがApache Arrow、Parquet、DataFusionに貢献するたびに、Apache Spark、DataBricks、Rapids.ai、Snowflake、BigQuery、HuggingFaceなどの他のAIテクノロジー・会社にも利益をもたらします。

時系列言語モデルは、予測分析でますます重要になっています。これらのモデルが時系列予測と異常検出にどのように影響を与えているか、詳しくお話しください。

時系列言語モデルは、線形モデルや統計モデルを上回り、ゼロショット予測を提供します。つまり、モデルをあなたのデータでトレーニングする必要はありません。さらに、統計モデルを調整する必要もありません。これには、時系列統計の深い知識が必要です。

ただし、自然言語処理とは異なり、時系列分野には、大規模な公開データセットが不足しています。時系列の事前トレーニング済みモデルは、ほとんどの場合、数千個、または数百個のサンプルしか含まない小さなサンプルサイズでトレーニングされています。時系列コミュニティの進歩に貢献したこれらのベンチマーク・データセットですが、サンプルサイズが小さく、汎用性が低いため、深層学習モデルを事前トレーニングする上で課題を提起しています。

これが、オープンソースの時系列言語モデルが難しい理由の1つです。GoogleのTimesFMやIBMのTiny Time Mixersは、数百億のデータ・ポイントを含む大量のデータセットでトレーニングされています。たとえば、TimesFMの事前トレーニング・プロセスは、Google Cloud TPU v3-256で実行され、256個のTPUコアと2テラバイトのメモリを使用します。事前トレーニング・プロセスには約10日かかり、120億パラメータを持つモデルが生成されます。事前トレーニング済みモデルは、下流タスクとデータセットで、より低い学習率とエポック数でファインチューニングされます。

これは、多くの人が、深いドメイン知識を持たなくても、正確な予測を行うことができることを意味します。しかし、計算コストが高いモデルである時系列言語モデルを利用する場合、財務的および環境的なコストを考慮する必要があります。

このHugging Faceのブログ記事には、時系列予測の別の例が記載されています。

時系列言語モデルを従来の方法で使用する場合の主な利点は何ですか?特に複雑なパターンとゼロショット性能の扱いについては?

主な利点は、時系列データでモデルをトレーニングし、再トレーニングする必要がないことです。これにより、オンライン・マシン・ラーニングの問題、つまりモデルのドリフトを監視し、再トレーニングをトリガーする必要がなくなります。理想的には、予測パイプラインの複雑さが排除されます。

また、多変量統計モデルで、クロス・シリーズの相関関係や関係を推定する必要もありません。推定によって追加される分散は、結果として得られる予測を損なう可能性があり、モデルが誤った相関関係を学習する可能性があります。

GoogleのTimesFM、IBMのTinyTimeMixer、AutolabのMOMENTなどのモデルが、現実のシナリオでどのように実装されているか、具体的な例を示してください。

これは難しい質問です。なぜなら、これらのモデルはまだ初期段階にあるため、企業がこれらのモデルを現実のシナリオでどのように使用しているかについてはあまり情報がないからです。

あなたの経験上、組織が時系列言語モデルを既存のデータ・インフラストラクチャに統合するときに直面する一般的な課題は何ですか?それらの課題をどのように克服できますか?

時系列言語モデルはまだ新しいものですので、組織が直面する具体的な課題についてはわかりません。しかし、他のジェネラティブAIモデルをデータ・パイプラインに統合するときと同じ課題に直面する可能性があります。たとえば、次のような課題があります。

  • データの互換性と統合の問題: 時系列言語モデルは、特定のデータ形式、タイムスタンプの一貫性、正規の間隔を必要としますが、既存のデータ・インフラストラクチャは、構造化されていないまたは一貫性のない時系列データを含む可能性があります。レガシーのデータベース、クラウド・ストレージ、またはリアルタイム・ストリームを含むさまざまなシステムに分散している可能性があります。チームは、時系列データを前処理、クリーンアップ、整列するための堅牢なETL(抽出、変換、ロード)パイプラインを実装する必要があります。
  • モデルのスケーラビリティとパフォーマンス: 時系列言語モデル、特にトランスフォーマーなどの深層学習モデルは、時系列データをリアルタイムまたはニア・リアルタイムで処理するために、リソースを大量に消費する可能性があります。チームは、Kubernetesやクラウド管理されたMLサービスなどのスケーラブルなプラットフォームにモデルをデプロイする必要があります。必要に応じてGPUアクセラレーションを活用し、DaskやRayなどの分散処理フレームワークを使用してモデル推論を並列化する必要があります。
  • 解釈可能性と信頼性: 時系列モデル、特に複雑な言語モデルは、「ブラックボックス」と見なされる可能性があり、予測を解釈するのが難しい可能性があります。これは、金融や医療などの規制された業界では特に問題になります。
  • データのプライバシーとセキュリティ: 時系列データの取り扱いには、IoTセンサー・データや金融取引データなどの機密情報が含まれる可能性があります。したがって、データのセキュリティとコンプライアンスを確保することが重要です。組織は、データ・パイプラインとモデルがベスト・プラクティスに従っており、暗号化とアクセス・コントロールが適切に実装されていることを確認する必要があります。さらに、モデルをセキュアな分離された環境でデプロイする必要があります。

将来的に、時系列言語モデルが予測分析とAIの分野でどのように進化すると思いますか?特に興味があるトレンドやテクノロジーはありますか?

時系列言語モデルの進化の可能な次のステップは、ユーザーがこれらのモデルをより簡単にデプロイ、使用できるようにするツールを提供することです。私が使用した時系列言語モデルの多くは、特定の環境を必要とし、チュートリアルやドキュメントが不足しています。ただし、これらのプロジェクトはまだ初期段階にありますが、来るべき月や年でどのように進化するかを見てみるのは興味深いことです。

素晴らしいインタビュー、ありがとうございました。読者がもっと学びたい場合は、InfluxDataを訪問してください。

アントワーヌは、Unite.AIのビジョナリーレーダーであり共同創設者であり、AIとロボティクスの未来を形作り推進することに尽力しています。シリアルエントレプレナーである彼は、AIが電気と同様に社会に大きな変化をもたらすと信じており、破壊的な技術とAGIの可能性について語ることがよくあります。

彼はフューチャリストとして、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼はSecurities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。