スタブ Jay Mishra 氏、Astera Software COO - インタビュー シリーズ - Unite.AI
私達と接続

記事執筆

Astera Software 社 COO、Jay Mishra – インタビュー シリーズ

mm
更新中 on

ジェイ・ミシュラは、最高執行責任者 (COO) です。 Astera Softwareは、エンタープライズ対応のデータ ソリューションを提供する急成長中のプロバイダーです。 これらは、中堅企業とフォーチュン 500 企業の両方で使用されている、ユーザーフレンドリーでありながら高性能のデータ抽出、データ品質、データ統合、データ ウェアハウジングおよび電子データ交換ソリューションのスイートによって、ビジネス ユーザーがデータとインサイトのギャップを埋めるのに役立ちます。幅広い業界にわたって。

最初にコンピューター サイエンスに惹かれたのは何ですか?

私は常に数学に対して根深い情熱を持っており、コンピューター サイエンスへの道への道はその自然な延長でした。 私の学部教育は数学とコンピューターサイエンスでしたが、数学の世界からコンピューターサイエンスの領域への論理的な展開に魅了されました。 特に私の注意を引いたのは、アルゴリズムの複雑な仕組みと高度なアルゴリズム プロセスであり、それが私をコンピュータ サイエンスの修士課程でアルゴリズムの専門分野に追い込むきっかけになりました。 それ以来、私とコンピューター サイエンスとのつながりは今も強く、この分野の最新の発展を常に把握できるように努めています。

あなたは現在 Astera の COO を務めていますが、日々の役割について教えていただけますか?

Astera の COO としての私の役割は、当社のダイナミックな性質を反映して多面的です。 私は Astera の設立当初から在籍しており、私の責任は組織のさまざまな領域に及びます。 これには、製品の開発とコーディングに積極的に貢献することから、当社の機能がお客様の進化するニーズに確実に一致するようにすることまで、すべてが含まれます。 私はお客様と緊密に連携し、ソリューションを改良するために協力しています。 私の役割は単なる製品開発を超えて、製品を市場に投入する販売とマーケティングにまで及びます。

当社は成長段階にあるため、収益目標の監督や、新しい市場に参入するための製品ポートフォリオの戦略的拡大など、追加の責任を引き受けることになりました。 基本的に、私は当社の業務のほぼすべての側面に関与しており、優れた製品を開発するだけでなく、それらを市場に投入してビジネス目標を達成できるようにします。

この用語に馴染みのない読者のために説明すると、データ ウェアハウジングとは何ですか?

データ ウェアハウジングは、すべての企業データを一元的なリポジトリに統合するために使用されるアーキテクチャ パターンです。このリポジトリは、ビジネスの真の姿を示すさまざまな種類の分析、レポート、ダッシュボードを生成するための基盤として機能します。また、ビジネスが将来どのように推移するかを予測します。 これらすべてに対応するには、データを特定の方法でまとめます。そのアーキテクチャはデータ ウェアハウスと呼ばれます。

この用語は、実際には、製品が整理された棚に保管されている実際の倉庫から取られています。 しかし、データの世界に来ると、さまざまなソースからデータを持ち込むことになります。 生産、Web サイト、顧客、販売およびマーケティング、財務、人事部門からデータを持ち込んでいます。 すべてのデータをまとめて XNUMX か所にまとめます。これはデータ ウェアハウスと呼ばれるもので、特にタイムラインに基づいたレポート作成が簡単になるように、特定の方法で設計されています。 それがデータ ウェアハウスの中心的な目的です。

今日のデータ ウェアハウジングの主要なトレンドにはどのようなものがありますか?

データ ウェアハウジングは、過去 20 ~ 25 年でかなり進化しました。 約 XNUMX 年前、私たちは自動化されたデータ ウェアハウジングの出現を目撃しました。これは、データ モデルとデータ ウェアハウスの構築プロセスを加速するパラダイム シフトです。 最近では自動化が中心的な役割を果たしています。 データ ウェアハウジング タスクの反復的な性質に対処し、プロセスを合理化して時間とリソースを節約します。

私たちの商品、 アステラ データ ウェアハウス ビルダーたとえば、データ ウェアハウジングの自動化に対する総合的なアプローチを提供します。 ETL (抽出、変換、ロード) パイプラインとデータ モデリングの自動化から、スター スキーマやデータ ボールトなどの構造へのデータの自動ロードまで、あらゆるものをカバーします。 さらに、変更データ キャプチャ (CDC) メカニズムを通じてこれらの構造を効率的に維持します。 この包括的な自動化は、データ ウェアハウジングの分野における重要なトレンドとして浮上しています。

さらに、最新のトレンドは、データ ウェアハウジングと人工知能 (AI) の融合です。 具体的には、生成 AI によって自動化が新たな高みに到達しました。 タスクを自動化するだけでなく、ユーザーの意思決定も支援します。

データ ウェアハウジングのコンポーネント、パイプライン、意思決定ポイントの構成を AI によってガイドできるため、データ ウェアハウジングがこれまで以上に強力かつ効率的になります。 本質的に、これは強力な自動化であり、データ ウェアハウジングの状況を変革しています。 AI とデータ ウェアハウスの交差点は、将来に大きな期待をもたらすトレンドです。

企業がデータ ウェアハウス開発のために考慮すべき XNUMX つの基本原則は何ですか?

1. 明確な目標を定義する

データ ウェアハウスに何が必要かを正確に理解することから始めることが重要です。 明確な目的なしに過剰なデータを収集するというよくある落とし穴を避けてください。 代わりに、データ ウェアハウスで達成したい具体的な目標を特定します。 どのようなレポートや洞察を求めていますか? 目標に焦点を当てることで、膨大な量の情報を無差別に蓄積するのではなく、関連性のあるデータのみを確実に取り込むことができます。 ストレージとコンピューティング能力のコストが低下していることを考えると、これらのリソースをインテリジェントかつ倫理的に利用することが重要です。

2. 適切なアーキテクチャ パターンの選択

アーキテクチャのパターンは非常に重要です。 データ ウェアハウジング ソリューションが成功するかどうかは、彼らによって決まります。 Inmon スタイルのデータ ウェアハウジングから Ralph Kimball のスター スキーマに至るまで、さまざまなオプションがあります。さらに、Data Vault やカラムナ データベース ベンダーが提唱する XNUMX つの大きなテーブル アプローチなどの新しいパターンもあります。 すべてのパターンがすべてのシナリオに適しているわけではありません。

私たちは主に、スター スキーマの組み合わせがデータ ボルトの最上位に存在していることを確認しています。 そのため、Data Vault とスター スキーマの組み合わせが依然として最も広く使用されているパターンです。 ただし、先ほども述べたように、要件やシナリオごとに異なる答えが存在します。 したがって、専門家に相談して、どのアーキテクチャ パターンが自分のシナリオに適しているかを確認してください。

3. 適切なツールの選択

これらは非常に重要であり、ソリューションの構築に必要な時間とソース、さらにはソリューションの構築に使用する製品によって決まるソリューションの精度と品質に大きな違いをもたらします。データ ウェアハウスを管理し、それを維持します。 製品の機能に十分な注意を払い、ほとんどの要件を XNUMX つの傘下に収めることができる製品に注目してください。 ETL (抽出、変換、ロード)、データ品質、データモデリング、データロード、データパブリッシングなどの特定の領域がすべて重要な役割を果たします。 これらの領域ごとに複数の製品を使用しようとすると、困難になります。 したがって、さまざまな構成要素のすべてではないにしても、ほとんどの機能に使用できる製品を見てください。

4. あなたのチーム

最後になりましたが、データ ウェアハウス ソリューションを構築するために編成するチームは最も重要な部分です。 データ アーキテクチャ パターンに精通した専門家に担当してもらうことをお勧めします。 チーム構成に関して言えば、部門を超えたチームが最適な方法です。このチームでは、ビジネス ユーザーと、プログラミングの背景を持つ人、または少なくともデータの専門知識を持つ人が混在し、データ管理者とデータ管理者の間で緊密に連携できます。データともちろんビジネスを担当しています。 組織のこれらのさまざまな側面間の緊密な協力を促進することで、データ ウェアハウジング ソリューションの構築と保守を担当する、結束力のある効果的なチームを作成できます。

データ ウェアハウジングの成功は、これら XNUMX つの原則の間のバランスを達成できるかどうかにかかっています。 これらの原則に注意深く従えば、私たちの経験から成功への秘訣であることが証明されています。

なぜ企業は最新のデータスタックを必要とするのでしょうか?

それは私たちがどのように定義するかによって異なります "モダンな" そしてそれは、時には年ごと、月ごと、さらには日ごとに変化し続けます。データの状況の変化を念頭に置いて設計された最新のツールセットを考慮する必要があります。過去数年間で、データの性質と量に大きな変化が見られました。ビッグ データの台頭により、e コマース Web サイト、実稼働データベース、ビジネスのさまざまな部分などのソースからデータが流入し、データの状況が一変しました。このデータは量だけでなく、その性質そのものも変化しています。

以前はデータはほとんどが構造化されていましたが、現在では非構造化データが重要な役割を果たしています。さらに、データが生成されて使用可能になる速度も速くなりました。このようなデータの変化を考慮すると、進化するデータの課題に効果的に対処するには、ツールセットを継続的に評価して適応させる必要があります。

最新のデータ スタックは、データの構造と速度のあらゆる変化に対応できるように設計されており、過去数年間で進化した新たなアーキテクチャ パターンに適応する機能が十分に備えられています。 したがって、データを最大限に活用したい場合は、データ スタックの最新化を検討する必要があります。 それが、新たなデータの課題に対処し続ける唯一の方法です。

私たちは、企業がうまく機能しているように見える既存のソリューションに固執しているのを見てきました。 データ自体は本質的に動的であることを認識することが重要です。 それは継続的に進化し、新たな課題と機会をもたらします。 既存のソリューションには、これらの変化に適応する機能が備わっていない可能性があります。 したがって、データの可能性を最大限に活用するには、企業はデータ スタックを最新化するという概念を受け入れる必要があります。 それは機能しているものを壊すことではありません。 それは、俊敏性を維持し、進化するデータの性質に対応することです。 データ テクノロジーの進歩を継続的に評価し、統合することで、企業は競争力を維持し、ますますデータ主導型になる世界において情報に基づいた意思決定を行うことができます。

業界で見られる現在のデータ管理の課題にはどのようなものがありますか?

1. データの速度と統合

私たちが現在直面している大きな課題の XNUMX つは、さまざまなアプリケーションから流入する膨大な量のデータです。 典型的な IT 組織を例に挙げると、特に中規模の組織では、毎年数十、場合によっては数百もの、常に出現する新しいアプリに対処しています。

現在、これらすべてのアプリはデータを生成し、そのデータには貴重な洞察が含まれています。 ここでの主な関心事は、これらの新しいデータ ソースを既存のデータ パイプラインに迅速に統合し、それらを統合されたビューに統合できるかどうかです。 組織がこれらの新しいデータ ストリームに適応して組み込む速度が、私たちが認識している最大の課題です。

2. さまざまなデータ形式

もう XNUMX つの重大な課題は、データ自体の性質、特に非構造化データの普及の増加に起因しています。 非構造化データの場合、当然のことながら、その処理方法についてはさまざまな考え方があります。

組織は、このデータを後で使用できるようにデータ レイクに直接保存するか、すぐに使用できるように抽出してより構造化された形式に変換するかを決定する必要があります。 非構造化データをどのように扱うかという課題は依然として残っており、中堅企業や中小企業さえもその影響を受けていることがわかります。 したがって、非構造化データを処理するための効果的な戦略を考案することが不可欠です。

3. データの公開と共有

データの統合と統合は重要ですが、データを効果的に共有する機能も同様に重要です。 組織には、内部部門、サードパーティ ベンダー、パートナー、その他の関係者にデータを公開および配布するためのメカニズムが必要です。 この課題は、単にデータにアクセスできるようにするだけではありません。 これには、データのセキュリティ、プライバシー、規制の順守を確保することが含まれます。 あらゆる規模の企業にとってデータ共有が必要になるにつれ、この分野のテクノロジーと製品は需要を満たすために急速に進化しています。

Astera が AI を顧客のワークフローに統合した方法にはどのようなものがありますか?

私たちは AI とデータ管理を XNUMX つの異なる方法で捉えています。

1. 生成AIによるユーザビリティの向上

使いやすさに対する当社の深い取り組みは、当社の製品開発哲学の基礎です。 過去 12 ~ 13 年にわたって、当社は、技術者以外のユーザーでも利用できるよう、学習曲線が短く、製品を設計できるという高い評判を築いてきました。 適度なトレーニングを行うだけで、個人は当社の製品を効果的に利用して、データを使用して有意義なタスクを実行できるようになります。

生成 AI の導入により、Astera は使いやすさを次のレベルに引き上げました。 私たちは生成 AI を利用して、顧客が自然言語コマンドを使用して製品と対話できるユーザー インターフェイスを作成しました。 この AI 主導のインターフェイスにより、構成タスクが簡素化され、ユーザーにとってより直観的で効率的なものになります。

さらに、Astera は、特にデータ管理製品の構成において、以前は数時間の手作業が必要だったタスクを処理するために、AI を活用した自動化を統合しました。 データ管理ソリューションの構築における最大のコスト要因は、単に製品を購入することではなく、その構成に費やされる時間と労力でした。 私たちはAIを使ってそれに対処しようとしました。 このアプローチにより、従来製品の構成に費やされていた時間とリソースが大幅に削減されます。

アステラの製品を例に挙げると、 レポートマイナーでは、ユーザーがルールに基づいて抽出テンプレートを作成できるため、非構造化ドキュメントからのデータの抽出が簡素化されます。 AI は、これまで一般的なユーザーにとって 90 ~ XNUMX 時間かかっていた作業である初期テンプレートを数秒で生成できるようになりました。 AI によって生成されたテンプレートの最初の部分は完璧ではないかもしれませんが、ワークロードの約 XNUMX% が処理されるため、ユーザーは迅速な調整を行って、数時間ではなく数分でタスクを完了できます。 このアプローチは、Astera が AI を活用して製品全体のユーザビリティを向上させる方法の一例にすぎません。

私たちはデータスタック全体で同様のことを行っており、人工知能を使用して使いやすさを大幅に向上させています。

2. ツールセットとしての AI 機能

Astera は、取り込み、変換、データ品質、データ ウェアハウジング、API、データ公開などのデータ管理のさまざまな側面をカバーする統合データ スタックを提供します。同社は、ユーザーに汎用性の高いツールセットとして AI 機能を提供することの重要性を認識しています。このツールセット内で、Astera の顧客は、機械学習モデルの構築とデプロイから ML Ops (機械学習オペレーション) の処理に至るまで、データ サイエンスの領域全体にわたって AI にアクセスできます。 Astera は、大規模言語モデル (LLM) を含むオープンソース ベースのモデルの使用もサポートしており、特定のユースケースに合わせた微調整を容易にします。

この広範な AI 機能により、Astera のユーザーは、機械学習モデルのデプロイ、ML Ops の実装、オープンソース モデルの微調整など、さまざまなデータ関連タスクに AI を活用できるようになります。 さらに、Astera は、ベクトル データベース、類似性検索、埋め込みなどの領域を網羅する AI サポートの拡大に​​継続的に取り組んでいます。

大企業のデータ管理で AI および ML モデルを活用するためのベスト プラクティスにはどのようなものがありますか?

1. AI および ML 開発の最前線に留まる

大規模言語モデルの分野は急速に進化しています。 競争力を高めるために、大企業は常に最新の進歩についての情報を得る必要があります。 たとえば、Astera は、OpenAI や LAMA などのモデルを利用して、生成 AI を早期に採用しました。 新しいテクノロジーを継続的に監視することで、それらを効果的に活用するための準備が整っていることが保証されます。

2. 複数のモデルと構成を試してみる

LLMS の微調整を使用することで、8 ~ 13 億のパラメーター モデルなどの小さなサイズをローカルに展開することができました。 これは私たちにとって非常にうまく機能したものであり、私たちが推奨しているのは、一方を他方と比較して使用するのではなく、さまざまな基本モデルとさまざまな構成を試して、どちらが効果的かを確認することです。

大規模な言語モデルにはさまざまな種類があり、それぞれに独自の機能があります。 開発者やデータ サイエンティストがデータ サイエンスの取り組みで行っていることを反映して、幅広いオプションから選択できる構成を作成します。

ユーザーに力を与えるために、開発者やデータ サイエンティストがデータ駆動型の取り組みでオープンソース ライブラリを使用するときに遭遇するものと同様の、広範なオプションを提供する構成システムを作成しました。 私たちの目標は、これらのオプションを製品にシームレスに統合し、ユーザーにとって動的で適応性のあるエクスペリエンスを促進することでした。

3. API よりもローカル デプロイを優先する

データ中心の製品を扱う場合、遅延を減らすことが最も重要です。 AI および ML モデルへのアクセスを API のみに依存すると、特に大量のデータを処理する場合に、許容できない遅延が発生する可能性があります。 特定のシナリオ専用の、微調整されたモデルをローカルにデプロイすることを優先することをお勧めします。 このアプローチにより、応答時間と全体的なパフォーマンスが大幅に向上します。

Astera が競合プラットフォームよりも優れたソリューションであるのはなぜですか?

  • Astera のソリューションは、コード不要の直感的で視覚的なインターフェイスと、AI を活用した使いやすさの強化を備えており、技術的能力に関係なく、すべてのユーザーが複雑なデータ プロセスを簡単に実行できます。
  • データ スタックの自動化機能により、反復可能な手動タスクが削減され、時間と開発リソースが節約されます。
  • 当社の統合プラットフォームは、ユーザーがソリューションを切り替えることなくエンドツーエンドのデータプロセスを実行できるように支援します。 これにより、複数のサイロ化されたシステムの学習と管理にかかるコストが削減されます。

素晴らしいインタビューをありがとうございました。さらに詳しく知りたい読者は、こちらをご覧ください。 Astera Software.

Unite.AI の創設パートナーであり、 フォーブステクノロジー評議会、 アントワーヌさんは、 未来派 AI とロボット工学の未来に情熱を持っている人。

彼はの創設者でもあります 証券.io、破壊的テクノロジーへの投資に焦点を当てたウェブサイト。