スタブ Ram Sriharsha 博士、Pinecone エンジニアリング担当副社長 - インタビュー シリーズ - Unite.AI
私達と接続

記事執筆

Pinecone エンジニアリング担当副社長、Ram Sriharsha 博士 – インタビュー シリーズ

mm

公開済み

 on

Ram Sriharsha 博士は、Pinecone のエンジニアリングおよび研究開発担当副社長です。

Pinecone に入社する前、Ram は Yahoo、Databricks、Splunk で副社長の役割を務めていました。 Yahoo では主任ソフトウェア エンジニアであり、その後研究科学者でもありました。 Databricks では、ゲノミクス用の統合分析プラットフォームの製品およびエンジニアリングのリーダーを務めました。 そして、Splunk での XNUMX 年間で、上級主任科学者、エンジニアリング担当副社長、優秀エンジニアなど、複数の役割を果たしました。

松毬 は、運用アプリケーションにベクトル検索を簡単に追加できる、フルマネージドのベクトル データベースです。 ベクトル検索ライブラリ、フィルタリングなどの機能、分散インフラストラクチャを組み合わせて、あらゆる規模で高いパフォーマンスと信頼性を提供します。

最初に機械学習に惹かれたのは何ですか?

高次元の統計学、学習理論、そのようなトピックが私を機械学習に引きつけたものでした。 これらは数学的に明確に定義されており、推論することができ、学習の意味や効率的に学習できるアルゴリズムの設計方法についていくつかの基本的な洞察を提供します。

以前は、可観測性、IT、セキュリティなどのためにデータをアクションに変えるデータ プラットフォームである Splunk のエンジニアリング担当副社長を務めていました。 この経験から得た重要な点は何でしょうか?

Splunk にたどり着くまで、エンタープライズ サーチのユース ケースがどれほど多様であるかは知りませんでした。人々は、無数のユース ケースの中でも、ログ分析、可観測性、セキュリティ分析に Splunk を使用しています。そして、これらのユースケースの多くに共通しているのは、非構造化データ内の類似したイベントまたは非常に似ていない (または異常な) イベントを検出するというアイデアです。これは難しい問題であることが判明し、そのようなデータを検索する従来の手段はあまり拡張性がありません。 Splunk に在籍していた間、私はログ マイニングやセキュリティ分析などに機械学習 (およびディープ ラーニング) をどのように使用できるかについて、これらの分野の研究を開始しました。その研究を通じて、ベクトル埋め込みとベクトル検索が最終的には次のようなものになることに気づきました。これらの領域への新しいアプローチの基本的なプリミティブです。

ベクトル検索とは何なのか説明していただけますか?

従来の検索 (キーワード検索とも呼ばれます) では、クエリとドキュメント (ツイート、Web ドキュメント、法的文書など) の間で一致するキーワードを探します。 これを行うには、クエリをトークンに分割し、指定されたトークンを含むドキュメントを取得し、結合してランク付けして、指定されたクエリに最も関連性の高いドキュメントを決定します。

もちろん、主な問題は、関連性の高い結果を得るには、クエリでドキュメント内にキーワードが一致する必要があることです。 従来の検索の典型的な問題は、「pop」を検索すると、「pop music」には一致しますが、「soda」などには一致しません。これは、「pop」と「soda」を含むドキュメントの間にキーワードの重複がないためです。米国の多くの地域では口語的に「ポップ」が「ソーダ」と同じ意味であることはわかっていますが。

ベクトル検索では、クエリとドキュメントの両方を高次元空間のベクトルに変換することから始めます。 これは通常、OpenAI の LLM や他の言語モデルなどの深層学習モデルにテキストを渡すことによって行われます。 結果として得られるのは、高次元空間のベクトルとして考えることができる浮動小数点数の配列です。

中心的な考え方は、この高次元空間内の近くのベクトルも意味的に類似しているということです。 「ソーダ」と「ポップ」の例に戻ると、モデルが適切なコーパスでトレーニングされている場合、モデルは「ポップ」と「ソーダ」が意味的に類似しているとみなされる可能性が高く、そのため対応する埋め込みは互いに近くなります。埋め込みスペース。 その場合、特定のクエリに対して近くのドキュメントを取得することは、この高次元空間内で対応するクエリ ベクトルの最近傍を検索するという問題になります。

ベクトル データベースとは何なのか、またそれによってどのように高性能のベクトル検索アプリケーションの構築が可能になるのかについて説明していただけますか?

ベクトル データベースは、これらの埋め込み (またはベクトル) を保存、インデックス付け、管理します。 ベクトル データベースが解決する主な課題は次のとおりです。

  • 最近傍クエリに答えるためにベクトルに対して効率的な検索インデックスを構築する
  • 効率的な補助インデックスとデータ構造を構築してクエリ フィルタリングをサポートします。 たとえば、コーパスのサブセットのみを検索したい場合、既存の検索インデックスを再構築せずに利用できるはずです。

効率的な更新をサポートし、データと検索インデックスの両方を最新、一貫性、耐久性などに保ちます。

Pinecone で使用される機械学習アルゴリズムにはどのような種類がありますか?

私たちは通常、近似最近傍検索アルゴリズムに取り組んでおり、可能な限りコスト効率の高い方法で大量のデータを効率的に更新、クエリなどで処理するための新しいアルゴリズムを開発しています。

また、検索の関連性を向上させるために、密な検索と疎な検索を組み合わせたアルゴリズムにも取り組んでいます。

 スケーラブルな検索を構築する背後にある課題にはどのようなものがありますか?

近似最近傍検索は何十年にもわたって研究されてきましたが、解明されていないことがまだたくさんあると私たちは考えています。

特に、コスト効率の高い大規模な最近傍検索の設計、大規模な効率的なフィルタリングの実行、または大量の更新と一般に新しいインデックスをサポートするアルゴリズムの設計は、現在すべて困難な問題です。

このテクノロジーを使用できるさまざまなタイプのユースケースにはどのようなものがありますか?

ベクター データベースのユースケースの範囲は日に日に増加しています。 セマンティック検索での使用とは別に、画像検索、画像検索、生成 AI、セキュリティ分析などでも使用されていることがわかります。

検索の将来に対するビジョンは何ですか?

検索の将来は AI 主導になると思いますが、それはそれほど遠くないと思います。 その将来においては、ベクトル データベースがコア プリミティブになると期待しています。 私たちはベクトル データベースを AI の長期記憶 (または外部知識ベース) として考えることを好みます。

素晴らしいインタビューをありがとうございました。さらに詳しく知りたい読者は、こちらをご覧ください。 松毬.

Unite.AI の創設パートナーであり、 フォーブステクノロジー評議会、 アントワーヌさんは、 未来派 AI とロボット工学の未来に情熱を持っている人。

彼はの創設者でもあります 証券.io、破壊的テクノロジーへの投資に焦点を当てたウェブサイト。