AI 101
ベクトル類似検索とは何か、そしてどのように有用なのか?

現代のデータ検索は複雑なドメインです。ベクトル類似検索、またはVSSは、データをコンテキストの深さで表現し、検索クエリに対して消費者により関連のある情報を返します。簡単な例を取り上げましょう。
「データサイエンス」と「サイエンスフィクション」のような検索クエリは、「サイエンス」という単語を共有しているにもかかわらず、異なるタイプのコンテンツを参照しています。伝統的な検索手法は、共通のフレーズを一致させることで関連する結果を返しますが、この場合には不正確な結果になります。ベクトル類似検索は、実際の検索意図とこれらの検索クエリの意味を考慮して、より正確なレスポンスを返します。
この記事では、ベクトル類似検索のさまざまな側面、たとえばそのコンポーネント、課題、利点、ユースケースについて議論します。始めましょう。
ベクトル類似検索(VSS)とは何か?
ベクトル類似検索は、データを数値的な表現であるベクトルまたは埋め込みに変換することで、大規模な構造化または非構造化データコレクションからコンテキスト的に類似した情報を見つけ、取得します。
VSSは、数値、カテゴリ、テキスト、画像、ビデオなどのさまざまなデータ形式を処理できます。データコーパス内の各オブジェクトを、関連する形式に対応する高次元ベクトル表現に変換します(次のセクションで説明します)。
最も一般的には、VSSは、類似したフレーズや段落、または膨大な画像検索システム内の関連画像を見つけます。アマゾン、eBay、Spotifyなどの大手消費者企業は、このテクノロジーを使用して、数百万のユーザーの検索結果を改善しています。つまり、ユーザーが最も購入したり、見たり、聞いたりする可能性のある関連コンテンツを提供するのです。
ベクトル類似検索の3つの主要コンポーネント
ベクトル類似検索の仕組みを理解する前に、その主要コンポーネントを見てみましょう。主に、VSSメソッドを実装するために3つの重要なコンポーネントがあります:
- ベクトル埋め込み: 埋め込みは、さまざまなデータタイプを数学的な形式で表現します。つまり、順序付きの配列または数字のセットです。数学的な計算を使用して、データ内のパターンを特定します。
- 距離または類似性メトリック: これらは、2つのベクトルがどれほど類似しているか、または密接に関連しているかを計算する数学的な関数です。
- 検索アルゴリズム: アルゴリズムは、与えられた検索クエリに類似したベクトルを見つけるのに役立ちます。たとえば、K-Nearest NeighborsまたはKNNアルゴリズムは、VSSを使用した検索システムで、入力クエリに最も類似したK個のベクトルをデータセット内で決定するために頻繁に使用されます。
これで、これらのコンポーネントが検索システムでどのように機能するかを見てみましょう。
ベクトル類似検索の仕組み
ベクトル類似検索を実装する最初のステップは、データコーパス内のオブジェクトをベクトル埋め込みとして表現または記述することです。GloVe、Word2vec、BERTなどのさまざまなベクトル埋め込み方法を使用して、オブジェクトをベクトル空間にマップします。
各データ形式(テキスト、オーディオ、ビデオなど)に対して、VSSは異なる埋め込みモデルを構築しますが、このプロセスの結果は数値配列表現になります。
次のステップは、これらの数値表現を使用して、類似したオブジェクトをまとめて配置できるインデックスを作成することです。KNNなどのアルゴリズムは、検索類似性を実装する基礎として機能します。ただし、類似した用語をインデックス化するために、検索システムは、局所感度ハッシュや近似最近隣居などの現代的なアプローチを使用します。
さらに、VSSアルゴリズムは、ユーザーが検索クエリを送信したときに、データコレクション内のすべてのベクトル表現を比較して、類似したコンテンツを返すために、ユークリッド距離、コサイン類似度、ジャッカード類似度などの類似度または距離尺度を計算します。
ベクトル類似検索の主な課題と利点
全体として、目標は、データオブジェクト間の共通の特徴を見つけることです。ただし、このプロセスには、いくつかの潜在的な課題があります。
ベクトル類似検索の主な課題
- 異なるベクトル埋め込み技術と類似性尺度は、異なる結果をもたらします。類似検索システムの適切な構成を選択することが主な課題です。
- 大規模なデータセットの場合、VSSは計算コストが高く、高性能のGPUが必要です。
- 次元数が多いベクトルは、データの真正の構造と接続を正確に表現できない可能性があります。したがって、ベクトル埋め込みプロセスは損失なしで行われる必要がありますが、これは課題です。
現在、VSSテクノロジーは継続的に開発および改良されています。ただし、検索体験の向上にはまだ多くの利点があります。
ベクトル類似検索の利点
- VSSにより、検索システムは、さまざまなデータタイプで類似したオブジェクトを非常に高速に検索できます。
- VSSにより、メモリ管理が効率的になります。すべてのデータオブジェクトを数値埋め込みに変換することで、機械が簡単に処理できるようになります。
- VSSは、システムが前に遭遇したことのない新しい検索クエリに対してオブジェクトを分類できます。
- VSSは、不完全なデータや不完全なデータを処理するための優れた方法です。完全に一致するものでなくても、コンテキスト的に類似したオブジェクトを見つけることができます。
- 最も重要なのは、関連オブジェクトをスケール(可変データボリューム)で検出およびクラスタリングできることです。
ベクトル類似検索の主なビジネスユースケース
商業ビジネスでは、VSSテクノロジーは、さまざまな業界やアプリケーションを革命的に変える可能性があります。以下は、そのようなユースケースのいくつかです:
- 質問回答: ベクトル類似検索は、Q&Aフォーラム内のほぼ同一の関連質問を見つけることができ、エンドユーザーにとってより正確で関連性のある回答を提供できます。
- セマンティックWeb検索: ベクトル類似検索は、Webページやドキュメントを「ベクトル表現の近さ」に基づいて関連付けることができ、Web検索結果の関連性を高めることを目指しています。
- 製品の推奨: ベクトル類似検索は、消費者の閲覧履歴または検索履歴に基づいて、パーソナライズされた製品の推奨を行うことができます。
- ヘルスケアの改善: ヘルスケアの研究者や実践者は、関連する医療研究のベクトル表現を分析することで、ベクトル類似検索を使用して臨床試験を最適化しています。
今日では、従来のSQLベースの手法でデータを管理、分析、検索することは実行可能ではありません。インターネットの消費者は、人間にとっては見かけ上簡単ですが、機械(検索エンジン)にとっては非常に複雑なクエリをWebで送信しています。機械がさまざまな形式のデータを機械が理解できる形式で解釈することは、長年の課題です。
ベクトル類似検索により、検索システムは商業情報のコンテキストをよりよく理解できるようになります。
もっとインサイトのあるAI関連コンテンツを読みたい場合は、unite.aiを訪れてください。












