Connect with us

AI 101

Vector Similarity Search là gì & Làm thế nào nó có ích?

mm
vector-similarity-search

Tìm kiếm dữ liệu hiện đại là một lĩnh vực phức tạp. Tìm kiếm tương tự vector, hoặc VSS, đại diện cho dữ liệu với độ sâu ngữ cảnh và trả về thông tin liên quan hơn cho người tiêu dùng để trả lời một truy vấn tìm kiếm. Hãy lấy một ví dụ đơn giản.

Truy vấn tìm kiếm như “khoa học dữ liệu” và “khoa học viễn tưởng” đề cập đến các loại nội dung khác nhau mặc dù cả hai đều có một từ chung (“khoa học”). Một kỹ thuật tìm kiếm truyền thống sẽ khớp các cụm từ chung để trả về kết quả liên quan, điều này sẽ không chính xác trong trường hợp này. Tìm kiếm tương tự vector sẽ xem xét ý định tìm kiếm thực sự và ý nghĩa của các truy vấn tìm kiếm này để trả về một phản hồi chính xác hơn.

Bài viết này sẽ thảo luận về các khía cạnh khác nhau của tìm kiếm tương tự vector, chẳng hạn như các thành phần, thách thức, lợi ích và trường hợp sử dụng. Hãy bắt đầu.

Vector Similarity Search (VSS) là gì?

Tìm kiếm tương tự vector tìm và truy xuất thông tin tương tự về mặt ngữ cảnh từ các bộ sưu tập lớn của dữ liệu có cấu trúc hoặc không có cấu trúc bằng cách chuyển đổi nó thành các biểu diễn số được gọi là vector hoặc embeddings.

VSS có thể quản lý nhiều định dạng dữ liệu, bao gồm số, danh mục, văn bản, hình ảnh và video. Nó chuyển đổi mỗi đối tượng trong một bộ sưu tập dữ liệu thành một biểu diễn vector cao chiều tương ứng với định dạng liên quan (được thảo luận trong phần tiếp theo).

Phổ biến nhất, VSS tìm các đối tượng có thể so sánh, chẳng hạn như cụm từ hoặc đoạn văn tương tự, hoặc tìm hình ảnh liên quan trong các hệ thống truy xuất hình ảnh khổng lồ. Các công ty tiêu dùng lớn như Amazon, eBay và Spotify sử dụng công nghệ này để cải thiện kết quả tìm kiếm cho hàng triệu người dùng, tức là cung cấp nội dung liên quan mà người dùng có thể muốn mua, xem hoặc nghe.

Three Main Components của Vector Similarity Search

Trước khi chúng ta hiểu tìm kiếm tương tự vector hoạt động như thế nào, hãy xem các thành phần chính của nó. Chủ yếu, có ba thành phần thiết yếu để thực hiện một phương pháp VSS hiệu quả:

  1. Vector embeddings: Embeddings đại diện cho các loại dữ liệu khác nhau trong một định dạng toán học, tức là một mảng hoặc tập hợp số có thứ tự. Chúng xác định các mẫu trong dữ liệu bằng cách sử dụng các tính toán toán học.
  2. Distance hoặc similarity metrics: Đây là các hàm toán học tính toán sự tương tự hoặc liên quan giữa hai vector.
  3. Search algorithms: Các thuật toán giúp tìm các vector tương tự với một truy vấn tìm kiếm nhất định. Ví dụ, K-Nearest Neighbors hoặc KNN algorithm thường được sử dụng trong các hệ thống tìm kiếm được VSS kích hoạt để xác định K vector trong một tập dữ liệu mà tương tự nhất với một truy vấn đầu vào.

Bây giờ, hãy thảo luận về cách các thành phần này hoạt động trong một hệ thống tìm kiếm.

Tìm kiếm tương tự vector hoạt động như thế nào?

Bước đầu tiên trong việc thực hiện tìm kiếm tương tự vector là đại diện hoặc mô tả các đối tượng trong bộ sưu tập dữ liệu dưới dạng vector embeddings. Nó sử dụng các phương pháp embeddings vector khác nhau, chẳng hạn như GloVe, Word2vec, và BERT, để ánh xạ các đối tượng vào không gian vector.

Đối với mỗi định dạng dữ liệu, như văn bản, âm thanh và video, VSS xây dựng các mô hình embeddings khác nhau, nhưng kết quả cuối cùng của quá trình này là một biểu diễn mảng số.

Bước tiếp theo là tạo một chỉ mục có thể sắp xếp các đối tượng tương tự cùng nhau bằng cách sử dụng các biểu diễn số này. Một thuật toán như KNN đóng vai trò là nền tảng cho việc thực hiện tìm kiếm tương tự. Tuy nhiên, để chỉ mục các thuật ngữ tương tự, các hệ thống tìm kiếm sử dụng các phương pháp hiện đại, chẳng hạn như Locality Sensitive Hashing (LSH)Approximate Nearest Neighbor (ANNOY).

Ngoài ra, các thuật toán VSS tính toán một biện pháp tương tự hoặc khoảng cách, chẳng hạn như khoảng cách Euclidean, tương tự cosine hoặc tương tự Jaccard, để so sánh tất cả các biểu diễn vector trong bộ sưu tập dữ liệu và trả về nội dung tương tự để trả lời một truy vấn người dùng.

Thách thức & Lợi ích chính của Tìm kiếm tương tự vector

Tổng thể, mục tiêu là tìm các đặc征 chung giữa các đối tượng dữ liệu. Tuy nhiên, quá trình này trình bày một số thách thức tiềm năng.

Thách thức chính của việc Thực hiện VSS

  • Các kỹ thuật embeddings vector và các biện pháp tương tự khác nhau trình bày các kết quả khác nhau. Việc chọn các cấu hình phù hợp cho các hệ thống tìm kiếm tương tự là thách thức chính.
  • Đối với các tập dữ liệu lớn, VSS là tốn kém về tính toán và cần các GPU hiệu suất cao để tạo các chỉ mục quy mô lớn.
  • Các vector có quá nhiều chiều không thể đại diện chính xác cho cấu trúc và kết nối thực sự của dữ liệu. Do đó, quá trình embeddings vector phải không mất mát, điều này là một thách thức.

Hiện tại, công nghệ VSS đang được phát triển và cải thiện liên tục. Tuy nhiên, nó vẫn có thể cung cấp nhiều lợi ích cho trải nghiệm tìm kiếm của một công ty hoặc sản phẩm.

Lợi ích của VSS

  • VSS cho phép các hệ thống tìm kiếm tìm các đối tượng tương tự một cách nhanh chóng trên nhiều loại dữ liệu.
  • VSS đảm bảo quản lý bộ nhớ hiệu quả vì nó chuyển đổi tất cả các đối tượng dữ liệu thành các embeddings số mà máy tính có thể xử lý dễ dàng.
  • VSS có thể phân loại các đối tượng trên các truy vấn tìm kiếm mới mà hệ thống có thể chưa gặp phải từ người tiêu dùng.
  • VSS là một phương pháp tuyệt vời để xử lý dữ liệu kém và không đầy đủ vì nó có thể tìm các đối tượng tương tự về mặt ngữ cảnh ngay cả khi chúng không phải là một trận đấu hoàn hảo.
  • Quan trọng nhất, nó có thể phát hiện và nhóm các đối tượng liên quan ở quy mô (khối lượng dữ liệu biến đổi).

Trường hợp sử dụng kinh doanh chính của Tìm kiếm tương tự vector

Trong kinh doanh thương mại, công nghệ VSS có thể cách mạng hóa một loạt các ngành và ứng dụng. Một số trường hợp sử dụng này bao gồm:

  • Câu hỏi và trả lời: Tìm kiếm tương tự vector có thể tìm các câu hỏi liên quan trong các diễn đàn Q&A gần như giống hệt, cho phép trả lời chính xác và liên quan hơn cho người dùng cuối.
  • Tìm kiếm web ngữ nghĩa: Tìm kiếm tương tự vector có thể tìm các tài liệu hoặc trang web liên quan dựa trên “sự gần gũi” của các biểu diễn vector của chúng. Nó nhằm tăng cường độ liên quan của kết quả tìm kiếm web.
  • Khuyến nghị sản phẩm: Tìm kiếm tương tự vector có thể đưa ra các khuyến nghị sản phẩm được cá nhân hóa dựa trên lịch sử duyệt web hoặc tìm kiếm của người tiêu dùng.
  • Cung cấp dịch vụ chăm sóc sức khỏe tốt hơn: Các nhà nghiên cứu và thực hành chăm sóc sức khỏe sử dụng tìm kiếm tương tự vector để tối ưu hóa các thử nghiệm lâm sàng bằng cách phân tích các biểu diễn vector của nghiên cứu y tế liên quan.

Ngày nay, nó không còn khả thi để quản lý, phân tích và tìm kiếm dữ liệu bằng các kỹ thuật dựa trên SQL truyền thống. Người tiêu dùng internet đặt các truy vấn phức tạp trên web – dường như đơn giản cho con người nhưng cực kỳ phức tạp đối với máy (công cụ tìm kiếm) để diễn giải. Đây là một thách thức lâu dài cho máy móc để giải mã các dạng dữ liệu khác nhau thành định dạng mà máy tính có thể hiểu.

Tìm kiếm tương tự vector làm cho nó có thể cho các hệ thống tìm kiếm hiểu rõ hơn về ngữ cảnh của thông tin thương mại.

Muốn đọc thêm nội dung liên quan đến AI? Hãy truy cập unite.ai.

Haziqa là một Nhà khoa học dữ liệu với kinh nghiệm rộng rãi trong việc viết nội dung kỹ thuật cho các công ty AI và SaaS.