AI 101

벡터 유사성 검색이란 무엇이며 어떻게 유용합니까?

업데이트 on 2023 년 1 월 30 일

최신 데이터 검색은 복잡한 영역입니다. 벡터 유사성 검색(VSS)은 컨텍스트 깊이가 있는 데이터를 나타내고 검색 쿼리에 대한 응답으로 소비자에게 더 관련성 높은 정보를 반환합니다. 간단한 예를 들어보겠습니다.

"데이터 과학" 및 "공상 과학"과 같은 검색어는 공통 단어("과학")를 가지고 있음에도 불구하고 서로 다른 유형의 콘텐츠를 참조합니다. 기존의 검색 기술은 일반적인 구를 일치시켜 관련 결과를 반환하는데 이 경우 부정확합니다. 벡터 유사성 검색은 보다 정확한 응답을 반환하기 위해 이러한 검색 쿼리의 실제 검색 의도와 의미를 고려합니다.

이 문서에서는 구성 요소, 과제, 이점 및 사용 사례와 같은 벡터 유사성 검색의 다양한 측면에 대해 설명합니다. 의 시작하자.

벡터 유사성 검색(VSS)이란 무엇입니까?

벡터 유사성 검색은 정형 또는 비정형 데이터의 대규모 컬렉션에서 문맥상 유사한 정보를 벡터 또는 임베딩이라고 알려진 수치 표현으로 변환하여 찾아 검색합니다.

VSS는 숫자, 범주, 텍스트, 이미지, 비디오 등 다양한 데이터 형식을 관리할 수 있습니다. 데이터 코퍼스의 각 개체를 관련 형식에 해당하는 고차원 벡터 표현으로 변환합니다(다음 섹션에서 설명).

가장 일반적으로 VSS는 유사한 구 또는 단락과 같은 유사한 개체를 찾거나 방대한 이미지 검색 시스템에서 관련 이미지를 찾습니다. Amazon, eBay 및 Spotify와 같은 대형 소비자 회사는 이 기술을 사용하여 수백만 사용자의 검색 결과를 개선합니다.

벡터 유사성 검색의 세 가지 주요 구성 요소

벡터 유사성 검색이 어떻게 작동하는지 이해하기 전에 주요 구성 요소를 살펴보겠습니다. 주로 효과적인 VSS 방법론을 구현하기 위한 세 가지 필수 구성 요소가 있습니다.

벡터 임베딩: 임베딩은 수학적 형식, 즉 정렬된 배열 또는 숫자 집합으로 다양한 데이터 유형을 나타냅니다. 수학적 계산을 사용하여 데이터의 패턴을 식별합니다.
거리 또는 유사성 메트릭: 두 벡터가 얼마나 유사하거나 밀접하게 관련되어 있는지 계산하는 수학 함수입니다.
검색 알고리즘: 알고리즘은 주어진 검색 쿼리와 유사한 벡터를 찾는 데 도움이 됩니다. 예를 들어, K- 최근 접 이웃 또는 KNN 알고리즘은 주어진 입력 쿼리와 가장 유사한 데이터 세트에서 K 벡터를 결정하기 위해 VSS 지원 검색 시스템에서 자주 사용됩니다.

이제 이러한 구성 요소가 검색 시스템에서 어떻게 작동하는지 살펴보겠습니다.

벡터 유사성 검색은 어떻게 작동합니까?

벡터 유사성 검색을 구현하는 첫 번째 단계는 데이터 코퍼스의 객체를 벡터 임베딩으로 표현하거나 설명하는 것입니다. 다음과 같은 다양한 벡터 임베딩 방법을 사용합니다. 글 로베, 워드투벡및 BERT, 개체를 벡터 공간에 매핑합니다.

텍스트, 오디오 및 비디오와 같은 각 데이터 형식에 대해 VSS는 서로 다른 임베딩 모델을 구축하지만 이 프로세스의 최종 결과는 숫자 배열 표현입니다.

다음 단계는 이러한 숫자 표현을 사용하여 유사한 개체를 함께 정렬할 수 있는 인덱스를 만드는 것입니다. KNN과 같은 알고리즘은 검색 유사성을 구현하기 위한 기반 역할을 합니다. 그러나 유사한 용어를 색인화하기 위해 검색 시스템은 다음과 같은 최신 접근 방식을 사용합니다. 지역 민감 해싱(LSH) 와 가장 가까운 이웃 근사치(ANNOY).

또한 VSS 알고리즘은 유클리드 거리, 코사인 유사성 또는 Jaccard 유사성과 같은 유사성 또는 거리 측정을 계산하여 데이터 컬렉션의 모든 벡터 표현을 비교하고 사용자 쿼리에 대한 응답으로 유사한 콘텐츠를 반환합니다.

벡터 유사성 검색의 주요 과제 및 이점

전반적으로 목표는 데이터 개체 간의 공통 특성을 찾는 것입니다. 그러나 이 프로세스에는 몇 가지 잠재적인 문제가 있습니다.

VSS 구현의 주요 과제

다른 벡터 임베딩 기술과 유사성 측정은 다른 결과를 나타냅니다. 유사성 검색 시스템에 적합한 구성을 선택하는 것이 주요 과제입니다.
대규모 데이터 세트의 경우 VSS는 계산 비용이 많이 들고 대규모 인덱스를 생성하려면 고성능 GPU가 필요합니다.
차원이 너무 많은 벡터는 데이터의 진정한 구조와 연결을 정확하게 나타내지 못할 수 있습니다. 따라서 벡터 임베딩 프로세스는 무손실이어야 하며 이는 어려운 일입니다.

현재 VSS 기술은 지속적으로 개발 및 개선되고 있습니다. 그러나 여전히 회사나 제품의 검색 경험에 많은 이점을 제공할 수 있습니다.

VSS의 이점

VSS를 사용하면 검색 시스템이 다양한 데이터 유형에서 유사한 개체를 매우 빠르게 찾을 수 있습니다.
VSS는 모든 데이터 개체를 기계가 쉽게 처리할 수 있는 숫자 임베딩으로 변환하므로 효율적인 메모리 관리를 보장합니다.
VSS는 시스템이 소비자로부터 만나지 않았을 수 있는 새 검색 쿼리에서 개체를 분류할 수 있습니다.
VSS는 완벽하게 일치하지 않더라도 문맥적으로 유사한 개체를 찾을 수 있기 때문에 불완전하고 불완전한 데이터를 처리하는 데 탁월한 방법입니다.
가장 중요한 것은 관련 개체를 대규모로 감지하고 클러스터링할 수 있다는 것입니다(가변 데이터 볼륨).

벡터 유사성 검색의 주요 비즈니스 활용 사례

상업 비즈니스에서 VSS 기술은 광범위한 산업 및 응용 프로그램에 혁신을 일으킬 수 있습니다. 이러한 사용 사례 중 일부는 다음과 같습니다.

질문 답변: 벡터 유사성 검색은 거의 동일한 Q&A 포럼에서 관련 질문을 찾아 최종 사용자에게 보다 정확하고 적절한 응답을 제공할 수 있습니다.
시맨틱 웹 검색: 벡터 유사성 검색은 벡터 표현의 "가까움"에 따라 관련 문서 또는 웹 페이지를 찾을 수 있습니다. 웹 검색 결과의 관련성을 높이는 것을 목표로 합니다.
제품 추천: 벡터 유사성 검색은 소비자의 브라우징 또는 검색 기록을 기반으로 개인화된 제품 추천을 할 수 있습니다.
더 나은 의료 제공: 의료 연구원과 실무자는 벡터 유사성 검색을 활용하여 관련 의학 연구의 벡터 표현을 분석하여 임상 시험을 최적화합니다.

오늘날 기존의 SQL 기반 기술을 사용하여 데이터를 관리, 분석 및 검색하는 것은 더 이상 실행 가능하지 않습니다. 인터넷 소비자는 웹에서 복잡한 쿼리를 묻습니다. 인간에게는 단순해 보이지만 기계(검색 엔진)가 해석하기에는 엄청나게 복잡합니다. 기계가 이해할 수 있는 형식으로 다양한 형태의 데이터를 해독하는 것은 기계가 오랫동안 해결해야 할 과제입니다.

벡터 유사성 검색을 통해 검색 시스템이 상업 정보의 맥락을 더 잘 이해할 수 있습니다.

더 통찰력 있는 AI 관련 콘텐츠를 읽고 싶으세요? 방문하다 단결.ai.