Connect with us

Dr. Ram Sriharsha, Pinecone์˜ ์—”์ง€๋‹ˆ์–ด๋ง ๋ถ€์‚ฌ์žฅ – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

์ธํ„ฐ๋ทฐ

Dr. Ram Sriharsha, Pinecone์˜ ์—”์ง€๋‹ˆ์–ด๋ง ๋ถ€์‚ฌ์žฅ – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

mm

Dr. Ram Sriharsha는 Pinecone의 엔지니어링 및 연구 개발 부사장입니다.

Pinecone에 합류하기 전에, Ram은 Yahoo, Databricks, Splunk에서 부사장 역할을 수행했습니다. Yahoo에서 그는 주요 소프트웨어 엔지니어이자 연구 과학자였으며, Databricks에서 유니파이드 애널리틱스 플랫폼의 제품 및 엔지니어링 리드를 담당했습니다. Splunk에서 3년 동안 그는 고위 연구 과학자, 엔지니어링 부사장,杰出 엔지니어 등의 다양한 역할을 수행했습니다.

Pinecone은 완전 관리형 벡터 데이터베이스로, 프로덕션 애플리케이션에 벡터 검색을 쉽게 추가할 수 있습니다. 벡터 검색 라이브러리, 필터링과 같은 기능, 분산 인프라를 결합하여 任意 규모에서 높은 성능과 신뢰성을 제공합니다.

머신 러닝에 처음 관심을 갖게 된 것은 무엇인가?

고차원 통계, 러닝 이론 및 이러한 주제들이 저를 머신 러닝에 끌어들였습니다. 이러한 주제들은 수학적으로 잘 정의되어 있으며, 학습이 무엇인지, 효율적으로 학습할 수 있는 알고리즘을 설계하는 방법에 대한 기본적인 통찰력을 제공합니다.

이전에는 Splunk의 엔지니어링 부사장이었는데, Splunk는 데이터 플랫폼으로 Observability, IT, Security 등에서 데이터를 행동으로 변환하는 데 도움을 줍니다. 이 경험에서 얻은 주요 교훈은 무엇인가?

저는 Splunk에 합류하기 전까지 엔터프라이즈 검색의 사용 사례가 얼마나 다양한지 깨닫지 못했습니다. 사람들은 로그 분석, 관측 가능성, 보안 분석 등을 위해 Splunk를 사용합니다. 이러한 사용 사례 대부분의 공통점은 비정형 데이터에서 유사한 이벤트 또는 매우 비슷하지 않은(또는 비정상적인) 이벤트를 감지하는 것입니다. 이것은 어려운 문제이며, 이러한 데이터를 검색하는 전통적인 방법은 매우 확장성이 좋지 않습니다. Splunk에서 저는 이러한 영역에서 머신 러닝(및 딥 러닝)을 사용하여 로그 마이닝, 보안 분석 등을 위한 연구를 시작했습니다. 그 작업을 통해 벡터 임베딩과 벡터 검색이 이러한 도메인에 대한 새로운 접근 방식의 기본 원시가 될 것이라는 것을 깨달았습니다.

벡터 검색이 무엇인지 설명해 주세요.

전통적인 검색(키워드 검색이라고도 함)에서는 쿼리와 문서(이것은 트위터, 웹 문서, 법적 문서 등일 수 있음) 사이의 키워드 일치를 찾습니다. 이를 위해 쿼리를 토큰으로 분할하여 주어진 토큰을 포함하는 문서를 검색하고, 병합 및 랭킹을 통해 쿼리에 대한 가장 관련性 높은 문서를 결정합니다.

물론, 주요 문제는 관련 결과를 얻으려면 쿼리가 문서에 키워드 일치가 있어야 한다는 것입니다. 전통적인 검색의 고전적인 문제는 “pop”을 검색하면 “pop music”과 일치하지만 “soda”와는 일치하지 않는다는 것입니다. 왜냐하면 “pop”과 “soda” 사이에 키워드 오버랩이 없기 때문입니다.

벡터 검색에서는 쿼리와 문서를 모두 고차원 공간의 벡터로 변환하여 시작합니다. 이것은 일반적으로 텍스트를 OpenAI의 LLM 또는 다른 언어 모델과 같은 딥 러닝 모델을 통해 전달하여 수행됩니다. 결과적으로 얻는 것은 고차원 공간의 벡터로 생각할 수 있는 부동 소수점 숫자 배열입니다.

핵심 아이디어는 이 고차원 공간에서 근처에 있는 벡터는 또한 의미적으로 유사하다는 것입니다. “soda”와 “pop”의 예로 돌아가면, 모델이 올바른 코퍼스에서 훈련된 경우 “pop”과 “soda”를 의미적으로 유사하다고 간주하여 해당 임베딩이 임베딩 공간에서 근처에 있을 것입니다. 그렇다면 주어진 쿼리에 대한 문서를 검색하는 것은 해당 쿼리 벡터의 근처에 있는 이웃을 검색하는 문제가 됩니다.

벡터 데이터베이스가 무엇이며, 어떻게 고성능 벡터 검색 애플리케이션을 구축하는 데 도움을 주는지 설명해 주세요.

벡터 데이터베이스는 이러한 임베딩(또는 벡터)을 저장, 인덱싱 및 관리합니다. 벡터 데이터베이스가 해결하는 주요 문제는 다음과 같습니다.

  • nearest neighbor 쿼리를 처리하기 위한 벡터에 대한 효율적인 검색 인덱스를 구축
  • 쿼리 필터링을 지원하기 위한 효율적인 보조 인덱스 및 데이터 구조를 구축합니다. 예를 들어, 코퍼스의 하위 집합에 대해 검색하려는 경우 기존 검색 인덱스를 다시 구축하지 않고도 이를 활용할 수 있어야 합니다

데이터와 검색 인덱스를 신선하게 유지하고, 일관성과 내구성 등을 지원합니다.

Pinecone에서 사용하는 다양한 머신 러닝 알고리즘은 무엇인가?

일반적으로 근사 최근접 이웃 검색 알고리즘을 작업하며, 데이터를 효율적으로 업데이트하고, 쿼리하고, 처리하는 새로운 알고리즘을 개발하여 비용 효율적인 방식으로 처리합니다.

또한 검색 관련성을 개선하기 위한 밀도 및 희소 검색을 결합하는 알고리즘도 작업합니다.

확장 가능한 검색을 구축하는 데 뒤따르는 도전은 무엇인가?

근사 최근접 이웃 검색은 수십 년 동안 연구되어 왔지만, 여전히 많은 부분이 남아 있습니다.

특히, 대규모最近접 이웃 검색을 비용 효율적으로 설계하거나, 대규모에서 효율적인 필터링을 수행하거나, 높은 볼륨의 업데이트를 지원하고, 일반적으로 신선한 인덱스를 지원하는 알고리즘을 설계하는 것은 모두 오늘날 도전적인 문제입니다.

이 기술을 사용할 수 있는 다양한 사용 사례는 무엇인가?

벡터 데이터베이스의 사용 사례는 매일 증가하고 있습니다. 의미 검색을 비롯하여 이미지 검색, 이미지 검색, 생성적 AI, 보안 분석 등에서도 사용되고 있습니다.

검색의 미래에 대한 비전은 무엇인가?

저는 검색의 미래가 AI 주도적이라고 생각하며, 이는 멀지 않은 것입니다. 그 미래에서 벡터 데이터베이스가 핵심 원시가 될 것으로 기대합니다. 우리는 벡터 데이터베이스를 AI의 장기 기억 또는 외부 지식 베이스로 생각합니다.

멋진 인터뷰 감사합니다. 더 많은 정보를 배우고 싶은 독자는 Pinecone을 방문하세요.

์•™ํˆฌ์•ˆ์€ Unite.AI์˜ ๋น„์ „์žˆ๋Š” ๋ฆฌ๋”์ด์ž ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, AI์™€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์ด‰์ง„ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ ๋ถˆ๋ณ€์˜ ์—ด์ •์— ์˜ํ•ด ์ถ”๋™๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‡„์ ์ธ ๊ธฐ์—…๊ฐ€๋กœ์„œ, ๊ทธ๋Š” AI๊ฐ€ ์‚ฌํšŒ์— ๋Œ€ํ•œ ์ „๊ธฐ์™€ ๊ฐ™์€ ํŒŒ๊ดด๋ ฅ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์œผ๋ฉฐ, ์ข…์ข… ํŒŒ๊ดด์ ์ธ ๊ธฐ์ˆ ๊ณผ AGI์˜ ์ž ์žฌ๋ ฅ์— ๋Œ€ํ•ด ์—ด๊ด‘ํ•ฉ๋‹ˆ๋‹ค.

ไฝœไธบ futurist, ๊ทธ๋Š” ์ด๋Ÿฌํ•œ ํ˜์‹ ์ด ์šฐ๋ฆฌ์˜ ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ• ์ง€ ํƒ๊ตฌํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทธ๋Š” Securities.io์˜ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, ๋ฏธ๋ž˜๋ฅผ ์žฌ์ •์˜ํ•˜๊ณ  ์ „์ฒด ๋ถ€๋ฌธ์„ ์žฌํ˜•์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ํˆฌ์žํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.