์ธํฐ๋ทฐ
Frank Liu, Zilliz์ ์ด์ ๋๋ ํฐ – ์ธํฐ๋ทฐ ์๋ฆฌ์ฆ

Frank Liu는 Zilliz의 운영 디렉터로, 벡터 데이터베이스 및 AI 기술의 선도적인 제공업체입니다. 또한 세계에서 가장 인기 있는 오픈 소스 벡터 데이터베이스인 LF AI Milvus®를 만든 엔지니어와 과학자입니다.
머신 러닝에 처음으로 관심을 가졌던 것은 무엇인가?
내가 머신 러닝/인공지능의 힘을 처음 접한 것은 스탠퍼드 대학교에서 학생이었을 때였습니다.尽管 그것은私の 전공인 전기 공학에서 조금 멀리 있는 분야였지만, 복잡한 전기 및 물리 시스템을 수학적 근사로 축소하는 능력이 매우 강력하게 느껴졌고, 통계와 머신 러닝도 마찬가지였습니다. 대학원에서 컴퓨터 비전과 머신 러닝 수업을 더 많이 들었고, 이미지의 미적 아름다움을 평가하는 머신 러닝을 사용한 석사 논문을 작성했습니다. 모두가 첫 번째 직장인 Yahoo의 컴퓨터 비전 및 머신 러닝 팀에서 일하게 되었습니다. 우리는 아직 AlexNet 및 VGG 이전의 시대였으며, 데이터 준비에서 대규모 병렬 모델 훈련 및 모델 프로덕션화까지整个 분야와 산업이如此 빠르게 발전하는 것을 보는 것은 놀랍습니다. 많은 방면에서 10년 미만의 시간을 가리키는 데 “그 당시에”라는 문구를 사용하는 것이有点 부적절하지만, 이러한 분야에서 이루어진 진보는 사실입니다.
야후 이후에,私は私が 공동 설립한 스타트업의 CTO로 일했습니다. 우리는 내부 위치를 위해 머신 러닝을 사용했습니다. 우리는 매우 작은 마이크로 컨트롤러에 대한 순차적 모델을 최적화해야 했습니다. 이는 오늘날의 대규모 언어 모델 및 확산 모델과는 다소 다른 관련 엔지니어링課題입니다. 우리는 또한 하드웨어, 시각화를 위한 대시보드, 간단한 클라우드 네이티브 애플리케이션을 구축했지만, AI/ML은 우리가 하는 모든 작업의 핵심 구성 요소였습니다.
7~8년 동안 머신 러닝에 접근해 왔지만, 여전히 회로 설계 및 디지털 논리 설계를 rất 좋아합니다. 전기 공학의 배경은 제가 현재 하는 많은 작업에 매우 도움이 됩니다. 디지털 설계의 많은 중요한 개념, 즉 가상 메모리, 분기 예측, HDL의 동시 실행은 오늘날의 많은 머신 러닝 및 분산 시스템에 대한 전체 스택 보기 제공합니다.私はCS의 매력을 이해하지만, 다음 몇 년 안에 EE, MechE, ChemE 등 더 전통적인 엔지니어링 분야의 부흥을 기대합니다.
읽는 사람이 해당 용어에 익숙하지 않은 경우, 구조화되지 않은 데이터는 무엇인가?
구조화되지 않은 데이터는 “복잡한” 데이터를 말하며, 이는事先 정의된 형식이나 기존 데이터 모델에 맞지 않는 데이터입니다. 비교를 위해, 구조화된 데이터는事先 정의된 구조를 가진 모든 유형의 데이터를 말합니다. 숫자 데이터, 문자열, 테이블, 객체, 키/값 저장소 등은 모두 구조화된 데이터의 예입니다.
구조화되지 않은 데이터가 무엇인지 그리고 왜 전통적으로 이러한 유형의 데이터를 계산적으로 처리하는 것이 어려운지真正로 이해하기 위해서는 구조화된 데이터와 비교하는 것이 도움이 됩니다. 가장简单한 용어로, 전통적인 구조화된 데이터는 관계형 모델을 통해 저장할 수 있습니다. 예를 들어, 책 정보를 저장하는 관계형 데이터베이스의 테이블이 있다고 가정합니다. 각 행은 특정 책을 ISBN 번호로 색인화할 수 있으며, 열은 해당 카테고리의 정보(제목, 저자, 발행일 등)를 나타낼 수 있습니다. 요즘에는 더 유연한 데이터 모델(와이드 컬럼 스토어, 객체 데이터베이스, 그래프 데이터베이스 등)이 많지만, 전체 아이디어는 같습니다. 이러한 데이터베이스는 특정 데이터 모델 또는 데이터 모양에 맞는 데이터를 저장하기 위한 것입니다.
另一方面, 구조화되지 않은 데이터는 본질적으로 임의의 크기 또는 형태를 가질 수 있는 이진 데이터의 유사한 블롭으로 생각할 수 있습니다. 이는 어떤 형식이나 데이터 모델에 맞지 않으며, 관계형 데이터베이스의 테이블에 맞지 않습니다.
이러한 유형의 데이터의 예는 무엇인가?
인간이 생성한 데이터(이미지, 비디오, 오디오, 자연어 등)는 구조화되지 않은 데이터의 좋은 예입니다. 그러나 구조화되지 않은 데이터의 덜 평범한 예도 있습니다. 사용자 프로파일, 단백질 구조, 유전체 서열, 인간이 읽을 수 있는 코드도 구조화되지 않은 데이터의 좋은 예입니다. 구조화되지 않은 데이터를 전통적으로 관리하기 어려운 주요 이유는 구조화되지 않은 데이터가 어떤 형식이든 가질 수 있으며 처리를 위해 크게 다른 런타임이 필요할 수 있다는 것입니다.
이미지를 예로 들어 보면, 동일한 장면의 두 개의 사진은 매우 다른 픽셀 값을 가질 수 있지만, 전체 내용은 유사합니다. 자연어도 구조화되지 않은 데이터의 예입니다. “전기 공학”과 “컴퓨터 과학”이라는 문구는 매우 밀접한 관련이 있습니다. 스탠퍼드 대학교의 EE 및 CS 건물은 서로 인접해 있습니다. 그러나 이러한 두 문구의 의미를 인코딩하는 방법이 없으면, 컴퓨터는 “컴퓨터 과학”과 “사회 과학”이 더 관련이 있다고 생각할 수 있습니다.
벡터 데이터베이스는 무엇인가?
벡터 데이터베이스를 이해하기 위해서는 먼저 임베딩이 무엇인지 이해하는 것이 도움이 됩니다. 잠시 후에 설명하겠습니다. 간단히 말해서, 임베딩은 구조화되지 않은 데이터의 의미를 나타낼 수 있는 고차원 벡터입니다. 일반적으로, 거리 측면에서 서로 가까운 두 개의 임베딩은 매우 유사한 의미를 가진 입력 데이터에 해당하는 경우가 많습니다. 현대적인 머신 러닝을 사용하면 다양한 유형의 구조화되지 않은 데이터(이미지, 텍스트 등)를 의미적으로 강력한 임베딩 벡터로 인코딩하고 변환할 수 있습니다.
조직의 관점에서 볼 때, 구조화되지 않은 데이터의 양이一定한 한계를 넘어서면 관리하기 매우 어려워집니다. 여기서 Zilliz Cloud와 같은 벡터 데이터베이스가 등장합니다. 벡터 데이터베이스는 임베딩을 기본 표현으로 사용하여 대규모의 구조화되지 않은 데이터를 저장, 색인화, 검색할 수 있도록 설계되었습니다. 벡터 데이터베이스에서 검색은 일반적으로 쿼리 벡터를 사용하여 수행되며, 쿼리의 결과는 거리 기준으로 가장 유사한 상위 N개의 결과입니다.
가장 좋은 벡터 데이터베이스는 전통적인 관계형 데이터베이스와 유사한 사용 편의성 기능을 제공합니다. 수평 확장, 캐싱, 복제, 장애 조치, 쿼리 실행 등이 이러한 기능 중 일부입니다. 카테고리 정의자로서, 우리는 학술 분야에서도 활발하게 활동하여 SIGMOD 2021 및 VLDB 2022와 같은 최고의 데이터베이스 컨퍼런스에서 논문을 발표했습니다.
임베딩이란 무엇입니까?
일반적으로, 임베딩은 다층 신경망의 중간 레이어에서 나오는 고차원 벡터입니다. 많은 신경망은 임베딩 자체를 출력하기 위해 훈련되며, 일부 응용 프로그램에서는 여러 중간 레이어에서 결합된 벡터를 임베딩으로 사용하지만, 지금은 그에 대해 자세히 설명하지 않겠습니다. 임베딩을 생성하는 또 다른 덜 일반적인 방법은 수동으로 만든 특징을 사용하는 것입니다. ML 모델이 입력 데이터에 대한 올바른 표현을 자동으로 학습하는 대신, 좋은 오래된 특징 엔지니어링이 많은 응용 프로그램에서 작동할 수 있습니다. 기본 방법에 관계없이, 의미적으로 유사한 객체에 대한 임베딩은 거리 측면에서 서로 가까우며, 이는 벡터 데이터베이스의 동력을 제공합니다.
이 기술을 사용하는 가장 인기 있는 사용 사례는 무엇입니까?
벡터 데이터베이스는 의미적 검색이 필요한 모든 응용 프로그램에 적합합니다. 제품 추천, 비디오 분석, 문서 검색, 위협 및 사기 탐지, AI 기반 채팅봇 등이 오늘날 벡터 데이터베이스의 가장 인기 있는 사용 사례입니다. 예를 들어, Milvus는 Zilliz가 만든 오픈 소스 벡터 데이터베이스로, Zilliz Cloud의 핵심입니다. Milvus는 다양한 사용 사례에서 1,000개 이상의 기업 사용자에 의해 사용되었습니다.
나는 이러한 응용 프로그램에 대해 이야기하는 것을 항상 즐기며, 사람들이它们가 어떻게 작동하는지 이해하도록 도와줍니다. 그러나 나는 또한 벡터 데이터베이스의 덜 알려진 사용 사례에 대해 이야기하는 것을 매우 좋아합니다. 새로운 약물 발견은 내가 가장 좋아하는 “니치” 벡터 데이터베이스 사용 사례 중 하나입니다. 이 특정 응용 프로그램의 도전은 8억 개의 화합물 데이터베이스에서 특정 질병 또는 증상을 치료하기 위한 잠재적인 후보 약물을 검색하는 것입니다. 우리는 통신한 제약 회사에서 Milvus와 화학 정보 라이브러리인 RDKit를 결합하여 약물 발견 프로세스를 크게 개선하고 하드웨어 리소스를 줄일 수 있었습니다.
클리블랜드 미술관(CMA)의 AI ArtLens도 또 다른 예입니다. AI ArtLens는 입력으로 쿼리 이미지를 사용하여 미술관의 데이터베이스에서 시각적으로 유사한 이미지를 가져오는 상호작용 도구입니다. 이것은 일반적으로 역방향 이미지 검색으로 알려져 있으며, 벡터 데이터베이스의 khá 일반적인 사용 사례입니다. 그러나 Milvus가 CMA에게 제공한 고유한 가치는 매우 작은 팀으로 1주일 내에 애플리케이션을 실행할 수 있는 능력이었습니다.
오픈 소스 플랫폼 Towhee에 대해 이야기해 주시겠습니까?
Milvus 커뮤니티와의 통신에서, 많은 사람들이 Milvus에 대한 임베딩을 생성하기 위한 통일된 방법을 원했습니다. 이것은 우리와 이야기한 거의 모든 조직에서 사실이었으며, 특히 머신 러닝 엔지니어가 많은 公司에서는 더욱 그렇습니다. Towhee를 통해 우리는 “벡터 데이터 ETL”을 통해 이러한 간격을 메우고자 합니다. 전통적인 ETL 파이프라인은 여러 소스의 구조화된 데이터를 사용 가능한 형식으로 결합하고 변환하는 데 중점을 두는 반면, Towhee는 구조화되지 않은 데이터와 ML을 결과적인 ETL 파이프라인에 명시적으로 포함하는 것을 목표로 합니다. Towhee는 벡터 데이터 ETL 파이프라인에서 빌딩 블록으로 사용할 수 있는 수백 개의 모델, 알고리즘 및 변환을 제공함으로써 이를 수행합니다. 또한 Towhee는 이러한 ETL 파이프라인을 하나의 코드 줄에서 구축하고 테스트할 수 있는 쉬운 파이썬 API를 제공합니다.
Towhee는 독립적인 프로젝트이지만, Zilliz가 만드는 Milvus를 중심으로 하는 더广泛한 벡터 데이터베이스 생태계의 일부입니다. 우리는 Milvus와 Towhee가 매우 보완적인 두 프로젝트로, 함께 사용할 때 구조화되지 않은 데이터 처리를真正로 민주화할 수 있다고 생각합니다.
Zilliz는 최근 6,000만 달러의 시리즈 B 라운드 자금을 조달했습니다. 이 자금은 Zilliz의 미션을 어떻게 가속화할 것입니까?
먼저 Prosperity7 Ventures, Pavilion Capital, Hillhouse Capital, 5Y Capital, Yunqi Capital 및 기타 투자자들에게 Zilliz의 미션을 믿고 지원해 주셔서 감사합니다. 우리는 총 1억 1,300만 달러를 조달했습니다. 이 최신 자금 조달은 엔지니어링 및 마케팅 팀을 확장하는 우리의 노력을 지원할 것입니다. 특히, 우리는 현재 초기 액세스에 있는 관리형 클라우드 오퍼링을 개선할 것입니다. 이는今年 후반에 모든 사람에게 공개될 예정입니다. 우리는 또한 과거 4년 동안 했던 것처럼 최신 데이터베이스 및 AI 연구에 계속 투자할 것입니다.
Zilliz에 대해 더 공유하고 싶은 내용이 있습니까?
Zilliz는 급격히 성장하는 회사입니다. 그러나 우리 현재 팀을 데이터베이스 및 ML 공간의 다른 팀과 구별하는 것은 우리가 건설하는 것에 대한 단일한 열정입니다. 우리는 구조화되지 않은 데이터 처리를 민주화하는 임무에 있습니다. Zilliz의 많은 인재들이 단일 목표를 향해 일하는 것을 보는 것은 정말 놀랍습니다. 우리가 하는 일에 관심이 있다면, 저희에게 연락해 주세요. 우리는 당신을 환영합니다.
만약 더 알고 싶다면,私は Zilliz, 벡터 데이터베이스 또는 임베딩 관련 AI/ML의 진보에 대해 이야기하는 것을 개인적으로 열려 있습니다.私の문은 언제나 열려 있습니다. 트위터/링크드인으로 직접 저에게 연락해 주세요.
마지막으로, 읽어주셔서 감사합니다.
Zilliz에 대해 더 알고 싶으신 경우, Zilliz를 방문하시기 바랍니다.












