부본 Frank Liu, Zilliz 운영 이사 - 인터뷰 시리즈 - Unite.AI
Rescale 미팅 예약

인터뷰

Frank Liu, Zilliz 운영 이사 – 인터뷰 시리즈

mm

게재

 on

Frank Liu는 운영 이사입니다. 질 리츠, 벡터 데이터베이스 및 AI 기술의 선도적인 제공업체입니다. 그들은 또한 세계에서 가장 인기 있는 오픈 소스 벡터 데이터베이스인 LF AI Milvus®를 만든 엔지니어이자 과학자입니다.

처음에 기계 학습에 끌린 이유는 무엇입니까?

ML/AI의 강력한 기능을 처음 접한 것은 스탠포드 학부생이었을 때였습니다. 비록 전공(전기 공학)과는 다소 거리가 멀었지만요. 복잡한 전기 및 물리적 시스템을 수학적 근사치로 정제하는 능력이 나에게 매우 강력하다고 느꼈고 통계와 기계 학습도 같은 느낌을 받았기 때문에 처음에는 EE라는 분야에 끌렸습니다. 저는 대학원 시절 컴퓨터 비전과 머신러닝 수업을 더 많이 듣게 되었고, ML을 사용하여 이미지의 미학적 아름다움을 평가하는 방법에 대한 석사 논문을 작성하게 되었습니다. 이 모든 것이 Yahoo의 컴퓨터 비전 및 기계 학습 팀에서 하이브리드 연구 및 소프트웨어 개발 역할을 맡은 첫 번째 직업으로 이어졌습니다. 그 당시 우리는 여전히 AlexNet 및 VGG의 이전 단계에 있었고, 데이터 준비부터 대규모 병렬 모델 교육, 모델 생산에 이르기까지 전체 분야와 산업이 매우 빠르게 이동하는 것을 보는 것은 놀라운 일이었습니다. 여러 면에서 10년도 채 안 된 일을 언급하기 위해 "그때"라는 표현을 사용하는 것은 다소 우스꽝스럽게 느껴지지만, 이것이 바로 이 분야에서 이루어진 진전입니다.

Yahoo 이후 저는 제가 공동 설립한 스타트업의 CTO로 재직했으며, 그곳에서 실내 현지화를 위해 ML을 활용했습니다. 그곳에서 우리는 매우 작은 마이크로컨트롤러에 대한 순차 모델을 최적화해야 했습니다. 이는 오늘날의 대규모 LLM 및 확산 모델과 매우 다르지만 그럼에도 불구하고 관련된 엔지니어링 과제입니다. 우리는 또한 하드웨어, 시각화를 위한 대시보드, 간단한 클라우드 네이티브 애플리케이션을 구축했지만 AI/ML은 항상 우리가 하고 있는 작업의 핵심 구성 요소 역할을 했습니다.

현재 7~8년 동안 ML에 있거나 가까이 있었지만 여전히 회로 설계와 디지털 논리 설계에 대한 많은 사랑을 유지하고 있습니다. 전기 공학에 대한 배경 지식이 있다는 것은 여러 면에서 요즘 제가 참여하고 있는 많은 작업에 매우 도움이 됩니다. 가상 메모리, 분기 예측 및 HDL의 동시 실행과 같은 디지털 설계의 많은 중요한 개념은 오늘날 많은 ML 및 분산 시스템에 전체 스택 보기를 제공하는 데 도움이 됩니다. CS의 매력을 이해하고 있지만 앞으로 몇 년 안에 EE, MechE, ChemE 등 보다 전통적인 엔지니어링 분야에서 부활하기를 희망합니다.

비정형 데이터란 용어에 익숙하지 않은 독자를 위한 설명입니다.

구조화되지 않은 데이터는 사전 정의된 형식으로 저장할 수 없거나 기존 데이터 모델에 맞출 수 없는 본질적으로 데이터인 "복잡한" 데이터를 의미합니다. 비교를 위해 구조화된 데이터는 미리 정의된 구조가 있는 모든 유형의 데이터를 의미합니다. 숫자 데이터, 문자열, 테이블, 개체 및 키/값 저장소는 모두 구조화된 데이터의 예입니다.

구조화되지 않은 데이터가 무엇인지, 전통적으로 이러한 유형의 데이터를 계산적으로 처리하는 것이 어려운 이유를 진정으로 이해하려면 구조화 데이터와 비교하는 것이 도움이 됩니다. 가장 간단한 용어로 기존의 구조화된 데이터는 관계형 모델을 통해 저장할 수 있습니다. 예를 들어 책 정보를 저장하기 위한 테이블이 있는 관계형 데이터베이스를 생각해 보십시오. 테이블 내의 각 행은 ISBN 번호로 색인이 지정된 특정 책을 나타낼 수 있으며 열은 제목, 저자, 출판 날짜와 같은 해당 정보 범주를 나타냅니다. , 등등. 요즘에는 와이드 컬럼 저장소, 개체 데이터베이스, 그래프 데이터베이스 등 훨씬 더 유연한 데이터 모델이 있습니다. 그러나 전반적인 아이디어는 동일하게 유지됩니다. 이러한 데이터베이스는 특정 데이터 틀 또는 데이터 모델에 맞는 데이터를 저장하기 위한 것입니다.

반면 구조화되지 않은 데이터는 기본적으로 이진 데이터의 유사 무작위 블롭으로 생각할 수 있습니다. 그것은 무엇이든 나타낼 수 있고, 임의로 크거나 작을 수 있으며, 수많은 다른 방법 중 하나로 변형되고 읽을 수 있습니다. 이로 인해 관계형 데이터베이스의 테이블은 말할 것도 없고 어떤 데이터 모델에도 맞출 수 없습니다.

이러한 유형의 데이터에 대한 몇 가지 예는 무엇입니까?

인간이 생성한 데이터(이미지, 비디오, 오디오, 자연어 등)는 구조화되지 않은 데이터의 좋은 예입니다. 그러나 구조화되지 않은 데이터의 덜 일상적인 다양한 예도 있습니다. 사용자 프로필, 단백질 구조, 게놈 서열, 심지어 사람이 읽을 수 있는 코드도 비정형 데이터의 좋은 예입니다. 비정형 데이터가 전통적으로 관리하기 어려웠던 주된 이유는 비정형 데이터가 어떤 형식이든 취할 수 있고 처리하는 데 매우 다른 런타임이 필요할 수 있기 때문입니다.

예를 들어 이미지를 사용하면 동일한 장면의 두 사진이 픽셀 값이 크게 다를 수 있지만 둘 다 전체 내용이 비슷합니다. 자연어는 제가 참조하기를 좋아하는 구조화되지 않은 데이터의 또 다른 예입니다. "Electrical Engineering"과 "Computer Science"라는 문구는 매우 밀접하게 관련되어 있어 스탠포드의 EE 및 CS 건물이 서로 인접해 있습니다. "컴퓨터 과학"과 "사회 과학"이 더 관련이 있다고 순진하게 생각합니다.

벡터 데이터베이스란 무엇입니까?

벡터 데이터베이스를 이해하려면 먼저 임베딩이 무엇인지 이해하는 것이 도움이 됩니다. 잠시 살펴보겠지만 임베딩은 구조화되지 않은 데이터의 의미 체계를 나타낼 수 있는 고차원 벡터입니다. 일반적으로 거리 측면에서 서로 가까운 두 임베딩은 의미적으로 유사한 입력 데이터에 해당할 가능성이 매우 높습니다. 최신 ML을 사용하면 다양한 유형의 구조화되지 않은 데이터(예: 이미지 및 텍스트)를 의미론적으로 강력한 임베딩 벡터로 인코딩하고 변환할 수 있습니다.

조직의 관점에서 볼 때 구조화되지 않은 데이터는 양이 특정 한도를 초과하면 관리하기가 엄청나게 어려워집니다. 이것은 다음과 같은 벡터 데이터베이스가 있는 곳입니다. 질리즈 클라우드 벡터 데이터베이스는 임베딩을 기본 표현으로 활용하여 방대한 양의 비정형 데이터를 저장, 인덱싱 및 검색하도록 특별히 제작되었습니다. 벡터 데이터베이스에서 검색은 일반적으로 쿼리 벡터로 수행되며 쿼리 결과는 거리를 기준으로 가장 유사한 상위 N개의 결과입니다.

최고의 벡터 데이터베이스는 기존 관계형 데이터베이스의 많은 유용성 기능을 가지고 있습니다. 수평 확장, 캐싱, 복제, 장애 조치 및 쿼리 실행은 진정한 벡터 데이터베이스가 구현해야 하는 많은 기능 중 일부에 불과합니다. 카테고리 정의자로서 우리는 학계에서도 활발히 활동하고 있습니다. 시그모드 2021VLDB 2022, 오늘 두 개의 최고의 데이터베이스 컨퍼런스가 있습니다.

임베딩이 무엇인지 논의할 수 있습니까?

일반적으로 임베딩은 다층 신경망에서 중간층의 활성화에서 오는 고차원 벡터입니다. 많은 신경망은 임베딩 자체를 출력하도록 훈련되고 일부 애플리케이션은 여러 중간 레이어의 연결된 벡터를 임베딩으로 사용하지만 지금은 그 중 하나에 대해 너무 깊이 들어가지는 않겠습니다. 임베딩을 생성하는 덜 일반적이지만 똑같이 중요한 또 다른 방법은 손으로 만든 기능을 사용하는 것입니다. ML 모델이 입력 데이터에 대한 올바른 표현을 자동으로 학습하도록 하는 대신 좋은 기능 엔지니어링이 많은 애플리케이션에서도 작동할 수 있습니다. 기본 방법에 관계없이 의미적으로 유사한 객체에 대한 임베딩은 거리 측면에서 서로 가깝고 이 속성은 벡터 데이터베이스를 강화하는 것입니다.

이 기술의 가장 인기 있는 사용 사례는 무엇입니까?

벡터 데이터베이스는 어떤 형태의 시맨틱 검색이 필요한 모든 애플리케이션에 적합합니다. 제품 추천, 비디오 분석, 문서 검색, 위협 및 사기 탐지, AI 기반 챗봇은 오늘날 벡터 데이터베이스의 가장 인기 있는 사용 사례 중 일부입니다. 이를 설명하기 위해 밀버스, Zilliz가 만든 오픈 소스 벡터 데이터베이스 및 Zilliz Cloud의 기본 코어는 다양한 사용 사례에 걸쳐 천 명이 넘는 기업 사용자가 사용했습니다.

나는 항상 이러한 응용 프로그램에 대해 이야기하고 사람들이 어떻게 작동하는지 이해하도록 돕는 것을 기쁘게 생각하지만 덜 알려진 벡터 데이터베이스 사용 사례 중 일부를 살펴보는 것도 확실히 즐깁니다. 신약 발견은 제가 가장 좋아하는 "틈새" 벡터 데이터베이스 사용 사례 중 하나입니다. 이 특정 애플리케이션의 과제는 800억 개의 화합물 데이터베이스 중에서 특정 질병이나 증상을 치료할 수 있는 잠재적인 후보 약물을 찾는 것입니다. 우리가 연락한 한 제약 회사는 Milvus를 RDKit이라는 화학 정보학 라이브러리와 결합하여 하드웨어 리소스를 줄이는 것 외에도 약물 발견 프로세스를 크게 개선할 수 있었습니다.

클리블랜드 미술관(CMA) AI 아트렌즈 내가 제기하고 싶은 또 다른 예입니다. AI ArtLens는 쿼리 이미지를 입력으로 사용하고 박물관의 데이터베이스에서 시각적으로 유사한 이미지를 가져오는 대화형 도구입니다. 이것은 일반적으로 역 이미지 검색이라고 하며 벡터 데이터베이스에 대한 상당히 일반적인 사용 사례이지만 Milvus가 CMA에 제공한 고유한 가치 제안은 매우 작은 팀으로 일주일 이내에 응용 프로그램을 시작하고 실행할 수 있는 기능이었습니다.

오픈 소스 플랫폼 Towhee가 무엇인지 말씀해 주시겠습니까?

Milvus 커뮤니티의 사람들과 소통할 때 우리는 그들 중 많은 사람들이 Milvus를 위한 임베딩을 생성하는 통합된 방법을 원한다는 것을 알게 되었습니다. 이것은 우리가 대화한 거의 모든 조직에 해당되지만 특히 기계 학습 엔지니어가 많지 않은 회사에 해당됩니다. Towhee와 함께 우리는 "벡터 데이터 ETL"이라고 부르는 것을 통해 이러한 격차를 해결하는 것을 목표로 합니다. 기존의 ETL 파이프라인은 여러 소스의 구조화된 데이터를 결합하고 사용 가능한 형식으로 변환하는 데 중점을 두지만 Towhee는 구조화되지 않은 데이터로 작업하고 결과 ETL 파이프라인에 ML을 명시적으로 포함합니다. Towhee는 벡터 데이터 ETL 파이프라인에서 빌딩 블록으로 사용할 수 있는 수백 가지 모델, 알고리즘 및 변환을 제공하여 이를 달성합니다. 또한 Towhee는 개발자가 한 줄의 코드로 이러한 ETL 파이프라인을 빌드하고 테스트할 수 있는 사용하기 쉬운 Python API도 제공합니다.

Towhee는 자체 독립 프로젝트이지만 Zilliz가 만들고 있는 Milvus를 중심으로 하는 더 광범위한 벡터 데이터베이스 생태계의 일부이기도 합니다. 우리는 Milvus와 Towhee가 함께 사용될 때 구조화되지 않은 데이터 처리를 진정으로 민주화할 수 있는 두 개의 매우 보완적인 프로젝트라고 생각합니다.

질리즈 최근 60천만 달러 규모의 시리즈 B 라운드 모금. 이것이 Zilliz 임무를 어떻게 가속화할까요?

먼저 Prosperity7 Ventures, Pavilion Capital, Hillhouse Capital, 5Y Capital, Yunqi Capital 등 Zilliz의 사명을 믿고 이 시리즈 B 확장 프로그램을 지원해 주신 분들께 감사드립니다. 우리는 현재 총 113억 4만 달러를 모금했으며 이 최신 자금 조달은 엔지니어링 및 시장 진출 팀을 확장하려는 우리의 노력을 지원할 것입니다. 특히, 현재 얼리 액세스 단계에 있지만 올해 후반에 모두에게 개방될 예정인 관리형 클라우드 서비스를 개선할 예정입니다. 또한 지난 XNUMX년 동안 그랬던 것처럼 최첨단 데이터베이스 및 AI 연구에 계속해서 투자할 것입니다.

Zilliz에 대해 공유하고 싶은 다른 것이 있습니까?

회사로서 우리는 빠르게 성장하고 있지만 현재 팀을 데이터베이스 및 ML 공간의 다른 팀과 차별화하는 것은 우리가 만들고 있는 것에 대한 우리의 열정입니다. 우리는 구조화되지 않은 데이터 처리를 민주화하는 임무를 수행하고 있으며 Zilliz의 많은 재능 있는 사람들이 단일 목표를 향해 노력하는 것을 보는 것은 정말 놀랍습니다. 우리가 하고 있는 일이 당신에게 흥미로울 것 같으면 자유롭게 우리와 연락. 우리는 당신이 탑승하고 싶습니다.

조금 더 알고 싶으시면 Zilliz, 벡터 데이터베이스 또는 AI/ML의 임베딩 관련 발전에 대해 개인적으로 대화할 준비가 되어 있습니다. 제 (비유적인) 문은 항상 열려 있으니 Twitter/LinkedIn에서 저에게 직접 연락해 주세요.

마지막으로 읽어주셔서 감사합니다!

훌륭한 인터뷰 감사합니다. 자세한 내용을 알고 싶은 독자는 방문하세요. 질 리츠.

unite.AI의 창립 파트너이자 포브스 기술 위원회, 앙투안은 미래파 예술가 AI와 로봇공학의 미래에 열정을 갖고 있는 사람입니다.

그는 또한 증권.io, 파괴적인 기술에 대한 투자에 초점을 맞춘 웹사이트입니다.