Phỏng vấn
Frank Liu, Giám đốc Vận hành tại Zilliz – Loạt phỏng vấn

Frank Liu là Giám đốc Vận hành tại Zilliz, một nhà cung cấp hàng đầu về cơ sở dữ liệu vector và công nghệ trí tuệ nhân tạo. Họ cũng là những kỹ sư và nhà khoa học đã tạo ra LF AI Milvus®, cơ sở dữ liệu vector mã nguồn mở phổ biến nhất trên thế giới.
Điều gì ban đầu thu hút bạn đến với học máy?
Trải nghiệm đầu tiên của tôi với sức mạnh của ML/AI là khi tôi còn là sinh viên năm thứ nhất tại Stanford, mặc dù nó có vẻ hơi xa lạ với chuyên ngành của tôi (Kỹ thuật Điện). Tôi ban đầu bị thu hút bởi EE như một lĩnh vực vì khả năng cô lập các hệ thống điện và vật lý phức tạp thành các近似 toán học cảm thấy rất mạnh mẽ đối với tôi, và thống kê và học máy cảm thấy giống nhau. Tôi đã tham gia thêm các lớp học về thị giác máy tính và học máy trong thời gian học cao học, và tôi đã viết luận văn thạc sĩ về việc sử dụng ML để đánh giá vẻ đẹp thẩm mỹ của hình ảnh. Tất cả điều này đã dẫn đến công việc đầu tiên của tôi trong nhóm Thị giác máy tính & Học máy tại Yahoo, nơi tôi đang trong một vai trò nghiên cứu và phát triển phần mềm kết hợp. Chúng tôi vẫn còn trong những ngày trước khi có transformer AlexNet & VGG, và việc thấy một lĩnh vực và ngành công nghiệp chuyển động nhanh như vậy, từ việc chuẩn bị dữ liệu đến đào tạo mô hình song song lớn, đã thật tuyệt vời. Theo nhiều cách, nó cảm thấy một chút kỳ lạ khi sử dụng cụm từ “trước đây” để ám chỉ một điều gì đó xảy ra chưa đầy 10 năm trước, nhưng đó là tiến bộ đã được thực hiện trong lĩnh vực này.
Sau Yahoo, tôi đã từng là CTO của một công ty khởi nghiệp mà tôi đồng sáng lập, nơi chúng tôi đã tận dụng ML cho định vị trong nhà. Ở đó, chúng tôi phải tối ưu hóa các mô hình tuần tự cho các bộ điều khiển micro rất nhỏ – một thách thức kỹ thuật khác nhưng liên quan đến các mô hình LLM và mô hình khuếch tán lớn ngày nay. Chúng tôi cũng đã xây dựng phần cứng, bảng điều khiển cho việc trực quan hóa, và các ứng dụng đám mây gốc đơn giản, nhưng AI/ML luôn đóng vai trò là thành phần cốt lõi của công việc chúng tôi đang thực hiện.
Mặc dù tôi đã ở trong hoặc gần với ML trong khoảng 7 hoặc 8 năm nay, tôi vẫn giữ được nhiều tình yêu đối với thiết kế mạch và thiết kế logic số. Có một nền tảng về Kỹ thuật Điện là, theo nhiều cách, vô cùng hữu ích cho nhiều công việc tôi đang tham gia vào những ngày này. Nhiều khái niệm quan trọng trong thiết kế số như bộ nhớ ảo, dự đoán nhánh, và thực hiện đồng thời trong HDL giúp cung cấp một cái nhìn toàn diện về nhiều ML và hệ thống phân tán ngày nay. Trong khi tôi hiểu sự thu hút của CS, tôi hy vọng sẽ thấy sự phục hồi của các lĩnh vực kỹ thuật truyền thống – EE, MechE, ChemE, v.v… – trong vài năm tới.
Đối với những người đọc chưa quen với thuật ngữ, dữ liệu không cấu trúc là gì?
Dữ liệu không cấu trúc đề cập đến “dữ liệu phức tạp”, về cơ bản là dữ liệu không thể được lưu trữ trong một định dạng được định nghĩa trước hoặc phù hợp với một mô hình dữ liệu hiện có. Để so sánh, dữ liệu cấu trúc đề cập đến bất kỳ loại dữ liệu nào có một cấu trúc được định nghĩa trước – dữ liệu số, chuỗi, bảng, đối tượng, và các cửa hàng khóa/giá trị đều là ví dụ về dữ liệu cấu trúc.
Để giúp thực sự hiểu được dữ liệu không cấu trúc là gì và tại sao nó truyền thống được xử lý tính toán khó khăn, nó giúp so sánh nó với dữ liệu cấu trúc. Trong những thuật ngữ đơn giản nhất, dữ liệu cấu trúc truyền thống có thể được lưu trữ thông qua một mô hình quan hệ. Hãy lấy, ví dụ, một cơ sở dữ liệu quan hệ với một bảng để lưu trữ thông tin sách: mỗi hàng trong bảng có thể đại diện cho một cuốn sách cụ thể được lập chỉ mục bởi số ISBN, trong khi các cột sẽ biểu thị loại thông tin tương ứng, chẳng hạn như tiêu đề, tác giả, ngày xuất bản, v.v. Ngày nay, có nhiều mô hình dữ liệu linh hoạt hơn – các cửa hàng cột rộng, cơ sở dữ liệu đối tượng, cơ sở dữ liệu đồ thị, v.v. Nhưng ý tưởng tổng thể vẫn giống nhau: những cơ sở dữ liệu này được thiết kế để lưu trữ dữ liệu phù hợp với một khuôn mẫu dữ liệu hoặc mô hình dữ liệu cụ thể.
Dữ liệu không cấu trúc, mặt khác, có thể được coi là về cơ bản là một khối dữ liệu nhị phân giả ngẫu nhiên. Nó có thể đại diện cho bất cứ điều gì, có thể có kích thước tùy ý lớn hoặc nhỏ, và có thể được biến đổi và đọc theo vô số cách khác nhau. Điều này làm cho nó không thể phù hợp với bất kỳ mô hình dữ liệu nào, để nói không cần một bảng trong một cơ sở dữ liệu quan hệ.
Có những ví dụ nào về loại dữ liệu này?
Dữ liệu được tạo bởi con người – hình ảnh, video, âm thanh, ngôn ngữ tự nhiên, v.v. – là những ví dụ tuyệt vời về dữ liệu không cấu trúc. Nhưng cũng có nhiều ví dụ ít tầm thường hơn về dữ liệu không cấu trúc. Hồ sơ người dùng, cấu trúc protein, trình tự gen, và thậm chí mã có thể đọc được của con người cũng là những ví dụ tuyệt vời về dữ liệu không cấu trúc. Lý do chính mà dữ liệu không cấu trúc truyền thống đã khó quản lý là dữ liệu không cấu trúc có thể có bất kỳ hình thức nào và có thể yêu cầu thời gian chạy khác nhau để xử lý.
Sử dụng hình ảnh làm ví dụ, hai bức ảnh của cùng một cảnh có thể có giá trị pixel hoàn toàn khác nhau, nhưng cả hai đều có nội dung tổng thể tương tự. Ngôn ngữ tự nhiên là một ví dụ khác về dữ liệu không cấu trúc mà tôi thích gọi là. Các cụm từ “Kỹ thuật Điện” và “Khoa học Máy tính” cực kỳ liên quan – đến mức mà các tòa nhà EE và CS tại Stanford nằm cạnh nhau – nhưng nếu không có cách nào để mã hóa ý nghĩa ngữ nghĩa đằng sau hai cụm từ này, máy tính có thể ngây thơ nghĩ rằng “Khoa học Máy tính” và “Khoa học Xã hội” liên quan hơn.
Cơ sở dữ liệu vector là gì?
Để hiểu cơ sở dữ liệu vector, trước tiên nó giúp hiểu được embedding là gì. Tôi sẽ nói về điều đó trong một lúc, nhưng phiên bản ngắn là embedding là một vector chiều cao có thể đại diện cho ý nghĩa ngữ nghĩa của dữ liệu không cấu trúc. Generally, hai embedding mà gần nhau về khoảng cách thì rất có thể tương ứng với dữ liệu đầu vào ngữ nghĩa tương tự. Với ML hiện đại, chúng tôi có sức mạnh để mã hóa và biến đổi nhiều loại dữ liệu không cấu trúc khác nhau – hình ảnh và văn bản, ví dụ – thành vector embedding ngữ nghĩa mạnh mẽ.
Từ quan điểm của một tổ chức, dữ liệu không cấu trúc trở nên cực kỳ khó quản lý một khi lượng dữ liệu vượt quá một giới hạn nhất định. Đây là nơi cơ sở dữ liệu vector như Zilliz Cloud tham gia. Cơ sở dữ liệu vector được thiết kế để lưu trữ, lập chỉ mục, và tìm kiếm trên lượng lớn dữ liệu không cấu trúc bằng cách tận dụng embedding làm đại diện cơ bản. Tìm kiếm trên cơ sở dữ liệu vector thường được thực hiện với vector truy vấn, và kết quả của truy vấn là N kết quả tương tự nhất dựa trên khoảng cách.
Những cơ sở dữ liệu vector tốt nhất có nhiều tính năng sử dụng của cơ sở dữ liệu quan hệ truyền thống: mở rộng theo chiều ngang, bộ nhớ đệm, sao chép, chuyển đổi, và thực hiện truy vấn chỉ là một số tính năng mà một cơ sở dữ liệu vector thực sự nên thực hiện. Là một người định nghĩa thể loại, chúng tôi đã hoạt động trong các vòng tròn học thuật cũng như, đã xuất bản các bài báo trong SIGMOD 2021 và VLDB 2022, hai hội nghị cơ sở dữ liệu hàng đầu hiện nay.
Bạn có thể thảo luận về embedding là gì?
Generally, embedding là một vector chiều cao đến từ các hoạt động của một lớp trung gian trong một mạng nơ-ron đa lớp. Nhiều mạng nơ-ron được đào tạo để xuất ra embedding và một số ứng dụng sử dụng vector kết hợp từ nhiều lớp trung gian làm embedding, nhưng tôi sẽ không đi sâu vào bất kỳ điều nào trong số đó ngay bây giờ. Một cách khác ít phổ biến nhưng cũng quan trọng để tạo ra embedding là thông qua tính năng thủ công. Thay vì có một mô hình ML tự động học các biểu diễn đúng cho dữ liệu đầu vào, kỹ thuật tính năng cũ vẫn có thể hoạt động cho nhiều ứng dụng. Bất kể phương pháp cơ bản, embedding cho các đối tượng ngữ nghĩa tương tự gần nhau về khoảng cách, và tính chất này là gì cung cấp năng lượng cho cơ sở dữ liệu vector.
Có những ví dụ nào về trường hợp sử dụng công nghệ này?
Cơ sở dữ liệu vector rất tốt cho bất kỳ ứng dụng nào yêu cầu một số hình thức tìm kiếm ngữ nghĩa – khuyến nghị sản phẩm, phân tích video, tìm kiếm tài liệu, phát hiện và phòng chống lừa đảo, và rô-bốt trò chuyện được hỗ trợ bởi AI là một số trường hợp sử dụng phổ biến nhất cho cơ sở dữ liệu vector ngày nay. Để minh họa điều này, Milvus, cơ sở dữ liệu vector mã nguồn mở được tạo bởi Zilliz và lõi cơ bản của Zilliz Cloud, đã được sử dụng bởi hơn một nghìn người dùng doanh nghiệp trên nhiều trường hợp sử dụng khác nhau.
Tôi luôn sẵn lòng thảo luận về những ứng dụng này và giúp mọi người hiểu cách chúng hoạt động, nhưng tôi chắc chắn rất thích đi qua một số trường hợp sử dụng cơ sở dữ liệu vector ít được biết đến. Phát hiện thuốc mới là một trong những trường hợp sử dụng “niche” cơ sở dữ liệu vector yêu thích của tôi. Thử thách cho ứng dụng này là tìm kiếm các ứng viên thuốc tiềm năng để điều trị một bệnh hoặc triệu chứng nhất định trong một cơ sở dữ liệu gồm 800 triệu hợp chất. Một công ty dược phẩm chúng tôi đã liên lạc với đã có thể cải thiện đáng kể quá trình phát hiện thuốc cũng như cắt giảm tài nguyên phần cứng bằng cách kết hợp Milvus với một thư viện hóa sinh gọi là RDKit.
Cleveland Museum of Art’s (CMA) AI ArtLens là một ví dụ khác tôi thích đưa ra. AI ArtLens là một công cụ tương tác lấy một hình ảnh truy vấn làm đầu vào và kéo các hình ảnh tương tự về mặt trực quan từ cơ sở dữ liệu của bảo tàng. Điều này thường được gọi là tìm kiếm hình ảnh ngược và là một trường hợp sử dụng khá phổ biến cho cơ sở dữ liệu vector, nhưng giá trị độc nhất mà Milvus cung cấp cho CMA là khả năng đưa ứng dụng lên và chạy trong vòng một tuần với một đội rất nhỏ.
Bạn có thể thảo luận về nền tảng mã nguồn mở Towhee là gì?
Khi giao tiếp với những người từ cộng đồng Milvus, chúng tôi đã tìm thấy rằng nhiều người trong số họ muốn có một cách thống nhất để tạo ra embedding cho Milvus. Điều này đúng cho gần như tất cả các tổ chức khác nhau mà chúng tôi đã nói chuyện, nhưng đặc biệt là đối với các công ty không có nhiều kỹ sư học máy. Với Towhee, chúng tôi nhằm giải quyết khoảng trống này thông qua những gì chúng tôi gọi là “vector dữ liệu ETL.” Trong khi các đường ống ETL truyền thống tập trung vào việc kết hợp và biến đổi dữ liệu cấu trúc từ nhiều nguồn thành một định dạng có thể sử dụng, Towhee được thiết kế để làm việc với dữ liệu không cấu trúc và rõ ràng bao gồm ML trong đường ống ETL kết quả. Towhee thực hiện điều này bằng cách cung cấp hàng trăm mô hình, thuật toán và biến đổi có thể được sử dụng làm các khối xây dựng trong một đường ống ETL dữ liệu vector. Trên hết, Towhee cũng cung cấp một API Python dễ sử dụng cho phép các nhà phát triển xây dựng và kiểm tra các đường ống ETL này trong một dòng mã.
Mặc dù Towhee là một dự án độc lập, nó cũng là một phần của hệ sinh thái cơ sở dữ liệu vector rộng lớn hơn được Zilliz tạo ra xung quanh Milvus. Chúng tôi hình dung Milvus và Towhee là hai dự án bổ sung cao mà khi được sử dụng cùng nhau, có thể thực sự dân chủ hóa việc xử lý dữ liệu không cấu trúc.
Zilliz gần đây đã huy động được 60 triệu đô la trong vòng Series B. Làm thế nào điều này sẽ tăng tốc cho sứ mệnh của Zilliz?
Tôi muốn bắt đầu bằng cách cảm ơn Prosperity7 Ventures, Pavilion Capital, Hillhouse Capital, 5Y Capital, Yunqi Capital, và những người khác đã tin tưởng vào sứ mệnh của Zilliz và hỗ trợ chúng tôi với vòng mở rộng Series B này. Chúng tôi đã huy động được tổng cộng 113 triệu đô la, và vòng tài trợ này sẽ hỗ trợ nỗ lực của chúng tôi để mở rộng các đội kỹ sư và tiếp thị. Cụ thể, chúng tôi sẽ cải thiện dịch vụ đám mây được quản lý của mình, hiện đang trong giai đoạn truy cập sớm nhưng dự kiến sẽ mở cho mọi người vào cuối năm nay. Chúng tôi cũng sẽ tiếp tục đầu tư vào nghiên cứu cơ sở dữ liệu và AI tiên tiến như chúng tôi đã làm trong 4 năm qua.
Có điều gì khác bạn muốn chia sẻ về Zilliz?
Là một công ty, chúng tôi đang phát triển nhanh chóng, nhưng điều thực sự khiến đội ngũ hiện tại của chúng tôi khác biệt với những người khác trong không gian cơ sở dữ liệu và ML là niềm đam mê độc nhất đối với những gì chúng tôi đang xây dựng. Chúng tôi đang trên một sứ mệnh để dân chủ hóa việc xử lý dữ liệu không cấu trúc, và thật tuyệt vời khi thấy nhiều người tài năng tại Zilliz làm việc hướng tới một mục tiêu duy nhất. Nếu bất kỳ điều gì chúng tôi đang làm nghe có vẻ thú vị với bạn, hãy cảm free để liên hệ với chúng tôi. Chúng tôi sẽ rất vui được chào đón bạn.
Nếu bạn muốn biết thêm một chút, tôi cũng sẵn sàng trò chuyện về Zilliz, cơ sở dữ liệu vector, hoặc tiến bộ liên quan đến embedding trong AI/ML. “Cửa” của tôi luôn mở, vì vậy hãy cảm free để liên hệ trực tiếp với tôi trên Twitter/LinkedIn.
Cuối cùng nhưng không kém, cảm ơn bạn đã đọc!
Cảm ơn bạn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập Zilliz.












