Інтерв’ю
Чарльз Сє, Засновник та Головний Виконавчий Директор Zilliz – Серія Інтерв’ю

Чарльз Сє є засновником і головним виконавчим директором Zilliz, який зосереджується на створенні наступного покоління баз даних і технологій пошуку для додатків штучного інтелекту і великих мовних моделей. В Zilliz він також винайшов Milvus, найпопулярнішу відкриту векторну базу даних для виробничого штучного інтелекту. Наразі він є членом ради LF AI & Data Foundation і обіймав посаду голови ради у 2020 і 2021 роках. Чарльз раніше працював в Oracle як засновник інженер проекту бази даних Oracle 12c. Чарльз має магістерську ступінь з комп’ютерних наук Університету Вісконсін-Медісон.
Zilliz є командою, яка стоїть за LF AI Milvus®, широко використовуваною відкритою векторною базою даних. Компанія зосереджується на спрощенні управління інфраструктурою даних, маючи на меті зробити штучний інтелект більш доступним для корпорацій, організацій і окремих осіб.
Чи можете ви поділитися історією заснування Zilliz і чим вас надихнуло розробити Milvus і зосередитися на векторних базах даних?
Моя подорож у сфері баз даних триває понад 15 років, включаючи шість років як інженер-програміст в Oracle, де я був одним із засновників команди бази даних Oracle 12c. Під час цього часу я помітив ключове обмеження: хоча структуровані дані були добре керованими, неструктуровані дані – що становить 90% всіх даних – залишилися в основному не використаними, з лише 1% проаналізованими суттєво.
У 2017 році зростаюча здатність штучного інтелекту обробляти неструктуровані дані стала поворотним моментом. Підходи в галузі обробки природної мови показали, як неструктуровані дані можна перетворити на векторні вкладення, відкриваючи їхнє семантичне значення. Це надихнуло мене заснувати Zilliz, маючи на меті керувати “зіллями даних”. Векторні вкладення стали краєчністю для подолання розриву між неструктурованими даними і дієвими висновками. Ми розробили Milvus як спеціалізовану векторну базу даних, щоб втіліти цю бачення в життя.
За останні два роки галузь підтвердила цей підхід, визнавши векторні бази даних фундаментальними для керування неструктурованими даними. Для нас це не тільки технологія – це про те, щоб наділити людство можливістю використовувати потенціал неструктурованих даних у добі штучного інтелекту.
Як змінилася подорож Zilliz з моменту її заснування шість років тому, і які ключові виклики ви зустріли під час піонерської роботи у сфері векторних баз даних?
Подорож була трансформаційною. Коли ми почали Zilliz сім років тому, справжнім викликом не було залучення коштів або набір персоналу – це було створення продукту в абсолютно неознайомленій території. Без існуючих карт, найкращих практик або встановлених очікувань користувачів нам довелося прокладати свій власний шлях.
Наш прорив стався з відкриттям Milvus. Знижуючи бар’єри для прийняття та сприяючи взаємодії спільноти, ми отримали цінний зворотний зв’язок користувачів для ітерації та поліпшення продукту. Коли Milvus був запущений у 2019 році, у нас було близько 30 користувачів до кінця року. Це виросло до понад 200 у 2020 році і майже 1 000 незабаром після цього.
Сьогодні векторні бази даних перейшли від нової концепції до життєво важливої інфраструктури в добі штучного інтелекту, підтверджуючи бачення, з яким ми почали.
Як компанія, що спеціалізується на векторних базах даних, які унікальні технічні можливості пропонує Zilliz для підтримки багатомодальної векторної пошуку в сучасних додатках штучного інтелекту?
Zilliz розробила просунуті технічні можливості для підтримки багатомодальної векторної пошуку:
- Гібридний пошук: Ми дозволяємо одночасні пошуки в різних модальностях, таких як поєднання візуальних особливостей зображення з його текстовим описом.
- Оптимізовані алгоритми: Наші власні техніки квантування балансують точність виклику і ефективність пам’яті для міжмодальних пошуків.
- Реальний час і офлайн-обробка: Наша двоколійна система підтримує низьколітерні реальні записи і високопродуктивну офлайн-імпорт, забезпечуючи свіжість даних.
- Ефективність витрат: Наші розширені екземпляри здатностей використовують інтелектуальне шароване сховище для зниження витрат на сховище значно, зберігаючи при цьому високу продуктивність.
- Вбудовані моделі штучного інтелекту: Інтегруючи багатомодальні вкладення і моделі ранжування, ми знизили бар’єр для реалізації складних додатків пошуку.
Ці можливості дозволяють розробникам ефективно обробляти різноманітні типи даних, роблячи сучасні додатки штучного інтелекту більш стійкими і універсальними.
Як ви бачите розвиток багатомодальної RAG для підвищення здатності штучного інтелекту обробляти складні реальні дані, такі як зображення, аудіо і відео поряд з текстом?
Багатомодальна RAG (Retrieval-Augmented Generation) представляє собою ключеву еволюцію штучного інтелекту. Хоча текстова RAG була видатною, більшість даних підприємств охоплює зображення, відео і аудіо. Спроможність інтегрувати ці різні формати в робочі процеси штучного інтелекту є критичною.
Цей зсув своєчасний, оскільки спільнота штучного інтелекту обговорює межі доступних інтернет-текстових даних для навчання. Хоча текстові дані є скінченними, багатомодальні дані залишаються в основному невикористаними – від корпоративних відео до голлівудських фільмів і аудіозаписів.
Багатомодальна RAG відкриває цей невикористаний резервуар, дозволяючи системам штучного інтелекту обробляти і використовувати ці багаті типи даних. Це не тільки питання про подолання нестачі даних – це про розширення меж здатності штучного інтелекту краще зрозуміти і взаємодіяти з реальним світом.
Як Zilliz відрізняється від конкурентів на швидко зростаючому ринку векторних баз даних?
Zilliz виділяється через кілька унікальних аспектів:
- Подвійна ідентичність: Ми є як компанією штучного інтелекту, так і компанією баз даних, розширюючи межі керування даними і інтеграції штучного інтелекту.
- Клауд-орієнтований дизайн: Milvus 2.0 був першою розподіленою векторною базою даних, яка прийняла архітектуру роз’єднаного сховища і обчислення, забезпечуючи масштабованість і ефективність витрат для понад 100 мільярдів векторів.
- Власні вдосконалення: Наш двигун Cardinal досягає у 3 рази кращої продуктивності відкритої Milvus і у 10 разів кращої, ніж у конкурентів. Ми також пропонуємо дискове індексування і інтелектуальне шароване сховище для ефективного масштабування.
- Постійна інновація: Від гібридних можливостей пошуку до інструментів міграції, таких як VTS, ми постійно просунуємо технологію векторних баз даних.
Наша прив’язаність до відкритого джерела забезпечує гнучкість, тоді як наш керований сервіс, Zilliz Cloud, пропонує підприємству продуктивність з мінімальною операційною складністю.
Чи можете ви роз’яснити значення Zilliz Cloud і його роль у демократизації штучного інтелекту та наданні доступу до послуг векторної пошуку малим розробникам і підприємствам?
Векторна пошук була використана технологічними гігантами з 2015 року, але власні реалізації обмежували її ширше прийняття. В Zilliz ми демократизуємо цю технологію двома взаємодоповнювальними підходами:
- Відкрите джерело: Milvus дозволяє розробникам будувати і володіти своєю інфраструктурою векторної пошуку, знижуючи технічні бар’єри.
- Керований сервіс: Zilliz Cloud усуває операційний ओवरхед, пропонуючи просте і ефективне рішення для підприємств, щоб прийняти векторну пошук без потреби у спеціалізованих інженерах.
Цей подвійний підхід робить векторну пошук доступною як для розробників, так і для підприємств, дозволяючи їм зосередитися на створенні інноваційних додатків штучного інтелекту.
З урахуванням вдосконалень великих мовних моделей і базових моделей, що, на вашу думку, буде наступним великим зрушенням в інфраструктурі даних штучного інтелекту?
Наступним великим зрушенням буде повна трансформація інфраструктури даних штучного інтелекту для обробки неструктурованих даних, які становлять 90% всіх даних світу. Існуючі системи, розроблені для структурованих даних, не підходять для цього зрушення.
Ця трансформація вплине на кожний рівень стека даних, від фундаментальних баз даних до протоколів безпеки і систем спостереження. Це не питання про інкрементальні оновлення – це про створення нових парадигм, адаптованих до складностей неструктурованих даних.
Ця трансформація торкнеться кожного аспекту стека даних:
- Фундаментальні системи баз даних
- Пipelines даних і процеси ETL
- Механізми очищення і перетворення даних
- Протоколи безпеки і шифрування
- Фреймворки відповідності і керування
- Системи спостереження даних
Ми не тільки говоримо про оновлення існуючих систем – ми говоримо про будівництво цілком нових парадигм. Це як переходити від світу, оптимізованого для організації книг у бібліотеці, до світу, який потрібно керувати, розуміти і обробляти весь інтернет. Це зрушення представляє собою цілком новий світ, де кожна складова інфраструктури даних може потребувати переосмислення з нуля.
Ця революція переозначить, як ми зберігаємо, керуємо і обробляємо дані, відкриваючи величезні можливості для інновацій штучного інтелекту.
Як інтеграція графічних процесорів NVIDIA вплинула на продуктивність і масштабованість вашого векторного пошуку?
Інтеграція графічних процесорів NVIDIA суттєво покращила продуктивність нашого векторного пошуку в двох ключових областях.
По-перше, у будівництві індексу, яке є однією з найбільш обчислювально інтенсивних операцій у векторних базах даних. На відміну від традиційного індексування баз даних, будівництво векторного індексу вимагає декілька порядків більших обчислювальних потужностей. Використовуючи прискорення GPU, ми суттєво зменшили час будівництва індексу, забезпечуючи швидшу інгестію даних і покращення видимості даних.
По-друге, GPU були важливими для високопродуктивних випадків використання запитів. У додатках, таких як електронна комерція, де системи потрібно обробляти тисячі або навіть десятки тисяч запитів на секунду (QPS), паралельні можливості обробки GPU довели свою цінність. Використовуючи прискорення GPU, ми можемо ефективно обробляти ці високовольтні векторні пошуки схожості, зберігаючи при цьому низьку затримку.
З 2021 року ми співпрацюємо з NVIDIA, щоб оптимізувати наші алгоритми для архітектури GPU, а також розробляти нашу систему для підтримки гетерогенної обчислювальної техніки на різних архітектурах процесорів. Це надає нашим клієнтам гнучкість у виборі найбільш підходящої апаратної інфраструктури для їхніх конкретних потреб.
Як векторні бази даних відіграють критичну роль у штучному інтелекті, чи бачите ви їхнє застосування за межами традиційних випадків використання, таких як системи рекомендацій і пошук, у галузях, таких як охорона здоров’я?
Векторні бази даних швидко розширюються за межі традиційних застосунків, таких як системи рекомендацій і пошук, проникаючи в галузі, які ми раніше не уявляли. Дозвольте мені поділитися деякими прикладами.
У сфері охорони здоров’я і фармацевтичних досліджень векторні бази даних революціонізують відкриття ліків. Молекули можна векторизувати на основі їхніх функціональних властивостей, а за допомогою просунутих функцій, таких як пошук діапазону, дослідники можуть виявити всі потенційні кандидати на ліки, які можуть лікувати конкретні захворювання або симптоми. На відміну від традиційних топ-k пошуків, пошук діапазону ідентифікує всі молекули в межах певної відстані від цілі, забезпечуючи повний огляд потенційних кандидатів.
У сфері автономного руху векторні бази даних покращують безпеку транспортних засобів і продуктивність. Одним із цікавих застосунків є обробка крайових випадків – коли виникають незвичайні ситуації, система може швидко шукати через масивні бази даних подібних ситуацій, щоб знайти відповідні дані для тонкої настройки моделей автономного руху.
Ми також бачимо інноваційні застосування у фінансових послугах для виявлення шахрайства, кібербезпеці для виявлення загроз і таргетованої реклами для покращення взаємодії з клієнтами. Наприклад, у банківській справі транзакції можна векторизувати і порівняти з історичними моделями, щоб ідентифікувати потенційно шахрайську діяльність.
Сила векторних баз даних полягає в їхній здатності зрозуміти і обробити схожість у будь-якій області – чи то молекулярні структури, сценарії руху, фінансові моделі чи загрози безпеки. По мірі розвитку штучного інтелекту ми тільки починаємо розуміти, чого можна досягти. Спроможність ефективно обробляти і знаходити закономірності у величезних масивах неструктурованих даних відкриває можливості, які ми тільки починаємо досліджувати.
Як розробники і підприємства можуть найкраще взаємодіяти з Zilliz і Milvus, щоб використати технологію векторних баз даних у своїх проектах штучного інтелекту?
Є два основних шляхи для використання технології векторних баз даних з Zilliz і Milvus, кожен з яких підходить для різних потреб і пріоритетів. Якщо ви цінуєте гнучкість і налаштування, Milvus, наш відкритий вирішення, є вашим найкращим вибором. З Milvus ви можете:
- Експериментувати вільно і вивчати технологію в своєму темпі
- Налаштувати рішення відповідно до ваших конкретних вимог
- Внесок у розвиток і модифікацію кодової бази
- Зберігати повний контроль над вашою інфраструктурою
Однак, якщо ви хочете зосередитися на побудові вашого додатка без керування інфраструктурою, Zilliz Cloud є оптимальним вибором. Він пропонує:
- Готове рішення з однією кліком розгортання
- Підприємству безпека і відповідність
- Висока доступність і стабільність
- Оптимізована продуктивність без операційного ओवरхеду
Спостерігайте це так: якщо ви любите “шукати” і хочете максимальної гнучкості, перейдіть до Milvus. Якщо ви хочете мінімізувати операційну складність і приступити до побудови вашого додатка, виберіть Zilliz Cloud.
Обидва шляхи приведуть вас до вашої мети – це питання про те, як багато з цієї подорожі ви хочете контролювати, а скільки часу вам потрібно, щоб прибути
Дякуємо за чудовий інтерв’ю. Читачам, які бажають дізнатися більше, рекомендуємо відвідати Zilliz або Milvus.












