Connect with us

Франк Лиу, Директор по операциям в Zilliz – Интервью-серия

Интервью

Франк Лиу, Директор по операциям в Zilliz – Интервью-серия

mm

Франк Лиу является Директором по операциям в Zilliz, ведущем поставщике векторных баз данных и технологий ИИ. Они также являются инженерами и учеными, создавшими LF AI Milvus®, самую популярную открытую векторную базу данных в мире.

Что изначально привлекло вас к машинному обучению?

Моё первое знакомство с мощью МО/ИИ было как у студента-юнкера в Стэнфорде, несмотря на то, что это было немного в стороне от моей специальности (Электротехника). Меня изначально привлекла ЭТ как область потому, что способность свести сложные электрические и физические системы к математическим приближениям казалась мне очень мощной, и статистика и машинное обучение казались мне такими же. Я в итоге взял больше курсов по компьютерному зрению и машинному обучению во время аспирантуры, и я в итоге написал свою магистерскую диссертацию на тему использования МО для оценки эстетической красоты изображений. Все это привело меня к моей первой работе в команде компьютерного зрения и машинного обучения в Yahoo, где я был в гибридной исследовательской и разработческой роли. Мы были еще в до-трансформерные дни AlexNet и VGG в то время, и видеть, как вся отрасль и индустрия движется так быстро, от подготовки данных к массово-параллельной тренировке моделей до производственной реализации моделей, было удивительно. Во многих отношениях, кажется немного нелепо использовать фразу “в то время” для обозначения чего-то, что произошло менее 10 лет назад, но такой является прогресс, достигнутый в этой области.

После Yahoo я служил в качестве технического директора стартапа, который я основал, где мы использовали МО для индор-локализации. Там мы должны были оптимизировать последовательные модели для очень маленьких микроконтроллеров – совершенно другая, но не менее связанная инженерная задача с сегодняшними массивными ЛМО и диффузионными моделями. Мы также строили аппаратуру, панели для визуализации и простые облачные приложения, но ИИ/МО всегда служили основным компонентом работы, которую мы выполняли.

Хотя я уже около 7 или 8 лет нахожусь в МО или смежных областях, я все еще сохраняю большую любовь к схемотехнике и цифровой логике. Имея образование в области Электротехники, во многих отношениях, невероятно полезно для большей части работы, в которой я сейчас участвую. Многие важные концепции цифровой схемы, такие как виртуальная память, предсказание ветвлений и параллельное выполнение в HDL, помогают обеспечить полноценный взгляд на многие системы МО и распределенные системы сегодня. Хотя я понимаю привлекательность компьютерных наук, я надеюсь увидеть возрождение более традиционных инженерных областей – ЭТ, МТ, ХТ и т. д. – в течение следующих пары лет.

Для читателей, которые не знакомы с термином, что такое неструктурированные данные?

Неструктурированные данные относятся к “сложным” данным, которые по сути являются данными, которые не могут быть хранены в заранее определенной форме или вписаны в существующую модель данных. Для сравнения, структурированные данные относятся к любому типу данных, который имеет заранее определённую структуру – числовые данные, строки, таблицы, объекты и хранилища ключ/значение являются всеми примерами структурированных данных.

Чтобы действительно понять, что такое неструктурированные данные и почему они традиционно были трудны для компьютерной обработки, помогает сравнить их со структурированными данными. В самых простых терминах традиционные структурированные данные могут быть хранены через реляционную модель. Возьмите, например, реляционную базу данных с таблицей для хранения информации о книгах: каждая строка в таблице могла бы представлять конкретную книгу, проиндексированную по номеру ISBN, а столбцы бы обозначали соответствующую категорию информации, такую как название, автор, дата публикации и т. д. Сегодня есть гораздо более гибкие модели данных – широкие хранилища столбцов, объектные базы данных, графовые базы данных и т. д. Но общая идея остается такой же: эти базы данных предназначены для хранения данных, которые соответствуют определенной форме или модели данных.

Неструктурированные данные, с другой стороны, могут быть рассмотрены как по сути псевдослучайный блок бинарных данных. Они могут представлять все, что угодно, быть произвольно большими или маленькими и могут быть преобразованы и прочитаны бесчисленными способами. Это делает их невозможными для вписывания в любую модель данных, не говоря уже о таблице в реляционной базе данных.

Какие есть примеры такого типа данных?

Данные, созданные человеком – изображения, видео, аудио, естественный язык и т. д. – являются отличными примерами неструктурированных данных. Но есть много менее обыденных примеров неструктурированных данных. Профили пользователей, структуры белков, геномные последовательности и даже человеко-читаемый код являются отличными примерами неструктурированных данных. Основная причина, по которой неструктурированные данные традиционно были так трудны в управлении, заключается в том, что неструктурированные данные могут иметь любую форму и могут требовать совершенно разных времен выполнения для обработки.

Используя изображения в качестве примера, две фотографии одной и той же сцены могли бы иметь совершенно разные значения пикселей, но обе имеют схожее общее содержание. Естественный язык является еще одним примером неструктурированных данных, который я люблю упоминать. Фразы “Электротехника” и “Компьютерные науки” чрезвычайно близки – настолько, что здания ЭТ и КН в Стэнфорде расположены рядом друг с другом – но без способа закодировать семантическое значение за этими двумя фразами, компьютер может наивно подумать, что “Компьютерные науки” и “Социальные науки” более связаны.

Что такое векторная база данных?

Чтобы понять векторную базу данных, сначала помогает понять, что такое вложение. Я расскажу об этом немного позже, но короткая версия заключается в том, что вложение является высокоразмерным вектором, который может представлять семантику неструктурированных данных. В целом, два вложения, которые близки друг к другу в терминах расстояния, очень вероятно соответствуют семантически похожим входным данным. С помощью современного МО мы имеем возможность кодировать и преобразовывать различные типы неструктурированных данных – изображения и текст, например – в семантически мощные векторы вложений.

С точки зрения организации неструктурированные данные становятся невероятно трудными в управлении, как только их количество превышает определенный предел. Вот где векторная база данных, такая как Zilliz Cloud, приходит на помощь. Векторная база данных предназначена для хранения, индексации и поиска по огромным количествам неструктурированных данных, используя вложения в качестве основного представления. Поиск по векторной базе данных обычно выполняется с помощью запросных векторов, и результатом запроса являются топ-N наиболее похожих результатов на основе расстояния.

Лучшие векторные базы данных имеют многие функции удобства традиционных реляционных баз данных: горизонтальное масштабирование, кэширование, репликация, отработка отказов и выполнение запросов являются лишь некоторыми из многих функций, которые истинная векторная база данных должна реализовать. Как определитель категории, мы были активны в академических кругах, опубликовав статьи в SIGMOD 2021 и VLDB 2022, двух лучших конференций по базам данных, которые существуют сегодня.

Можете ли вы обсудить, что такое вложение?

В целом, вложение является высокоразмерным вектором, который возникает из активаций промежуточного слоя в многослойной нейронной сети. Многие нейронные сети обучены сами выводить вложения и некоторые применения используют конкатенированные векторы из нескольких промежуточных слоев в качестве вложения, но я не буду слишком глубоко вдаваться в это сейчас. Другой, менее распространенный, но не менее важный способ генерации вложений – через手crafted-фичи. Вместо того, чтобы иметь модель МО, которая автоматически учит правильные представления для входных данных, хорошая старая инженерия фич может работать для многих приложений. Независимо от основного метода, вложения для семантически похожих объектов близки друг к другу в терминах расстояния, и это свойство является тем, что питает векторные базы данных.

Какие из наиболее популярных случаев использования этой технологии?

Векторные базы данных отлично подходят для любого приложения, которое требует некоторой формы семантического поиска – рекомендация продуктов, анализ видео, поиск документов, обнаружение угроз и мошенничества и ИИ-чаты являются одними из наиболее популярных случаев использования векторных баз данных сегодня. Чтобы проиллюстрировать это, Milvus, открытая векторная база данных, созданная Zilliz и лежащая в основе Zilliz Cloud, была использована более чем тысячей корпоративных пользователей по различным случаям использования.

Мне всегда приятно обсуждать эти приложения и помогать людям понять, как они работают, но я определенно очень люблю обсуждать некоторые менее известные случаи использования векторных баз данных. Открытие новых лекарств является одним из моих любимых “нишевых” случаев использования векторных баз данных. Вызов для этого конкретного приложения заключается в поиске потенциальных кандидатов на лекарства для лечения определенного заболевания или симптома среди базы данных из 800 миллионов соединений. Фармацевтическая компания, с которой мы общались, смогла значительно улучшить процесс открытия лекарств, а также сократить аппаратные ресурсы, объединив Milvus с хеминформатическим библиотекой RDKit.

Cleveland Museum of Art’s (CMA) AI ArtLens является еще одним примером, который я люблю упоминать. AI ArtLens является интерактивным инструментом, который принимает запросное изображение в качестве входных данных и извлекает визуально похожие изображения из базы данных музея. Это обычно называется обратным поиском изображений и является довольно распространенным случаем использования векторных баз данных, но уникальная ценность, которую Milvus предоставил CMA, заключалась в том, что он смог запустить приложение в течение недели с очень маленькой командой.

Можете ли вы обсудить, что такое открытая платформа Towhee?

Когда мы общались с людьми из сообщества Milvus, мы обнаружили, что многие из них хотели иметь унифицированный способ генерации вложений для Milvus. Это было верно для几乎 всех организаций, с которыми мы говорили, но особенно для компаний, которые не имели многих инженеров-машинного обучения. С помощью Towhee мы стремимся решить этот пробел через то, что мы называем “векторной данными ETL”. Хотя традиционные конвейеры ETL фокусируются на объединении и преобразовании структурированных данных из нескольких источников в пригодный для использования формат, Towhee предназначен для работы с неструктурированными данными и явно включает МО в результирующий конвейер ETL. Towhee достигает этого, предоставляя сотни моделей, алгоритмов и преобразований, которые могут быть использованы в качестве строительных блоков в конвейере векторных данных ETL. Кроме того, Towhee предоставляет простой в использовании Python API, который позволяет разработчикам строить и тестировать эти конвейеры ETL в одной строке кода.

Хотя Towhee является самостоятельным проектом, он также является частью более широкой экосистемы векторных баз данных, центрированной вокруг Milvus, которую создает Zilliz. Мы представляем себе Milvus и Towhee как два высоко дополняющих проектов, которые, когда используются вместе, могут действительно демократизировать обработку неструктурированных данных.

Zilliz недавно провела раунд финансирования Series B на сумму 60 миллионов долларов. Как это ускорит миссию Zilliz?

Сначала я хотел бы поблагодарить Prosperity7 Ventures, Pavilion Capital, Hillhouse Capital, 5Y Capital, Yunqi Capital и других за то, что они поверили в миссию Zilliz и поддержали нас этим расширением Series B. Мы теперь собрали в общей сложности 113 миллионов долларов, и этот последний раунд финансирования поддержит наши усилия по масштабированию инженерных и маркетинговых команд. В частности, мы будем улучшать нашу управляемую облачную услугу, которая в настоящее время находится на ранней стадии доступа, но запланирована на открытие для всех позже в этом году. Мы также продолжим инвестировать в передовые исследования баз данных и ИИ, как мы делали в течение последних 4 лет.

Есть ли что-то еще, что вы хотели бы поделиться о Zilliz?

Как компания, мы быстро растем, но то, что действительно отличает нашу текущую команду от других в области баз данных и МО, является нашей единой страстью к тому, что мы строим. Мы на миссии по демократизации обработки неструктурированных данных, и это абсолютно удивительно видеть так много талантливых людей в Zilliz, работающих над единой целью. Если что-то из того, что мы делаем, звучит интересно для вас, не стесняйтесь связаться с нами. Мы бы с радостью приняли вас на борт.

Если вы хотите узнать немного больше, я также лично открыт для обсуждения Zilliz, векторных баз данных или связанных с этим достижений в области МО/ИИ. Моя (фигурально) дверь всегда открыта, поэтому не стесняйтесь связаться со мной напрямую в Twitter/LinkedIn.

Наконец, спасибо за чтение!

Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Zilliz.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.

Раскрытие информации о рекламе: Unite.AI придерживается строгих редакционных стандартов, чтобы предоставлять читателям точную информацию и новости. Мы можем получать вознаграждение, если вы переходите по ссылкам на продукты, которые мы рассмотрели.