Connect with us

Доктор Ставрос Пападопулос, Основатель и Генеральный Директор, TileDB – Серия Интервью

Интервью

Доктор Ставрос Пападопулос, Основатель и Генеральный Директор, TileDB – Серия Интервью

mm

TileDB – это современная база данных, которая интегрирует все модальности данных, код и вычисления в едином продукте. TileDB была создана в мае 2017 года на основе исследований в MIT и Intel Labs.

До основания компании TileDB, Inc. в феврале 2017 года, доктор Ставрос Пападопулос был старшим исследователем в Intel Parallel Computing Lab и членом Intel Science and Technology Center для Big Data в MIT CSAIL в течение трех лет. Он также провел около двух лет в качестве приглашенного профессора на кафедре компьютерных наук и инженерии Гонконгского университета науки и технологий (HKUST). Ставрос получил степень доктора философии в области компьютерных наук в HKUST под руководством профессора Димитриса Пападиаса и занимал должность постдокторанта в Китайском университете Гонконга с профессором Юфей Тао.

Вы ранее были старшим исследователем в Intel Parallel Computing Lab и членом Intel Science and Technology Center (ISTC) для Big Data в MIT CSAIL в течение трех лет. Можете ли вы поделиться с нами некоторыми ключевыми моментами из этого периода вашей жизни?

Во время моего пребывания в Intel Labs и MIT, я имел уникальную возможность сотрудничать с известными учеными в двух разных научных областях: высокопроизводительных вычислениях (в Intel) и базах данных (в MIT). Знания и опыт, которые я приобрел, стали ключевыми в формировании моего видения создания нового типа базы данных, который я в конечном итоге построил как исследовательский проект в ISTC и выделил в то, что стало TileDB.

Можете ли вы объяснить видение, лежащее в основе TileDB, и как оно стремится революционизировать современный ландшафт баз данных?

За последние несколько лет наблюдается огромный рост приложений машинного обучения и Генеративного ИИ, которые помогают организациям принимать лучшие решения. Каждый день организации открывают новые закономерности в своих данных и используют эту информацию для достижения конкурентного преимущества. Эти закономерности возникают из постоянно растущего спектра модальностей данных, которые должны быть размещены и управляемы для того, чтобы быть использованными. От традиционных табличных данных до более сложных источников данных, таких как социальные посты, электронная почта, изображения, видео и данные с датчиков, возможность извлечь смысл из данных требует анализа в совокупности. По мере увеличения количества типов данных эта задача становится все более трудной, требуя нового типа базы данных. Именно поэтому была создана TileDB.

Почему важно, чтобы организации уделяли приоритетное внимание своей инфраструктуре данных перед разработкой передовых аналитических и машинных возможностей?

Среди лихорадочного желания принять ИИ есть критическая и часто упускаемая из виду истина – успех любой инициативы ИИ тесно связан с качеством и производительностью лежащей в основе инфраструктуры данных.

Проблема заключается в том, что сложные данные, которые не естественным образом представлены в виде таблиц, считаются “неструктурированными” и обычно либо хранятся в виде плоских файлов в специальных форматах данных, либо управляются разными, специально созданными базами данных. Ученые-исследователи тратят огромное количество времени на обработку данных, чтобы консолидировать их. Оценивается, что 80-90 процентов времени ученых-исследователей тратится на очистку данных и подготовку их к слиянию. Это замедляет время обучения алгоритмов ИИ и достижение прогностических возможностей. Кроме того, это означает, что только 10-20 процентов времени ученых-исследователей тратится на создание выводов.

Какие общие ловушки организации сталкиваются, когда они фокусируются больше на приложениях ИИ и МО, чем на прочной базе данных инфраструктуры?

Организации склонны фокусироваться на блестящих новых вещах. Большие Языковые Модели, векторные базы данных и генеративные приложения ИИ, построенные на основе инфраструктуры данных, являются текущими примерами, за счет решения лежащей в основе инфраструктуры данных, которая имеет решающее значение для аналитического успеха. Просто говоря, если ваша организация делает это, вы можете тратить непомерное количество времени на сборку своей инфраструктуры данных и задерживать или вообще не достигать возможностей для получения выводов.

Можете ли вы подробнее рассказать о том, что делает базу данных “адаптивной” и почему эта адаптивность имеет решающее значение для современной аналитики данных?

Адаптивная база данных – это та, которая может менять свою форму, чтобы вместить все данные – независимо от их модальности – и хранить их вместе в унифицированном виде. Адаптивная база данных придает структуру данным, которые в противном случае считаются “неструктурированными”. Оценивается, что 80 процентов или более мировых данных не являются табличными, или неструктурированными, и большинство моделей ИИ/МО (включая Большие Языковые Модели) обучаются на этом типе данных.

TileDB структурирует данные в многомерных массивах. Как этот формат улучшает производительность и стоимость-эффективность по сравнению с традиционными базами данных?

Основная сила многомерной базы данных массивов заключается в том, что она может менять свою форму, чтобы вместить практически любую модальность данных и приложение. Вектор, например, является просто одномерным массивом. Придавая структуру этому “неструктурированному” данным, вы можете консолидировать свою инфраструктуру данных, значительно снизить затраты, устранить изоляцию, повысить производительность и повысить безопасность. Двигаясь дальше, когда вычислительная инфраструктура объединяется с инфраструктурой управления данными, вы можете извлечь мгновенную ценность из своих данных.

Какие есть заметные случаи использования, где TileDB значительно улучшила управление данными и производительность аналитики?

Первый случай использования TileDB был хранением, управлением и анализом огромных геномных данных, что очень сложно и дорого моделировать и хранить в традиционной табличной базе данных. Мы наблюдали феноменальные показатели производительности (в порядке 100 раз быстрее в многих случаях по сравнению с другими базами данных и специальными решениями). Однако наша модель многомерного массива является универсальной и может эффективно захватывать другие модальности данных. Например, TileDB отлично справляется с биомедицинской визуализацией, спутниковой визуализацией, транскриптомикой отдельных клеток и данными точечных облаков, такими как LiDAR и SONAR.

TileDB предлагает инструменты с открытым исходным кодом для обеспечения совместимости. Как подход с открытым исходным кодом выгоден для научного и аналитического сообществ?

Мы являемся сторонниками открытого исходного кода в TileDB. Основная библиотека и спецификация формата данных являются открытыми. Кроме того, наши предложения в области жизни, построенные на основе основной библиотеки массивов, также являются открытыми. Это включает TileDB-SOMA, пакет для эффективного и масштабируемого управления данными отдельных клеток, который был создан в сотрудничестве с Фондом Чана Цукерберга и обеспечивает CELLxGENE Discover Census – самую большую в мире полностью курированную базу данных отдельных клеток. Это также является открытым исходным кодом и используется академическими учреждениями и крупными фармацевтическими компаниями по всему миру.

Что вы видите как будущие тенденции в управлении данными?

По мере того, как данные становятся богаче, приложения ИИ становятся умнее. Большие Языковые Модели становятся все более и более мощными, используя множество модальностей данных, и интеграция этих моделей с разнообразными наборами данных открывает новую границу в ИИ, известную как многомодальный ИИ.

Практически говоря, многомодальный ИИ означает, что пользователи не ограничены одним входом и одним типом выхода и могут запрашивать модель с практически любым входом, чтобы сгенерировать практически любой тип контента. Мы видим TileDB как идеальную базу данных для поддержки многомодального ИИ, построенную для поддержки любых новых и разных типов данных, которые могут появиться.

Благодарим за отличный обзор, читатели, которые хотят узнать больше, должны посетить TileDB.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.