Interviews
Dr. Stavros Papadopoulos, Fondateur et PDG, TileDB – Série d’entretiens

TileDB est la base de données moderne qui intègre toutes les modalités de données, le code et le calcul dans un seul produit. TileDB a été créé à partir du MIT et des laboratoires Intel en mai 2017.
Avant de fonder TileDB, Inc. en février 2017, le Dr Stavros Papadopoulos était un chercheur principal au laboratoire de calcul parallèle d’Intel, et un membre du centre de science et de technologie Intel pour les grandes données au MIT CSAIL pendant trois ans. Il a également passé environ deux ans en tant que professeur invité au département d’informatique et de génie de l’Université des sciences et de la technologie de Hong Kong (HKUST). Stavros a obtenu son doctorat en informatique à HKUST sous la supervision du professeur Dimitris Papadias, et a occupé un poste de boursier postdoctoral à l’Université chinoise de Hong Kong avec le professeur Yufei Tao.
Vous étiez précédemment le chercheur principal au laboratoire de calcul parallèle d’Intel, et un membre du centre de science et de technologie Intel (ISTC) pour les grandes données au MIT CSAIL pendant trois ans. Pouvez-vous partager avec nous quelques points clés de cette période de votre vie ?
Pendant mon séjour à Intel Labs et au MIT, j’ai eu l’opportunité unique de collaborer avec des personnalités éminentes de deux secteurs scientifiques différents : le calcul haute performance (à Intel) et les bases de données (au MIT). Les connaissances et l’expertise que j’ai acquises sont devenues essentielles pour façonner ma vision de créer un nouveau type de système de base de données, que j’ai finalement construit comme un projet de recherche au sein de l’ISTC et qui est devenu TileDB.
Pouvez-vous expliquer la vision derrière TileDB et comment elle vise à révolutionner le paysage des bases de données modernes ?
Au cours des dernières années, il y a eu une adoption massive des applications d’apprentissage automatique et d’intelligence artificielle générative qui aident les organisations à prendre de meilleures décisions. Chaque jour, les organisations découvrent de nouveaux modèles dans leurs données, puis utilisent ces informations pour obtenir un avantage concurrentiel. Ces modèles émergent d’un spectre de données de plus en plus large qui doivent être hébergées et gérées pour être exploitables. Des données tabulaires traditionnelles à des sources de données plus complexes telles que les publications sociales, les e-mails, les images, les vidéos et les données de capteurs, la capacité à dériver un sens des données nécessite une analyse globale. À mesure que les types de données augmentent, cette tâche devient de plus en plus ardue, exigeant un nouveau type de base de données. C’est exactement pourquoi TileDB a été créé.
Pourquoi est-il crucial pour les organisations de donner la priorité à leur infrastructure de données avant de développer des capacités d’analyse et d’apprentissage automatique avancées ?
Au milieu de l’enthousiasme pour adopter l’IA, il y a une vérité critique et souvent négligée – le succès de toute initiative d’IA est intrinsèquement lié à la qualité et aux performances de l’infrastructure de données sous-jacente.
Le problème est que les données complexes qui ne sont pas naturellement représentées sous forme de tableaux sont considérées comme « non structurées » et sont généralement stockées sous forme de fichiers plats dans des formats de données personnalisés ou gérées par des bases de données spécialisées distinctes. Les data scientists passent énormément de temps à manipuler les données pour les consolider. On estime que 80-90 pour cent du temps des data scientists est consacré au nettoyage de leurs données et à leur préparation pour le regroupement. Cela ralentit le temps d’entraînement des algorithmes d’IA et la réalisation de capacités prédictives. De plus, cela signifie que seulement 10-20 pour cent du temps des data scientists est consacré à la création d’informations.
Quels sont les pièges courants que les organisations rencontrent lorsqu’elles se concentrent davantage sur les applications d’IA et de ML au détriment d’une infrastructure de base de données robuste ?
Les organisations ont tendance à se concentrer sur les choses brillantes et nouvelles. Les grands modèles de langage, les bases de données vectorielles et les applications d’IA générative construites sur une infrastructure de données, sont des exemples actuels, au détriment de la résolution de l’infrastructure de données sous-jacente qui est cruciale pour le succès analytique. Simplement dit, si votre organisation fait cela, vous risquez de passer une quantité considérable de temps à bricoler votre infrastructure de données et à retarder ou à manquer complètement les opportunités de tirer des informations.
Pouvez-vous élaborer sur ce qui fait qu’une base de données est « adaptative » et pourquoi cette adaptabilité est essentielle pour l’analyse de données moderne ?
Une base de données adaptative est celle qui peut se transformer pour accueillir toutes les données – quelle que soit leur modalité – et les stocker ensemble de manière unifiée. Une base de données adaptative apporte une structure aux données qui sont autrement considérées comme « non structurées ». On estime que 80 pour cent ou plus des données du monde sont non tabulaires, ou non structurées, et que la plupart des modèles d’IA/ML (y compris les LLM) sont formés sur ce type de données.
TileDB structure les données en tableaux multidimensionnels. Comment ce format améliore-t-il les performances et l’efficacité coût-efficacité par rapport aux bases de données traditionnelles ?
La force fondamentale d’une base de données de tableau multidimensionnel est qu’elle peut se transformer pour accueillir pratiquement toute modalité de données et application. Un vecteur, par exemple, est simplement un tableau à une dimension. En apportant une structure à ces données « non structurées », vous pouvez consolider votre infrastructure de données, réduire considérablement les coûts, éliminer les silos, augmenter la productivité et améliorer la sécurité. En allant plus loin, lorsque l’infrastructure de calcul est couplée à l’infrastructure de gestion des données, vous pouvez extraire instantanément de la valeur de vos données.
Quels sont quelques cas d’utilisation notables où TileDB a considérablement amélioré la gestion et les performances d’analyse des données ?
Le premier cas d’utilisation de TileDB était le stockage, la gestion et l’analyse de données génomiques massives, qui sont très difficiles et coûteuses à modéliser et à stocker dans une base de données traditionnelle tabulaire. Nous avons observé des gains de performance phénoménaux (dans l’ordre de 100 fois plus rapide dans de nombreux cas par rapport à d’autres bases de données et solutions personnalisées). Cependant, notre modèle de tableau multidimensionnel est universel et peut capturer efficacement d’autres modalités de données. Par exemple, TileDB est excellent pour gérer les images biomédicales, les images satellites, la transcriptomique à cellule unique et les données de nuage de points comme LiDAR et SONAR.
TileDB propose des outils open source pour l’interopérabilité. Comment une approche open source profite-t-elle aux communautés scientifiques et de data science ?
Nous sommes de grands partisans de l’open source chez TileDB. La bibliothèque principale et la spécification de format de données sont toutes deux open source. De plus, nos offres de sciences de la vie, construites sur la bibliothèque de tableau de base, sont également open source. Cela inclut TileDB-SOMA, un package pour la gestion de données à cellule unique efficace et évolutivité, qui a été construit en collaboration avec la Fondation Chan Zuckerberg et alimente le CELLxGENE Discover Census – le plus grand ensemble de données de cellules uniques entièrement annotées au monde. Cela aussi est open source et est utilisé par des institutions universitaires et des entreprises pharmaceutiques majeures à travers le monde.
Quels sont les tendances futures en matière de gestion des données ?
À mesure que les données deviennent plus riches, les applications d’IA deviennent plus intelligentes. Les grands modèles de langage sont de plus en plus puissants, en exploitant plusieurs modalités de données, et l’intégration de ces LLM avec des ensembles de données diversifiés ouvre un nouveau front dans l’IA connu sous le nom d’IA multimodale.
Pratiquement parlant, l’IA multimodale signifie que les utilisateurs ne sont pas limités à un seul type d’entrée et de sortie et peuvent solliciter un modèle avec pratiquement n’importe quelle entrée pour générer virtuellement n’importe quel type de contenu. Nous voyons TileDB comme la base de données idéale pour supporter l’IA multimodale, conçue pour supporter tout nouveau type de données qui pourrait émerger.
Merci pour la grande revue, les lecteurs qui souhaitent en savoir plus doivent visiter TileDB.












