Connect with us

Dr. Stavros Papadopoulos, Fundador y CEO, TileDB – Serie de Entrevistas

Entrevistas

Dr. Stavros Papadopoulos, Fundador y CEO, TileDB – Serie de Entrevistas

mm

TileDB es la base de datos moderna que integra todas las modalidades de datos, código y cómputo en un solo producto. TileDB se creó a partir de MIT y Intel Labs en mayo de 2017.

Antes de fundar TileDB, Inc. en febrero de 2017, el Dr. Stavros Papadopoulos fue científico de investigación senior en el Laboratorio de Cómputo Paralelo de Intel, y miembro del Centro de Ciencia y Tecnología de Intel para Big Data en MIT CSAIL durante tres años. También pasó unos dos años como profesor asistente visitante en el Departamento de Ciencias de la Computación e Ingeniería de la Universidad de Ciencia y Tecnología de Hong Kong (HKUST). Stavros recibió su título de doctor en Ciencias de la Computación en HKUST bajo la supervisión del Prof. Dimitris Papadias, y ocupó una posición de investigador postdoctoral en la Universidad China de Hong Kong con el Prof. Yufei Tao.

Usted fue anteriormente el científico de investigación senior en el Laboratorio de Cómputo Paralelo de Intel, y miembro del Centro de Ciencia y Tecnología (ISTC) para Big Data en MIT CSAIL durante tres años. ¿Puede compartir con nosotros algunos aspectos destacados de este período en su vida?

Durante mi tiempo en Intel Labs y MIT, tuve la oportunidad única de colaborar con luminarias en dos sectores científicos diferentes: cómputo de alto rendimiento (en Intel) y bases de datos (en MIT). El conocimiento y la experiencia que adquirí se convirtieron en clave para dar forma a mi visión de crear un nuevo tipo de sistema de base de datos, que finalmente construí como un proyecto de investigación dentro del ISTC y que se convirtió en lo que es TileDB.

¿Puede explicar la visión detrás de TileDB y cómo pretende revolucionar el panorama de las bases de datos modernas?

En los últimos años, ha habido un gran aumento en la adopción de aplicaciones de aprendizaje automático y Generative AI que ayudan a las organizaciones a tomar mejores decisiones. Todos los días, las organizaciones descubren nuevos patrones en sus datos y luego utilizan esta información para obtener una ventaja competitiva. Estos patrones surgen de un espectro cada vez mayor de modalidades de datos que deben ser alojadas y gestionadas para ser aprovechados. Desde datos tabulares tradicionales hasta fuentes de datos más complejas como publicaciones sociales, correo electrónico, imágenes, video y datos de sensores, la capacidad de derivar significado de los datos requiere análisis en agregado. A medida que aumentan los tipos de datos, esta tarea se vuelve cada vez más ardua, lo que exige un nuevo tipo de base de datos. Es exactamente por esto que se creó TileDB.

¿Por qué es crucial que las organizaciones prioricen su infraestructura de datos antes de desarrollar capacidades de análisis avanzadas y aprendizaje automático?

En medio del fervor por adoptar la IA, hay una verdad crítica y a menudo pasada por alto: el éxito de cualquier iniciativa de IA está intrínsecamente vinculado a la calidad y el rendimiento de la infraestructura de datos subyacente.

El problema es que los datos complejos que no se representan naturalmente como tablas se consideran “no estructurados” y normalmente se almacenan como archivos planos en formatos de datos personalizados o se gestionan con bases de datos dispares y personalizadas. Los científicos de datos dedican una gran cantidad de tiempo a manipular los datos para consolidarlos. Se estima que 80-90 por ciento del tiempo de los científicos de datos se dedica a limpiar sus datos y prepararlos para combinarlos. Eso ralentiza el tiempo para entrenar algoritmos de IA y lograr capacidades predictivas. Además, esto significa que solo el 10-20 por ciento del tiempo de los científicos de datos se dedica a crear conocimientos.

¿Cuáles son las trampas comunes que enfrentan las organizaciones cuando se enfocan más en aplicaciones de IA y ML a expensas de una infraestructura de base de datos robusta?

Las organizaciones tienden a enfocarse en cosas brillantes y nuevas. Los Grandes Modelos de Lenguaje, las bases de datos vectoriales y las aplicaciones de IA generativa construidas sobre una infraestructura de datos son ejemplos actuales, a expensas de abordar la infraestructura de datos subyacente que es crucial para el éxito analítico. Simplemente dicho, si su organización hace esto, puede pasar una cantidad desproporcionada de tiempo ensamblando su infraestructura de datos y retrasar o perder oportunidades para obtener conocimientos.

¿Podría explicar qué hace que una base de datos sea “adaptativa” y por qué esta adaptabilidad es esencial para el análisis de datos moderno?

Una base de datos adaptativa es aquella que puede cambiar de forma para acomodar todos los datos, independientemente de su modalidad, y almacenarlos juntos de manera unificada. Una base de datos adaptativa da estructura a los datos que de otra manera se considerarían “no estructurados”. Se estima que el 80 por ciento o más de los datos del mundo son no tabulares o “no estructurados”, y la mayoría de los modelos de IA/ML (incluidos los LLM) se entrenan con este tipo de datos.

TileDB estructura los datos en matrices multidimensionales. ¿Cómo mejora este formato el rendimiento y la eficiencia de costo en comparación con las bases de datos tradicionales?

La fuerza fundamental de una base de datos de matriz multidimensional es que puede cambiar de forma para acomodar prácticamente cualquier modalidad de datos y aplicación. Un vector, por ejemplo, es simplemente una matriz unidimensional. Al dar estructura a estos datos “no estructurados”, puede consolidar su infraestructura de datos, reducir significativamente los costos, eliminar silos, aumentar la productividad y mejorar la seguridad. Si se va un paso más allá, cuando la infraestructura de cómputo se combina con la infraestructura de gestión de datos, puede extraer valor instantáneo de sus datos.

¿Cuáles son algunos casos de uso notables en los que TileDB ha mejorado significativamente el rendimiento de gestión y análisis de datos?

El primer caso de uso de TileDB fue el almacenamiento, gestión y análisis de grandes cantidades de datos genómicos, lo que es muy difícil y costoso de modelar y almacenar en una base de datos tabular tradicional. Observamos ganancias de rendimiento fenomenales (en el orden de 100 veces más rápido en muchos casos que otras bases de datos y soluciones personalizadas). Sin embargo, nuestro modelo de matriz multidimensional es universal y puede capturar eficientemente otras modalidades de datos. Por ejemplo, TileDB es excelente para manejar imágenes biomédicas, imágenes de satélite, transcriptómica de células únicas y datos de nube de puntos como LiDAR y SONAR.

TileDB ofrece herramientas de código abierto para la interoperabilidad. ¿Cómo beneficia el enfoque de código abierto a las comunidades científica y de ciencia de datos?

Somos grandes defensores del código abierto en TileDB. La biblioteca central y la especificación del formato de datos son de código abierto. Además, nuestras ofertas de ciencias de la vida, construidas sobre la biblioteca de matrices central, también son de código abierto. Esto incluye TileDB-SOMA, un paquete para la gestión de datos de células únicas eficiente y escalable, que se construyó en colaboración con la Fundación Chan Zuckerberg y alimenta el censo CELLxGENE Discover, el conjunto de datos de células únicas más grande y completamente curado del mundo. Esto también es de código abierto y se utiliza en instituciones académicas y empresas farmacéuticas importantes de todo el mundo.

¿Qué ve como las tendencias futuras en la gestión de datos?

A medida que los datos se vuelven más ricos, las aplicaciones de IA se vuelven más inteligentes. Los Grandes Modelos de Lenguaje están volviéndose cada vez más poderosos, aprovechando múltiples modalidades de datos, y la integración de estos LLM con conjuntos de datos diversos está abriendo un nuevo frente en la IA conocido como IA multimodal.

En la práctica, la IA multimodal significa que los usuarios no están limitados a un tipo de entrada y un tipo de salida, y pueden dar una orden a un modelo con prácticamente cualquier entrada para generar prácticamente cualquier tipo de contenido. Vemos a TileDB como la base de datos ideal para respaldar la IA multimodal, construida para respaldar cualquier nuevo y diferente tipo de datos que pueda surgir.

Gracias por la gran reseña, los lectores que deseen aprender más deben visitar TileDB.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.