Entrevistas

Dr. Stavros Papadopoulos, Fundador e CEO, TileDB – Série de Entrevistas

mm

TileDB é o banco de dados moderno que integra todas as modalidades de dados, código e computação em um único produto. TileDB foi criado a partir do MIT e dos Laboratórios Intel em maio de 2017.

Antes de fundar a TileDB, Inc. em fevereiro de 2017, o Dr. Stavros Papadopoulos foi um cientista de pesquisa sênior no Laboratório de Computação Paralela da Intel e membro do Centro de Ciência e Tecnologia da Intel para Big Data no MIT CSAIL por três anos. Ele também passou cerca de dois anos como professor assistente visitante no Departamento de Ciência da Computação e Engenharia da Universidade de Ciência e Tecnologia de Hong Kong (HKUST). Stavros recebeu seu diploma de Ph.D. em Ciência da Computação no HKUST sob a supervisão do Prof. Dimitris Papadias e ocupou uma posição de pós-doutorado no Chinese University of Hong Kong com o Prof. Yufei Tao.

Você foi anteriormente o cientista de pesquisa sênior no Laboratório de Computação Paralela da Intel e membro do Centro de Ciência e Tecnologia da Intel (ISTC) para Big Data no MIT CSAIL por três anos. Pode compartilhar conosco alguns pontos destacados desse período de sua vida?

Durante meu tempo nos laboratórios da Intel e no MIT, tive a oportunidade única de colaborar com luminares em dois setores científicos diferentes: computação de alto desempenho (na Intel) e bancos de dados (no MIT). O conhecimento e a expertise que adquiri se tornaram fundamentais para moldar minha visão de criar um novo tipo de sistema de banco de dados, que eventualmente construí como um projeto de pesquisa dentro do ISTC e que se tornou a TileDB.

Pode explicar a visão por trás da TileDB e como ela visa revolucionar o cenário de bancos de dados modernos?

Nos últimos anos, houve um grande aumento no uso de aplicações de inteligência artificial e aprendizado de máquina que ajudam as organizações a tomar decisões melhores. Todos os dias, as organizações estão descobrindo novos padrões em seus dados e, em seguida, usando essas informações para obter uma vantagem competitiva. Esses padrões surgem de um espectro cada vez maior de modalidades de dados que devem ser armazenados e gerenciados para serem aproveitados. Desde dados tabulares tradicionais até fontes de dados mais complexas, como posts sociais, e-mails, imagens, vídeos e dados de sensores, a capacidade de derivar significado dos dados exige análise agregada. À medida que os tipos de dados aumentam, essa tarefa está se tornando muito mais árdua, exigindo um novo tipo de banco de dados. É exatamente por isso que a TileDB foi criada.

Por que é crucial para as organizações priorizar sua infraestrutura de dados antes de desenvolver capacidades de análise avançada e aprendizado de máquina?

No meio do entusiasmo para adotar a inteligência artificial, há uma verdade crítica e frequentemente negligenciada – o sucesso de qualquer iniciativa de inteligência artificial está intrinsicamente ligado à qualidade e ao desempenho da infraestrutura de dados subjacente.

O problema é que dados complexos que não são naturalmente representados como tabelas são considerados “não estruturados” e geralmente são armazenados como arquivos planos em formatos de dados personalizados ou gerenciados por bancos de dados distintos e construídos com um propósito específico. Os cientistas de dados acabam gastando uma enorme quantidade de tempo lidando com os dados para consolidá-los. Estima-se que 80-90 por cento do tempo dos cientistas de dados é gasto limpando seus dados e preparando-os para mesclá-los. Isso atrasa o tempo para treinar algoritmos de inteligência artificial e alcançar capacidades preditivas. Além disso, isso significa que apenas 10-20 por cento do tempo dos cientistas de dados é gasto criando insights.

Quais são as armadilhas comuns que as organizações enfrentam quando se concentram mais em aplicações de inteligência artificial e aprendizado de máquina em detrimento de uma infraestrutura de banco de dados robusta?

As organizações tendem a se concentrar em coisas brilhantes e novas. Modelos de linguagem grandes, bancos de dados de vetores e aplicações de inteligência artificial gerativa construídas sobre uma infraestrutura de dados são exemplos atuais, em detrimento de abordar a infraestrutura de dados subjacente, que é crucial para o sucesso analítico. Simplesmente posto, se sua organização fizer isso, você pode acabar gastando uma quantidade inimaginável de tempo juntando sua infraestrutura de dados e atrasar ou perder completamente oportunidades para obter insights.

Pode elaborar sobre o que torna um banco de dados “adaptável” e por que essa adaptabilidade é essencial para a análise de dados moderna?

Um banco de dados adaptável é aquele que pode se transformar para acomodar todos os dados – independentemente de sua modalidade – e armazená-los juntos de uma maneira unificada. Um banco de dados adaptável traz estrutura para dados que de outra forma seriam considerados “não estruturados”. Estima-se que 80 por cento ou mais dos dados do mundo são não tabulares, ou “não estruturados”, e a maioria dos modelos de inteligência artificial e aprendizado de máquina (incluindo LLMs) é treinada nesse tipo de dado.

A TileDB estrutura os dados em arrays multidimensionais. Como esse formato melhora o desempenho e a eficiência de custo em comparação com bancos de dados tradicionais?

A força fundamental de um banco de dados de array multidimensional é que ele pode se transformar para acomodar praticamente qualquer modalidade de dados e aplicação. Um vetor, por exemplo, é simplesmente um array unidimensional. Ao trazer estrutura para esses dados “não estruturados”, você pode consolidar sua infraestrutura de dados, reduzir significativamente os custos, eliminar silos, aumentar a produtividade e melhorar a segurança. Indo um passo além, quando a infraestrutura de computação é acoplada à infraestrutura de gerenciamento de dados, você pode extrair valor instantâneo de seus dados.

Quais são alguns casos de uso notáveis onde a TileDB melhorou significativamente o gerenciamento e o desempenho de análise de dados?

O primeiro caso de uso da TileDB foi o armazenamento, gerenciamento e análise de vastos dados genômicos, que é muito difícil e caro de modelar e armazenar em um banco de dados tabular tradicional. Observamos ganhos de desempenho fenomenais (na ordem de 100 vezes mais rápido em muitos casos do que outros bancos de dados e soluções personalizadas). No entanto, nosso modelo de array multidimensional é universal e pode capturar eficientemente outras modalidades de dados também. Por exemplo, a TileDB é excelente em lidar com imagens biomédicas, imagens de satélite, transcriptômica de célula única e dados de nuvem de pontos como LiDAR e SONAR.

A TileDB oferece ferramentas de código aberto para interoperabilidade. Como uma abordagem de código aberto beneficia as comunidades científica e de ciência de dados?

Nós somos grandes defensores de código aberto na TileDB. A biblioteca core e a especificação do formato de dados são ambas de código aberto. Além disso, nossas ofertas de ciências da vida, construídas sobre a biblioteca de array core, também são de código aberto. Isso inclui a TileDB-SOMA, um pacote para gerenciamento de dados de célula única eficiente e escalável, que foi construído em colaboração com a Fundação Chan Zuckerberg e alimenta o CELLxGENE Discover Census – o maior conjunto de dados de célula única totalmente curado do mundo. Isso também é de código aberto e é usado por instituições acadêmicas e empresas farmacêuticas de grande porte em todo o mundo.

O que você vê como as tendências futuras no gerenciamento de dados?

<pÀ medida que os dados se tornam mais ricos, as aplicações de inteligência artificial se tornam mais inteligentes. Modelos de linguagem grandes estão se tornando cada vez mais poderosos, aproveitando múltiplas modalidades de dados, e a integração desses modelos com conjuntos de dados diversos está abrindo um novo fronteira na inteligência artificial conhecida como inteligência artificial multimodal.

Praticamente falando, inteligência artificial multimodal significa que os usuários não estão limitados a um tipo de entrada e um tipo de saída e podem promover um modelo com praticamente qualquer entrada para gerar praticamente qualquer tipo de conteúdo. Nós vemos a TileDB como o banco de dados ideal para apoiar a inteligência artificial multimodal, construída para apoiar qualquer novo e diferente tipo de dados que possa surgir.

Obrigado pela grande revisão, leitores que desejam aprender mais devem visitar TileDB.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável por moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI.

Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.