Connect with us

Interviews

Dr. Stavros Papadopoulos, Oprichter en CEO, TileDB – Interviewreeks

mm

TileDB is de moderne database die alle gegevensmodaliteiten, code en compute in één product integreert. TileDB is in mei 2017 uit MIT en Intel Labs voortgekomen.

Vóór de oprichting van TileDB, Inc. in februari 2017, was Dr. Stavros Papadopoulos Senior Research Scientist bij het Intel Parallel Computing Lab en lid van het Intel Science and Technology Center voor Big Data bij MIT CSAIL gedurende drie jaar. Hij bracht ook ongeveer twee jaar door als Visiting Assistant Professor bij de afdeling Computer Science and Engineering van de Hong Kong University of Science and Technology (HKUST). Stavros behaalde zijn PhD in Computer Science aan HKUST onder supervisie van Prof. Dimitris Papadias en had een postdoc-fellow-positie aan de Chinese University of Hong Kong met Prof. Yufei Tao.

U was eerder Senior Research Scientist bij het Intel Parallel Computing Lab en lid van het Intel Science and Technology Center (ISTC) voor Big Data bij MIT CSAIL gedurende drie jaar. Kunt u ons enkele belangrijke hoogtepunten uit deze periode in uw leven delen?

Tijdens mijn tijd bij Intel Labs en MIT had ik de unieke kans om te samenwerken met vooraanstaande figuren in twee verschillende wetenschappelijke sectoren: high-performance computing (bij Intel) en databases (bij MIT). De kennis en expertise die ik verwierf, werden essentieel in het vormgeven van mijn visie om een nieuw type databasesysteem te creëren, dat ik uiteindelijk als onderzoeksproject binnen het ISTC ontwikkelde en spin uit wat TileDB werd.

Kunt u de visie achter TileDB uitleggen en hoe het de moderne databasesector wil revolutioneren?

In de afgelopen jaren is er een enorme toename geweest in machine learning- en Generative AI-toepassingen die organisaties helpen om betere beslissingen te nemen. Elke dag ontdekken organisaties nieuwe patronen in hun gegevens en gebruiken deze informatie om een concurrentievoordeel te behalen. Deze patronen ontstaan uit een steeds groter spectrum aan gegevensmodaliteiten die moeten worden ondergebracht en beheerd om te kunnen worden benut. Van traditionele tabelgegevens tot complexere gegevensbronnen zoals sociale berichten, e-mail, afbeeldingen, video’s en sensordata, is de mogelijkheid om betekenis uit gegevens te halen een analyse in aggregate. Naarmate de gegevenstypen toenemen, wordt deze taak veel moeilijker, waardoor een nieuw type database nodig is. Dit is precies waarom TileDB is gecreëerd.

Waarom is het cruciaal voor organisaties om hun gegevensinfrastructuur te prioriteren voordat ze geavanceerde analytics- en machine learning-capaciteiten ontwikkelen?

Tussen de opwinding om AI te adopteren, is er een kritische en vaak over het hoofd gezien waarheid – het succes van elke AI-initiatief is intrinsiek verbonden met de kwaliteit en prestaties van de onderliggende gegevensinfrastructuur.

Het probleem is dat complexe gegevens die niet natuurlijk als tabellen worden weergegeven, worden beschouwd als “ongestructureerd” en worden meestal opgeslagen als platte bestanden in maatwerkgegevensformaten of beheerd door afzonderlijke, speciaal gebouwde databases. Datawetenschappers besteden enorme hoeveelheden tijd aan het wringen van gegevens om ze te consolideren. Het wordt geschat dat 80-90 procent van de tijd van datawetenschappers wordt besteed aan het schoonmaken van hun gegevens en het voorbereiden ervan voor samenvoeging. Dat vertraagt de tijd tot het trainen van AI-algoritmen en het behalen van predictieve capaciteiten. Bovendien betekent dit dat slechts 10-20 procent van de tijd van datawetenschappers wordt besteed aan het creëren van inzichten.

Wat zijn de veelvoorkomende valkuilen waar organisaties mee te maken krijgen wanneer ze meer focussen op AI- en ML-toepassingen ten koste van een robuuste database-infrastructuur?

Organisaties hebben de neiging om te focussen op glanzende nieuwe dingen. Large Language Models, vector databases en generatieve AI-apps die zijn gebouwd op een gegevensinfrastructuur zijn momenteel voorbeelden, ten koste van het aanpakken van de onderliggende gegevensinfrastructuur die essentieel is voor analytisch succes. Simpel gezegd, als uw organisatie dit doet, kunt u veel tijd besteden aan het in elkaar zetten van uw gegevensinfrastructuur en vertragen of helemaal missen kansen om inzichten te verwerven.

Kunt u uitleggen wat een database ‘adaptief’ maakt en waarom deze adaptiviteit essentieel is voor moderne data-analyse?

Een adaptieve database is een die kan veranderen om alle gegevens – ongeacht de modaliteit – te accommoderen en op te slaan in een uniforme manier. Een adaptieve database brengt structuur aan in gegevens die anders als “ongestructureerd” worden beschouwd. Het wordt geschat dat 80 procent of meer van de wereldgegevens niet-tabulair is, of ongestructureerd, en dat de meeste AI/ML-modellen (inclusief LLM’s) worden getraind op dit type gegevens.

TileDB structureert gegevens in multidimensionale arrays. Hoe verbetert dit formaat de prestaties en kostenefficiëntie in vergelijking met traditionele databases?

De fundamentale kracht van een multidimensionale array database is dat deze kan veranderen om praktisch elke gegevensmodaliteit en toepassing te accommoderen. Een vector, bijvoorbeeld, is gewoon een één dimensionale array. Door structuur aan te brengen in deze “ongestructureerde” gegevens, kunt u uw gegevensinfrastructuur consolideren, kosten aanzienlijk verminderen, silo’s elimineren, productiviteit verhogen en beveiliging verbeteren. Gaande verder, wanneer compute-infrastructuur wordt gekoppeld aan de gegevensbeheer-infrastructuur, kunt u instant waarde uit uw gegevens halen.

Wat zijn enkele opvallende use cases waarin TileDB de gegevensbeheer- en analysepresetaties aanzienlijk heeft verbeterd?

De eerste TileDB-use case was de opslag, het beheer en de analyse van uitgebreide genoomgegevens, wat zeer moeilijk en duur is om te modelleren en op te slaan in een traditionele, tabelvormige database. We zagen fenomenale prestatieverbeteringen (in de orde van 100x sneller in veel gevallen dan andere databases en maatwerkoplossingen). Echter, ons multidimensionale arraymodel is universeel en kan efficiënt andere gegevensmodaliteiten vastleggen. Bijvoorbeeld, TileDB is uitstekend in het omgaan met biomedische beeldvorming, satellietbeelden, single-cell transcriptomics en puntwolkgegevens zoals LiDAR en SONAR.

TileDB biedt open-source tools voor interoperabiliteit. Hoe profiteert een open source-aanpak de wetenschappelijke en data science-gemeenschappen?

We zijn grote voorstanders van open source bij TileDB. De core library en dataformaat specificatie zijn beide open source. Bovendien zijn onze life sciences-aanbod, gebouwd op de core array library, ook open source. Dit omvat TileDB-SOMA, een pakket voor efficiënt en schaalbaar single-cell databeheer, dat is gebouwd in samenwerking met de Chan Zuckerberg Foundation en de CELLxGENE Discover Census – de grootste volledig gecuratede single-cell dataset ter wereld. Dit is ook open source en wordt gebruikt door academische instellingen en grote farmaceutische bedrijven over de hele wereld.

Wat ziet u als toekomstige trends in gegevensbeheer?

Naarmate de gegevens rijker worden, worden AI-toepassingen slimmer. Large Language Models worden steeds krachtiger, met meerdere gegevensmodaliteiten, en de integratie van deze LLM’s met diverse datasets opent een nieuwe frontier in AI, bekend als multimodale AI.

Praktisch gezien, betekent multimodale AI dat gebruikers niet beperkt zijn tot één invoer- en uitvoertype en een model kunnen aanzetten met vrijwel elke invoer om vrijwel elke inhoudstype te genereren. We zien TileDB als de ideale database voor het ondersteunen van multimodale AI, gebouwd om elk nieuw en verschillend type gegevens dat kan ontstaan te ondersteunen.

Bedankt voor de geweldige review, lezers die meer willen leren, moeten bezoeken TileDB.

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.