Interviews
Dr. Stavros Papadopoulos, grundlægger og administrerende direktør, TileDB – Interviewserie

TileDB er den moderne database, der integrerer alle data-modaliteter, kode og beregning i et enkelt produkt. TileDB blev udskilt fra MIT og Intel Labs i maj 2017.
Før han grundlagde TileDB, Inc. i februar 2017, var Dr. Stavros Papadopoulos seniorforsker ved Intel Parallel Computing Lab og medlem af Intel Science and Technology Center for Big Data ved MIT CSAIL i tre år. Han tilbragte også omkring to år som gæsteassistant professor ved afdelingen for datalogi og datateknik ved Hong Kong University of Science and Technology (HKUST). Stavros modtog sin ph.d.-grad i datalogi ved HKUST under vejledning af professor Dimitris Papadias og havde en postdoc-stilling ved Chinese University of Hong Kong med professor Yufei Tao.
De var tidligere seniorforsker ved Intel Parallel Computing Lab og medlem af Intel Science and Technology Center (ISTC) for Big Data ved MIT CSAIL i tre år. Kan du dele nogle af de vigtigste højdepunkter fra denne periode i dit liv?
Under min tid ved Intel Labs og MIT havde jeg den unikke mulighed for at samarbejde med fremragende forskere inden for to forskellige videnskabelige områder: high-performance computing (ved Intel) og databases (ved MIT). Den viden og ekspertise, jeg erhvervede, blev afgørende for at forme min vision om at skabe en ny type database-system, som jeg senere byggede som et forskningsprojekt inden for ISTC og udskilte til det, der blev til TileDB.
Kan du forklare visionen bag TileDB og hvordan det sigter mod at revolutionere den moderne database-landskab?
De seneste år har set en enorm vækst i maskinlæring og Generative AI-applikationer, der hjælper organisationer med at træffe bedre beslutninger. Hver dag opdager organisationer nye mønstre i deres data og bruger derefter denne information til at opnå en konkurrencemæssig fordel. Disse mønstre opstår fra en stadig voksende spektrum af data-modaliteter, der må håndteres og administreres for at kunne udnyttes. Fra traditionel tabeldata til mere komplekse datakilder som sociale meddelelser, e-mail, billeder, video og sensordata kræver evnen til at udlede mening fra data en samlet analyse. Da datatyperne øges, bliver denne opgave meget mere besværlig og kræver en ny type database. Det er netop derfor, TileDB blev skabt.
Hvorfor er det afgørende for organisationer at prioritere deres data-infrastruktur, før de udvikler avancerede analytics- og maskinlæringskapaciteter?
Midt i begejstringen for at adoptere AI er der en kritisk og ofte overset sandhed – succesen med enhver AI-initiativ er uadskilleligt forbundet med kvaliteten og ydeevnen af den underliggende data-infrastruktur.
Problemet er, at kompleks data, der ikke naturligt kan repræsenteres som tabeller, betragtes som “ustruktureret” og typisk enten gemmes som fladfil i specialdesignede dataformater eller administreres af forskellige, specialbyggede databases. Dataforskere tilbringer enorme mængder tid med at håndtere data for at konsolidere det. Det estimeres, at 80-90 procent af dataforskernes tid tilbringes med at rense deres data og forberede det til sammenlægning. Dette reducerer tiden til at træne AI-algoritmer og opnå predictive kapaciteter. Derudover betyder det, at kun 10-20 procent af dataforskernes tid tilbringes med at skabe indsigt.
Hvad er de almindelige faldgruber, organisationer støder på, når de fokuserer mere på AI- og ML-applikationer på bekostning af en robust database-infrastruktur?
Organisationer har tendens til at fokusere på nye og glansfulde ting. Store sprogmodeller, vektor-databases og generative AI-applikationer bygget på top af en data-infrastruktur er aktuelle eksempler, på bekostning af at løse den underliggende data-infrastruktur, der er afgørende for analytisk succes. Det kan føre til, at organisationer tilbringer en uforholdsmæssig lang tid med at samle deres data-infrastruktur og forsinker eller helt misser muligheder for at udlede indsigt.
Kan du uddybe, hvad der gør en database “adaptiv” og hvorfor denne tilpasning er essentiel for moderne data-analyse?
En adaptiv database er en, der kan tilpasse sig for at rumme alle data – uanset deres modalitet – og gemme dem sammen på en samlet måde. En adaptiv database bringer struktur til data, der ellers betragtes som “ustruktureret”. Det estimeres, at 80 procent eller mere af verdens data er ikke-tabeldata eller “ustruktureret”, og de fleste AI/ML-modeller (herunder LLM’er) trænes på denne type data.
TileDB strukturerer data i multi-dimensionelle arrays. Hvordan forbedrer denne format ydeevne og omkostningseffektivitet i forhold til traditionelle databases?
Den fundamentale styrke i en multi-dimensionel array-database er, at den kan tilpasse sig til at rumme næsten enhver data-modalitet og anvendelse. En vektor er f.eks. blot en en-dimensionel array. Ved at bringe struktur til denne “ustrukturerede” data kan du konsolidere din data-infrastruktur, reducere omkostninger betydeligt, eliminere siloer, øge produktiviteten og forbedre sikkerheden. Ved at kombinere beregnings-infrastruktur med data-administrations-infrastruktur kan du udlede instant værdi fra dine data.
Hvilke bemærkelsesværdige brugs eksempler er der, hvor TileDB har forbedret data-administration og analytics-ydeevne betydeligt?
Det første TileDB-brugseksempel var lagring, administration og analyse af enorme genom-data, som er meget svært og dyrt at modelere og gemme i en traditionel, tabelbaseret database. Vi observerede fænomenale ydeevne-forbedringer (i størrelsesordenen 100 gange hurtigere i mange tilfælde end andre databases og specialløsninger). Men vores multi-dimensionelle array-model er universel og kan effektivt håndtere andre data-modaliteter også. F.eks. er TileDB fremragende til at håndtere biomedicinsk billedanalyse, satellitbilledanalyse, enkelt-cel-transkriptomik og punkt-data som LiDAR og SONAR.
TileDB tilbyder open-source-værktøjer til interoperabilitet. Hvordan gavner en open-source-tilgang det videnskabelige og data-videnskabelige samfund?
Vi er store tilhængere af open source ved TileDB. Den grundlæggende bibliotek og data-format-specifikation er begge open source. Desuden er vores life sciences-tilbud, bygget på top af den grundlæggende array-bibliotek, også open source. Dette inkluderer TileDB-SOMA, en pakke til effektiv og skalerbar enkelt-cel-data-administration, som blev bygget i samarbejde med Chan Zuckerberg Foundation og driver CELLxGENE Discover Census – verdens største fuldt kuraterede enkelt-cel-dataset. Dette er også open source og bruges af akademiske institutioner og store farmaceutiske virksomheder verden over.
Hvad ser du som fremtidens tendenser inden for data-administration?
Da data bliver rigere, bliver AI-applikationer smartere. Store sprogmodeller bliver mere og mere kraftfulde, udnytter multiple data-modaliteter, og integrationen af disse LLM’er med forskellige datasæt åbner op for en ny front i AI kendt som multimodal AI.
Praktisk talt betyder multimodal AI, at brugerne ikke er begrænsede til én input- og output-type og kan prompte en model med næsten enhver input for at generere næsten enhver indholdstype. Vi ser TileDB som den ideelle database til at understøtte multimodal AI, bygget til at understøtte enhver ny og forskellig type data, der måtte opstå.
Tak for den gode anmeldelse, læsere, der ønsker at lære mere, skal besøge TileDB.












