Intervjuer

Dr. Stavros Papadopoulos, grundare och VD, TileDB – Intervjuserie

mm

TileDB är den moderna databasen som integrerar alla data modaliteter, kod och beräkningar i en enda produkt. TileDB spinns ut från MIT och Intel Labs i maj 2017.

Före grundandet av TileDB, Inc. i februari 2017 var Dr. Stavros Papadopoulos en senior forskningsvetenskapsman vid Intel Parallel Computing Lab och en medlem av Intel Science and Technology Center för Big Data vid MIT CSAIL i tre år. Han tillbringade också ungefär två år som gästlärare vid Institutionen för datavetenskap och teknik vid Hong Kong University of Science and Technology (HKUST). Stavros fick sin doktorsexamen i datavetenskap vid HKUST under handledning av professor Dimitris Papadias och hade en postdoktorandposition vid Chinese University of Hong Kong med professor Yufei Tao.

Du var tidigare Senior Research Scientist vid Intel Parallel Computing Lab och en medlem av Intel Science and Technology Center (ISTC) för Big Data vid MIT CSAIL i tre år. Kan du dela med oss några viktiga höjdpunkter från denna period i ditt liv?

Under min tid vid Intel Labs och MIT hade jag den unika möjligheten att samarbeta med framstående forskare inom två olika vetenskapsområden: högpresterande beräkningar (vid Intel) och databaser (vid MIT). Kunskapen och expertisen jag förvärvade blev avgörande för att forma min vision att skapa ett nytt slags databassystem, som jag till slut byggde som ett forskningsprojekt inom ISTC och som så småningom blev TileDB.

Kan du förklara visionen bakom TileDB och hur det syftar till att revolutionera den moderna databaslandskapet?

Under de senaste åren har det skett en enorm ökning av maskinlärning och generativ AI-applikationer som hjälper organisationer att fatta bättre beslut. Varje dag upptäcker organisationer nya mönster i sina data och använder sedan dessa för att uppnå en konkurrensfördel. Dessa mönster uppstår från en alltmer växande spektrum av data modaliteter som måste hanteras och lagras för att kunna utnyttjas. Från traditionella tabelldata till mer komplexa datakällor som sociala inlägg, e-post, bilder, video och sensordata, kräver förmågan att utvinna mening från data en analys i aggregerad form. Ju fler data typer som ökar, desto mer ansträngande blir uppgiften, vilket kräver en ny typ av databas. Det är exakt därför TileDB skapades.

Varför är det avgörande för organisationer att prioritera sin datainfrastruktur innan de utvecklar avancerad analys och maskinlärningsförmåga?

I den allmänna entusiasmen för att anta AI finns en kritisk och ofta förbisedd sanning – framgången för alla AI-initiativ är intrinsiskt kopplat till kvaliteten och prestandan hos den underliggande datainfrastrukturen.

Problemet är att komplexa data som inte naturligt representeras som tabeller betraktas som ” ostrukturerade” och lagras vanligtvis antingen som platta filer i specialanpassade dataformat eller hanteras av olika, specialbyggda databaser. Dataforskare tillbringar enorma mängder tid med att hantera data för att konsolidera dem. Det uppskattas att 80-90 procent av dataforskarnas tid tillbringas med att rensa sina data och förbereda dem för sammanfogning. Det bromsar tiden för att träna AI-algoritmer och uppnå prediktiva förmågor. Dessutom innebär det att endast 10-20 procent av dataforskarnas tid tillbringas med att skapa insikter.

Vilka är de vanliga fallgroparna som organisationer står inför när de fokuserar mer på AI- och ML-applikationer på bekostnad av en robust databasinfrastruktur?

Organisationer tenderar att fokusera på nya, glänsande saker. Stora språkmodeller, vektordatabaser och generativa AI-applikationer byggda ovanpå en datainfrastruktur är nuvarande exempel, på bekostnad av att hantera den underliggande datainfrastrukturen som är avgörande för analytisk framgång. Om din organisation gör detta kan du tillbringa en oproportionerligt stor mängd tid med att lappa ihop din datainfrastruktur och fördröja eller helt missa möjligheter att utvinna insikter.

Kan du förklara vad som gör en databas “anpassningsbar” och varför denna anpassningsförmåga är avgörande för modern dataanalys?

En anpassningsbar databas är en som kan förändras för att hantera alla data – oavsett dess modalitet – och lagra dem tillsammans på ett enhetligt sätt. En anpassningsbar databas bringar struktur till data som annars anses vara “ostrukturerade”. Det uppskattas att 80 procent eller mer av världens data är icke-tabellformad, eller ostrukturerad, och de flesta AI/ML-modeller (inklusive LLM) tränas på den här typen av data.

TileDB strukturerar data i multi-dimensionella arrayer. Hur förbättrar detta format prestanda och kostnadseffektivitet jämfört med traditionella databaser?

Den grundläggande styrkan hos en multi-dimensionell arraydatabas är att den kan förändras för att hantera praktiskt taget alla data modaliteter och applikationer. En vektor, till exempel, är bara en en-dimensionell array. Genom att bringa struktur till denna “ostrukturerade” data kan du konsolidera din datainfrastruktur, minska kostnaderna avsevärt, eliminera silos, öka produktiviteten och förbättra säkerheten. Om du går ett steg längre och kopplar samman beräkningsinfrastrukturen med datahanteringsinfrastrukturen kan du utvinna omedelbar nytta från dina data.

Vilka är några anmärkningsvärda användningsfall där TileDB har förbättrat datahantering och analysprestanda avsevärt?

Det första TileDB-användningsfallet var lagring, hantering och analys av enorma genetiska data, som är mycket svåra och dyra att modellera och lagra i en traditionell, tabellformad databas. Vi observerade fenomenala prestandaförbättringar (i storleksordningen 100 gånger snabbare i många fall jämfört med andra databaser och speciallösningar). Men vår multi-dimensionella arraymodell är universell och kan effektivt hantera andra data modaliteter också. Till exempel är TileDB utmärkt på att hantera biomedicinsk avbildning, satellitavbildning, enkel-cells-transkriptomik och punktmolnsdata som LiDAR och SONAR.

TileDB erbjuder öppen källkod för interoperabilitet. Hur gynnar ett öppet tillvägagångssätt den vetenskapliga och data science-gemenskapen?

Vi är stora förespråkare för öppen källkod på TileDB. Kärnbiblioteket och dataformat specifikationen är båda öppen källkod. Dessutom är våra livsvetenskapsprodukter, byggda ovanpå kärnarraybiblioteket, också öppen källkod. Detta inkluderar TileDB-SOMA, ett paket för effektiv och skalbar hantering av enkel-cellsdata, som byggdes i samarbete med Chan Zuckerberg Foundation och som driver CELLxGENE Discover Census – världens största fullständigt kuraterade enkel-cellsdataset. Detta är också öppen källkod och används av akademiska institutioner och stora läkemedelsföretag över hela världen.

Vad ser du som framtida trender inom datahantering?

Såsom data blir rikare, blir AI-applikationer smartare. Stora språkmodeller blir alltmer kraftfulla, använder flera data modaliteter, och integrationen av dessa LLM med olika datauppsättningar öppnar upp en ny front inom AI som kallas multimodal AI.

Praktiskt sett innebär multimodal AI att användare inte är begränsade till en indata och en utdata typ och kan prompta en modell med praktiskt taget vilken indata som helst för att generera praktiskt taget valfri innehållstyp. Vi ser TileDB som den ideala databasen för att stödja multimodal AI, byggd för att stödja alla nya och olika typer av data som kan uppstå.

Tack för den underbara recensionen, läsare som vill lära sig mer bör besöka TileDB.

Antoine är en visionär ledare och medgrundare av Unite.AI, driven av en outtröttlig passion för att forma och främja framtidens AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika störande för samhället som elektricitet, och han fångas ofta i att prata om potentialen för störande teknologier och AGI.

Som en futurist, han är dedikerad till att utforska hur dessa innovationer kommer att forma vår värld. Dessutom är han grundare av Securities.io, en plattform som fokuserar på att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.