Röportajlar

Dr. Stavros Papadopoulos, TileDB’nin Kurucusu ve CEO’su – Röportaj Serisi

mm

TileDB, tüm veri modellerini, kodları ve hesaplamaları tek bir üründe birleştiren modern bir veritabanıdır. TileDB, Mayıs 2017’de MIT ve Intel Labs’tan ayrılmıştır.

TileDB, Inc.’i Şubat 2017’de kurmadan önce, Dr. Stavros Papadopoulos, Intel Paralel Hesaplama Laboratuvarı’nda Baş Araştırma Bilimcisi ve MIT CSAIL’de Intel Bilim ve Teknoloji Merkezi için Büyük Veri’de üç yıl boyunca üye olarak görev yaptı. Ayrıca Hong Kong Bilim ve Teknoloji Üniversitesi’nin (HKUST) Bilgisayar Bilimi ve Mühendisliği Bölümü’nde yaklaşık iki yıl süreyle Ziyaretçi Yardımcı Profesör olarak görev yaptı. Stavros, HKUST’de Bilgisayar Bilimi alanında Prof. Dimitris Papadias’ın gözetiminde doktora derecesini aldı ve Çin Üniversitesi’ndeki Hong Kong kampüsünde Prof. Yufei Tao ile doktora sonrası araştırma görevlisi olarak çalıştı.

Önceki olarak Intel Paralel Hesaplama Laboratuvarı’nda Baş Araştırma Bilimcisi ve MIT CSAIL’de Büyük Veri için Intel Bilim ve Teknoloji Merkezi’nde (ISTC) üç yıl boyunca üye olarak görev yaptınız. Bu dönemde hayatınızdan bazı önemli noktaları bizimle paylaşabilir misiniz?

Intel Labs ve MIT’de geçirdiğim süre boyunca, iki farklı bilimsel sektörde önde gelen isimlerle işbirliği yapma fırsatına sahip oldum: yüksek performanslı hesaplama (Intel’de) ve veritabanları (MIT’de). Edindiğim bilgi ve uzmanlık, yeni bir tür veritabanı sistemi yaratma vizyonumu şekillendirmede önemli rol oynadı ve sonunda bu, ISTC içinde bir araştırma projesi olarak ortaya çıktı ve TileDB’ye dönüştü.

TileDB’nin arkasındaki vizyonu açıklar mısınız ve modern veritabanı manzarasını nasıl devrimleştirme amacında?

Son yıllarda, makine öğrenimi ve Üretken AI uygulamalarında büyük bir artış oldu ve bu, organizasyonların daha iyi kararlar almasına yardımcı oluyor. Her gün, organizasyonlar verilerinin yeni kalıplarını keşfediyor ve bu bilgileri rekabet avantajı elde etmek için kullanıyor. Bu kalıplar, evrilmiş veri modellerinden ortaya çıkıyor ve bu verilerin anlamlandırılması için bir araya getirilmesi gerekiyor. Geleneksel tablo verisinden daha karmaşık veri kaynaklarına kadar, bu verilerin anlam çıkarmak için birleştirilmesi gerekiyor. TileDB, bu nedenle yaratıldı.

Örgütlerin, gelişmiş analitik ve makine öğrenimi yeteneklerini geliştirmeden önce veri altyapısını önceliklendirmesinin nedenleri nelerdir?

AI’yi benimseme aşkı içinde, AI girişiminin başarısının, temeldeki veri altyapısının kalitesi ve performansına bağlı olduğu thường gözden kaçan bir gerçek vardır.

Sorun, doğal olarak tablo olarak temsil edilmeyen karmaşık verilerin “yapılandırılmamış” olarak kabul edilmesi ve genellikle özel veri formatlarında düz dosyalar olarak depolanması veya farklı, özel amaçlı veritabanları tarafından yönetilmesidir. Veri bilimcileri, verilerini birleştirmek için büyük zaman harcarlar. Veri bilimcilerinin %80-90’ının zamanının veri temizleme ve birleştirme ile geçtiği tahmin edilmektedir. Bu, AI algoritmalarının eğitimi ve öngörülerin elde edilmesi için zamanın gecikmesine neden olur. Ayrıca, bu, veri bilimcilerinin yalnızca %10-20’sinin öngörüler oluşturmasına olanak tanır.

Örgütler, AI ve ML uygulamalarına veri altyapısı giderlerini göz ardı ederek daha fazla odaklandıklarında karşılaştıkları ortak tuzaklar nelerdir?

Örgütler, parlak yeni şeylere odaklanma eğilimindedir. Büyük Dil Modelleri, vektör veritabanları ve Üretken AI uygulamaları, veri altyapısı üzerinde inşa edilmiş güncel örneklerdir. Basitçe söylemek gerekirse, eğer organizasyonunuz bunu yaparsa, veri altyapınızı bir araya getirmek için aşırı zaman harcayabilirsiniz ve öngörüler elde etme fırsatlarını geciktirebilir veya kaçırabilirsiniz.

Uyarlama veritabanının ne olduğunu ve modern veri analitiği için neden bu uyarlama özelliğinin gerekli olduğunu açıklar mısınız?

Uyarlama veritabanı, tüm verilere -modellerinden bağımsız olarak- uyum sağlayabilen ve birleştirerek depolayabilen bir veritabanıdır. Uyarlama veritabanı, diğer türlü “yapılandırılmamış” olarak kabul edilen verilere yapı kazandırır. Dünya verilerinin %80’den fazlasının tablo dışı veya “yapılandırılmamış” olduğu tahmin edilmektedir ve çoğu AI/ML modeli (dil modelleri dahil) bu tür verilere dayanarak eğitilir.

TileDB, verileri çok boyutlu diziler olarak yapılandırır. Bu format, geleneksel veritabanlarına kıyasla performansı ve maliyet etkinliğini nasıl geliştirir?

Çok boyutlu dizi veritabanının temel gücü,几乎 her türlü veri modeline ve uygulamaya uyum sağlayabilmesidir. Bir vektör, örneğin, bir boyutlu bir dizi olarak düşünülebilir. Bu “yapılandırılmamış” verilere yapı kazandırmak, veri altyapınızı birleştirmenize, maliyetleri azaltmanıza, veri adacıklarını ortadan kaldırmanıza, üretkenliği artırmınıza ve güvenliği tăngırmanıza olanak tanır. Ayrıca, hesaplayıcı altyapının veri yönetim altyapısına entegre edilmesi, verilerinizi anında değerlendirmenize olanak tanır.

TileDB’nin veri yönetimi ve analitik performansı açısından önemli ölçüde iyileştirdiği bazı dikkat çekici kullanım örnekleri nelerdir?

TileDB’nin ilk kullanım örneği, geleneksel tablo veritabanlarında modellemek ve depolamak için çok zor ve pahalı olan geniş genomik verilerin depolanması, yönetimi ve analizi idi. Diğer veritabanlarına ve özel çözümlere kıyasla birçok durumda %100 daha hızlı performans kazançları gözlemledik. Ancak, çok boyutlu dizi modelimiz evrensel ve diğer veri modellerini de verimli bir şekilde yakalayabilir. Örneğin, TileDB, biyomedikal görüntüleme, uydu görüntüleme, tek hücre transkriptomiği ve LiDAR ve SONAR gibi nokta bulut verilerini işlemede mükemmeldir.

TileDB, işbirliği için açık kaynaklı araçlar sunar. Açık kaynaklı bir yaklaşım, bilimsel ve veri bilimcileri topluluğuna nasıl fayda sağlar?

TileDB’de açık kaynaklı olduğumuz için büyük bir destekçiyiz. Core kütüphanesi ve veri formatı spesifikasyonu açık kaynaklıdır. Ayrıca, temel dizi kütüphanesinin üzerine inşa edilen yaşam bilimleri tekliflerimiz de açık kaynaklıdır. Bunlar, Chan Zuckerberg Vakfı ile işbirliği içinde geliştirilen ve dünyanın en büyük, tam olarak küratörlü tek hücreli veri kümesi olan CELLxGENE Discover Census’u güçlendiren TileDB-SOMA paketini içerir. Bu da açık kaynaklı ve akademik kurumlar ve dünya çapındaki büyük ilaç şirketleri tarafından kullanılmaktadır.

Veri yönetiminde gelecekteki trendleri nasıl görüyorsunuz?

Veri zenginleştikçe, AI uygulamaları daha akıllı hale geliyor. Büyük Dil Modelleri, çoklu veri modellerini kullanarak daha da güçlü hale geliyor ve bu modellerin çeşitli veri kümeleriyle entegrasyonu, AI’de yeni bir alanı, çoklu modalite AI’yi açıyor.

Pratik olarak, çoklu modalite AI, kullanıcıların yalnızca bir girdi ve bir çıktı türüyle sınırlı olmadıkları, bir modeli几乎 her türlü girdi ile çalıştırıp neredeyse her türlü içerik türünü üretmelerine olanak tanıdığı anlamına gelir. TileDB’yi, ortaya çıkabilecek yeni ve farklı veri türlerini desteklemek üzere tasarlanmış, çoklu modalite AI’yi desteklemek için ideal bir veritabanı olarak görüyoruz.

Harika bir inceleme için teşekkür ederiz. Daha fazla bilgi edinmek isteyen okuyucular TileDB‘yi ziyaret edebilir.

Antoine, Unite.AI'nin vizyoner lideri ve kurucu ortağı, AI ve robotik geleceğini şekillendirmek ve tanıtmak için sarsılmaz bir tutkuyla hareket ediyor. Bir seri girişimci olarak, AI'nin toplum için elektrik kadar yıkıcı olacağına inanmaktadır ve sık sık yıkıcı teknolojiler ve AGI'nin potansiyelini över.

Bir gelecekçi olarak, bu yeniliklerin dünyamızı nasıl şekillendireceğini keşfetmeye adanmıştır. Ayrıca, Securities.ionun kurucusudur, bu platform geleceği yeniden tanımlayan ve tüm sektörleri yeniden şekillendiren yenilikçi teknolojilere yatırım yapmaya odaklanmıştır.