Συνεντεύξεις
Δρ. Σταύρος Παπαδόπουλος, Ιδρυτής και Διευθύνων Σύμβουλος, TileDB – Σειρά Συνεντεύξεων

Το TileDB είναι η σύγχρονη βάση δεδομένων που ενσωματώνει όλα τα δεδομένα, τον κώδικα και τον υπολογισμό σε ένα μόνο προϊόν. TileDB ξεκίνησε από το MIT και τα Intel Labs τον Μάιο του 2017.
Πριν από την ίδρυση της TileDB, Inc. τον Φεβρουάριο του 2017, ο Δρ. Σταύρος Παπαδόπουλος ήταν Ανώτερος Ερευνητικός Επιστήμονας στο Intel Parallel Computing Lab και μέλος του Intel Science and Technology Center για τα Μεγάλα Δεδομένα στο MIT CSAIL για τρία χρόνια. Επίσης, πέρασε περίπου δύο χρόνια ως Επισκέπτης Βοηθός Καθηγητής στο Τμήμα Επιστήμης και Μηχανικής Υπολογιστών του Πανεπιστημίου Επιστήμης και Τεχνολογίας του Χονγκ Κονγκ (HKUST). Ο Σταύρος έλαβε το διδακτορικό του τίτλο στην Επιστήμη Υπολογιστών στο HKUST υπό την εποπτεία του Καθηγητή Δημήτρη Παπαδιά, και κατέχει μια θέση μεταδιδακτορικού ερευνητή στο Κινεζικό Πανεπιστήμιο του Χονγκ Κονγκ με τον Καθηγητή Yufei Tao.
Ήταν προηγουμένως ο Ανώτερος Ερευνητικός Επιστήμονας στο Intel Parallel Computing Lab και μέλος του Intel Science and Technology Center (ISTC) για τα Μεγάλα Δεδομένα στο MIT CSAIL για τρία χρόνια. Μπορείτε να μοιραστείτε μαζί μας κάποια βασικά σημεία από αυτή την περίοδο της ζωής σας;
Κατά τη διάρκεια της θητείας μου στα Intel Labs και στο MIT, είχα την μοναδική ευκαιρία να συνεργαστώ με σπουδαίους επιστήμονες σε δύο διαφορετικούς επιστημονικούς τομείς: υψηλής απόδοσης υπολογιστών (στα Intel) και βάσεων δεδομένων (στο MIT). Οι γνώσεις και η εμπειρία που απέκτησα έγιναν κλειδί στη διαμόρφωση της όρασής μου για τη δημιουργία ενός νέου τύπου συστήματος βάσεων δεδομένων, το οποίο τελικά κατασκεύασα ως ερευνητικό έργο στο ISTC και το οποίο εξελίχθηκε στο TileDB.
Μπορείτε να εξηγήσετε την όραση πίσω από το TileDB και πώς στοχεύει να επαναφέρει τη σύγχρονη τοπική βάση δεδομένων;
Τους τελευταίους χρόνους, υπήρξε μια τεράστια αύξηση στις εφαρμογές μηχανικής μάθησης και Γενετικής AI που βοηθούν τις οργανώσεις να λάβουν καλύτερες αποφάσεις. Κάθε μέρα, οι οργανώσεις ανακαλύπτουν νέους σχηματισμούς στα δεδομένα τους και στη συνέχεια χρησιμοποιούν αυτές τις πληροφορίες για να πετύχουν einen ανταγωνιστικό πλεονέκτημα. Αυτοί οι σχηματισμοί προκύπτουν από ένα συνεχώς αυξανόμενο φάσμα δεδομένων που πρέπει να φιλοξενηθούν και να διαχειριστούν για να αξιοποιηθούν. Από τα παραδοσιακά πίνακες δεδομένων σε πιο σύνθετες πηγές δεδομένων, όπως τα κοινωνικά μηνύματα, τα email, οι εικόνες, τα βίντεο και τα δεδομένα αισθητήρων, η ικανότητα να εξαγάγει νόημα από τα δεδομένα απαιτεί ανάλυση σε συνδυασμό. Όσο αυξάνονται οι τύποι δεδομένων, αυτή η εργασία γίνεται ολοένα και πιο δύσκολη, απαιτώντας einen νέο τύπο βάσης δεδομένων. Αυτό είναι ακριβώς γιατί δημιουργήθηκε το TileDB.
Γιατί είναι κρίσιμο για τις οργανώσεις να προτεραιοποιήσουν την υποδομή δεδομένων τους πριν αναπτύξουν προηγμένες αναλύσεις και ικανότητες μηχανικής μάθησης;
Μέσα στη φρενίτιδα να υιοθετήσουν την AI υπάρχει μια κρίσιμη και συχνά παραμελημένη αλήθεια – η επιτυχία κάθε πρωτοβουλίας AI είναι εγγενώς συνδεδεμένη με την ποιότητα και την απόδοση της υποκείμενης υποδομής δεδομένων.
Το πρόβλημα είναι ότι τα σύνθετα δεδομένα που δεν αντιπροσωπεύονται φυσικά ως πίνακες θεωρούνται ως “ακατέργαστα” και συνήθως αποθηκεύονται ως επίπεδες αρχείες σε ειδικές μορφές αρχείων ή διαχειρίζονται από διαφορετικές, ειδικά κατασκευασμένες βάσεις δεδομένων. Οι επιστήμονες δεδομένων καταλήγουν να ξοδεύουν τεράστιο χρόνο για να συνδυάσουν τα δεδομένα τους για να τα συνενώσουν. Υπολογίζεται ότι 80-90 τοις εκατό του χρόνου των επιστημόνων δεδομένων ξοδεύεται για την καθαρισμό των δεδομένων και την προετοιμασία τους για συγχώνευση. Αυτό καθυστερεί τον χρόνο για την εκπαίδευση των αλγορίθμων AI και την επίτευξη προβλεπτικών ικανοτήτων. Επιπλέον, αυτό σημαίνει ότι μόνο το 10-20 τοις εκατό του χρόνου των επιστημόνων δεδομένων ξοδεύεται για τη δημιουργία ερευνών.
Τι είναι τα κοινά λάθη που αντιμετωπίζουν οι οργανώσεις όταν εστιάζουν περισσότερο στις εφαρμογές AI και ML με έξοδα μιας ρομποτικής υποδομής βάσεων δεδομένων;
Οι οργανώσεις έχουν την τάση να εστιάζουν στα λαμπρά καινούρια πράγματα. Τα Μεγάλα Γλωσσικά Μοντέλα, οι διαστημικές βάσεις δεδομένων και οι εφαρμογές γενετικής AI που κατασκευάζονται πάνω σε μια υποδομή δεδομένων είναι τρέχοντα παραδείγματα, με έξοδα της διόρθωσης της υποκείμενης υποδομής δεδομένων, η οποία είναι κρίσιμη για την αναλυτική επιτυχία. Απλά, αν η οργάνωση σας κάνει αυτό, μπορεί να ξοδεύσει ένα ακατέργαστο χρόνο για να συνδυάσει την υποδομή δεδομένων και να καθυστερήσει ή να χάσει τις ευκαιρίες για να εξαγάγει ερεύνες.
Μπορείτε να εξηγήσετε τι κάνει μια βάση δεδομένων “προσαρμόσιμη” και γιατί αυτή η προσαρμοστικότητα είναι απαραίτητη για τις σύγχρονες αναλύσεις δεδομένων;
Μια προσαρμόσιμη βάση δεδομένων είναι αυτή που μπορεί να μετασχηματιστεί για να φιλοξενήσει όλα τα δεδομένα – ανεξάρτητα από την μορφή τους – και να τα αποθηκεύσει μαζί με einen ενιαίο τρόπο. Μια προσαρμόσιμη βάση δεδομένων φέρνει δομή στα δεδομένα που αλλιώς θεωρούνται “ακατέργαστα”. Υπολογίζεται ότι το 80 τοις εκατό ή περισσότερο των δεδομένων του κόσμου δεν είναι πίνακες, ή ακατέργαστα, και τα περισσότερα μοντέλα AI/ML (συμπεριλαμβανομένων των LLMs) εκπαιδεύονται σε αυτό το είδος δεδομένων.
Το TileDB δομεί τα δεδομένα σε πολυδιάστατους πίνακες. Πώς αυτή η μορφή βελτιώνει την απόδοση και την οικονομική αποδοτικότητα σε σύγκριση με τις παραδοσιακές βάσεις δεδομένων;
Η θεμελιώδης δύναμη μιας βάσης δεδομένων πολυδιάστατων πινάκων είναι ότι μπορεί να μετασχηματιστεί για να φιλοξενήσει практически οποιοδήποτε δεδομένο και εφαρμογή. Ένας διανυσματικός, για παράδειγμα, είναι απλά ένας μονοδιάστατος πίνακας. Φέρνοντας δομή σε αυτά τα “ακατέργαστα” δεδομένα, μπορείτε να συνδυάσετε την υποδομή δεδομένων σας, να μειώσετε σημαντικά τα κόστη, να εξαφανίσετε τα σιλό, να αυξήσετε την παραγωγικότητα και να βελτιώσετε την ασφάλεια. Πηγαίνοντας ένα βήμα παραπέρα, όταν η υποδομή υπολογισμού συνδυάζεται με την υποδομή διαχείρισης δεδομένων, μπορείτε να εξαγάγετε άμεση αξία από τα δεδομένα σας.
Ποια είναι κάποια αξιοσημείωτα παραδείγματα χρήσης όπου το TileDB έχει βελτιώσει σημαντικά τη διαχείριση και την απόδοση αναλύσεων δεδομένων;
Η πρώτη περίπτωση χρήσης του TileDB ήταν η αποθήκευση, διαχείριση και ανάλυση των τεράστιων γενομικών δεδομένων, τα οποία είναι πολύ δύσκολα και ακριβά να μοντελοποιηθούν και να αποθηκευτούν σε μια παραδοσιακή, πίνακα βάση δεδομένων. Παρατηρήσαμε φαινόμενα κέρδη απόδοσης (στη σειρά των 100 φορές ταχύτερα σε πολλές περιπτώσεις από άλλες βάσεις δεδομένων και ειδικές λύσεις). Ωστόσο, το μοντέλο μας των πολυδιάστατων πινάκων είναι καθολικό και μπορεί να καπνίσει αποτελεσματικά άλλους τύπους δεδομένων. Για παράδειγμα, το TileDB είναι εξαιρετικό για την αντιμετώπιση βιοϊατρικής εικόνας, δορυφορικής εικόνας, μεταγραφικής ανάλυσης και δεδομένων σημείου seperti LiDAR και SONAR.
Το TileDB προσφέρει ανοιχτά εργαλεία για διαλειτουργικότητα. Πώς μια ανοιχτή προσέγγιση ωφελεί τις επιστημονικές και τις κοινότητες επιστημών δεδομένων;
Είμαστε μεγάλοι υποστηρικτές του ανοιχτού κώδικα στο TileDB. Η βασική βιβλιοθήκη και η προδιαγραφή μορφής δεδομένων είναι και οι δύο ανοιχτές. Επιπλέον, οι προσφορές μας στις βιοεπιστήμες, που κατασκευάζονται πάνω στη βασική βιβλιοθήκη πινάκων, είναι επίσης ανοιχτές. Αυτό περιλαμβάνει το TileDB-SOMA, ένα πακέτο για αποτελεσματική και κλιμακωτή διαχείριση δεδομένων κυττάρων, το οποίο κατασκευάστηκε σε συνεργασία με το Ίδρυμα Chan Zuckerberg και ενεργοποιεί το CELLxGENE Discover Census – το μεγαλύτερο πλήρως επιμελημένο σύνολο δεδομένων κυττάρων. Αυτό επίσης είναι ανοιχτό και χρησιμοποιείται από ακαδημαϊκές ιδρύσεις και μεγάλες φαρμακευτικές εταιρείες σε όλο τον κόσμο.
Τι βλέπετε ως τις μελλοντικές τάσεις στη διαχείριση δεδομένων;
Όσο τα δεδομένα γίνονται πλουσιότερα, οι εφαρμογές AI γίνονται πιο έξυπνες. Τα Μεγάλα Γλωσσικά Μοντέλα γίνονται ολοένα και πιο ισχυρά, αξιοποιώντας πολλαπλούς τύπους δεδομένων, και η ενσωμάτωση αυτών των LLMs με διαφορετικά σύνολα δεδομένων ανοίγει einen νέο ορίζοντα στην AI γνωστό ως πολλαπλή AI.
Πρακτικά, η πολλαπλή AI σημαίνει ότι οι χρήστες δεν περιορίζονται σε einen εισαγωγικό τύπο και einen εξαγωγικό τύπο και μπορούν να προκαλέσουν ένα μοντέλο με практически οποιοδήποτε εισαγωγικό τύπο για να παράγουν практически οποιοδήποτε τύπο περιεχομένου. Βλέπουμε το TileDB ως την ιδανική βάση δεδομένων για την υποστήριξη της πολλαπλής AI, κατασκευασμένη για να υποστηρίξει οποιοδήποτε νέο και διαφορετικό τύπο δεδομένων που μπορεί να εμφανιστεί.
Ευχαριστούμε για την εξαιρετική ανασκόπηση. Οι αναγνώστες που επιθυμούν να μάθουν περισσότερα μπορούν να επισκεφθούν TileDB.












