Συνεντεύξεις

Δρ. Σταύρος Παπαδόπουλος, Ιδρυτής και Διευθύνων Σύμβουλος, TileDB – Σειρά Συνεντεύξεων

mm

Το TileDB είναι η σύγχρονη βάση δεδομένων που ενσωματώνει όλες τις modalities δεδομένων, κώδικα και υπολογισμού σε ένα seul προϊόν. TileDB ξεκίνησε από το MIT και τα Intel Labs τον Μάιο του 2017.

Πριν από την ίδρυση της TileDB, Inc. τον Φεβρουάριο του 2017, ο Δρ. Σταύρος Παπαδόπουλος ήταν Ανώτερος Ερευνητικός Επιστήμονας στο Intel Parallel Computing Lab και μέλος του Intel Science and Technology Center για τα Big Data στο MIT CSAIL για τρία χρόνια. Επίσης, πέρασε περίπου δύο χρόνια ως Επισκέπτης Βοηθός Καθηγητής στο Τμήμα Επιστήμης και Μηχανικής Υπολογιστών του Πανεπιστημίου Επιστήμης και Τεχνολογίας του Χονγκ Κονγκ (HKUST). Ο Σταύρος έλαβε το διδακτορικό του τίτλο στην Επιστήμη Υπολογιστών στο HKUST υπό την εποπτεία του Καθηγητή Δημήτρη Παπαδιά, και κατέχει μια θέση μεταδιδακτορικού ερευνητή στο Πανεπιστήμιο του Χονγκ Κονγκ με τον Καθηγητή Yufei Tao.

Ήταν προηγουμένως ο Ανώτερος Ερευνητικός Επιστήμονας στο Intel Parallel Computing Lab και μέλος του Intel Science and Technology Center (ISTC) για τα Big Data στο MIT CSAIL για τρία χρόνια. Μπορείτε να μας μιλήσετε για κάποια βασικά σημεία από αυτήν την περίοδο της ζωής σας;

Κατά τη διάρκεια της θητείας μου στα Intel Labs και στο MIT, είχα την μοναδική ευκαιρία να συνεργαστώ με εξαιρετικούς επιστήμονες σε δύο διαφορετικούς επιστημονικούς τομείς: υψηλής απόδοσης υπολογιστών (στα Intel) και βάσεων δεδομένων (στο MIT). Οι γνώσεις και η εμπειρία που απέκτησα έγιναν κλειδί για τη διαμόρφωση της όρασής μου για τη δημιουργία ενός νέου τύπου συστήματος βάσεων δεδομένων, το οποίο τελικά κατασκεύασα ως ερευνητικό έργο εντός του ISTC και το οποίο εξελίχθηκε στο TileDB.

Μπορείτε να εξηγήσετε την όραση πίσω από το TileDB και πώς στοχεύει να επαναφέρει το σύγχρονο τοπίο των βάσεων δεδομένων;

Τους τελευταίους χρόνους, έχει υπάρξει μια τεράστια αύξηση των εφαρμογών του machine learning και της Γενικής AI που βοηθούν τις οργανώσεις να λάβουν καλύτερες αποφάσεις. Κάθε μέρα, οι οργανώσεις ανακαλύπτουν νέους σχηματισμούς στα δεδομένα τους και στη συνέχεια χρησιμοποιούν αυτές τις πληροφορίες για να πετύχουν έναν ανταγωνιστικό πλεονέκτημα. Αυτοί οι σχηματισμοί προέρχονται από ένα συνεχώς αυξανόμενο φάσμα δεδομένων που πρέπει να στεγαστούν και να διαχειριστούν για να εκμεταλλευτούν. Από τα παραδοσιακά πίνακες δεδομένων μέχρι πιο σύνθετες πηγές δεδομένων όπως τα κοινωνικά δίκτυα, τα email, οι εικόνες, τα βίντεο και τα δεδομένα αισθητήρων, η ικανότητα να εξαγάγετε νόημα από τα δεδομένα απαιτεί ανάλυση σε συνδυασμό. Όσο αυξάνονται οι τύποι δεδομένων, αυτή η εργασία γίνεται πολύ πιο δυσχερής, απαιτώντας einen νέο τύπο βάσης δεδομένων. Αυτός είναι ακριβώς ο λόγος για τον οποίο δημιουργήθηκε το TileDB.

Γιατί είναι κρίσιμο για τις οργανώσεις να προτεραιοποιήσουν την υποδομή δεδομένων τους πριν αναπτύξουν προηγμένες αναλύσεις και ικανότητες machine learning;

Μέσα στην εuforia για την υιοθέτηση της AI υπάρχει μια κρίσιμη και συχνά παραμελημένη αλήθεια – η επιτυχία κάθε πρωτοβουλίας AI είναι εγγενώς συνδεδεμένη με την ποιότητα και την απόδοση της υποκείμενης υποδομής δεδομένων.

Το πρόβλημα είναι ότι τα σύνθετα δεδομένα που δεν αντιπροσωπεύονται φυσικά ως πίνακες θεωρούνται “αструкτούρα” και συνήθως αποθηκεύονται είτε ως επίπεδες αρχείες σε ειδικές μορφές δεδομένων είτε διαχειρίζονται από διαφορετικές, ειδικές βάσεις δεδομένων. Οι επιστήμονες δεδομένων dànhουν τεράστιο χρόνο για να συνδυάσουν τα δεδομένα. Υπολογίζεται ότι 80-90 τοις εκατό του χρόνου των επιστημόνων δεδομένων dànhεται στο καθαρισμό των δεδομένων και στην προετοιμασία τους για συνδυασμό. Αυτό καθυστερεί τον χρόνο για την εκπαίδευση αλγορίθμων AI και την επίτευξη προβλέψιμων ικανοτήτων. Επιπλέον, αυτό σημαίνει ότι μόνο 10-20 τοις εκατό του χρόνου των επιστημόνων δεδομένων dànhεται στην δημιουργία ερευνών.

Ποια είναι τα συνήθη λάθη που κάνουν οι οργανώσεις όταν εστιάζουν περισσότερο στις εφαρμογές AI και ML με βάση την υποδομή δεδομένων;

Οι οργανώσεις τείνουν να εστιάζουν στα καινούργια και λαμπρά πράγματα. Τα Μεγάλα Γλωσσικά Μοντέλα, οι διανυσματικές βάσεις δεδομένων και οι εφαρμογές γενικής AI που κατασκευάζονται πάνω σε μια υποδομή δεδομένων είναι τρέχοντα παραδείγματα, με βάση την οποία παραμελείται η αντιμετώπιση της υποκείμενης υποδομής δεδομένων, η οποία είναι κρίσιμη για την αναλυτική επιτυχία. Απλά, αν η οργάνωση σας κάνει αυτό, μπορεί να σας αφήσει να δαπανήσετε υπερβολικό χρόνο για να συνδυάσετε την υποδομή δεδομένων σας και να καθυστερήσετε ή να χάσετε ευκαιρίες για να εξαγάγετε ερεύνες.

Μπορείτε να εξηγήσετε τι κάνει μια βάση δεδομένων “προσαρμόσιμη” και γιατί αυτή η προσαρμοστικότητα είναι απαραίτητη για τις σύγχρονες αναλύσεις δεδομένων;

Μια προσαρμόσιμη βάση δεδομένων είναι αυτή που μπορεί να μεταμορφωθεί για να φιλοξενήσει όλα τα δεδομένα – ανεξάρτητα από τη μορφή τους – και να τα αποθηκεύσει μαζί σε μια ενιαία μορφή. Μια προσαρμόσιμη βάση δεδομένων δίνει δομή στα δεδομένα που αλλιώς θεωρούνται “αструкτούρα”. Υπολογίζεται ότι το 80 τοις εκατό ή περισσότερο των παγκόσμιων δεδομένων είναι μη-πινάκων, ή αструкτούρα, και τα περισσότερα μοντέλα AI/ML (συμπεριλαμβανομένων των LLMs) εκπαιδεύονται σε αυτό το είδος δεδομένων.

Το TileDB δομεί τα δεδομένα σε πολυδιάστατους πίνακες. Πώς αυτή η μορφή βελτιώνει την απόδοση και την αποδοτικότητα σε σύγκριση με τις παραδοσιακές βάσεις δεδομένων;

Η θεμελιώδης δύναμη μιας βάσης δεδομένων πολυδιάστατων πινάκων είναι ότι μπορεί να μεταμορφωθεί για να φιλοξενήσει σχεδόν οποιαδήποτε μορφή δεδομένων και εφαρμογή. Ένας διανυσματικός, για παράδειγμα, είναι απλώς ένας μονοδιάστατος πίνακας. Δίνοντας δομή σε αυτά τα “αструкτούρα” δεδομένα, μπορείτε να συνδυάσετε την υποδομή δεδομένων σας, να μειώσετε σημαντικά τα κόστη, να εξαφανίσετε τις σιλό, να αυξήσετε την παραγωγικότητα και να ενισχύσετε την ασφάλεια. Πηγαίνοντας ένα βήμα παραπέρα, όταν η υποδομή υπολογισμού συνδυάζεται με την υποδομή διαχείρισης δεδομένων, μπορείτε να εξαγάγετε άμεση αξία από τα δεδομένα σας.

Ποια είναι κάποια αξιοσημείωτα παραδείγματα όπου το TileDB έχει βελτιώσει σημαντικά την διαχείριση και την ανάλυση δεδομένων;

Η πρώτη περίπτωση χρήσης του TileDB ήταν η αποθήκευση, διαχείριση και ανάλυση τεράστιων γονιδιακών δεδομένων, τα οποία είναι πολύ δύσκολο και ακριβό να μοντελοποιηθούν και να αποθηκευτούν σε μια παραδοσιακή, πινάκων βάση δεδομένων. Παρατηρήσαμε φαινόμενα κέρδη απόδοσης (σε πολλές περιπτώσεις 100 φορές ταχύτερα από άλλες βάσεις δεδομένων και ειδικές λύσεις). Ωστόσο, το μοντέλο μας των πολυδιάστατων πινάκων είναι καθολικό και μπορεί να πιάσει αποτελεσματικά άλλες μορφές δεδομένων. Για παράδειγμα, το TileDB είναι εξαιρετικό στην αντιμετώπιση των βιοϊατρικών εικόνων, δορυφορικών εικόνων, μεμονωμένων κυτταρικών μεταγραφικών και δεδομένων σημείου-σύννεφου όπως LiDAR και SONAR.

Το TileDB προσφέρει ανοιχτό κώδικα εργαλεία για διαλειτουργικότητα. Πώς μια ανοιχτή προσέγγιση ωφελεί τις επιστημονικές και τις κοινότητες επιστημών δεδομένων;

Είμαστε μεγάλοι υποστηρικτές του ανοιχτού κώδικα στο TileDB. Η πυρήνας βιβλιοθήκη και η προδιαγραφή μορφής δεδομένων είναι και οι δύο ανοιχτό κώδικα. Επιπλέον, οι προσφορές μας στις ζωτικές επιστήμες, που κατασκευάζονται πάνω στην πυρήνα βιβλιοθήκη, είναι επίσης ανοιχτό κώδικα. Αυτό περιλαμβάνει το TileDB-SOMA, ένα πακέτο για αποτελεσματική και κλιμακωτή διαχείριση δεδομένων κυττάρων, το οποίο κατασκευάστηκε σε συνεργασία με το Ίδρυμα Chan Zuckerberg και ενεργοποιεί τον Κατάλογο CELLxGENE Discover – τον μεγαλύτερο πλήρως επιμελημένο συνόλου δεδομένων κυττάρων. Αυτό επίσης είναι ανοιχτό κώδικα και χρησιμοποιείται από ακαδημαϊκούς ιδρυματικούς οργανισμούς και μεγάλες φαρμακευτικές εταιρείες σε όλο τον κόσμο.

Τι βλέπετε ως τις μελλοντικές τάσεις στη διαχείριση δεδομένων;

Όσο τα δεδομένα γίνονται πλουσιότερα, οι εφαρμογές AI γίνονται πιο έξυπνες. Τα Μεγάλα Γλωσσικά Μοντέλα γίνονται όλο και πιο ισχυρά, αξιοποιώντας πολλαπλά δεδομένα και η ενσωμάτωση αυτών των LLMs με διαφορετικά σύνολα δεδομένων ανοίγει ένα νέο μέτωπο στην AI, γνωστό ως multimodal AI.

Πρακτικά, η multimodal AI σημαίνει ότι οι χρήστες δεν περιορίζονται σε μια einzige είσοδο και μια einzige έξοδο και μπορούν να προκαλέσουν ένα μοντέλο με σχεδόν οποιαδήποτε είσοδο για να παράγουν σχεδόν οποιοδήποτε είδος περιεχομένου. Βλέπουμε το TileDB ως την ιδανική βάση δεδομένων για την υποστήριξη της multimodal AI, κατασκευασμένη για να υποστηρίξει οποιοδήποτε νέο και διαφορετικό τύπο δεδομένων που μπορεί να εμφανιστεί.

Ευχαριστούμε για την εξαιρετική ανασκόπηση. Οι αναγνώστες που επιθυμούν να μάθουν περισσότερα μπορούν να επισκεφτούν TileDB.

Ο Antoine είναι ένας οραματικός ηγέτης και συνιδρυτής της Unite.AI, με μια αμετάβλητη страсть για το σχήμα και την προώθηση του μέλλοντος του AI και της ρομποτικής. Ένας σειριακός επιχειρηματίας, πιστεύει ότι το AI θα είναι τόσο διαταρακτικό για την κοινωνία όσο και η ηλεκτρική ενέργεια, και συχνά πιάνεται να μιλάει για το δυναμικό των διαταρακτικών τεχνολογιών και του AGI.

Ως μελλοντολόγος, είναι αφοσιωμένος στο να εξερευνήσει πώς αυτές οι καινοτομίες θα σχήματίσουν τον κόσμο μας. Επιπλέον, είναι ο ιδρυτής του Securities.io, μιας πλατφόρμας που επικεντρώνεται στις επενδύσεις σε προηγμένες τεχνολογίες που ανασχεδιάζουν το μέλλον και αναμορφώνουν ολόκληρες βιομηχανίες.