Συνεντεύξεις
Xavier Conort, Συνιδρυτής και CPO της FeatureByte – Σειρά Συνεντεύξεων

Xavier Conort είναι ένας οραματιστής επιστήμονας δεδομένων με περισσότερες από 25 χρόνια εμπειρίας στα δεδομένα. Ξεκίνησε την καριέρα του ως ακτουάριος στην ασφαλιστική βιομηχανία πριν μεταπηδήσει στην επιστήμη δεδομένων. Είναι ένας κορυφαίος ανταγωνιστής στο Kaggle και ήταν ο Αρχιστρατήγης Δεδομένων στην DataRobot πριν από τη συνίδρυση της FeatureByte.
FeatureByte έχει ως αποστολή να κλιμακωθεί η επιχείρηση AI, με ριζική απλοποίηση και βιομηχανική AI δεδομένων. Η πλατφόρμα μηχανικής και διαχείρισης χαρακτηριστικών ενδυναμώνει τους επιστήμονες δεδομένων να δημιουργούν και να μοιράζονται state-of-the-art χαρακτηριστικά και δεδομένα παραγωγής σε λίγα λεπτά – αντί για εβδομάδες ή μήνες.
Ξεκινήσατε την καριέρα σας ως ακτουάριος στην ασφαλιστική βιομηχανία πριν μεταπηδήσετε στην επιστήμη δεδομένων, τι προκάλεσε αυτή η αλλαγή;
Ένα καθοριστικό σημείο ήταν η νίκη στο GE Flight Quest, einem διαγωνισμό που διοργανώθηκε από την GE με ένα βραβείο 250.000 δολαρίων, όπου οι συμμετέχοντες έπρεπε να προβλέψουν τις καθυστερήσεις των εσωτερικών πτήσεων στις Ηνωμένες Πολιτείες. Οφείλω μέρος αυτής της επιτυχίας σε μια πολύτιμη πρακτική ασφάλισης: το μοντέλο 2 σταδίων. Αυτή η προσέγγιση βοηθά να ελέγξει την προκατάληψη στα χαρακτηριστικά που λείπουν επαρκούς αναπαράστασης στα διαθέσιμα δεδομένα εκπαίδευσης. Μαζί με άλλες νίκες στο Kaggle, αυτή η επίτευξη με πείσε ότι η ακτουαριακή μου βάση μου προσέφερε ένα ανταγωνιστικό πλεονέκτημα στο πεδίο της επιστήμης δεδομένων.
Κατά τη διάρκεια του ταξιδιού μου στο Kaggle, είχα επίσης την τιμή να συνδεθώ με άλλους ενθουσιώδεις επιστήμονες δεδομένων, συμπεριλαμβανομένων των Jeremy Achin και Tom De Godoy, οι οποίοι αργότερα θα γίνουν οι ιδρυτές της DataRobot. Μοιραζόμαστε μια κοινή βάση στην ασφάλιση και είχαμε επιτύχει αξιοσημείωτες επιτυχίες στο Kaggle. Όταν τελικά έλανσαν την DataRobot, μια εταιρεία που ειδικεύεται στην AutoML, με邀ited να τους ενταχθώ ως Αρχιστρατήγης Δεδομένων. Η όρασή τους για τη συνδυασμό των καλύτερων πρακτικών από την ασφαλιστική βιομηχανία με τη δύναμη της μηχανικής μάθησης με ενθάρρυνε, παρουσιάζοντας μια ευκαιρία να δημιουργήσουμε κάτι καινοτόμο και επηρεαστικό.
Στην DataRobot και ήσαστε καθοριστικοί στη δημιουργία του οδικού χάρτη της Επιστήμης Δεδομένων. Ποιοι τύποι προκλήσεων δεδομένων αντιμετωπίσατε;
Η πιο σημαντική πρόκληση που αντιμετωπίσαμε ήταν η ποικιλία της ποιότητας των δεδομένων που παρέχονταν ως είσοδος στην AutoML μας λύση. Αυτό το ζήτημα συχνά οδηγούσε либо σε χρονοβόρες συνεργασίες μεταξύ της ομάδας μας και των πελατών μας либо σε απογοητευτικά αποτελέσματα στην παραγωγή εάν δεν αντιμετωπίζονταν σωστά. Τα ζητήματα ποιότητας προέρχονταν από πολλές πηγές που απαιτούσαν την προσοχή μας.
Μια από τις основικές προκλήσεις προέκυψε από τη γενική χρήση εργαλείων επιχειρηματικής νοημοσύνης για την προετοιμασία και διαχείριση δεδομένων. Αν και αυτά τα εργαλεία είναι πολύτιμα για τη δημιουργία εστιών, λείπουν των ικανοτήτων που απαιτούνται για να διασφαλίσουν την ορθότητα στο χρόνο για την προετοιμασία δεδομένων μηχανικής μάθησης. Ως αποτέλεσμα, διαρροές στα δεδομένα εκπαίδευσης θα μπορούσαν να συμβούν, οδηγώντας σε υπερπροσαρμογή και αναληθή απόδοση μοντέλου.
Η ανεπαρκής επικοινωνία μεταξύ των επιστημόνων δεδομένων και των μηχανικών δεδομένων ήταν μια άλλη πρόκληση που επηρέασε την ακρίβεια των μοντέλων κατά την παραγωγή. Οι ασυνεπείς μεταξύ των φάσεων εκπαίδευσης και παραγωγής, που προέρχονται από την αποσύνδεση μεταξύ αυτών των δύο ομάδων, θα μπορούσαν να επηρεάσουν την απόδοση του μοντέλου σε ένα πραγματικό περιβάλλον.
Τι ήταν κάποια από τα βασικά συμπεράσματα από αυτή την εμπειρία;
Η εμπειρία μου στην DataRobot τόνισε τη σημασία της προετοιμασίας δεδομένων στη μηχανική μάθηση. Αντιμετωπίζοντας τις προκλήσεις της δημιουργίας δεδομένων εκπαίδευσης μοντέλων, όπως η ορθότητα στο χρόνο, τα κενά εξειδίκευσης, η γνώση τομέα, οι περιορισμοί εργαλείων και η κλιμάκωση, podemos βελτιώσουμε την ακρίβεια και την αξιοπιστία των μοντέλων μηχανικής μάθησης. Έφτασα στο συμπέρασμα ότι η απλοποίηση της διαδικασίας προετοιμασίας δεδομένων και η ενσωμάτωση καινοτόμων τεχνολογιών θα είναι καθοριστικές για το άνοιγμα του πλήρους δυναμικού της AI και την εκπλήρωση των υποσχέσεών της.
Ακούσαμε από τον συνιδρυτή σας Razi Raziuddin για την ιστορία γένεσης πίσω από την FeatureByte, θα μπορούσαμε να λάβουμε την εκδοχή σας των γεγονότων;
Όταν συζήτησα τις παρατηρήσεις και τις εντυπώσεις μου με τον συνιδρυτή μου Razi Raziuddin, συνειδητοποιήσαμε ότι μοιραζόμαστε μια κοινή κατανόηση των προκλήσεων στη προετοιμασία δεδομένων για τη μηχανική μάθηση. Κατά τη διάρκεια των συζητήσεων, μοιράστηκα με τον Razi τις εντυπώσεις μου σχετικά με τις πρόσφατες προόδους στην κοινότητα MLOps. Μπορούσα να παρατηρήσω την εμφάνιση αποθηκών χαρακτηριστικών και πλατφορμών χαρακτηριστικών που οι εταιρείες AI-first τοποθετούν για να μειώσουν την καθυστέρηση της εξυπηρέτησης χαρακτηριστικών, να ενθαρρύνουν την επαναχρησιμοποίηση χαρακτηριστικών ή να απλοποιήσουν την υλικοποίηση χαρακτηριστικών σε δεδομένα εκπαίδευσης, διασφαλίζοντας την ομοιότητα εκπαίδευσης-εξυπηρέτησης. Ωστόσο, ήταν φανερό σε εμάς ότι υπήρχε ακόμη ένα κενό στη διευκόλυνση των αναγκών των επιστημόνων δεδομένων. Ο Razi μοιράστηκε μαζί μου τις εντυπώσεις του σχετικά με τον τρόπο με τον οποίο ο σύγχρονος στοίβας δεδομένων επαναχαρακτήρισε την επιχειρηματική νοημοσύνη και την ανάλυση, αλλά δεν αξιοποιείται πλήρως για την AI.
Γινόταν φανερό και σε μένα και στον Razi ότι είχαμε την ευκαιρία να κάνουμε μια σημαντική επίδραση απλοποιώντας ριζικά τη διαδικασία μηχανικής χαρακτηριστικών και παρέχοντας στους επιστήμονες δεδομένων και τους μηχανικούς ML τα σωστά εργαλεία και την εμπειρία χρήστη για ομαλή πειραματισμός χαρακτηριστικών και εξυπηρέτηση χαρακτηριστικών.
Τι ήταν κάποια από τα μεγαλύτερα προβλήματα σας στη μετάβαση από επιστήμονα δεδομένων σε επιχειρηματία;
Η μετάβαση από επιστήμονα δεδομένων σε επιχειρηματία απαιτούσε από εμένα να αλλάξω από μια τεχνική προοπτική σε μια ευρύτερη επιχειρηματική προοπτική. Ενώ είχα μια ισχυρή βάση στην κατανόηση των προβλημάτων, τη δημιουργία οδικού χάρτη, την εκτέλεση σχεδίων, την κατασκευή ομάδας και τη διαχείριση προϋπολογισμών, βρήκα ότι η δημιουργία του σωστού μηνύματος που να ανταποκρίνεται πραγματικά στο στόχο μας ήταν ένα από τα μεγαλύτερα εμπόδια μου.
Ως επιστήμονας δεδομένων, η основική μου εστίαση ήταν πάντα στην ανάλυση και την ερμηνεία δεδομένων για να εξαγάγω πολύτιμες εντυπώσεις. Ωστόσο, ως επιχειρηματίας, έπρεπε να στρέψω την σκέψη μου προς την αγορά, τους πελάτες και την συνολική επιχείρηση.
Ευτυχώς, μπόρεσα να υπερνικήσω αυτή την πρόκληση αξιοποιώντας την εμπειρία κάποιου σαν τον συνιδρυτή μου Razi.
Ακούσαμε από τον Razi γιατί η μηχανική χαρακτηριστικών είναι τόσο δύσκολη, από την πλευρά σας, τι την κάνει τόσο προκλητική;
Η μηχανική χαρακτηριστικών έχει δύο βασικές προκλήσεις:
- Μετασχηματισμός υφιστάμενων στηλών: Αυτό περιλαμβάνει τη μετατροπή δεδομένων σε μια κατάλληλη μορφή για αλγόριθμους μηχανικής μάθησης. Τεχνικές όπως η κωδικοποίηση one-hot, η κλιμάκωση χαρακτηριστικών και προηγμένα μέσα όπως η μετασχηματισμός κειμένου και εικόνας χρησιμοποιούνται. Η δημιουργία νέων χαρακτηριστικών από υπάρχοντα, όπως χαρακτηριστικά αλληλεπίδρασης, μπορεί να βελτιώσει σημαντικά την απόδοση του μοντέλου. Δημοφιλείς βιβλιοθήκες όπως η scikit-learn και η Hugging Face παρέχουν εκτενή υποστήριξη για αυτό το είδος μηχανικής χαρακτηριστικών. Λύσεις AutoML στοχεύουν στην απλοποίηση της διαδικασίας.
- Εξαγωγή νέων στηλών από ιστορικά δεδομένα: Τα ιστορικά δεδομένα είναι κρίσιμα σε προβλήματα όπως συστήματα σύστασης, μάρκετινγκ, ανίχνευση απάτης, τιμολόγηση ασφαλίσεων, πιστωτική αξιολόγηση, πρόβλεψη ζήτησης και επεξεργασία δεδομένων αισθητήρων. Η εξαγωγή ενημερωτικών στηλών από αυτά τα δεδομένα είναι προκλητική. Παραδείγματα περιλαμβάνουν το χρόνο από το τελευταίο γεγονός, συναθροίσεις πάνω από πρόσφατα γεγονότα και ενσωματώσεις από σειρές γεγονότων. Αυτό το είδος μηχανικής χαρακτηριστικών απαιτεί γνώση τομέα, πειραματισμό, ισχυρές δεξιότητες κωδικοποίησης και μηχανικής δεδομένων, και βαθιά γνώση επιστήμης δεδομένων. Παράγοντες όπως η διαρροή χρόνου, η αντιμετώπιση μεγάλων συνόλων δεδομένων και η αποτελεσματική εκτέλεση κώδικα επίσης απαιτούν προσοχή.
Συνολικά, η μηχανική χαρακτηριστικών απαιτεί εξειδίκευση, πειραματισμό και κατασκευή σύνθετων ad-hoc δεδομένων pipelines στην απουσία εργαλείων που σχεδιάστηκαν ειδικά για αυτό.
Μπορείτε να μοιραστείτε πώς η FeatureByte ενδυναμώνει τους επαγγελματίες επιστήμης δεδομένων ενώ απλοποιεί τις γραμμές χαρακτηριστικών;
Η FeatureByte ενδυναμώνει τους επαγγελματίες επιστήμης δεδομένων απλοποιώντας ολόκληρη τη διαδικασία μηχανικής χαρακτηριστικών. Με ένα εύχρηστο Python SDK, επιτρέπει τη γρήγορη δημιουργία και εξαγωγή χαρακτηριστικών από XLarge Event και Item Tables. Η υπολογισμός χειρίζεται αποτελεσματικά με την αξιοποίηση της κλιμάκωσης των πλατφορμών δεδομένων όπως Snowflake, DataBricks και Spark. Τα σημειωματάρια διευκολύνουν τον πειραματισμό, ενώ η κοινή χρήση και η επαναχρησιμοποίηση χαρακτηριστικών σώζουν χρόνο. Η εποπτεία διασφαλίζει την ακρίβεια χαρακτηριστικών, ενώ η άμεση ανάπτυξη εξαλείφει τα προβλήματα διαχείρισης pipelines.
Εκτός από τις ικανότητες που προσφέρονται από τη βιβλιοθήκη ανοιχτού κώδικα μας, η λύση μας επιχείρησης παρέχει một ολοκληρωμένο πλαίσιο για τη διαχείριση και οργάνωση των επιχειρηματικών λειτουργιών AI, συμπεριλαμβανομένων των ροών διακυβέρνησης και μιας διεπαφής χρήστη για τον κατάλογο χαρακτηριστικών.
Τι είναι η όρασή σας για το μέλλον της FeatureByte;
Η τελική μας όραση για την FeatureByte είναι να επαναχαρακτηρίσει το πεδίο της επιστήμης δεδομένων και της μηχανικής μάθησης, ενδυναμώνοντας τους χρήστες να απελευθερώσουν το πλήρες δημιουργικό τους δυναμικό και να εξαγάγουν άνευ προηγουμένου αξία από τα περιουσιακά στοιχεία δεδομένων τους.
Είμαστε ιδιαίτερα ενθουσιασμένοι για την ταχεία πρόοδο στη Γεννητική AI και τους μετασχηματιστές, που ανοίγει ένα κόσμο δυνατοτήτων για τους χρήστες μας. Επιπλέον, είμαστε αφοσιωμένοι στη δημοκρατικοποίηση της μηχανικής χαρακτηριστικών. Η Γεννητική AI έχει το δυναμικό να μειώσει το εμπόδιο εισόδου για τη δημιουργική μηχανική χαρακτηριστικών, καθιστώντας την πιο προσιτή σε ένα ευρύτερο κοινό.
Συνοψίζοντας, η όρασή μας για το μέλλον της FeatureByte περιστρέφεται γύρω από τη συνεχή καινοτομία, την αξιοποίηση της δύναμης της Γεννητικής AI και τη δημοκρατικοποίηση της μηχανικής χαρακτηριστικών. Στόχος μας είναι να γίνουμε η πλατφόρμα που θα επιτρέψει στους επαγγελματίες δεδομένων να μετατρέψουν τα ακατέργαστα δεδομένα σε ενεργό είσοδο για τη μηχανική μάθηση, οδηγώντας σε прорывούς και προόδους σε διάφορους τομείς.
Έχετε κάποια συμβουλή για τους πιθανούς επιχειρηματίες AI;
Ορίστε το χώρο σας, μείνετε εστιασμένοι και καλωσορίστε την καινοτομία.
Ορίζοντας το χώρο που θέλετε να κατέχετε, μπορείτε να διαφοροποιηθείτε και να καθιερωθείτε μια ισχυρή παρουσία σε εκείνη την περιοχή. Ερευνήστε την αγορά, κατανοήστε τις ανάγκες και τα προβλήματα των πιθανών πελατών σας και προσπαθήστε να παρέχετε μια μοναδική λύση που να αντιμετωπίζει αποτελεσματικά αυτές τις προκλήσεις.
Ορίστε την μακροπρόθεσμη όρασή σας και θέστε σαφείς βραχυπρόθεσμους στόχους που να ευθυγραμμίζονται με εκείνη την όραση. ΣUMENTATE στην κατασκευή μιας ισχυρής βάσης και στην παροχή αξίας στο επιλεγμένο σας χώρο.
Τέλος, ενώ είναι σημαντικό να μείνετε εστιασμένοι, μην φοβηθείτε να καλωσορίσετε την καινοτομία και να εξερευνήσετε νέες ιδέες μέσα στο ορισμένο σας χώρο. Το πεδίο της AI εξελίσσεται συνεχώς, και οι καινοτόμες προσεγγίσεις μπορούν να ανοίξουν νέες ευκαιρίες.
Ευχαριστούμε για τη μεγάλη συνέντευξη, οι αναγνώστες που επιθυμούν να μάθουν περισσότερα πρέπει να επισκεφθούν FeatureByte.












