Συνεντεύξεις
Nikunj Bajaj, Συνιδρυτής και Διευθύνων Σύμβουλος της TrueFoundry – Σειρά Συνεντεύξεων

Έχετε εργαστεί σε έρευνα μηχανικής μάθησης, παραγωγή AI στη Facebook, και μεγάλης κλίμακας συστήματα σύστασης πριν από την ίδρυση της TrueFoundry — ποίες εμπειρίες σας οδήγησαν πιο直接α στην κατασκευή μιας εταιρείας υποδομής επιχειρηματικού AI, και ποιο πόνο δεν αντιμετωπίστηκε εκείνη την εποχή;
Στη Meta, είδαμε τη μηχανική μάθηση ως một ειδική περίπτωση λογισμικού, και τη GenAI ως μια ειδική περίπτωση μηχανικής μάθησης, που οδήγησε σε μια κατακόρυφη στοίβα με λογισμικό στο κάτω μέρος, μηχανική μάθηση στο μέσο, και GenAI στην κορυφή. Σε αυτό το στήσιμο, αν είμαι ένας dévelopτερ μηχανικής μάθησης, τα μοντέλα που κατασκευάζω ακολουθούν το ίδιο μοτίβο ανάπτυξης όπως και το υπόλοιπο λογισμικό, που κάνει την κλιμάκωση των συστημάτων πολύ απλή.
Οι περισσότερες επιχειρήσεις, ωστόσο, αναπτύσσουν παράλληλες στοίβες, που σημαίνει ότι έχουν ξεχωριστές στοίβες για λογισμικό, μηχανική μάθηση, και GenAI. Η στιγμή που έχετε αυτές τις παράλληλες στοίβες, η κλιμάκωση γίνεται πιο σύνθετη λόγω των χεριών που απαιτούνται μεταξύ μηχανικής μάθησης και του λογισμικού κόσμου.
Η ομάδα μας έχει πάντα εργαστεί στη διασταύρωση της κατασκευής μοντέλων μηχανικής μάθησης και υποδομής μηχανικής μάθησης, οπότε είχαμε μια μοναδική οπτική που μπορούσαμε να φέρουμε παρόμοιες κατακόρυφες στοίβες στις επιχειρήσεις και να τις προσαρμόσουμε για τις συγκεκριμένες απαιτήσεις τους. Είχαμε επίσης μια υπόθεση προς το τέλος του 2021 ότι η μηχανική μάθηση προσεγγίζει ένα σημείο καμπής, και όταν το κάνει, περισσότερες εταιρείες θα χρειαζόταν μια κατακόρυφα ολοκληρωμένη στοίβα για να αναπτύξουν και να κλιμακώσουν αυτά τα συστήματα αποτελεσματικά. Αυτό είναι το που μας οδήγησε最終 στην ίδρυση της TrueFoundry, και η υπόθεσή μας ήταν σωστή. Η υιοθέτηση AI επιταχύνθηκε μετά την εκκίνηση του ChatGPT στα τέλη του 2022.
Όταν τα συστήματα AI μετακινούνται από πειραματισμό σε καθημερινές επιχειρήσεις, τι έχει αλλάξει σχετικά με τον τρόπο που οι οργανισμοί πρέπει να σκέφτονται για την αξιοπιστία και την αποτυχία;
Τα στοιχήματα με Gen AI είναι σημαντικά υψηλότερα σε σύγκριση με τα παραδοσιακά συστήματα μηχανικής μάθησης. Όταν αυτά τα συστήματα μετακινούνται στην παραγωγή, οι οργανισμοί αντιμετωπίζουν ένα πολύ υψηλότερο επίπεδο αβεβαιότητας και μη-детерμινισμού επειδή τα LLMs είναι στοχαστικά από φύση. Τα συστήματα που κατασκευάζονται πάνω από αυτά προσθέτουν thêm αβεβαιότητα.
Επιπλέον, οι αποτυχίες δεν είναι πλέον δυαδικές. Αντί να αποτυγχάνουν τα συστήματα απλώς ή να μην αποτυγχάνουν, πολλά προβλήματα εμφανίζονται ως μερικές αποτυχίες ή σιωπηλές χειροπιαστεί. Τα συστήματα μπορεί να απαντήσουν με υψηλότερη καθυστέρηση, μειωμένη ποιότητα, ή λανθασμένη συμπεριφορά με το χρόνο. Σε πολλές περιπτώσεις, αυτές οι χειροπιαστεί possono να είναι πιο δύσκολο να ανιχνευτούν και μερικές φορές ακόμη και πιο καταστροφικές από μια σκληρή διακοπή.
Οι οργανισμοί πρέπει να σκέφτονται την αξιοπιστία όχι μόνο σε σχέση με την διαθεσιμότητα αλλά και την υποβάθμιση της απόδοσης με το χρόνο.
TrueFailover was launched amid a wave of high-profile cloud and AI service disruptions. What recent events made it clear that AI reliability had shifted from a “nice to have” to a core architectural requirement?
Ένας από τους πελάτες μας στην υγεία που επεξεργάζεται πραγματικό χρόνο, χρόνο-ευαίσθητες αιτήσεις ασθενών σχετικά με συνταγές επηρεάστηκε από μια διακοπή που προκλήθηκε από μια αποτυχία μοντέλου. Οι ροές εργασίας τους παράγουν χιλιάδες δολάρια εσόδου ανά δευτερόλεπτο, και η διακοπή διέκοψε μερικές από αυτές τις κρίσιμες ροές εργασίας. Jako ένας πρώιμος πελάτης του TrueFailover, μπόρεσα να βοηθήσω με γρήγορη ανάκτηση, και η επίδραση περιορίστηκε.
Γεγονότα όπως αυτό θέτουν ένα σημαντικό ερώτημα. Όταν τα στοιχήματα των συστημάτων Gen AI συνεχίζουν να αυξάνονται, γιατί οι διαδικασίες ανάκτησης είναι ακόμη σε μεγάλο βαθμό χειροκίνητες; Αυτό ενίσχυσε την ιδέα ότι τα συστήματα πρέπει να κατασκευαστούν με την υπόθεση ότι οι αποτυχίες θα συμβούν, και πρέπει να σχεδιαστούν για να διορθώσουν αυτόματα τον εαυτό τους. Η αξιοπιστία επίσης πρέπει να κατασκευαστεί στην ίδια την στοίβα AI μέσω της χρήσης πυλών AI, οι οποίες μπορούν να παρέχουν κεντρική διαδρομή, παρακολούθηση, φρουροί και έξυπνη εναλλαγή μοντέλων μεταξύ παρόχων.
Πολές αποτυχίες AI ακόμη παρουσιάζονται ως τεχνικές δυσκολίες. Πού βλέπετε τις πραγματικές οικονομικές και ανθρώπινες κόστους να αρχίζουν να εμφανίζονται όταν τα συστήματα AI βγάζουν;
Η επιχειρηματική AI έχει εξελιχθεί στο σημείο όπου αυτές οι δυσκολίες δεν επηρεάζουν πλέον μόνο τις εσωτερικές ροές εργασίας. Σήμερα, οι διακοπές και οι υποβαθμίσεις επηρεάζουν trực tiếp και άμεσα την δημόσια αντίληψη και τα κέρδη, επειδή οι περιπτώσεις χρήσης παραγωγής είναι τώρα προσανατολισμένες στον πελάτη. Αυτή η μετατόπιση από τον εσωτερικό έλεγχο σε υψηλούς πόνους, προσανατολισμένες στον πελάτη εφαρμογές είναι το γιατί βλέπουμε αυξημένη ζήτηση για εκτελεστική προσοχή και εποπτεία.
Όταν τα συστήματα AI ενσωματώνονται βαθύτερα στις επιχειρησιακές ροές εργασίας, οι διακοπές δεν είναι πλέον μόνο τεχνικά ζητήματα. Αυτές έχουν άμεσες επιχειρηματικές, πελάτες και φήμες συνέπειες.
Σε αποστολές-κρίσιμες περιβάλλοντα όπως φαρμακεία, επιχειρήσεις υγείας ή υποστήριξη πελάτη, πώς γρήγορα μπορεί να εξελιχθεί η διακοπή AI σε λειτουργική ή φήμης κίνδυνο;
Σε αποστολές-κρίσιμες περιβάλλοντα, η εξέλιξη συμβαίνει σχεδόν αμέσως επειδή αυτά τα συστήματα υποστηρίζουν πραγματικό χρόνο, χρόνο-ευαίσθητες ροές εργασίας. Ακόμη και μια σύντομη διακοπή μπορεί να σταματήσει κρίσιμες διαδικασίες, να καθυστερήσει την παροχή υπηρεσιών ή να διακόψει 다운-ροές συστήματα που εξαρτώνται από αυτά τα εξόδους, δημιουργώντας κασκαντέρες επιχειρησιακές επιπτώσεις σε όλη την οργάνωση.
Σε τομείς όπως η υγεία, η επίδραση εκτείνεται πέρα από την επιχειρησιακή διακοπή στην εμπειρία του πελάτη και τα αποτελέσματα της υπηρεσίας. Αν ένας ασθενής δεν μπορεί να εκπληρώσει την συνταγή του εγκαίρως, μπορεί να υπάρχουν πραγματικές συνέπειες. Όχι μόνο είναι αυτό ένα ζήτημα για τον ασθενή, αλλά μπορεί επίσης να βλάψει τη φήμη ενός φαρμακείου ή παρόχου υγείας. Σε αποστολές-κρίσιμες περιβάλλοντα όπου η εμπιστοσύνη είναι παράγοντας, είναι παραμόντα που τα συστήματα πρέπει να παραμείνουν online. Αυτός είναι ο λόγος για τον οποίο οι οργανισμοί αναγνωρίζουν ολοένα και περισσότερο ότι τα συστήματα AI πρέπει να σχεδιαστούν με την υπόθεση ότι οι αποτυχίες θα συμβούν και ότι τα μηχανισμοί ανάκτησης πρέπει να ενεργοποιηθούν αυτόματα για να ελαχιστοποιήσουν τον κίνδυνο.
Έχετε πει ότι πολλές ομάδες αρχιτεκτούν για ικανότητα αντί για συνέχεια. Γιατί νομίζετε ότι η ανθεκτικότητα έχει ιστορικά υποβαθμιστεί στο σχεδιασμό συστημάτων AI;
Αυτό οφείλεται σε μεγάλο βαθμό στους κινήτρους εντός των οργανισμών. Νέες ικανότητες είναι ορατές και ενθουσιαστικές. Ξεκλειδώνουν demos, χαρακτηριστικά και δυνατότητες προϊόντων που η ηγεσία μπορεί να δει αμέσως.
Η συνέχεια, από ορισμού, είναι αόρατη όταν τα πράγματα λειτουργούν καλά. Επειδή, τα συστήματα ανταμοιβής τείνουν να είναι στραμμένα προς την αποστολή νέων χαρακτηριστικών παρά την εξασφάλιση ότι τίποτα δεν σπάει. Jako αποτέλεσμα, οι οργανισμοί συχνά επενδύουν αναλογικά στην ανάπτυξη ικανότητας παρά στην ανθεκτικότητα.
Όταν οι επιχειρήσεις εξαρτώνται ολοένα και περισσότερο από εξωτερικά μοντέλα και API, ποίες νέες ευπαθειές εισάγονται στην στοίβα AI που οι ηγέτες μπορεί να μην εκτιμούν ακόμη πλήρως;
Τα LLMs είναι ουσιαστικά κοινές πηγές, και οι επιχειρήσεις δεν τις κατέχουν όπως το παραδοσιακό υπολογιστικό περιβάλλον. Επιπλέον, σημαντικά επιχειρηματικά-κρίσιμα συστήματα με επιχειρήσεις τρέχουν σε εξωτερικά συστήματα που δεν είναι πλήρως δοκιμασμένα. Τα LLMs εξελίσσονται γρήγορα, που σημαίνει ότι ένας παρόχος μοντέλου δεν μπορεί να θεωρηθεί υπεύθυνος για πράγματα όπως καθυστέρηση ή απόδοση μοντέλου που μειώνεται ελαφρώς, επειδή είναι επαναλαμβανόμενα στην έρευνά τους.
Επειδή τα LLMs είναι κοινές πηγές, η καθυστέρηση μπορεί να αυξηθεί επειδή ένας άλλος καταναλωτής αυτών των LLMs λαμβάνει μια συγκεκριμένη ενέργεια. Υπάρχουν πολλά από αυτά τα σημεία αποτυχίας που εισάγονται επειδή της ουσιαστικής φύσης των LLMs, και οι επιχειρήσεις σε αυτό το νέο κόσμο απλώς δεν έχουν πλήρη έλεγχο. Χωρίς πλήρη έλεγχο, το καλύτερο που μπορεί να κάνει μια επιχείρηση είναι να δημιουργήσει αρκετές συστήματος αναπαραγωγής για να σχεδιάσει ένα ανθεκτικό σύστημα.
Χωρίς να εστιάζουμε σε συγκεκριμένα προϊόντα, πώς πρέπει οι οργανισμοί να ξανασκέφτονται την αρχιτεκτονική AI για να υποθέσουν αποτυχία αντί να αντιμετωπίζουν τις διακοπές ως σπάνιες περιπτώσεις;
Οι οργανισμοί πρέπει να επιστρέψουν στις αρχές του σχεδιασμού κατανεμημένων συστημάτων. Τα συστήματα λογισμικού κατασκευάστηκαν με την υπόθεση ότι τα στοιχεία δικτύου και οι μηχανές θα αποτύχουν, και ότι ένα ολόκληρο περιφερειακό μπορεί να πάει κάτω.
Τα συστήματα AI δεν πρέπει να είναι διαφορετικά. Πρέπει να υποθέσουμε ότι οι παρόχοι μοντέλων θα αντιμετωπίσουν προβλήματα καθυστέρησης, υποβαθμίσεων ή διακοπών, και να ενσωματώσουμε αναπαραγωγή ώστε οι εφαρμογές να παραμείνουν ανθεκτικές σε διάφορες περιπτώσεις αποτυχίας.
Αναμένετε να γίνει η ανθεκτικότητα AI ένας καθοριστικός παράγοντας στην επιλογή πλατφόρμας και προμηθευτή, παρόμοια με τον τρόπο που η διαθεσιμότητα και η αναπαραγωγή διαμόρφωσαν τις αποφάσεις υποδομής cloud;
Όταν περισσότερα συστήματα AI μετακινούνται στην παραγωγή, η ανθεκτικότητα θα γίνει το βασικό σημείο. Αν ένας προμηθευτής δεν μπορεί να παρουσιάσει τα γραφήματα και τα μετρήματα για την διαθεσιμότητα και την ολική ανθεκτικότητα, δεν θα θεωρηθεί καν. Μόλις η ανθεκτικότητα γίνει μια βασική προσδοκία μεταξύ προμηθευτών, οι καθοριστικοί παράγοντες θα μετατοπιστούν προς την εμπειρία του χρήστη, την βελτιστοποίηση της απόδοσης, την παρακολούθηση και τις υψηλότερες ικανότητες προϊόντων. Με το χρόνο, στοιχεία όπως μια πύλη AI και αυτόματη εναλλαγή θα γίνουν βασικά θεμέλια της υποδομής επιχειρηματικού AI.
Κοιτάζοντας μπροστά, τι σημαίνει “έτοιμο για παραγωγή” AI πραγματικά σε ένα κόσμο όπου το AI αναμένεται να είναι συνεχώς διαθέσιμο, όχι μόνο περιστασιακά χρήσιμο;
Τα συστήματα AI έτοιμα για παραγωγή πρέπει να είναι παρατηρήσιμα, ελεγχόμενα και ανακτήσιμα. Όλα αυτά τα κουτιά πρέπει να ελέγχονται.
Για τα συστήματα AI να είναι παρατηρήσιμα, οι ομάδες χρειάζονται βαθιά ορατότητα στη συμπεριφορά του μοντέλου, καθυστέρηση, ποσοστά σφαλμάτων, χρήση token, drift και μοτίβα αποτυχίας. Χωρίς ισχυρή παρατηρήσιμη, γίνεται πολύ δύσκολο να ανιχνεύσετε υποβαθμίσεις πριν οι χρήστες αρχίσουν να τις παρατηρούν.
Για τα συστήματα να είναι ελεγχόμενα, αυτό περιλαμβάνει διαμόρφωση κυκλοφορίας, περιορισμό ρυθμού, φρουρούς, επιβολή πολιτικής και έξυπνη διαδρομή μεταξύ μοντέλων και παρόχων. Αυτό είναι το πού μια πύλη AI γίνεται θεμελιώδες, ενεργώντας ως một κεντρικό έλεγχο που επιβάλλει φρουρούς, παρέχει συνεχή διακυβέρνηση και επιτρέπει δυναμική εναλλαγή μοντέλων όταν η απόδοση ή η αξιοπιστία πέφτει.
Και τελευταίο, όταν πρόκειται για την ανακτήσιμη, τα συστήματα πρέπει να κατασκευαστούν με την υπόθεση ότι τα στοιχεία μπορούν να είναι μερικά ή πλήρως σπασμένα, είτε λόγω διακοπών παρόχου, υποβαθμίσεων ποιότητας μοντέλου, περιορισμών ρυθμού ή απροσδόκητων εισόδων από κακόβουλους παράγοντες. Αυτόματα μηχανισμοί εναλλαξης και αυτο-θεραπείας πρέπει να είναι εγγενείς στην αρχιτεκτονική, όχι χειροκίνητα βιβλία που ενεργοποιούνται μετά από κάτι που πάει λάθος.
Αυτή είναι η κατεύθυνση που εργαζόμαστε προς την TrueFoundry. Οι προμηθευτές που ορίζουν την ετοιμότητα παραγωγής με αυτόν τον τρόπο, συνδυάζοντας παρατηρήσιμη, κεντρικό έλεγχο και αυτόματη ανάκτηση, θα κερδίσουν μακροπρόθεσμη εμπιστοσύνη του πελάτη και θα μπορέσουν να συνεχίσουν να λύνουν νέα ζητήματα καθώς αυτά εμφανίζονται.
Ευχαριστώ για τη μεγάλη συνέντευξη, οι αναγνώστες που θέλουν να μάθουν περισσότερα πρέπει να επισκεφθούν TrueFoundry.












