Ηγέτες σκέψης
Η Κρίσιμη Διαδρομή προς την Αυτοματοποίηση της Ανάπτυξης Μοντέλων

Το επόμενο σημαντικό ορόσημο για την έρευνα του AI είναι η αυτοματοποίηση της ανάπτυξης μοντέλων. Κάθε πρόοδος στη σκέψη, τη γλώσσα και την αντίληψη είναι, σε κάποιο βαθμό, ένα βήμα προς αυτό το στόχο. Ωστόσο, η διαδρομή προς την αυτοματοποίηση των μοντέλων απαιτεί την επίλυση ενός συνόλου θεμελιωδών προκλήσεων που πρέπει να επιλυθούν πρώτα.
Η γέφυρα προς αυτό το στόχο περνάει trực tiếp μέσω της μηχανικής μάθησης (ML) μηχανικής. Μια κοινή λανθασμένη αντίληψη υποστηρίζει ότι η ML είναι μια προηγούμενη τεχνολογία για το σύγχρονο AI και ότι τα μοντέλα θεμελίου έχουν απλώς αντικαταστήσει την τεχνολογία. Αυτό δεν κατανοεί τη σχέση. Jako ακαδημαϊκή дисциплина, η ML περιλαμβάνει tous τους ασpects της εκπαίδευσης μοντέλων, συμπεριλαμβανομένης της εκπαίδευσης των μοντέλων θεμελίου στο κέντρο του τρέχοντος AI. Υπάρχει, ωστόσο, μια σημαντική διαφορά σε κλίμακα και复雑ότητα δεδομένων.
Τα παραδοσιακά μοντέλα ML εκπαιδεύονται συνήθως σε προσεκτικά επιλεγμένα, domaine-ειδικά σύνολα δεδομένων που περιέχουν χιλιάδες ή εκατομμύρια παραδείγματα. Τα μοντέλα θεμελίου, από την άλλη πλευρά, εκπαιδεύονται σε χιλιάδες σύνολα δεδομένων ταυτόχρονα, που προέρχονται από πολύ διαφορετικές πηγές με ασυνεπείς μορφές, προέλευση και ποιότητα. Αυτή η διαφορά σε κλίμακα και ετερογένεια δεδομένων είναι ένας θεμελιώδης λόγος για τον οποίο η διαχείριση δεδομένων γίνεται πολύ πιο δύσκολη και σημαντική καθώς τα μοντέλα γίνονται πιο ισχυρά.
Αυτό καθιστά την κατανόηση δεδομένων ένα κεντρικό εμπόδιο στην αυτοματοποίηση της ανάπτυξης μοντέλων. Ένα σύστημα AI που μπορεί να ερμηνεύσει ετερογενή δεδομένα και να βελτιώσει τις διαδικασίες που κατασκευάζονται γύρω του θα μπορούσε, σε принцип, να βελτιώσει τη δική του διαδικασία εκπαίδευσης και να βοηθήσει στην κατασκευή καλύτερων μοντέλων. Μόλις το AI μπορεί να βελτιώσει τη διαδικασία με την οποία εκπαιδεύεται, οι βελτιώσεις κασκάδουν προς τα κάτω σε κάθε domaine όπου εφαρμόζεται το AI.
Τρία Εμπόδια που Εμποδίζουν τον Δρόμο
Το πρώτο εμπόδιο είναι η θραύση του περιεχομένου. Σε σχεδόν κάθε οργανισμό, τα σήματα, τα πειράματα, οι ορισμοί χαρακτηριστικών και η θεσμική γνώση που σχετίζονται με οποιοδήποτε δεδομένο πρόβλημα μοντελοποίησης είναι σπαρμένα σε αποθήκες δεδομένων, σημειωματάρια και διαδικασίες που δεν σχεδιάστηκαν ποτέ να επικοινωνούν μεταξύ τους. Σκεφτείτε ένα σύστημα υγείας που κατασκευάζει ένα μοντέλο ανίχνευσης σήψης. Τα κλινικά κριτήρια που σχετίζονται με αυτό το πρόβλημα, όπως οι κρίσιμες τιμές, οι τιμές εργαστηρίου και τα πρότυπα τεκμηρίωσης, μπορεί να ζουν σε εντελώς ξεχωριστά μέρη ενός συστήματος ηλεκτρονικού ιατρικού αρχείου.
Το δεύτερο εμπόδιο είναι η σημασιολογική αμφιβολία. Η σημασία δεν είναι εγγενής στα δεδομένα, αλλά είναι αντίθετα περιεκτική και οργανωτική. Το ίδιο όνομα πεδίου σε δύο διαφορετικές βάσεις δεδομένων μπορεί να αναφέρεται σε λεπτές διαφορές. Εννοιες όπως η έσοδος, ο ενεργός χρήστης και η απόρριψη έχουν πολλές έγκυρες ορισμοί μέσα σε μια einz εταιρεία. Ακόμη και μια έννοια όπως η “έσοδος” μπορεί να προκαλέσει προβλήματα. Μια ομάδα πωλήσεων μπορεί να ορίσει την έσοδο ως την συνολική αξία των συμβολαίων που υπογράφηκαν αυτό το τρίμηνο, ενώ η ομάδα χρηματοοικονομικής την ορίζει ως τα πραγματικά ληφθέντα κέρδη. Η ομάδα προϊόντων έχει μια άλλη κατανόηση, καθώς ορίζει τον όρο να σημαίνει αναγνωρισμένα έσοδα που διανέμονται σε μια περίοδο συνδρομής. Όλα τα τρία τραβούν από πεδία που ονομάζονται κυριολεκτικά “έσοδος” στα αντίστοιχα συστήματα, αλλά μια αναφορά μεταξύ των ομάδων που συνδυάζει αυτά τα στοιχεία θα αναμίξει τρεις ασυμβίβαστες αριθμούς.
Το τρίτο και πιο συστηματικό εμπόδιο είναι η απουσία τεκμηριωμένης θεσμικής μνήμης. Η παρακολούθηση της προέλευσης, η επίλυση ασυνεπειών και η διατήρηση σημάτων ποιότητας σε τόσες πολλές πηγές είναι ένα ανεπίλυτο πρόβλημα, ακόμη και για ανθρώπινες ομάδες. Χωρίς μια θεσμική μνήμη του τι έχει δοκιμαστεί και πόσο καλά λειτουργούν αυτές οι προσεγγίσεις, οποιοδήποτε μηχανισμό αυτοματοποίησης μοντέλων θα συνεχίσει να ανακαλύπτει τα ίδια νεκρά στενά, σπαταλώντας χρόνο και πόρους.
Σκεφτείτε μια ομάδα επιστημόνων δεδομένων σε μια εταιρεία λιανικής που κατασκευάζει ένα μοντέλο πρόβλεψης ζήτησης. Σε τρία χρόνια, μια дozen αναλυτές έχουν ανακαλύψει ανεξάρτητα ότι τα ακατέργαστα καιρικά δεδομένα μειώνουν την απόδοση του μοντέλου κατά τις εβδομάδες των εορτών, ότι η τροφοδοσία eines προμηθευτή περιέχει μια συστηματική καθυστέρηση και ότι η τυπική προσέγγιση για την αντιμετώπιση των προωθητικών εκδηλώσεων προκαλεί διαρροή στόχου. Όταν οι αρχικοί αναλυτές μετακινήθηκαν σε άλλες ομάδες ή έφυγαν από την εταιρεία, η γνώση έφυγε μαζί τους. Χωρίς μια θεσμική εγγραφή του τι έχει δοκιμαστεί, τι απέτυχε και γιατί, ένας μηχανισμός αυτοματοποίησης μοντέλων δεν μπορεί να χτίσει πάνω στην συσσωρευμένη εμπειρία. Απλώς αρχίζει από το μηδέν, ξανά και ξανά, σπαταλώντας άσκοπα χρόνο.
Τι Απαιτεί μια Πραγματική Λύση
Η ιστορία της αυτοματοποίησης ML είναι μια ιστορία μερικών λύσεων. Το AutoML αντιμετώπισε το στενό πρόβλημα της ρύθμισης των υπερπαραμέτρων, αλλά δεν μπορούσε να αντιμετωπίσει τις ανταγωνιστικές ανταγωνιστικές προτιμήσεις ή να συλλογιστεί την οργανωτική πρόθεση. Το MLOps έκανε τις παραγωγικές διαδικασίες πιο ανθεκτικές και πιο εύκολες να παρακολουθούνται, αλλά τα εργαλεία MLOps εκτελούν μια στρατηγική αντί να τη địnhουν. Τα πιο πρόσφατα agents κωδικοποίησης αντιπροσωπεύουν ένα γνήσιο βήμα προς τα εμπρός, αλλά έχουν κληρονομήσει την ίδια τύφλα. Γεννούν κώδικα καλά ενώ λειτουργούν χωρίς οργανωτικό контекст ή θεσμική μνήμη.
Ένα σύστημα ικανό να πραγματοποιήσει πραγματικά αυτόνομη μηχανική ML θα χρειαζόταν ικανότητες που δεν παρέχουν τα υπάρχοντα εργαλεία. Θα χρειαζόταν να χαρτογραφήσει τους στόχους της επιχείρησης σε στόχους μοντέλων, το οποίο είναι μια μετάφραση που δεν μπορεί να συναχθεί από τα δεδομένα μόνο. Θα χρειαζόταν να ανακαλύψει σχετικά δεδομένα σε θραυσμένα συστήματα με ασυνεπείς σχήματα, ενώ αυτόματα να συμμορφώνεται με τις προϋποθέσεις συμμόρφωσης, διακυβέρνησης και ασφάλειας, αντί να απαιτεί από τους ανθρώπους να τις διαχειρίζονται ως μια ξεχωριστή διαδικασία. Θα χρειαζόταν θεσμική μνήμη για να επιφέρουν την υπάρχουσα εργασία, να κατανοήσουν γιατί οι προηγούμενες πειραματικές μελέτες εγκαταλείφθηκαν και να χτίσουν πάνω σε αυτά που ήδη γνωρίζουν οι συνάδελφοί.
Σταθερές ιχνηλάτες που παρακολουθούν την προέλευση σε διαφορετικές εκδόσεις δεδομένων, ορισμοί χαρακτηριστικών και υπογράμμιση κώδικα θα χρειαζόταν να είναι một πυρήνας μηχανισμός για την εδραιωση του συστήματος σε αυτό που πραγματικά συνέβη. Και ένα τέτοιο σύστημα θα χρειαζόταν προσεκτική σχεδίαση ανθρώπου-στο-βρόχο. Όχι μια δυαδική επιλογή μεταξύ πλήρους αυτοματοποίησης και πλήρους ελέγχου, αλλά υποστήριξη για διαφορετικά επίπεδα αλληλεπίδρασης ανάλογα με την εργασία, τα στοιχήματα και την εμπιστοσύνη του συστήματος σε κάθε σημείο απόφασης. Η αυτοματοποίηση που παρακάμπτει την ανθρώπινη κρίση σε κρίσιμους momentos δεν είναι μια λειτουργία ενός καλά σχεδιασμένου AI, αλλά είναι ένας τρόπος αποτυχίας.
Τι δεν έχει λυθεί ακόμη από κανένα εργαστήριο είναι το πώς να δημιουργηθεί μια σημασιολογική κατανόηση των οργανωτικών δεδομένων που κατανοούν τι σημαίνουν τα δεδομένα σε ένα συγκεκριμένο θεσμικό контекスト. Το MCP λύνει το πρόβλημα της συνδεσιμότητας. Δεν λύνει ακόμη το πρόβλημα της σημασίας. Αυτό παραμένει το ανοιχτό ερευνητικό μέτωπο.
Τι Γίνεται Πιθανό
Οι οικονομικές επιπτώσεις της επίλυσης αυτών των προβλημάτων είναι σημαντικές. Η προσαρμοσμένη ανάπτυξη ML σήμερα απαιτεί ειδικούς πρακτικούς και εβδομάδες επανάληψης, ακόμη και για καλά καθορισμένα προβλήματα. Ένα σύστημα που θα μπορούσε να διανύσει την πλήρη ροή αυτόνομα από τον ορισμό του προβλήματος έως την ανακάλυψη δεδομένων, την ανάπτυξη μοντέλων και την αξιολόγηση μοντέλων θα μετατόπιζε αυτή τη σχέση δραματικά, συμπιέζοντας τις γραμμές χρόνου και ανοίγοντας υψηλής αξίας περιπτώσεις χρήσης που είναι τώρα πολύ πόρων-εντατικές να ακολουθηθούν. Τα προγράμματα που απαιτούν ομάδες με βαθιά εμπειρία ML που εργάζονται για εβδομάδες μπορούν τώρα να ολοκληρωθούν σε ημέρες χωρίς να χρειάζεται να χρησιμοποιηθεί τόσο πολύ από τον σπάνιο χρόνο των εμπειρογνωμόνων ML.













