Connect with us

Ηγέτες σκέψης

Η Αληθινή Κόστος της Εκπαίδευσης Ρομπότ

mm

Στο πρώτο μέρος, συζητήσαμε πώς τα ρομπότ εξελίσσονται από βασική μηχανική σε κατανόηση του περιβάλλοντος τους. Στο στάδιο του “τελευταίου μιλίου” – όταν τα ρομπότ υποβάλλονται σε μετα-εκπαίδευση για συγκεκριμένες, εξατομικευμένες εργασίες – εμφανίζεται ένα απροσδόκητο εμπόδιο. Συνδέεται με τα δεδομένα: τη συλλογή, την οργάνωση και την κλιμάκωση σε πραγματικές συνθήκες.

Είναι ακριβώς στο στάδιο αυτό που ο χάσμα μεταξύ концептуαλισμού και υλοποίησης γίνεται πιο εμφανής. Ποια είναι τα βασικά εμπόδια και πώς μπορούν να υπερνικηθούν με ελάχιστη τριβή;

Γιατί χιλιάδες ώρες δεδομένων μετατρέπονται σε χρόνια εργασίας

Έτσι, ας φανταστούμε ότι ήδη έχουμε ένα εκπαιδευμένο ρομπότ που έχει υποβληθεί σε προ-εκπαίδευση. Μπορεί να περιηγηθεί στο περιβάλλον του, να κινηθεί, να αποφύγει εμπόδια και να αλληλεπιδράσει με αντικείμενα. Είναι σαν ένα “παιδί δέκα ετών” που είναι γενικά ικανό να ενεργεί ανεξάρτητα. Το επόμενο βήμα είναι να το διδάξουμε να εκτελεί συγκεκριμένες ενέργειες υπό συγκεκριμένες συνθήκες, για παράδειγμα, την εγκατάσταση γυάλινων πάνελ και σφραγιστικών λωρίδων σε μια γραμμή παραγωγής αυτοκινήτων.

Στην πρώτη ματιά, η εργασία φαίνεται πιο απλή. Περιλαμβάνει την εκμάθηση ενός seul σενάριου και ο όγκος των δεδομένων που απαιτούνται είναι σημαντικά μικρότερος από εκείνον της προ-εκπαίδευσης. Ενώ η θεμελιώδης εκπαίδευση μπορεί να απαιτήσει εκατοντάδες χιλιάδες ώρες, η μετα-εκπαίδευση μπορεί να διαρκέσει μόνο χιλιάδες. Αλλά αυτά τα νούμερα είναι παραπλανητικά.

Όταν μεταφράζονται σε πραγματικό χρόνο, η διαδικασία αποκαλύπτει την αληθινή της πολυπλοκότητα. Σύμφωνα με ένα τυπικό ωράριο εργασίας, ένας άνθρωπος εργάζεται περίπου 160 ώρες το μήνα. Ωστόσο, αυτό δεν σημαίνει ότι όλη αυτή η ώρα μπορεί να χρησιμοποιηθεί για ηχογράφηση.

Στην πράξη, συνεχείς διακοπές συμβαίνουν: οι μπαταρίες εξαντλούνται, οι κάμερες μετακινούνται, οι αισθητήρες αποτυγχάνουν. Όσο πιο σύνθετο είναι το σύστημα, τόσο υψηλότερη είναι η πιθανότητα προβλημάτων. Ακόμη και μια απλή αποτυχία όπως οι αισθητήρες σε ένα γάντι να σταματήσουν να λειτουργούν μπορεί να σταματήσει τη διαδικασία και να οδηγήσει σε χαμένη ώρα.

Ως αποτέλεσμα, η πραγματική ταχύτητα συλλογής δεδομένων είναι 2-3 φορές χαμηλότερη. Μια ώρα υψηλής ποιότητας ηχογράφησης μπορεί να απαιτήσει μέχρι τρεις ώρες πραγματικής εργασίας. Αυτό αλλάζει ριζικά τον υπολογισμό: 5.000 ώρες δεδομένων μεταφράζονται σε περίπου 15.000 ώρες εργασίας.

Στρώσεις πάνω σε στρώσεις πολυπλοκότητας

Κατά τη διάρκεια της προ-εκπαίδευσης, μπορεί να είναι αρκετό να δώσετε σε ένα άτομο μια κάμερα και να του ζητήσετε να ηχογραφήσει καθημερινές δραστηριότητες. Στο στάδιο αυτό, ωστόσο, απαιτείται πρόσβαση σε ένα συγκεκριμένο περιβάλλον, όπως ένα εργοστάσιο, ένα εργοτάξιο ή một εξειδικευμένη εγκατάσταση παραγωγής.

Αυτό εισάγει αμέσως πρακτικούς περιορισμούς. Για παράδειγμα, σε ένα εργοτάξιο, οι εργάτες απαιτείται να φορούν κράνη ασφαλείας, που σημαίνει ότι πρέπει να αναπτυχθεί εξειδικευμένο εξοπλισμό: κράνη με ενσωματωμένες κάμερες που είναι ανθεκτικές στη σκόνη, την υγρασία και τις επιπτώσεις.

Στη συνέχεια έρχεται η πρόσβαση στον ίδιο τον χώρο. Οι συμφωνίες πρέπει να γίνουν με τους ιδιοκτήτες του χώρου, οι άδειες πρέπει να ληφθούν και οι συνθήκες πρέπει να διαπραγματευτούν. Αυτό σχεδόν πάντα περιλαμβάνει πρόσθετους κόστους: οι εταιρείες αναμένουν αποζημίωση και οι εργάτες αναμένουν να πληρωθούν για τη συμμετοχή τους.

Η ασφάλιση και η συμμόρφωση με τις προδιαγραφές ασφαλείας γίνονται επίσης κρίσιμες ανησυχίες. Αν ο εξοπλισμός δεν πληροί τις απαιτούμενες προδιαγραφές, η ασφάλιση μπορεί να ακυρωθεί,迫άζοντας ολόκληρη τη διαδικασία να αναδιαμορφωθεί.

Ακόμη και στο επίπεδο της ημερήσιας λειτουργίας, οι προκλήσεις επιμένουν. Οι κάμερες πρέπει να ενεργοποιηθούν, να παρακολουθούνται και να συντηρούνται. Οι εργάτες λειτουργούν με γάντια και σε δύσκολες συνθήκες. Ο εξοπλισμός γίνεται βρόμικος, φθαρεί και σπάει. Μια κάμερα μπορεί να σβήσει μετά από quelques λεπτά και το άτομο μπορεί να μην το καταλάβει.

Αυτό δημιουργεί την ανάγκη για τους συμμετέχοντες να εκπαιδευτούν – πρέπει να κατανοήσουν πώς να χρησιμοποιούν τον εξοπλισμό. Επιπλέον, απαιτείται συνεχής επιτήρηση – κάποιος πρέπει να διασφαλίσει ότι η ηχογράφηση είναι σε εξέλιξη και ότι τα συσκευές λειτουργούν σωστά.

Από сыρό βίντεο σε δεδομένα εκπαίδευσης

Μετά την ηχογράφηση, αρχίζει το επόμενο στάδιο: συλλογή δεδομένων, ανέβασμα, δομή, έλεγχος ποιότητας και επισήμανση.

Κάθε сыρό δεδομένο αποτελείται από βίντεο και σήματα αισθητήρων. Για να το μετατρέψουμε σε υλικό εκπαίδευσης, πρέπει να δομήσουμε: τα αντικείμενα πρέπει να αναγνωριστούν, οι ενέργειες πρέπει να καταγραφούν και οι καταστάσεις, οι κινήσεις και οι αλληλεπιδράσεις με το περιβάλλον πρέπει να περιγραφούν. Αυτό είναι όπου η επισήμανση έρχεται στο παιχνίδι. Μια λογική ερώτηση προκύπτει – τι είναι ο χρυσός κανόνας για τέτοια ροή εργασίας επισήμανσης;

Σε ορισμένες περιπτώσεις, απλές περιγράμματα είναι αρκετά για να αναγνωρίσουν αντικείμενα σε ένα πλαίσιο. Σε άλλες, χρονική επισήμανση απαιτείται για να περιγράψει ακολουθίες ενεργειών με την πάροδο του χρόνου. Σε ορισμένες περιπτώσεις, κλειδιά και σκελετικά μοντέλα χρησιμοποιούνται για να καταγράψουν την κίνηση του σώματος. Σε πιο σύνθετες περιπτώσεις, 3D πλέγματα ή παρακολούθηση στάσεων χεριών απαιτούνται για να αναπαραστήσουν ακριβώς τη μηχανική αλληλεπίδρασης. Πρόσθετοι αισθητήρες, όπως επιταχύνσεις, συχνά ενσωματώνονται για να καταγράψουν τη δυναμική της κίνησης και την εφαρμοζόμενη δύναμη.

Πρότζεκτ όπως αυτά επίσης συχνά απαιτούν την κλιμάκωση της ομάδας. Η επισήμανση είναι μια μεγάλη και σύνθετη εργασία, που απαιτεί χρόνο, εμπειρογνωσία και σημαντικούς ανθρώπινους πόρους. Αυτό είναι όπου οι παρόχοι λύσεων δεδομένων με εσωτερικές ομάδες επισήμανσης έρχονται στο παιχνίδι. Όπως η Keymakr, η οποία έχει αποδείξει ιδιαίτερα αποτελεσματική χάρη στην ικανότητά της να κλιμακώνει τις ομάδες για να ταιριάζουν σε οποιοδήποτε όγκο δεδομένων, από έναν seul ειδικό σε εκατοντάδες annotators.

Δεν υπάρχει σωστός τρόπος για την εκπαίδευση ακόμη

Η βιομηχανία βρίσκεται ακόμη σε μια εξερευνητική φάση, καθώς δεν υπάρχει συναίνεση σχετικά με ποια συνδυασμός δεδομένων δίνει τα καλύτερα αποτελέσματα. Πολλές προσεγγίσεις επικυρώνονται εμπειρικά επειδή λειτουργούν σε συγκεκριμένα πειράματα. Ως αποτέλεσμα, διαφορετικές ομάδες συνεχίζουν να βασίζονται σε διαφορετικές τεχνολογίες, διαμορφωμένες από την εμπειρία, τις εργασίες και τους περιορισμούς τους.

Σε ακαδημαϊκό και εφαρμοσμένο επίπεδο, αυτό οδηγεί σε θραύση: εργαστήρια και εταιρείες κινούνται σε διαφορετικές κατευθύνσεις. Η κατάσταση θυμίζει τις πρώτες μέρες της αυτόνομης οδήγησης όταν η Tesla στοίχησε σε μια προοπτική-μόνο προσέγγιση χωρίς LiDAR, ενώ οι περισσότεροι άλλοι παίκτες επέλεξαν LiDAR ως βασικό αισθητήρα.

Σήμερα, τα συστήματα που βασίζονται σε LiDAR τείνουν να δείχνουν πιο σταθερές επιδόσεις, ωστόσο η προσέγγιση της Tesla συνεχίζει να εξελίσσεται. Η διαφορά είναι ότι στην αυτόνομη οδήγηση, η αγορά έχει größως ωριμάσει: σταθερές αρχιτεκτονικές έχουν εμφανιστεί, οι περιορισμοί είναι καλά κατανοητοί και σημαντική εμπειρογνωσία έχει συναθροιστεί.

Σε αντίθεση, για την Φυσική AI και παρόμοια εκπαίδευση μοντέλων, αυτό το επίπεδο ωριμότητας δεν έχει ακόμη επιτευχθεί. Η αγορά βρίσκεται ακόμη σε διαμόρφωση, οι προδιαγραφές λείπουν και πολλή πρόοδος οδηγείται από πειραματισμό. Νέες μεθόδους για την εκπαίδευση μοντέλων, τη βελτίωση της αποτελεσματικότητας και την προσαρμογή σε πραγματικές συνθήκες συνεχίζουν να εμφανίζονται, υποδεικνύοντας ότι οι πιο σημαντικές đột pháσεις σε αυτό το πεδίο είναι ακόμη μπροστά.

Ο άνθρωπος ως σύστημα ενίσχυσης

Η επισήμανση δεν υπάρχει σε απομόνωση, ούτε για το μοντέλο μόνο. Λειτουργεί ως εργαλείο για τον μηχανικό που κατασκευάζει αυτό το μοντέλο. Μέσω αυτής, ο μηχανικός формαλίζει την πραγματικότητα, αναγνωρίζει βασικά παραμέτρους και ορίζει τους κανόνες συμπεριφοράς του συστήματος.

Η εργασία του μηχανικού είναι να διδάξει το σύστημα να εκτελεί ενέργειες σωστά σε πραγματικές συνθήκες. Για παράδειγμα, ένα βασικό σενάριο μπορεί να αποτελείται από τέσσερις ενέργειες: να πάρει ένα γυάλινο, να ενεργοποιήσει τη βρύση, να το γεμίσει και να απενεργοποιήσει τη βρύση. Αλλά στην πραγματικότητα, μια απόκλιση συμβαίνει – το γυάλινο ξεχειλίζει.

Σε εκείνο το σημείο, το μοντέλο αναμένεται να ολοκληρώσει το σενάριο και να λάβει πρόσθετες ενέργειες: να σταματήσει τη ροή νερού, να điều chỉnh το επίπεδο νερού και να αποτρέψει την υπερχείλιση. Αυτή είναι η λογική συμπεριφοράς που βασίζεται στην περιβαλλοντική κατανόηση.

Ο μηχανικός ακολουθεί έναν κύκλο: να επισήμανε δεδομένα, να εκπαιδεύσει το μοντέλο, να το δοκιμάσει. Αν το σύστημα λειτουργεί, η υπόθεση επιβεβαιώνεται. Αν όχι, η ανάλυση αρχίζει.

Σε κάποιο σημείο, μπορεί να γίνει σαφές ότι το μοντέλο λείπει ενός σημαντικού παραμέτρου, όπως το επίπεδο γεμίσματος του γυαλιού. Προηγουμένως, τα δεδομένα μπορεί να είχαν περιλαμβάνει επισήμανση για αντικείμενα (γυάλινο, βρύση, χέρι) και ενέργειες (ανοίγοντας, γεμίζοντας, κλείνοντας), αλλά έλλειπαν επισήμανση για κατάσταση, όπως το βαθμό γεμίσματος.

Ένα νέο στρώμα προστίθεται στη διαδικασία: η επισήμανση του επιπέδου γεμίσματος, ακολουθούμενη από τη формαλίωση, για παράδειγμα, τον ορισμό οτιδήποτε πάνω από 85% ως κρίσιμη κατάσταση.

Αυτό οδηγεί στην επόμενη επανάληψη της εκπαίδευσης. Μπορείτε να έχετε εκατοντάδες τέτοιες επαναλήψεις.

Κανείς δεν υποθέτει ότι το σύστημα θα λειτουργήσει σωστά αμέσως. Αντιθέτως, η διαδικασία είναι χτισμένη γύρω από διαδοχικές προσέγγισεις: πρώτα, δημιουργείται μια βασική έκδοση, στη συνέχεια δοκιμάζεται σε πραγματικές ή近-πραγματικές συνθήκες, τα κενά αναγνωρίζονται και το σύστημα βελτιώνεται. Αυτό είναι κάτι που συχνά συζητώ με πελάτες στο Introspector, με τους οποίους περνάμε όλη τη διαδρομή της Φυσικής AI μαζί.

Σε κάποιο σημείο, το επιθυμητό αποτέλεσμα επιτυγχάνεται. Αλλά η αξία του δεν лежει μόνο στο ότι το σύστημα αρχίζει να λειτουργεί, αλλά στην συσσωρευμένη εμπειρία που επιτρέπει αυτό το αποτέλεσμα να αναπαραχθεί πιο προβλέψιμα.

Η οικονομία που όλοι ξεχνούν

Τον τελευταίο χρόνο ή περίπου, έχω παρατηρήσει ότι το μεγαλύτερο λάθος που κάνουν οι εταιρείες όταν εργάζονται με εγωκεντρικά δεδομένα έχει λίγη σχέση με την τεχνολογία.

Το βασικό πρόβλημα είναι στην πραγματικότητα η υποτίμηση της οικονομικής των προτζεκτ.

Στο στάδιο της ιδέας, η τεχνολογία βρίσκεται στο κέντρο – ποια μοντέλα να χρησιμοποιηθούν, πώς να τα εκπαιδεύσουν και ποίες προσεγγίσεις να εφαρμοστούν. Μελέτη, έρευνα, συζήτηση αρχιτεκτονικών και δοκιμή υποθέσεων. Αυτό είναι φυσιολογικό: η τεχνολογία φαίνεται να είναι το πιο ορατό και πιο σαφές μέρος του προβλήματος.

Αλλά πολύ λιγότερο συχνά σε αυτό το στάδιο, οι ομάδες ρωτούν μια άμεση και πρακτική ερώτηση: πόσο θα κοστίσει;

Όταν ένα προτζεκτ μεταφέρεται από τη θεωρία στην υλοποίηση, γίνεται σαφές ότι πίσω από κάθε μοντέλο υπάρχουν δεκάδες χιλιάδες ώρες δεδομένων. Η συλλογή αυτών των δεδομένων απαιτεί χρόνο, πρόσβαση σε πραγματικά περιβάλλοντα και την συμμετοχή ειδικών. Η επισήμανση προσθέτει ακόμη ένα στρώμα πολυπλοκότητας και κόστους. Ως αποτέλεσμα, τα τελικά νούμερα είναι συχνά πολλαπλάσια υψηλότερα από ό,τι αρχικά αναμενόταν.

Αυτό δεν σημαίνει ότι τέτοια προτζεκτ δεν πρέπει να αναλαμβάνονται. Αντιθέτως, είναι αυτά που οδηγούν την βιομηχανία προς τα εμπρός.

Αλλά αυτό που έχει σημασία είναι να κατανοηθεί το μέγεθος της πρόκλησης από την αρχή. Να αναγνωριστεί ότι στην εκπαίδευση μοντέλων, πίσω από κάθε εκπληκτικό αλγόριθμο είναι σύνθετη, πλούσια σε πόρους εργασία δεδομένων.

Ακόμη και ισχυρές ιδέες αποτυγχάνουν να φτάσουν στην πλήρη υλοποίηση όταν τα κόστη δεδομένων αρχίζουν να ανεβαίνουν πολύ πάνω από επτά ψηφία.

Και ίσως η πιο σημαντική μετατόπιση που συμβαίνει στη ρομποτική σήμερα είναι συνδεδεμένη με αυτήν την πραγματικότητα. Το μέλλον αυτών των συστημάτων θα καθοριστεί από το πόσο “έξυπνα” είναι και από το πόσο αποτελεσματικά και ακριβώς ολόκληρη η διαδικασία δεδομένων είναι χτισμένη – από τη συλλογή δεδομένων έως την τελική ερμηνεία.

Ο Michael Abramov είναι ο ιδρυτής & CEO της Introspector, φέρνοντας πάνω από 15+ χρόνια εμπειρίας σε λογισμικό και συστήματα υπολογιστικής όρασης AI για την κατασκευή εργαλείων ετικέτας επιχειρηματικού επιπέδου.

Ο Michael ξεκίνησε την καριέρα του ως μηχανικός λογισμικού και διευθυντής Ε&Α, κατασκευάζοντας διασυνδεμένα συστήματα δεδομένων και διαχειριζόμενος διαλειτουργικές ομάδες μηχανικής. Μέχρι το 2025, έχει διατελέσει ως CEO της Keymakr, μια εταιρεία υπηρεσιών ετικέτας δεδομένων, όπου πρωτοπόρησε σε εργασίες ανθρώπου-στη-βρόχη, προηγμένα συστήματα QA και εξειδικευμένα εργαλεία για την υποστήριξη μεγάλης κλίμακας αναγκών δεδομένων υπολογιστικής όρασης και αυτονομίας.

Κάτοχος πτυχίου B.Sc. σε Επιστήμη Υπολογιστών και με υπόβαθρο σε μηχανική και εικαστικές τέχνες, φέρνει μια πολυεπιστημονική οπτική για την επίλυση δύσκολων προβλημάτων. Ο Michael ζει στο σταυροδρόμι της τεχνολογικής καινοτομίας, της στρατηγικής ηγεσίας προϊόντων και της πραγματικής επίδρασης, οδηγώντας την επόμενη γενιά αυτονομικών συστημάτων και έξυπνης αυτοματοποίησης.