Τεχνητή νοημοσύνη
Η Νέα Εποχή της Σημείωσης: Από τη Χειρονακτική Εργασία στις Πipelines που Οδηγούνται από Μοντέλα
Μια επαναστατική νέα μελέτη από την εταιρεία υπολογιστικής όρασης Voxel51 υποδηλώνει ότι το παραδοσιακό μοντέλο σημείωσης δεδομένων είναι على το σημείο να ανατραπεί. Σε έρευνα που κυκλοφόρησε σήμερα, η εταιρεία αναφέρει ότι το νέο σύστημα αυτόματης σημείωσης επιτυγχάνει μέχρι και 95% της ακρίβειας του ανθρώπου, ενώ είναι 5.000 φορές ταχύτερο και μέχρι 100.000 φορές φθηνότερο από τη χειρονακτική σημείωση.
Η μελέτη αξιολόγησε μοντέλα όπως το YOLO-World και το Grounding DINO σε γνωστά σύνολα δεδομένων, όπως το COCO, το LVIS, το BDD100K και το VOC. Εξαιρετικά, σε πολλές πραγματικές περιπτώσεις, τα μοντέλα που εκπαιδεύτηκαν αποκλειστικά με αυτοματοποιημένες ετικέτες παρουσίασαν παρόμοια ή ακόμη και καλύτερη απόδοση από εκείνα που εκπαιδεύτηκαν με ανθρώπινες ετικέτες. Για τις εταιρείες που κατασκευάζουν συστήματα υπολογιστικής όρασης, οι επιπτώσεις είναι τεράστιες: εκατομμύρια δολάρια σε κόστη σημείωσης μπορούν να εξοικονομηθούν και οι κύκλοι ανάπτυξης μοντέλων μπορούν να μειωθούν από εβδομάδες σε ώρες.
Η Νέα Εποχή της Σημείωσης: Από τη Χειρονακτική Εργασία στις Πipelines που Οδηγούνται από Μοντέλα
Για δεκαετίες, η σημείωση δεδομένων ήταν ένα đauστό γκολφ στην ανάπτυξη της τεχνητής νοημοσύνης. Από το ImageNet μέχρι τα σύνολα δεδομένων για τα αυτόνομα οχήματα, οι ομάδες βασίζονταν σε τεράστιες στρατιές ανθρώπινων εργατών για να σχεδιάσουν κουτιά περιγράμματος και να分割 αντικείμενα – μια προσπάθεια που ήταν και δαπανηρή και αργή.
Η κυρίαρχη λογική ήταν απλή: περισσότερες ανθρώπινες ετικέτες = καλύτερη τεχνητή νοημοσύνη. Αλλά η έρευνα της Voxel51 ανατρέπει αυτήν την υπόθεση.
Η προσέγγισή τους αξιοποιεί προ-εκπαιδευμένα μοντέλα – κάποια από τα οποία έχουν μηδενική βολή ικανότητες – και τα ενσωματώνει σε μια διαδικασία που αυτοματοποιεί τη συνηθισμένη σημείωση ενώ χρησιμοποιεί την ενεργό μάθηση για να σημάνει αβέβαιες ή σύνθετες περιπτώσεις για ανθρώπινη αναθεώρηση. Αυτή η μέθοδος μειώνει δραματικά και τον χρόνο και το κόστος.
Σε ένα τεστ, η σημείωση 3,4 εκατομμυρίων αντικειμένων χρησιμοποιώντας μια NVIDIA L40S GPU πήρε λίγο πάνω από μια ώρα και κόστισε 1,18 δολάρια. Η χειρονακτική σημείωση του ίδιου με το AWS SageMaker θα πήρε σχεδόν 7.000 ώρες και θα κόστισε πάνω από 124.000 δολάρια. Σε ιδιαίτερα απαιτητικές περιπτώσεις – όπως η αναγνώριση σπάνιων κατηγοριών στα σύνολα δεδομένων COCO ή LVIS – τα μοντέλα με αυτοματοποιημένες ετικέτες υπερέβησαν偶asionally τα ανθρώπινα μοντέλα. Αυτό το απρόσμενο αποτέλεσμα μπορεί να οφείλεται στα συνεπή μοτίβα σημείωσης των μοντέλων και την εκπαίδευσή τους σε μεγάλης κλίμακας δεδομένα διαδικτύου.
Μέσα στη Voxel51: Η Ομάδα που Αναμορφώνει τις Ροές Εργασίας της Υπολογιστικής Όρασης
Ιδρυθείσα το 2016 από τον Καθηγητή Jason Corso και τον Brian Moore στο Πανεπιστήμιο του Μίσιγκαν, η Voxel51 ξεκίνησε αρχικά ως μια εταιρεία συμβούλων που επικεντρωνόταν στην ανάλυση βίντεο. Ο Corso, ένας βετεράνος στην υπολογιστική όραση και τη ρομποτική, έχει δημοσιεύσει πάνω από 150 ακαδημαϊκές εργασίες και συνεισφέρει εκτενές ανοικτό κώδικα στην κοινότητα της τεχνητής νοημοσύνης. Ο Moore, ένας πρώην διδάκτωρ του Corso, υπηρετεί ως Διευθύνων Σύμβουλος.
Το σημείο καμπής ήρθε όταν η ομάδα αναγνώρισε ότι τα περισσότερα γκολφ της τεχνητής νοημοσύνης δεν βρίσκονταν στη σχεδίαση του μοντέλου, αλλά στα δεδομένα. Αυτή η εποχή τους ενέπνευσε να δημιουργήσουν το FiftyOne, μια πλατφόρμα που σχεδιάστηκε για να ενδυναμώσει τους μηχανικούς να εξερευνήσουν, να επιλέξουν και να βελτιώσουν τα οπτικά σύνολα δεδομένων πιο αποτελεσματικά.
Με τα χρόνια, η εταιρεία έχει συγκεντρώσει πάνω από $45 εκατομμύρια, συμπεριλαμβανομένης μιας $12,5 εκατομμυρίων Serie A και μιας $30 εκατομμυρίων Serie B με ηγεσία της Bessemer Venture Partners. Η υιοθέτηση από επιχειρήσεις ακολούθησε, με μεγάλους πελάτες όπως η LG Electronics, η Bosch, η Berkshire Grey, η Precision Planting και η RIOS να ενσωματώνουν τα εργαλεία της Voxel51 στις παραγωγικές ροές εργασίας της τεχνητής νοημοσύνης.
Από Εργαλείο σε Πλατφόρμα: Η Εκτεταμένη Ρόλος του FiftyOne
Το FiftyOne έχει εξελιχθεί από ένα απλό εργαλείο οπτικής του συνόλου δεδομένων σε μια ολοκληρωμένη, κεντρική σε δεδομένα πλατφόρμα τεχνητής νοημοσύνης. Υποστηρίζει ένα ευρύ φάσμα формών και σχημάτων ετικέτας – COCO, Pascal VOC, LVIS, BDD100K, Open Images – και ενσωματώνεται άψογα με πλαίσια όπως το TensorFlow και το PyTorch.
Περισσότερο από ένα εργαλείο οπτικής, το FiftyOne επιτρέπει προηγμένα operations: εύρεση διπλότυπων εικόνων, αναγνώριση ετικετών δειγμάτων, εμφάνιση outliers, και μέτρηση των τρόπων αποτυχίας του μοντέλου. Το οικοσύστημα plugin του υποστηρίζει προσαρμοσμένα module για οπτική αναγνώριση χαρακτήρων, ερωτήσεις και απαντήσεις βίντεο, και ανάλυση με βάση εμβυθμήσεις.
Η entreprise έκδοση, FiftyOne Teams, εισάγει συνεργατικές λειτουργίες όπως έλεγχος εκδόσεων, άδειες πρόσβασης, και ενσωμάτωση με αποθήκευση cloud (π.χ. S3), καθώς και εργαλεία ετικέτας όπως το Labelbox και το CVAT. Ιδιαίτερα, η Voxel51 συνεργάστηκε με την V7 Labs για να ρευστοποιήσει τη ροή μεταξύ του συνόλου δεδομένων και της χειρονακτικής ετικέτας.
Ανασκέφτηση της Βιομηχανίας Σημείωσης
Η έρευνα της Voxel51 για την αυτοματοποιημένη ετικέτα προκλήθηκε τις υποθέσεις που υποστηρίζουν μια σχεδόν 1 δισεκατομμυρίων δολαρίων βιομηχανία ετικέτας. Σε παραδοσιακές ροές εργασίας, κάθε εικόνα πρέπει να αγγιχθεί από έναν άνθρωπο – μια δαπανηρή και συχνά περιττή διαδικασία. Η Voxel51 υποστηρίζει ότι η większość αυτής της εργασίας μπορεί τώρα να εξαλειφθεί.
Με το σύστημά τους, η πλειονότητα των εικόνων ετικετώνεται από την τεχνητή νοημοσύνη, ενώ μόνο οι περιπτώσεις άκρης ανεβαίνουν στους ανθρώπους. Αυτή η υβριδική στρατηγική δεν μόνο μειώνει το κόστος, αλλά επίσης διασφαλίζει υψηλότερη συνολική ποιότητα δεδομένων, καθώς η ανθρώπινη προσπάθεια είναι διατηρημένη για τις πιο δύσκολες ή πολύτιμες ετικέτες.
Αυτή η μετατόπιση παραλληλίζει ευρύτερες τάσεις στο πεδίο της τεχνητής νοημοσύνης προς κεντρική σε δεδομένα τεχνητή νοημοσύνη – μια μεθοδολογία που επικεντρώνεται στην βελτίωση των δεδομένων εκπαίδευσης αντί να调节 συνεχώς τις αρχιτεκτονικές του μοντέλου.
Ανταγωνιστικός Χώρος και Βιομηχανική Υποδοχή
Επενδυτές όπως η Bessemer θεωρούν την Voxel51 ως το “στρώμα ορχήστρας δεδομένων” για την τεχνητή νοημοσύνη – παρόμοιο με το πώς τα εργαλεία DevOps μετέτρεψαν την ανάπτυξη λογισμικού. Το ανοικτό εργαλείο τους έχει λάβει εκατομμύρια λήψεις, και η κοινότητά τους περιλαμβάνει χιλιάδες développers και ομάδες ML σε όλο τον κόσμο.
Ενώ άλλες startups όπως η Snorkel AI, η Roboflow και η Activeloop επικεντρώνονται στις ροές εργασίας δεδομένων, η Voxel51 ξεχωρίζει για το πλάτος, την ανοικτή εθική και την υποδομή επιχείρησης. Αντί να ανταγωνίζεται τους παρόχους ετικέτας, η πλατφόρμα της Voxel51 συμπληρώνει τους – κάνει τις υπάρχουσες υπηρεσίες πιο αποτελεσματικές μέσω της επιλεκτικής επιλογής.
Μελλοντικές Επιπτώσεις
Οι μακροπρόθεσμες επιπτώσεις είναι βαθιές. Αν υιοθετηθεί ευρέως, η Voxel51 μπορεί να μειώσει δραματικά το εμπόδιο εισόδου για την υπολογιστική όραση, δημοκρατίζοντας το πεδίο για startups και ερευνητές που λείπουν από τεράστια προϋπολογισμό ετικέτας.
Πέρα από την εξοικονόμηση κόστους, αυτή η προσέγγιση επίσης θεμελιώνει συνεχείς συστήματα μάθησης, όπου τα μοντέλα σε παραγωγή αυτόματα σημάνουν αποτυχίες, οι οποίες στη συνέχεια αναθεωρούνται, επαναετικετώνονται και διπλώνονται πίσω στα δεδομένα εκπαίδευσης – όλα μέσα στην ίδια ορχηστρική διαδικασία.
Η ευρύτερη οπτική της εταιρείας συνηγορεί με το πώς η τεχνητή νοημοσύνη εξελίσσεται: όχι μόνο έξυπνα μοντέλα, αλλά και έξυπνες ροές εργασίας. Σε αυτήν την οπτική, η ετικέτα δεν είναι νεκρή – αλλά δεν είναι πλέον το domaine της βίαιης εργασίας. Είναι στρατηγική, επιλεκτική και οδηγούμενη από την αυτοματοποίηση.












