Τεχνητή νοημοσύνη
Η νέα τεχνολογία αυτόματης επισήμανσης της Voxel51 υπόσχεται να μειώσει το κόστος σχολιασμού κατά 100,000 φορές

Μια πρωτοποριακή νέα μελέτη από νεοσύστατη εταιρεία υπολογιστικής όρασης voxel51 υποδηλώνει ότι το παραδοσιακό μοντέλο σχολιασμού δεδομένων πρόκειται να ανατραπεί. Σε έρευνα που δημοσιεύθηκε σήμερα, η εταιρεία αναφέρει ότι το νέο σύστημα αυτόματης επισήμανσης επιτυγχάνει έως και 95% ακρίβεια σε ανθρώπινο επίπεδο, ενώ είναι 5,000 φορές ταχύτερο και έως και 1...00,000 φορές φθηνότερο από τη χειροκίνητη επισήμανση.
Η μελέτη αξιολόγησε μοντέλα βάσης όπως το YOLO-World και το Grounding DINO σε γνωστά σύνολα δεδομένων, όπως τα COCO, LVIS, BDD100K και VOC. Είναι αξιοσημείωτο ότι, σε πολλά σενάρια πραγματικού κόσμου, τα μοντέλα που εκπαιδεύτηκαν αποκλειστικά σε ετικέτες που δημιουργήθηκαν από τεχνητή νοημοσύνη είχαν απόδοση εφάμιλλη με -ή και καλύτερη από- εκείνα που εκπαιδεύτηκαν σε ανθρώπινες ετικέτες. Για εταιρείες που κατασκευάζουν όραση υπολογιστή συστήματα, οι επιπτώσεις είναι τεράστιες: εκατομμύρια δολάρια σε κόστος σχολιασμού θα μπορούσαν να εξοικονομηθούν και οι κύκλοι ανάπτυξης μοντέλων θα μπορούσαν να συρρικνωθούν από εβδομάδες σε ώρες.
Η Νέα Εποχή της Σχολιασμού: Από τη Χειρωνακτική Εργασία στις Μοντελοποιημένες Διεργασίες
Για δεκαετίες, σχολιασμός δεδομένων υπήρξε ένα οδυνηρό εμπόδιο στην ανάπτυξη της Τεχνητής Νοημοσύνης. Από το ImageNet μέχρι τα σύνολα δεδομένων αυτόνομων οχημάτων, οι ομάδες έχουν βασιστεί σε τεράστιους στρατούς ανθρώπων για να σχεδιάσουν πλαίσια οριοθέτησης και να τμηματοποιήσουν αντικείμενα - μια προσπάθεια ταυτόχρονα δαπανηρή και αργή.
Η επικρατούσα λογική ήταν απλή: περισσότερα δεδομένα που έχουν επισημανθεί από ανθρώπους = καλύτερη Τεχνητή Νοημοσύνη. Αλλά η έρευνα του Voxel51 ανατρέπει αυτή την υπόθεση.
Η προσέγγισή τους αξιοποιεί προ-εκπαιδευμένα μοντέλα θεμελίωσης—μερικά με μηδενική λήψη δυνατότητες—και τις ενσωματώνει σε μια διαδικασία που αυτοματοποιεί την τακτική επισήμανση, ενώ παράλληλα χρησιμοποιεί ενεργητική μάθηση για την επισήμανση αβέβαιων ή πολύπλοκων περιπτώσεων για ανθρώπινη αναθεώρηση. Αυτή η μέθοδος μειώνει δραματικά τόσο τον χρόνο όσο και το κόστος.
Σε μία δοκιμή, η επισήμανση 3.4 εκατομμυρίων αντικειμένων χρησιμοποιώντας μια GPU NVIDIA L40S χρειάστηκε λίγο περισσότερο από μία ώρα και κόστισε 1.18 $. Η χειροκίνητη εκτέλεση του ίδιου έργου με το AWS SageMaker θα διαρκούσε σχεδόν 7,000 ώρες και θα κόστιζε πάνω από 124,000 $. Σε ιδιαίτερα δύσκολες περιπτώσεις - όπως ο εντοπισμός σπάνιων κατηγοριών στα σύνολα δεδομένων COCO ή LVIS - τα μοντέλα επισημαίνονταν αυτόματα περιστασιακά. υπερέβησαν τα αντίστοιχα ανθρώπινα επισημασμένα μοντέλα. Αυτό το εκπληκτικό αποτέλεσμα μπορεί να προέρχεται από τα συνεπή πρότυπα επισήμανσης των βασικών μοντέλων και την εκπαίδευσή τους σε δεδομένα μεγάλης κλίμακας από το διαδίκτυο.
Μέσα στο Voxel51: Η ομάδα αναδιαμορφώνει τις ροές εργασίας οπτικής τεχνητής νοημοσύνης
Ιδρύθηκε το 2016 από την Καθηγητής Τζέισον Κόρσο και Μπράιαν Μουρ Στο Πανεπιστήμιο του Μίσιγκαν, η Voxel51 ξεκίνησε αρχικά ως συμβουλευτική εταιρεία με επίκεντρο την ανάλυση βίντεο. Ο Corso, βετεράνος στην υπολογιστική όραση και τη ρομποτική, έχει δημοσιεύσει πάνω από 150 ακαδημαϊκές εργασίες και συνεισφέρει εκτενώς κώδικα ανοιχτού κώδικα στην κοινότητα της Τεχνητής Νοημοσύνης. Ο Moore, πρώην διδακτορικός φοιτητής του Corso, είναι Διευθύνων Σύμβουλος.
Το σημείο καμπής ήρθε όταν η ομάδα αναγνώρισε ότι τα περισσότερα σημεία συμφόρησης της Τεχνητής Νοημοσύνης δεν σχετίζονταν με τον σχεδιασμό μοντέλων, αλλά με τα δεδομένα. Αυτή η γνώση τους ενέπνευσε να δημιουργήσουν Πενήντα ένα, μια πλατφόρμα που έχει σχεδιαστεί για να δίνει τη δυνατότητα στους μηχανικούς να εξερευνούν, να επιμελούνται και να βελτιστοποιούν οπτικά σύνολα δεδομένων πιο αποτελεσματικά.
Με την πάροδο των ετών, η εταιρεία έχει αυξήσει πάνω από $ 45M, Συμπεριλαμβανομένου ενός Σειρά Α 12.5 εκατομμυρίων δολαρίων και σε έναν 30 $ Σειρά Β με επικεφαλής την Bessemer Venture Partners. Ακολούθησε η υιοθέτηση από τις επιχειρήσεις, με σημαντικούς πελάτες όπως οι LG Electronics, Bosch, Berkshire Grey, Precision Planting και RIOS να ενσωματώνουν τα εργαλεία της Voxel51 στις ροές εργασίας τεχνητής νοημοσύνης παραγωγής τους.
Από το Εργαλείο στην Πλατφόρμα: Ο Επεκτεινόμενος Ρόλος της FiftyOne
Το FiftyOne έχει εξελιχθεί από ένα απλό εργαλείο οπτικοποίησης συνόλων δεδομένων σε μια ολοκληρωμένη πλατφόρμα τεχνητής νοημοσύνης με επίκεντρο τα δεδομένα. Υποστηρίζει ένα ευρύ φάσμα μορφών και σχημάτων επισήμανσης—COCO, Pascal VOC, LVIS, BDD100K, Open Images—και ενσωματώνεται άψογα με πλαίσια όπως το TensorFlow και το PyTorch.
Περισσότερο από ένα εργαλείο οπτικοποίησης, το FiftyOne επιτρέπει προηγμένες λειτουργίες: εύρεση διπλότυπων εικόνων, εντοπισμό δειγμάτων με λανθασμένη επισήμανση, εμφάνιση ακραίων τιμών και μέτρηση τρόπων αστοχίας μοντέλου. Το οικοσύστημα πρόσθετων (plugins) του υποστηρίζει προσαρμοσμένες ενότητες για οπτική αναγνώριση χαρακτήρων, ερωτήσεις και απαντήσεις βίντεο και ανάλυση βασισμένη σε ενσωμάτωση.
Η έκδοση για επιχειρήσεις, FiftyOne Teams, εισάγει λειτουργίες συνεργασίας όπως έλεγχος έκδοσης, δικαιώματα πρόσβασης και ενσωμάτωση με αποθήκευση στο cloud (π.χ., S3), καθώς και εργαλεία σχολιασμού όπως το Labelbox και το CVAT. Αξίζει να σημειωθεί ότι το Voxel51 επίσης... συνεργάστηκε με την V7 Labs για να βελτιστοποιηθεί η ροή μεταξύ της επιμέλειας συνόλου δεδομένων και της χειροκίνητης σχολίασης.
Επαναπροσδιορίζοντας τον κλάδο των σχολιασμών
Η έρευνα της Voxel51 για την αυτόματη επισήμανση αμφισβητεί τις υποθέσεις που διέπουν μια βιομηχανία σχολιασμού αξίας σχεδόν 1 δισεκατομμυρίου δολαρίων. Στις παραδοσιακές ροές εργασίας, κάθε εικόνα πρέπει να αγγίζεται από έναν άνθρωπο — μια δαπανηρή και συχνά περιττή διαδικασία. Η Voxel51 υποστηρίζει ότι το μεγαλύτερο μέρος αυτής της εργασίας μπορεί πλέον να εξαλειφθεί.
Με το σύστημά τους, η πλειονότητα των εικόνων επισημαίνονται από την Τεχνητή Νοημοσύνη, ενώ μόνο οι ακραίες περιπτώσεις κλιμακώνονται στους ανθρώπους. Αυτή η υβριδική στρατηγική όχι μόνο μειώνει το κόστος αλλά και διασφαλίζει υψηλότερη συνολική ποιότητα δεδομένων, καθώς η ανθρώπινη προσπάθεια προορίζεται για τις πιο δύσκολες ή πολύτιμες σχολιασμούς.
Αυτή η μετατόπιση συμβαδίζει με ευρύτερες τάσεις στον τομέα της Τεχνητής Νοημοσύνης προς τεχνητή νοημοσύνη με επίκεντρο τα δεδομένα—μια μεθοδολογία που εστιάζει στη βελτιστοποίηση των δεδομένων εκπαίδευσης και όχι στην αδιάκοπη ρύθμιση των αρχιτεκτονικών μοντέλων.
Ανταγωνιστικό Τοπίο και Υποδοχή Βιομηχανίας
Επενδυτές όπως η Bessemer θεωρούν το Voxel51 ως το «επίπεδο ενορχήστρωσης δεδομένων» για την Τεχνητή Νοημοσύνη - όπως ακριβώς και το πώς... DevOps εργαλεία που άλλαξαν την ανάπτυξη λογισμικού. Το εργαλείο ανοιχτού κώδικα που προσφέρουν έχει συγκεντρώσει εκατομμύρια λήψεις και η κοινότητά τους περιλαμβάνει χιλιάδες προγραμματιστές και ομάδες μηχανικής μάθησης παγκοσμίως.
Ενώ άλλες νεοσύστατες επιχειρήσεις όπως οι Snorkel AI, Roboflow και Activeloop επικεντρώνονται επίσης σε ροές εργασίας δεδομένων, η Voxel51 ξεχωρίζει για το εύρος της, την ηθική ανοιχτού κώδικα και την υποδομή εταιρικού επιπέδου. Αντί να ανταγωνίζεται τους παρόχους σχολιασμών, η πλατφόρμα της Voxel51 τους συμπληρώνει, καθιστώντας τις υπάρχουσες υπηρεσίες πιο αποτελεσματικές μέσω επιλεκτικής επιμέλειας.
Μελλοντικές επιπτώσεις
Οι μακροπρόθεσμες επιπτώσεις είναι βαθιές. Εάν υιοθετηθεί ευρέως, voxel51Η μεθοδολογία του θα μπορούσε να μειώσει δραματικά το εμπόδιο εισόδου για την υπολογιστική όραση, εκδημοκρατικοποιώντας τον τομέα για νεοσύστατες επιχειρήσεις και ερευνητές που δεν διαθέτουν τεράστιους προϋπολογισμούς για ετικέτες.
Πέρα από την εξοικονόμηση κόστους, αυτή η προσέγγιση θέτει επίσης τα θεμέλια για συστήματα συνεχούς μάθησης, όπου τα μοντέλα που βρίσκονται σε παραγωγή επισημαίνουν αυτόματα τις αποτυχίες, οι οποίες στη συνέχεια εξετάζονται, επαναπροσδιορίζονται και ενσωματώνονται ξανά στα δεδομένα εκπαίδευσης — όλα εντός του ίδιου ενορχηστρωμένου αγωγού.
Το ευρύτερο όραμα της εταιρείας ευθυγραμμίζεται με τον τρόπο που εξελίσσεται η Τεχνητή Νοημοσύνη: όχι μόνο πιο έξυπνα μοντέλα, αλλά και πιο έξυπνες ροές εργασίας. Σε αυτό το όραμα, η σχολιασμός δεν έχει πεθάνει, αλλά δεν αποτελεί πλέον πεδίο ωμής βίας. Είναι στρατηγική, επιλεκτική και καθοδηγείται από τον αυτοματισμό.