Μοντέλα και πλατφόρμες AI

Sapiens: Βάση για τα Μοντέλα Οπτικής Ανθρώπινης

Δημοσιεύτηκε 9 Σεπτεμβρίου 2024

Ενημερώθηκε 20 Μαΐου 2026

Kunal Kejriwal

Sapiens: Foundation for Human Vision Models

Η αξιοσημείωτη επιτυχία της μεγάλης κλίμακας προ-εκπαίδευσης που ακολουθείται από εκπαίδευση ειδικής εργασίας για μοντέλα γλωσσικής μοντελοποίησης έχει καθιερώσει αυτήν την προσέγγιση ως μια τυποποιημένη πρακτική. Παρόμοια, οι μέθοδοι της υπολογιστικής όρασης προοδευτικά ενσωματώνουν εκτεταμένα δεδομένα για προ-εκπαίδευση. Η εμφάνιση μεγάλων συνόλων δεδομένων, όπως LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome και YFCC100M, έχει ermögλισει την εξερεύνηση ενός συνόλου δεδομένων πέρα από το πεδίο των παραδοσιακών βεντσών. Σημαντική εργασία σε αυτόν τον τομέα περιλαμβάνει DINOv2, MAWS και AIM. DINOv2 επιτυγχάνει την καλύτερη απόδοση στην παραγωγή αυτο-επιτηρημένων χαρακτηριστικών με την κλίμακα της μεθόδου iBot στο σύνολο δεδομένων LDV-142M. MAWS μελετά την κλίμακα των masked-autoencoders (MAE) σε δισεκατομμύρια εικόνες. AIM εξερευνά την κλιμάκωση της αυτο-ρεγουσαστικής προ-εκπαίδευσης οπτικής παρόμοια με το BERT για μετασχηματιστές όρασης. Σε αντίθεση με αυτές τις μεθόδους, οι οποίες εστιάζουν κυρίως στην προ-εκπαίδευση γενικών εικόνων ή στην ταξινόμηση εικόνων χωρίς προ-εκπαίδευση, η Sapiens ακολουθεί μια διακριτά ανθρώπινο-κεντρική προσέγγιση: τα μοντέλα της Sapiens εκμεταλλεύονται μια τεράστια συλλογή ανθρώπινων εικόνων για προ-εκπαίδευση, ακολουθούμενη από εκπαίδευση για eine σειρά ανθρώπινο-σχετικών εργασιών.

Σημαντική πρόοδος έχει επιτευχθεί μέσα σε ελεγχόμενα ή στούντιο περιβάλλοντα,然而 προκλήσεις παραμένουν στην επέκταση αυτών των μεθόδων σε μη ελεγχόμενα περιβάλλοντα. Για να αντιμετωπιστούν αυτές οι προκλήσεις, η ανάπτυξη ευέλικτων μοντέλων ικανών για πολλαπλά θεμελιώδη καθήκοντα, όπως η εκτίμηση κλειδιών, η διαίρεση μερών του σώματος, η εκτίμηση βάθους και η πρόβλεψη επιφανειακών κανονικών από εικόνες σε φυσικά περιβάλλοντα, είναι κρίσιμη. Στην εργασία αυτή, η Sapiens στοχεύει στην ανάπτυξη μοντέλων για αυτά τα βασικά καθήκοντα όρασης ανθρώπινης που γενικεύουν σε φυσικά περιβάλλοντα. Hiệnως, τα μεγαλύτερα δημόσια διαθέσιμα γλωσσικά μοντέλα περιέχουν πάνω από 100 δισεκατομμύρια παραμέτρους, ενώ τα πιο συχνά χρησιμοποιούμενα γλωσσικά μοντέλα περιέχουν περίπου 7 δισεκατομμύρια παραμέτρους. Σε αντίθεση, οι μετασχηματιστές όρασης (ViT), παρά την κοινή αρχιτεκτονική, δεν έχουν κλιμακωθεί σε αυτό το βαθμό επιτυχώς. Ενώ υπάρχουν αξιοσημείωτες προσπάθειες σε αυτήν την κατεύθυνση, συμπεριλαμβανομένης της ανάπτυξης ενός πυκνού ViT-4B εκπαιδευμένου σε κείμενο και εικόνες, και της διατύπωσης τεχνικών για τη σταθερή εκπαίδευση ενός ViT-22B, τα συνήθως χρησιμοποιούμενα οπτικά σκελετοί κυμαίνονται μεταξύ 300 εκατομμυρίων και 600 εκατομμυρίων παραμέτρων και είναι κυρίως προ-εκπαιδευμένοι σε ανάλυση εικόνας περίπου 224 εικονοστοιχείων. Παρόμοια, τα υπάρχοντα μοντέλα γεννήτριας εικόνων με βάση τον μετασχηματιστή, όπως το DiT, χρησιμοποιούν λιγότερες από 700 εκατομμύρια παραμέτρους και λειτουργούν σε ένα高度 압축μένο.latent χώρο. Για να αντιμετωπιστούν αυτό το κενό, η Sapiens εισάγει μια συλλογή μεγάλων, υψηλής ανάλυσης μοντέλων ViT που προ-εκπαιδεύονται φυσικά σε ανάλυση εικόνας 1024 εικονοστοιχείων σε εκατομμύρια ανθρώπινες εικόνες.

Η Sapiens παρουσιάζει μια οικογένεια μοντέλων για τέσσερα θεμελιώδη ανθρώπινα-κεντρικά καθήκοντα όρασης: εκτίμηση θέσης 2D, διαίρεση μερών του σώματος, εκτίμηση βάθους και πρόβλεψη επιφανειακών κανονικών. Τα μοντέλα της Sapiens υποστηρίζουν φυσικά την εκτίμηση υψηλής ανάλυσης 1K και είναι εξαιρετικά εύκολα να προσαρμοστούν για μεμονωμένα καθήκοντα με την απλή εκπαίδευση μοντέλων που προ-εκπαιδεύονται σε πάνω από 300 εκατομμύρια εικόνες ανθρώπων στο φυσικό περιβάλλον. Η Sapiens παρατηρεί ότι, με το ίδιο υπολογιστικό προϋπολογισμό, η αυτο-επιτηρημένη προ-εκπαίδευση σε ένα επιμελημένο σύνολο δεδομένων ανθρώπινων εικόνων αυξάνει σημαντικά την απόδοση για μια ποικιλία ανθρώπινο-κεντρικών καθηκόντων. Τα αποτελέσματα μοντέλων εμφανίζουν αξιοσημείωτη γενίκευση σε δεδομένα στο φυσικό περιβάλλον, ακόμη και όταν τα δεδομένα ετικέτας είναι σπάνια ή完全 συνθετικά. Η απλή σχεδίαση μοντέλου επίσης φέρνει κλιμάκωση – η απόδοση μοντέλου σε καθήκοντα βελτιώνεται καθώς ο αριθμός παραμέτρων κλιμακώνεται από 0,3 σε 2 δισεκατομμύρια. Η Sapiens υπερβαίνει συνεχώς τις υπάρχουσες βάσεις σε διάφορα ανθρώπινα-κεντρικά βεντσών, επιτυγχάνοντας σημαντικές βελτιώσεις σε σχέση με τις προηγούμενες αποτελέσματα.

Sapiens : Βάση για τα Μοντέλα Οπτικής Ανθρώπινης

Τα τελευταία χρόνια έχουν δει αξιοσημείωτες προόδους στην παραγωγή φωτορεαλιστικών ανθρώπινων σε 2D και 3D. Η επιτυχία αυτών των μεθόδων οφείλεται σε μεγάλο βαθμό στην ροβούστα εκτίμηση διαφόρων στοιχείων όπως κλειδιά 2D, λεπτομερείς διαίρεσεις μερών του σώματος, βάθος και επιφανειακές κανονικές. Ωστόσο, η ροβούστα και ακριβής εκτίμηση αυτών των στοιχείων παραμένει ένα ενεργό ερευνητικό πεδίο, και οι σύνθετες συστήματα για την βελτίωση της απόδοσης για μεμονωμένα καθήκοντα συχνά εμποδίζουν την ευρύτερη υιοθέτηση. Επιπλέον, η απόκτηση ακριβών ετικετών στο φυσικό περιβάλλον είναι δυσχερής να κλιμακωθεί. Η Sapiens στοχεύει να παρέχει einen ενοποιημένο πλαίσιο και μοντέλα για να επιτύχουν αυτά τα στοιχεία στο φυσικό περιβάλλον, ανοίγοντας ένα ευρύ φάσμα ανθρώπινο-κεντρικών εφαρμογών για όλους.

Η Sapiens υποστηρίζει ότι τέτοια ανθρώπινα-κεντρικά μοντέλα πρέπει να ικανοποιούν τρία κριτήρια: γενίκευση, ευρεία εφαρμογή και υψηλή πιστότητα. Η γενίκευση εξασφαλίζει τη ροβούστα σε άγνωστες συνθήκες, επιτρέποντας στο μοντέλο να εκτελείται συνεχώς σε διάφορα περιβάλλοντα. Η ευρεία εφαρμογή δείχνει τη đa才 του μοντέλου, καθιστώντας το κατάλληλο για eine σειρά καθηκόντων με ελάχιστες τροποποιήσεις. Η υψηλή πιστότητα υποδηλώνει την ικανότητα του μοντέλου να παράγει ακριβείς, υψηλής ανάλυσης εξόδους, απαραίτητες για τις πιστές γεννήτριες ανθρώπινων εργασιών. Αυτό το έγγραφο λεπτομερεί την ανάπτυξη μοντέλων που ενσωματώνουν αυτά τα χαρακτηριστικά, συλλογικά γνωστά ως Sapiens.

Ακολουθώντας τις γνώσεις, η Sapiens εκμεταλλεύεται μεγάλα σύνολα δεδομένων και κλιμακωτές αρχιτεκτονικές μοντέλων, κρίσιμες για τη γενίκευση. Για ευρεία εφαρμογή, η Sapiens υιοθετεί την προσέγγιση προ-εκπαίδευσης και μετέπειτα εκπαίδευσης, επιτρέποντας την προσαρμογή σε μεμονωμένα καθήκοντα με ελάχιστες τροποποιήσεις. Αυτή η προσέγγιση θέτει μια κρίσιμη ερώτηση: Ποιο είδος δεδομένων είναι πιο αποτελεσματικό για προ-εκπαίδευση; Με δεδομένα υπολογιστικά όρια, πρέπει να δώσουμε έμφαση στη συλλογή όσο το δυνατόν περισσότερων ανθρώπινων εικόνων ή είναι προτιμότερο να προ-εκπαιδευτούμε σε ένα λιγότερο επιμελημένο σύνολο για να αντικατοπτρίζουμε καλύτερα την πραγματική ποικιλία; Υπάρχουσες μέθοδοι συχνά παραβλέπουν την κατανομή δεδομένων προ-εκπαίδευσης στο контέκστ των καθηκόντων. Για να μελετήσουμε την επίδραση της κατανομής δεδομένων προ-εκπαίδευσης στα ανθρώπινα-σχετικά καθήκοντα, η Sapiens συλλέγει το σύνολο δεδομένων Humans-300M, που περιλαμβάνει 300 εκατομμύρια διαφορετικές ανθρώπινες εικόνες. Αυτά τα μη ετικετημένα δεδομένα χρησιμοποιούνται για προ-εκπαίδευση μιας οικογένειας οπτικών μετασχηματιστών από την αρχή, με αριθμό παραμέτρων που κυμαίνεται από 300 εκατομμύρια σε 2 δισεκατομμύρια.

Μεταξύ των διάφορων αυτο-επιτηρημένων μεθόδων για την εκμάθηση γενικής-σκοπού οπτικών χαρακτηριστικών από μεγάλα σύνολα δεδομένων, η Sapiens επιλέγει την προσέγγιση του masked-autoencoder (MAE) για την απλότητά του και την αποτελεσματικότητά του στην προ-εκπαίδευση. Ο μετασχηματιστής MAE, έχοντας ένα μοντέλο εύρεσης που χαρτογραφεί την ορατή εικόνα σε μια 潛在τική αναπαράσταση και einen αποκωδικοποιητή που αναπαράγει την αρχική εικόνα από αυτήν την αναπαράσταση. Το σύνολο δεδομένων προ-εκπαίδευσης αποτελείται από cả μονές και πολλαπλές ανθρώπινες εικόνες, με κάθε εικόνα να έχει αναλυθεί σε ένα σταθερό μέγεθος με τετραγωνικό λόγο. Παρόμοια με τον ViT, η εικόνα διαιρείται σε τακτικά, μη-επικαλυπτόμενα τμήματα με σταθερό μέγεθος τμήματος. Ένα υποσύνολο αυτών των τμημάτων επιλέγεται τυχαία και.masked, αφήνοντας τα υπόλοιπα ορατά. Η αναλογία των masked τμημάτων προς τα ορατά, γνωστή ως αναλογία masking, παραμένει σταθερή καθ’ όλη τη διάρκεια της εκπαίδευσης.

Συμφωνώντας με προηγούμενες μελέτες, η Sapiens επιβεβαιώνει την κρίσιμη επίδραση της ποιότητας ετικέτας στο φυσικό περιβάλλον. Τα δημόσια βεντσών συχνά περιέχουν θορυβώδεις ετικέτες, παρέχοντας ασυνεπείς επιτηρητικές σήματα κατά τη διάρκεια της εκπαίδευσης του μοντέλου. Ταυτόχρονα, είναι σημαντικό να χρησιμοποιηθούν λεπτομερείς και ακριβείς ετικέτες για να ευθυγραμμισθούν στενά με τον πρωταρχικό στόχο της Sapiens για την ψηφιακή αναπαράσταση ανθρώπων. Για αυτόν τον σκοπό, η Sapiens προτείνει ένα σημαντικά πυκνότερο σύνολο 2D ολόκληρων σημείων για εκτίμηση θέσης και einen λεπτομερή λεξιλόγιο κλάσεων για διαίρεση μερών του σώματος, υπερβαίνοντας το πεδίο των προηγούμενων συνόλων δεδομένων. Συγκεκριμένα, η Sapiens εισάγει μια εξαντλητική συλλογή 308 σημείων που περιλαμβάνουν το σώμα, τα χέρια, τα πόδια, την επιφάνεια και το πρόσωπο. Επιπλέον, η Sapiens επεκτείνει το λεξιλόγιο κλάσεων σε 28 κλάσεις, καλύπτοντας μέρη του σώματος όπως τα μαλλιά, η γλώσσα, τα δόντια, το άνω/κάτω χείλος και το στήθος. Για να διασφαλίσει την ποιότητα και την συνέπεια των ετικετών και einen υψηλό βαθμό αυτοματοποίησης, η Sapiens χρησιμοποιεί einen đa-οπτικό σύστημα συλλογής για να συλλέξει ετικέτες θέσης και διαίρεσης. Η Sapiens επίσης χρησιμοποιεί ανθρώπινα-κεντρικά συνθετικά δεδομένα για εκτίμηση βάθους και κανονικής πρόβλεψης, αξιοποιώντας 600 λεπτομερείς σκαναρίσματα από RenderPeople για την παραγωγή υψηλής ανάλυσης χαρτών βάθους και επιφανειακών κανονικών. Η Sapiens αποδεικνύει ότι η συνδυασμένη χρήση μεγάλης κλίμακας προ-εκπαίδευσης με περιορισμένες, αλλά υψηλής ποιότητας ετικέτες οδηγεί σε ροβούστα γενίκευση στο φυσικό περιβάλλον.

Sapiens : Μέθοδος και Αρχιτεκτονική

Η Sapiens ακολουθεί την προσέγγιση του masked-autoencoder (MAE) για προ-εκπαίδευση. Το μοντέλο εκπαιδεύεται να αναπαράγει την αρχική ανθρώπινη εικόνα με βάση την μερική παρατήρησή της. Όπως όλα τα autoencoders, το μοντέλο της Sapiens έχει einen κωδικοποιητή που χαρτογραφεί την ορατή εικόνα σε μια 潛在τική αναπαράσταση και einen αποκωδικοποιητή που αναπαράγει την αρχική εικόνα από αυτήν την αναπαράσταση. Το σύνολο δεδομένων προ-εκπαίδευσης αποτελείται από cả μονές και πολλαπλές ανθρώπινες εικόνες, με κάθε εικόνα να έχει αναλυθεί σε ένα σταθερό μέγεθος με τετραγωνικό λόγο. Παρόμοια με τον ViT, η εικόνα διαιρείται σε τακτικά, μη-επικαλυπτόμενα τμήματα με σταθερό μέγεθος τμήματος. Ένα υποσύνολο αυτών των τμημάτων επιλέγεται τυχαία και.masked, αφήνοντας τα υπόλοιπα ορατά. Η αναλογία των masked τμημάτων προς τα ορατά, γνωστή ως αναλογία masking, παραμένει σταθερή καθ’ όλη τη διάρκεια της εκπαίδευσης.

Η Sapiens χρησιμοποιεί einen μεγάλο ιδιωτικό σύνολο δεδομένων για προ-εκπαίδευση, που αποτελείται από περίπου 1 δισεκατομμύριο εικόνες στο φυσικό περιβάλλον, εστιάζοντας αποκλειστικά σε ανθρώπινες εικόνες. Η προ-επεξεργασία περιλαμβάνει την απόρριψη εικόνων με νερόσημα, κείμενο, καλλιτεχνικές απεικονίσεις ή μη φυσικά στοιχεία. Η Sapiens χρησιμοποιεί einen off-the-shelf ανιχνευτή ορίων για να φιλτράρει εικόνες, διατηρώντας εκείνες με ένα σκορ ανίχνευσης πάνω από 0,9 και διαστάσεις ορίων που υπερβαίνουν τα 300 εικονοστοιχεία. Περισσότερα από 248 εκατομμύρια εικόνες στο σύνολο δεδομένων περιέχουν πολλαπλούς ανθρώπους.

Εκτίμηση Θέσης 2D

Το πλαίσιο της Sapiens εκπαιδεύει τον κωδικοποιητή και τον αποκωδικοποιητή σε πολλαπλά σκελετούς, συμπεριλαμβανομένων K = 17, K = 133 και einen νέου, λεπτομερώς σχεδιασμένου σκελετού, με K = 308, όπως φαίνεται στην ακόλουθη εικόνα.

Συγκριτικά με τις υπάρχουσες μορφές με το πολύ 68 κλειδιά προσώπου, οι ετικέτες της Sapiens αποτελούνται από 243 κλειδιά προσώπου, συμπεριλαμβανομένων αντιπροσωπευτικών σημείων γύρω από τα μάτια, τα χείλια, τη μύτη και τα αυτιά. Αυτός ο σχεδιασμός είναι διαμορφωμένος για να καταγράψει με λεπτομέρεια τις νюανς των εκφράσεων στο πρόσωπο στον πραγματικό κόσμο. Με αυτά τα κλειδιά, το πλαίσιο της Sapiens έχει ετικετεύσει χειροκίνητα 1 εκατομμύριο εικόνες σε ανάλυση 4K από einen εσωτερικό σύστημα συλλογής. Παρόμοια με προηγούμενα καθήκοντα, ορίζουμε τους καναλιές εξόδου του αποκωδικοποιητή του κανονικού εκτιμητή N να είναι 3, αντιστοιχώντας στα xyz συστατικά του κανονικού διανύσματος σε κάθε εικονοστοιχείο. Τα γεννημένα συνθετικά δεδομένα χρησιμοποιούνται επίσης ως επιτήρηση για την εκτίμηση κανονικών.

Sapien : Πείραμα και Αποτελέσματα

Το Sapiens-2B προ-εκπαιδεύεται χρησιμοποιώντας 1024 A100 GPUs για 18 ημέρες με PyTorch. Η Sapiens χρησιμοποιεί τον βελτιωτή AdamW για όλα τα πειράματα. Το πρόγραμμα εκπαίδευσης περιλαμβάνει einen σύντομο γραμμικό ζέσταμα, ακολουθούμενο από.cosine annealing για προ-εκπαίδευση και γραμμική μείωση για εκπαίδευση. Όλα τα μοντέλα προ-εκπαιδεύονται από την αρχή σε ανάλυση 1024 × 1024 με μέγεθος τμήματος 16. Για εκπαίδευση, η εικόνα εισόδου αναλύεται σε αναλογία 4:3, δηλαδή 1024 × 768. Η Sapiens εφαρμόζει τυποποιημένες αυξήσεις όπως περικοπή, κλιμάκωση, αναστροφή και φωτομετρικές παραμορφώσεις. Een τυχαίος φоновόληθος από μη-ανθρώπινες εικόνες COCO προστίθεται για καθήκοντα διαίρεσης μερών του σώματος, βάθους και κανονικής πρόβλεψης. Σημαντικά, η Sapiens χρησιμοποιεί διαφορετικές ταχύτητες εκπαίδευσης για να διατηρήσει την γενίκευση, με χαμηλότερες ταχύτητες εκπαίδευσης για τις αρχικές στρώσεις και προοδευτικά υψηλότερες ταχύτητες για τις επόμενες στρώσεις. Η στρωματική μείωση της ταχύτητας εκπαίδευσης ορίζεται σε 0,85 με一個 βάρος μείωσης 0,1 για τον κωδικοποιητή.

Οι προδιαγραφές σχεδιασμού της Sapiens περιγράφονται στον ακόλουθο πίνακα. Ακολουθώντας μια συγκεκριμένη προσέγγιση, η Sapiens προτιμά την κλίμακα μοντέλων με πλάτος παρά με βάθος. Ιδιαίτερα, το μοντέλο Sapiens-0,3B, ενώ αρχιτεκτονικά παρόμοιο με τον παραδοσιακό ViT-Large, αποτελείται από είκοσι φορές περισσότερους FLOPs λόγω της υψηλότερης ανάλυσης.

Η Sapiens είναι εκπαιδευμένη για εκτίμηση θέσης προσώπου, σώματος, ποδιών και χεριών (K = 308) χρησιμοποιώντας υψηλής πιστότητας ετικέτες. Για εκπαίδευση, η Sapiens χρησιμοποιεί το σύνολο εκπαίδευσης με 1 εκατομμύριο εικόνες, και για αξιολόγηση, χρησιμοποιεί το σύνολο δοκιμής, ονομαζόμενο Humans5K, με 5.000 εικόνες. Η αξιολόγηση ακολουθεί μια κορυφαία προς τα κάτω προσέγγιση, όπου η Sapiens χρησιμοποιεί einen off-the-shelf ανιχνευτή ορίων για να λάβει ορίσματα και να διεξάγει εκτίμηση θέσης για ένα άτομο. Ο πίνακας 3 δείχνει μια σύγκριση των μοντέλων της Sapiens με υπάρχουσες μεθόδους για εκτίμηση θέσης ολόκληρου του σώματος. Όλες οι μέθοδοι αξιολογούνται σε 114 κοινά κλειδιά μεταξύ του λεξιλογίου 308 κλειδιών της Sapiens και του λεξιλογίου 133 κλειδιών του COCO-WholeBody. Το Sapiens-0,6B υπερβαίνει το τρέχον state-of-the-art, DWPose-l, κατά +2,8 AP. Σε αντίθεση με το DWPose, το οποίο χρησιμοποιεί einen σύνθετο framework μαθητή-δασκάλου με αποσταξυμένη χαρακτηριστική για το καθήκον, η Sapiens υιοθετεί eine γενική αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή με μεγάλη ανθρώπινο-κεντρική προ-εκπαίδευση.

Ενδιαφέροντα, ακόμη και με τον ίδιο αριθμό παραμέτρων, τα μοντέλα της Sapiens εμφανίζουν ανώτερη απόδοση σε σχέση με τους ομολόγους τους. Για παράδειγμα, το Sapiens-0,3B υπερβαίνει το VitPose+-L κατά +5,6 AP, και το Sapiens-0,6B υπερβαίνει το VitPose+-H κατά +7,9 AP. Μέσα στην οικογένεια της Sapiens, τα αποτελέσματα δείχνουν eine άμεση συσχέτιση μεταξύ μεγέθους μοντέλου και απόδοσης. Το Sapiens-2B θέτει einen νέο state-of-the-art με 61,1 AP, μια σημαντική βελτίωση κατά +7,6 AP σε σχέση με το προηγούμενο state-of-the-art.尽管 η Sapiens είναι εκπαιδευμένη με ετικέτες από einen εσωτερικό σύστημα συλλογής, η Sapiens δείχνει ροβούστα γενίκευση σε πραγματικές σκηνές, όπως φαίνεται στην ακόλουθη εικόνα.

Η Sapiens είναι εκπαιδευμένη και αξιολογείται χρησιμοποιώντας einen λεξιλόγιο διαίρεσης μερών του σώματος 28 κλάσεων. Το σύνολο εκπαίδευσης αποτελείται από 100.000 εικόνες, ενώ το σύνολο δοκιμής, Humans-2K, αποτελείται από 2.000 εικόνες. Η Sapiens συγκρίνεται με υπάρχουσες μεθόδους διαίρεσης μερών του σώματος που είναι εκπαιδευμένες στο ίδιο σύνολο εκπαίδευσης, χρησιμοποιώντας τις προτεινόμενες προ-εκπαιδευμένες σημεία από κάθε μέθοδο ως αρχική κατάσταση. Παρόμοια με την εκτίμηση θέσης, η Sapiens δείχνει γενίκευση στη διαίρεση, όπως φαίνεται στον ακόλουθο πίνακα.

Ενδιαφέροντα, το μικρότερο μοντέλο, Sapiens-0,3B, υπερβαίνει τις υπάρχουσες μεθόδους διαίρεσης μερών του σώματος, όπως Mask2Former και DeepLabV3+, κατά 12,6 mIoU λόγω της υψηλότερης ανάλυσης και της μεγάλης ανθρώπινο-κεντρικής προ-εκπαίδευσης. Επιπλέον, η αύξηση του μεγέθους του μοντέλου βελτιώνει την απόδοση της διαίρεσης. Το Sapiens-2B επιτυγχάνει την καλύτερη απόδοση, με 81,2 mIoU και 89,4 mAcc στο σύνολο δοκιμής, και η ακόλουθη εικόνα δείχνει τα ποιοτικά αποτελέσματα των μοντέλων της Sapiens.

Συμπέρασμα

Η Sapiens αντιπροσωπεύει einen σημαντικό βήμα προς την προώθηση των ανθρώπινο-κεντρικών μοντέλων όρασης στο πεδίο των θεμελιωδών μοντέλων. Τα μοντέλα της Sapiens δείχνουν ισχυρές γενικευτικές ικανότητες σε eine σειρά ανθρώπινο-κεντρικών καθηκόντων. Η καλύτερη απόδοση αποδίδεται στην: (i) μεγάλη κλίμακα προ-εκπαίδευσης σε ένα επιμελημένο σύνολο δεδομένων ειδικά σχεδιασμένο για την κατανόηση ανθρώπων, (ii) κλιμακωμένα, υψηλής ανάλυσης και υψηλής ικανότητας οπτικά μοντέλα μετασχηματιστών, και (iii) υψηλής ποιότητας ετικέτες σε αυξήσεις στούντιο και συνθετικά δεδομένα. Τα μοντέλα της Sapiens έχουν το δυναμικό να γίνουν einen κρίσιμος οικοδόμημα για eine ποικιλία καθηκόντων και να παρέχουν πρόσβαση σε υψηλής ποιότητας οπτικά σκελετούς σε einen σημαντικά μεγαλύτερο μέρος της κοινότητας.

Kunal Kejriwal

Ένας μηχανικός επάγγελμα, ένας συγγραφέας με την καρδιά. Ο Kunal είναι ένας τεχνικός συγγραφέας με einen βαθύ έρωτα και κατανόηση του AI και ML, αφιερωμένος στο να απλοποιεί σύνθετες έννοιες σε αυτά τα πεδία μέσω των ελκυστικών και ενημερωτικών εγγράφων του.