στέλεχος Synthetic Data: Bridging the Occlusion Gap With Grand Theft Auto - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Συνθετικά δεδομένα: Γεφύρωση του κενού απόφραξης με το Grand Theft Auto

mm
Ενημερώθηκε on

Ερευνητές στο Πανεπιστήμιο του Ιλινόις δημιούργησαν ένα νέο σύνολο δεδομένων υπολογιστικής όρασης που χρησιμοποιεί συνθετικές εικόνες που δημιουργούνται από μια μηχανή παιχνιδιών Grand Theft Auto για να βοηθήσει στην επίλυση ενός από τα πιο ακανθώδη εμπόδια στη σημασιολογική τμηματοποίηση - την αναγνώριση αντικειμένων που είναι ορατά μόνο εν μέρει στις εικόνες και τα βίντεο πηγής.

Για το σκοπό αυτό, όπως περιγράφεται στο το χαρτί, οι ερευνητές χρησιμοποίησαν τη μηχανή βιντεοπαιχνιδιών GTA-V για να δημιουργήσουν ένα συνθετικό σύνολο δεδομένων που όχι μόνο διαθέτει έναν αριθμό ρεκόρ περιπτώσεων απόφραξης, αλλά διαθέτει τέλεια σημασιολογική τμηματοποίηση και επισήμανση και λαμβάνει υπόψη τις χρονικές πληροφορίες με τρόπο που δεν είναι αντιμετωπίζονται από παρόμοια σύνολα δεδομένων ανοιχτού κώδικα.

Πλήρης Κατανόηση Σκηνής

Το παρακάτω βίντεο, που δημοσιεύτηκε ως υποστηρικτικό υλικό για την έρευνα, απεικονίζει τα πλεονεκτήματα μιας πλήρους τρισδιάστατης κατανόησης μιας σκηνής, στο ότι τα σκοτεινά αντικείμενα είναι γνωστά και εκτίθενται στη σκηνή σε όλες τις περιστάσεις, επιτρέποντας στο σύστημα αξιολόγησης να μάθει να συσχετίζει μερικώς αποφραγμένες απόψεις με ολόκληρο το (επισημασμένο) αντικείμενο.

Πηγή: http://sailvos.web.illinois.edu/_site/index.html

Το σύνολο δεδομένων που προκύπτει, που ονομάζεται SAIL-VOS 3D, υποστηρίζεται από τους συγγραφείς ότι είναι το πρώτο συνθετικό σύνολο δεδομένων πλέγματος βίντεο με σχολιασμό καρέ-καρέ, τμηματοποίηση σε επίπεδο παρουσίας, βάθος αλήθειας εδάφους για προβολές σκηνής και 2D σχολιασμούς που οριοθετούνται από οριοθετημένα πλαίσια.

Πηγή (Κάντε κλικ για μεγέθυνση)

Οι σχολιασμοί του SAIL-VOS 3D περιλαμβάνουν το βάθος, το τροπικό επίπεδο σε επίπεδο και αμοντικός τμηματοποίηση, σημασιολογικές ετικέτες και τρισδιάστατα πλέγματα. Τα δεδομένα περιλαμβάνουν 3 βίντεο με συνολικό μέγεθος 484 καρέ σε ανάλυση 237,611×1280, συμπεριλαμβανομένων των μεταβάσεων πλάνων.

Πάνω, τα αρχικά πλαίσια CGI. δεύτερη σειρά, τμηματοποίηση σε επίπεδο παρουσίας. τρίτη σειρά, amodal segmentation, η οποία απεικονίζει το βάθος της κατανόησης της σκηνής και της διαφάνειας που είναι διαθέσιμα στα δεδομένα. Πηγή

Πάνω, τα αρχικά πλαίσια CGI. δεύτερη σειρά, τμηματοποίηση σε επίπεδο παρουσίας. τρίτη σειρά, amodal segmentation, η οποία απεικονίζει το βάθος της κατανόησης της σκηνής και της διαφάνειας που είναι διαθέσιμα στα δεδομένα. Πηγή (Κάντε κλικ για μεγέθυνση)

Το σύνολο χωρίζεται σε 6,807 κλιπ με μέσο όρο 34.6 καρέ το καθένα και τα δεδομένα σχολιάζονται με 3,460,213 περιπτώσεις αντικειμένων που προέρχονται από 3,576 μοντέλα mesh στη μηχανή παιχνιδιών GTA-V. Αυτά αντιστοιχίζονται σε συνολικά 178 σημασιολογικές κατηγορίες.

Ανακατασκευή πλέγματος και αυτοματοποιημένη επισήμανση

Δεδομένου ότι η μεταγενέστερη έρευνα δεδομένων είναι πιθανό να πραγματοποιηθεί σε εικόνες πραγματικού κόσμου, τα πλέγματα στο SAIL-VOS 3D δημιουργούνται από το πλαίσιο μηχανικής μάθησης, αντί να προέρχονται από τη μηχανή GTA-V.

Με μια προγραμματική και ουσιαστικά «ολογραφική» κατανόηση ολόκληρης της αναπαράστασης σκηνής, οι εικόνες SAIL-VOS 3D μπορούν να συνθέσουν αναπαραστάσεις αντικειμένων που συνήθως κρύβονται από εμφράξεις, όπως το μακρινό χέρι του χαρακτήρα που γυρίζει εδώ, με τρόπο που διαφορετικά θα εξαρτώνται από πολλές αντιπροσωπευτικές περιπτώσεις σε πραγματικό υλικό. Πηγή: https://arxiv.org/pdf/2105.08612.pdf

Με μια προγραμματική και ουσιαστικά «ολογραφική» κατανόηση ολόκληρης της αναπαράστασης σκηνής, οι εικόνες SAIL-VOS 3D μπορούν να συνθέσουν αναπαραστάσεις αντικειμένων που συνήθως κρύβονται από εμφράξεις, όπως το μακρινό χέρι του χαρακτήρα που γυρίζει εδώ, με τρόπο που διαφορετικά θα εξαρτώνται από πολλές αντιπροσωπευτικές περιπτώσεις σε πραγματικό υλικό. (Κάντε κλικ για μεγέθυνση) Πηγή: https://arxiv.org/pdf/2105.08612.pdf

Δεδομένου ότι κάθε αντικείμενο στον κόσμο του GTA-V περιέχει ένα μοναδικό αναγνωριστικό, το SAIL-VOS τα ανακτά από τη μηχανή απόδοσης χρησιμοποιώντας τη βιβλιοθήκη άγκιστρου σεναρίων GTA-V. Αυτό λύνει το πρόβλημα της επανάκτησης του θέματος εάν πρέπει να φύγει προσωρινά από το οπτικό πεδίο, καθώς η επισήμανση είναι επίμονη και αξιόπιστη. Υπάρχουν 162 αντικείμενα διαθέσιμα στο περιβάλλον, τα οποία οι ερευνητές χαρτογράφησαν σε αντίστοιχο αριθμό τάξεων.

Μια ποικιλία από σκηνές και αντικείμενα

Πολλά από τα αντικείμενα στον κινητήρα GTA-V είναι κοινά στη φύση τους, και επομένως το απόθεμα SAIL-VOS περιέχει ένα τυχερό 60% των κλάσεων που υπάρχουν στο συχνά χρησιμοποιούμενο 2014 της Microsoft Δεδομένα MS-COCO.

Το σύνολο δεδομένων SAIL-VOS περιλαμβάνει μια μεγάλη ποικιλία εσωτερικών και εξωτερικών σκηνών υπό διαφορετικές καιρικές συνθήκες, με χαρακτήρες να φορούν ποικίλα ρούχα.

Το σύνολο δεδομένων SAIL-VOS περιλαμβάνει μια μεγάλη ποικιλία εσωτερικών και εξωτερικών σκηνών υπό διαφορετικές καιρικές συνθήκες, με χαρακτήρες να φορούν ποικίλα ρούχα. (Κάντε κλικ για μεγέθυνση)

Εφαρμογή

Για να διασφαλιστεί η συμβατότητα με τη γενική πορεία της έρευνας σε αυτόν τον τομέα και για να επιβεβαιωθεί ότι αυτή η συνθετική προσέγγιση μπορεί να ωφελήσει μη συνθετικά έργα, οι ερευνητές αξιολόγησαν το σύνολο δεδομένων χρησιμοποιώντας την προσέγγιση ανίχνευσης βάσει πλαισίου που χρησιμοποιήθηκε για το MS-COCO και το 2012 Πρόκληση PASCAL Visual Object Classes (VOC)., με μέση ακρίβεια ως μετρική.

Οι ερευνητές διαπίστωσαν ότι η προ-εκπαίδευση στο σύνολο δεδομένων SAIL-VOS βελτιώνει την απόδοση του Intersection over Union (IoU) κατά 19%, με αντίστοιχη βελτίωση σε VideoMatch απόδοση, από 55% σε 74% σε αόρατα δεδομένα.

Ωστόσο, σε περιπτώσεις ακραίας απόφραξης, υπήρξαν περιπτώσεις που όλες οι παλαιότερες μέθοδοι παρέμεναν ανίκανες να αναγνωρίσουν ένα αντικείμενο ή ένα άτομο, αν και οι ερευνητές προέβλεψαν ότι αυτό θα μπορούσε να διορθωθεί στο μέλλον εξετάζοντας παρακείμενα πλαίσια για να καθορίσουν το σκεπτικό για την αμοντική μάσκα .

Στις δύο εικόνες στα δεξιά, οι παραδοσιακοί αλγόριθμοι τμηματοποίησης δεν κατάφεραν να αναγνωρίσουν τη γυναικεία φιγούρα από το πολύ περιορισμένο τμήμα του κεφαλιού της που είναι ορατό. Μεταγενέστερες καινοτομίες με αξιολόγηση οπτικής ροής μπορεί να βελτιώσουν αυτά τα αποτελέσματα.

Στις δύο εικόνες στα δεξιά, οι παραδοσιακοί αλγόριθμοι τμηματοποίησης δεν κατάφεραν να αναγνωρίσουν τη γυναικεία φιγούρα από το πολύ περιορισμένο τμήμα του κεφαλιού της που είναι ορατό. Μεταγενέστερες καινοτομίες με αξιολόγηση οπτικής ροής μπορεί να βελτιώσουν αυτά τα αποτελέσματα. (Κάντε κλικ για μεγέθυνση)