Τεχνητή νοημοσύνη
Συνθετικά δεδομένα: Γεφύρωση του κενού απόφραξης με το Grand Theft Auto
Ερευνητές στο Πανεπιστήμιο του Ιλινόις δημιούργησαν ένα νέο σύνολο δεδομένων υπολογιστικής όρασης που χρησιμοποιεί συνθετικές εικόνες που δημιουργούνται από μια μηχανή παιχνιδιών Grand Theft Auto για να βοηθήσει στην επίλυση ενός από τα πιο ακανθώδη εμπόδια στη σημασιολογική τμηματοποίηση - την αναγνώριση αντικειμένων που είναι ορατά μόνο εν μέρει στις εικόνες και τα βίντεο πηγής.
Για το σκοπό αυτό, όπως περιγράφεται στο το χαρτί, οι ερευνητές χρησιμοποίησαν τη μηχανή βιντεοπαιχνιδιών GTA-V για να δημιουργήσουν ένα συνθετικό σύνολο δεδομένων που όχι μόνο διαθέτει έναν αριθμό ρεκόρ περιπτώσεων απόφραξης, αλλά διαθέτει τέλεια σημασιολογική τμηματοποίηση και επισήμανση και λαμβάνει υπόψη τις χρονικές πληροφορίες με τρόπο που δεν είναι αντιμετωπίζονται από παρόμοια σύνολα δεδομένων ανοιχτού κώδικα.
Πλήρης Κατανόηση Σκηνής
Το παρακάτω βίντεο, που δημοσιεύτηκε ως υποστηρικτικό υλικό για την έρευνα, απεικονίζει τα πλεονεκτήματα μιας πλήρους τρισδιάστατης κατανόησης μιας σκηνής, στο ότι τα σκοτεινά αντικείμενα είναι γνωστά και εκτίθενται στη σκηνή σε όλες τις περιστάσεις, επιτρέποντας στο σύστημα αξιολόγησης να μάθει να συσχετίζει μερικώς αποφραγμένες απόψεις με ολόκληρο το (επισημασμένο) αντικείμενο.
Πηγή: http://sailvos.web.illinois.edu/_site/index.html
Το σύνολο δεδομένων που προκύπτει, που ονομάζεται SAIL-VOS 3D, υποστηρίζεται από τους συγγραφείς ότι είναι το πρώτο συνθετικό σύνολο δεδομένων πλέγματος βίντεο με σχολιασμό καρέ-καρέ, τμηματοποίηση σε επίπεδο παρουσίας, βάθος αλήθειας εδάφους για προβολές σκηνής και 2D σχολιασμούς που οριοθετούνται από οριοθετημένα πλαίσια.
Οι σχολιασμοί του SAIL-VOS 3D περιλαμβάνουν το βάθος, το τροπικό επίπεδο σε επίπεδο και αμοντικός τμηματοποίηση, σημασιολογικές ετικέτες και τρισδιάστατα πλέγματα. Τα δεδομένα περιλαμβάνουν 3 βίντεο με συνολικό μέγεθος 484 καρέ σε ανάλυση 237,611×1280, συμπεριλαμβανομένων των μεταβάσεων πλάνων.
Το σύνολο χωρίζεται σε 6,807 κλιπ με μέσο όρο 34.6 καρέ το καθένα και τα δεδομένα σχολιάζονται με 3,460,213 περιπτώσεις αντικειμένων που προέρχονται από 3,576 μοντέλα mesh στη μηχανή παιχνιδιών GTA-V. Αυτά αντιστοιχίζονται σε συνολικά 178 σημασιολογικές κατηγορίες.
Ανακατασκευή πλέγματος και αυτοματοποιημένη επισήμανση
Δεδομένου ότι η μεταγενέστερη έρευνα δεδομένων είναι πιθανό να πραγματοποιηθεί σε εικόνες πραγματικού κόσμου, τα πλέγματα στο SAIL-VOS 3D δημιουργούνται από το πλαίσιο μηχανικής μάθησης, αντί να προέρχονται από τη μηχανή GTA-V.
Δεδομένου ότι κάθε αντικείμενο στον κόσμο του GTA-V περιέχει ένα μοναδικό αναγνωριστικό, το SAIL-VOS τα ανακτά από τη μηχανή απόδοσης χρησιμοποιώντας τη βιβλιοθήκη άγκιστρου σεναρίων GTA-V. Αυτό λύνει το πρόβλημα της επανάκτησης του θέματος εάν πρέπει να φύγει προσωρινά από το οπτικό πεδίο, καθώς η επισήμανση είναι επίμονη και αξιόπιστη. Υπάρχουν 162 αντικείμενα διαθέσιμα στο περιβάλλον, τα οποία οι ερευνητές χαρτογράφησαν σε αντίστοιχο αριθμό τάξεων.
Μια ποικιλία από σκηνές και αντικείμενα
Πολλά από τα αντικείμενα στον κινητήρα GTA-V είναι κοινά στη φύση τους, και επομένως το απόθεμα SAIL-VOS περιέχει ένα τυχερό 60% των κλάσεων που υπάρχουν στο συχνά χρησιμοποιούμενο 2014 της Microsoft Δεδομένα MS-COCO.
Εφαρμογή
Για να διασφαλιστεί η συμβατότητα με τη γενική πορεία της έρευνας σε αυτόν τον τομέα και για να επιβεβαιωθεί ότι αυτή η συνθετική προσέγγιση μπορεί να ωφελήσει μη συνθετικά έργα, οι ερευνητές αξιολόγησαν το σύνολο δεδομένων χρησιμοποιώντας την προσέγγιση ανίχνευσης βάσει πλαισίου που χρησιμοποιήθηκε για το MS-COCO και το 2012 Πρόκληση PASCAL Visual Object Classes (VOC)., με μέση ακρίβεια ως μετρική.
Οι ερευνητές διαπίστωσαν ότι η προ-εκπαίδευση στο σύνολο δεδομένων SAIL-VOS βελτιώνει την απόδοση του Intersection over Union (IoU) κατά 19%, με αντίστοιχη βελτίωση σε VideoMatch απόδοση, από 55% σε 74% σε αόρατα δεδομένα.
Ωστόσο, σε περιπτώσεις ακραίας απόφραξης, υπήρξαν περιπτώσεις που όλες οι παλαιότερες μέθοδοι παρέμεναν ανίκανες να αναγνωρίσουν ένα αντικείμενο ή ένα άτομο, αν και οι ερευνητές προέβλεψαν ότι αυτό θα μπορούσε να διορθωθεί στο μέλλον εξετάζοντας παρακείμενα πλαίσια για να καθορίσουν το σκεπτικό για την αμοντική μάσκα .