Τεχνητή νοημοσύνη

Νευρωνική απόδοση: Πόσο χαμηλά μπορείτε να πάτε από άποψη εισόδου;

Ενημερώθηκε on Δεκέμβριος 9, 2022

Χθες κάποια εξαιρετική νέα εργασία στη σύνθεση νευρωνικών εικόνων τράβηξε την προσοχή και τη φαντασία του διαδικτύου, όπως αποκάλυψαν οι ερευνητές της Intel Νέα μέθοδο για την ενίσχυση του ρεαλισμού των συνθετικών εικόνων.

Το σύστημα, όπως αποδεικνύεται στο α βίντεο από την Intel, παρεμβαίνει απευθείας στη γραμμή εικόνας για το βιντεοπαιχνίδι Grand Theft Auto V και βελτιώνει αυτόματα τις εικόνες μέσω ενός αλγόριθμου σύνθεσης εικόνας που εκπαιδεύεται σε ένα συνελικτικό νευρωνικό δίκτυο (CNN), χρησιμοποιώντας εικόνες πραγματικού κόσμου από το Μύτιλος σύνολο δεδομένων και εναλλάσσοντας τον λιγότερο ρεαλιστικό φωτισμό και την υφή της μηχανής παιχνιδιών GTA.

Οι σχολιαστές, σε ένα ευρύ φάσμα αντιδράσεων σε κοινότητες όπως το Reddit και το Hacker News, υποστηρίζουν όχι μόνο ότι η νευρική απόδοση αυτού του τύπου θα μπορούσε να αντικαταστήσει αποτελεσματικά τη λιγότερο φωτορεαλιστική έξοδο των παραδοσιακών μηχανών παιχνιδιών και του CGI επιπέδου VFX, αλλά και ότι αυτή η διαδικασία θα μπορούσε να επιτεύχθηκε με πολύ περισσότερες βασικές εισόδους από ό,τι αποδείχθηκε στην επίδειξη του Intel GTA5 — δημιουργώντας ουσιαστικά εισόδους «μαριονέτας» μεσολάβησης με μαζικά ρεαλιστικές εξόδους.

Συζευγμένα σύνολα δεδομένων

Η αρχή έχει επεξηγηθεί από μια νέα γενιά συστημάτων GAN και κωδικοποιητών/αποκωδικοποιητών τα τελευταία τρία χρόνια, όπως το GauGAN της NVIDIA, το οποίο δημιουργεί φωτορεαλιστικές σκηνικές εικόνες από ακατέργαστες επικαλύψεις.

Ουσιαστικά αυτή η αρχή αντιστρέφει τη συμβατική χρήση της σημασιολογικής τμηματοποίησης όραση υπολογιστή από μια παθητική μέθοδο που επιτρέπει στα μηχανικά συστήματα να αναγνωρίζουν και να απομονώνουν παρατηρούμενα αντικείμενα σε μια δημιουργική είσοδο, όπου ο χρήστης «ζωγραφίζει» έναν ψεύτικο σημασιολογικό χάρτη τμηματοποίησης και το σύστημα δημιουργεί εικόνες που είναι συνεπείς με τις σχέσεις που κατανοεί από την ήδη ταξινόμηση και τμηματοποίηση ενός συγκεκριμένου τομέα, όπως το τοπίο.

Ένα πλαίσιο μηχανικής μάθησης εφαρμόζει σημασιολογική τμηματοποίηση σε διάφορες εξωτερικές σκηνές, παρέχοντας το αρχιτεκτονικό παράδειγμα που επιτρέπει την ανάπτυξη διαδραστικών συστημάτων, όπου ο χρήστης ζωγραφίζει ένα μπλοκ σημασιολογικής τμηματοποίησης και το σύστημα συμπληρώνει το μπλοκ με κατάλληλες εικόνες από ένα σύνολο δεδομένων συγκεκριμένου τομέα, όπως π.χ. Το σετ προβολής δρόμου Mapillary της Γερμανίας, που χρησιμοποιείται στην επίδειξη νευρωνικής απόδοσης GTA5 της Intel. Πηγή: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Τα συστήματα σύνθεσης εικόνας ζευγών δεδομένων λειτουργούν συσχετίζοντας σημασιολογικές ετικέτες σε δύο σύνολα δεδομένων: ένα πλούσιο και πλήρες σύνολο εικόνων, είτε δημιουργείται από εικόνες πραγματικού κόσμου (όπως με το σύνολο Mapillary που χρησιμοποιείται για τη βελτίωση του GTA5 στο χθεσινό demo της Intel) είτε από συνθετικές εικόνες. όπως εικόνες CGI.

Παραδείγματα ζευγών δεδομένων για ένα σύστημα σύνθεσης εικόνας σχεδιασμένο να δημιουργεί χαρακτήρες νευρωνικής απόδοσης από αδέξια σκίτσα. Στα αριστερά, δείγματα από το σύνολο δεδομένων CGI. Μεσαία, αντίστοιχα δείγματα από το σύνολο δεδομένων «σκίτσο». Σωστά, νευρικές αποδόσεις που έχουν μεταφράσει σκίτσα πίσω σε εικόνες υψηλής ποιότητας. Πηγή: https://www.youtube.com/watch?v=miLIwQ7yPkA

Τα εξωτερικά περιβάλλοντα είναι σχετικά απρόκλητα κατά τη δημιουργία ζευγαρωμένων μετασχηματισμών δεδομένων αυτού του είδους, επειδή οι προεξοχές είναι συνήθως αρκετά περιορισμένες, η τοπογραφία έχει περιορισμένο εύρος διακύμανσης που μπορεί να αποτυπωθεί πλήρως σε ένα σύνολο δεδομένων και δεν χρειάζεται να ασχοληθούμε με τη δημιουργία τεχνητών ατόμων , ή διαπραγμάτευση της Uncanny Valley (ακόμα).

Αντιστροφή χαρτών τμηματοποίησης

Η Google έχει αναπτύξει μια κινούμενη έκδοση του σχήματος GauGAN, που ονομάζεται Άπειρη φύση, ικανό να «παραισθανθεί» σκόπιμα συνεχόμενα και ατελείωτα πλασματικά τοπία μεταφράζοντας ψεύτικους σημασιολογικούς χάρτες σε φωτορεαλιστικές εικόνες μέσω της NVIDIA ΦΤΥΑΡΙ σύστημα πλήρωσης:

Πηγή: https://www.youtube.com/watch?v=oXUf6anNAtc

Ωστόσο, το Infinite Nature χρησιμοποιεί μια ενιαία εικόνα ως σημείο εκκίνησης και χρησιμοποιεί το SPADE απλώς για να ζωγραφίσει τα τμήματα που λείπουν σε διαδοχικά καρέ, ενώ το ίδιο το SPADE δημιουργεί μετασχηματισμούς εικόνας απευθείας από χάρτες τμηματοποίησης.

Πηγή: https://nvlabs.github.io/SPADE/

Είναι αυτή η ικανότητα που φαίνεται να έχει ξεσηκώσει τους θαυμαστές του συστήματος Intel Image Enhancement – τη δυνατότητα παραγωγής φωτορεαλιστικών εικόνων πολύ υψηλής ποιότητας, ακόμη και σε πραγματικό χρόνο (τελικά), από εξαιρετικά ωμή είσοδο.

Αντικατάσταση υφών και φωτισμού με νευρωνική απόδοση

Στην περίπτωση της εισόδου GTA5, ορισμένοι έχουν αναρωτηθεί εάν κάποια από τις υπολογιστικά ακριβές διαδικαστικές και bitmap υφή και φωτισμός από την έξοδο της μηχανής παιχνιδιών θα είναι πραγματικά απαραίτητο σε μελλοντικά συστήματα νευρωνικής απόδοσης ή αν είναι δυνατό να μετασχηματιστεί χαμηλά ανάλυση, είσοδος σε επίπεδο καλωδίου σε φωτορεαλιστικό βίντεο που ξεπερνά τις δυνατότητες σκίασης, υφής και φωτισμού των μηχανών παιχνιδιών, δημιουργώντας υπερρεαλιστικές σκηνές από την είσοδο μεσολάβησης «placeholder».

Μπορεί να φαίνεται προφανές ότι οι όψεις που δημιουργούνται από το παιχνίδι, όπως οι αντανακλάσεις, οι υφές και άλλοι τύποι περιβαλλοντικών λεπτομερειών είναι βασικές πηγές πληροφοριών για ένα σύστημα νευρωνικής απόδοσης του τύπου που έχει δείξει η Intel. Ωστόσο, έχουν περάσει μερικά χρόνια από τη NVIDIA ΜΟΝΆΔΑ (Μη εποπτευόμενα δίκτυα μετάφρασης εικόνας σε εικόνα) απέδειξαν ότι μόνο ο τομέας είναι σημαντικός και ότι ακόμη και σαρωτικές πτυχές όπως «νύχτα ή μέρα» είναι ουσιαστικά ζητήματα που πρέπει να αντιμετωπίζονται με τη μεταφορά στυλ:

Day2NightImageTranslation-06

Watch this video on YouTube

Όσον αφορά την απαιτούμενη είσοδο, αυτό δυνητικά αφήνει τη μηχανή παιχνιδιού να χρειάζεται μόνο να δημιουργήσει προσομοιώσεις βασικής γεωμετρίας και φυσικής, καθώς η μηχανή νευρικής απόδοσης μπορεί να χρωματίσει υπερβολικά όλες τις άλλες πτυχές συνθέτοντας τις επιθυμητές εικόνες από το σύνολο δεδομένων που καταγράφηκε, χρησιμοποιώντας σημασιολογικούς χάρτες ως ερμηνεία στρώμα.

Το σύστημα της Intel ενισχύει ένα πλήρως τελειωμένο και αποδομένο πλαίσιο από το GTA5, προσθέτοντας τμηματοποίηση και αξιολογημένους χάρτες βάθους — δύο όψεις που θα μπορούσαν ενδεχομένως να παρέχονται απευθείας από μια απογυμνωμένη μηχανή παιχνιδιών. Πηγή: https://www.youtube.com/watch?v=P1IcaBn3ej0

Η προσέγγιση νευρωνικής απόδοσης της Intel περιλαμβάνει την ανάλυση πλήρως αποδομένων πλαισίων από τα buffers GTA5 και το νευρωνικό σύστημα έχει το πρόσθετο βάρος της δημιουργίας τόσο των χαρτών βάθους όσο και των χαρτών τμηματοποίησης. Δεδομένου ότι οι χάρτες βάθους είναι έμμεσα διαθέσιμοι σε παραδοσιακούς τρισδιάστατους αγωγούς (και είναι λιγότερο απαιτητικοί στη δημιουργία τους από την υφή, την ανίχνευση ακτίνων ή τον παγκόσμιο φωτισμό), ίσως είναι καλύτερη χρήση πόρων να αφήσετε τη μηχανή του παιχνιδιού να τους χειριστεί.

Απογυμνωμένη είσοδος για μηχανή νευρωνικής απόδοσης

Η τρέχουσα εφαρμογή του δικτύου βελτίωσης εικόνας της Intel, επομένως, μπορεί να περιλαμβάνει πολλούς πλεονάζοντες υπολογιστικούς κύκλους, καθώς η μηχανή παιχνιδιών δημιουργεί υπολογιστικά ακριβή υφή και φωτισμό που η μηχανή νευρωνικής απόδοσης δεν χρειάζεται πραγματικά. Το σύστημα φαίνεται να έχει σχεδιαστεί με αυτόν τον τρόπο όχι επειδή αυτή είναι κατ 'ανάγκη μια βέλτιστη προσέγγιση, αλλά επειδή είναι ευκολότερο να προσαρμόσετε μια μηχανή νευρωνικής απόδοσης σε μια υπάρχουσα διοχέτευση παρά να δημιουργήσετε μια νέα μηχανή παιχνιδιού που είναι βελτιστοποιημένη σε μια προσέγγιση νευρικής απόδοσης.

Η πιο οικονομική χρήση πόρων σε ένα σύστημα τυχερών παιχνιδιών αυτής της φύσης θα μπορούσε να είναι η πλήρης co-opting της GPU από το σύστημα νευρωνικής απόδοσης, με την απογυμνωμένη είσοδο μεσολάβησης που χειρίζεται η CPU.

Επιπλέον, η μηχανή παιχνιδιών θα μπορούσε εύκολα να παράγει ο ίδιος αντιπροσωπευτικούς χάρτες τμηματοποίησης, απενεργοποιώντας όλες τις σκιάσεις και τον φωτισμό στην έξοδο του. Επιπλέον, θα μπορούσε να παρέχει βίντεο σε πολύ χαμηλότερη ανάλυση από ό,τι απαιτείται συνήθως από αυτό, καθώς το βίντεο θα έπρεπε μόνο να είναι σε γενικές γραμμές αντιπροσωπευτικό του περιεχομένου, με λεπτομέρειες υψηλής ανάλυσης να αντιμετωπίζονται από τη νευρωνική μηχανή, απελευθερώνοντας περαιτέρω τοπικούς υπολογιστικούς πόρους.

Προηγούμενη εργασία της Intel ISL με Τμηματοποίηση>Εικόνα

Η άμεση μετάφραση της τμηματοποίησης σε φωτορεαλιστικό βίντεο απέχει πολύ από το να είναι υποθετική. Το 2017 η Intel ISL, οι δημιουργοί της χθεσινής οργής, κυκλοφόρησε το αρχικό έρευνα ικανό να εκτελεί αστική σύνθεση βίντεο απευθείας από τη σημασιολογική κατάτμηση.

Η κατάτμηση της Intel ISL σε λειτουργία εικόνας από το 2017. Πηγή: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Ουσιαστικά, αυτός ο αρχικός αγωγός του 2017 απλώς επεκτάθηκε για να χωρέσει την πλήρη απόδοση του GTA5.

Φωτογραφική σύνθεση εικόνων με διαδοχικά δίκτυα βελτίωσης

Photographic Image Synthesis with Cascaded Refinement Networks

Watch this video on YouTube

Νευρωνική απόδοση σε VFX

Η νευρωνική απόδοση από χάρτες τεχνητής τμηματοποίησης φαίνεται επίσης να είναι μια πολλά υποσχόμενη τεχνολογία για το VFX, με τη δυνατότητα απευθείας μετάφρασης πολύ βασικών βιντεογραμμάτων απευθείας σε ολοκληρωμένα πλάνα οπτικών εφέ, δημιουργώντας σύνολα δεδομένων συγκεκριμένου τομέα που λαμβάνονται είτε από μοντέλα είτε από συνθετικές εικόνες (CGI).

Ένα υποθετικό σύστημα νευρωνικής απόδοσης, όπου η εκτεταμένη κάλυψη κάθε αντικειμένου στόχου αφαιρείται σε ένα συνεισφέρον σύνολο δεδομένων και όπου οι τεχνητά δημιουργημένοι χάρτες τμηματοποίησης χρησιμοποιούνται ως βάση για φωτορεαλιστική έξοδο πλήρους ανάλυσης. Πηγή: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Η ανάπτυξη και η υιοθέτηση τέτοιων συστημάτων θα μετατοπίσει τον τόπο της καλλιτεχνικής προσπάθειας από μια ερμηνευτική σε μια αντιπροσωπευτική ροή εργασίας και θα ανυψώσει τη συλλογή δεδομένων που βασίζεται στον τομέα από έναν υποστηρικτικό σε έναν κεντρικό ρόλο στις εικαστικές τέχνες.

Ενίσχυση Ενίσχυσης Φωτορεαλισμού

Watch this video on YouTube

Το άρθρο ενημερώθηκε στις 4:55 μ.μ. για προσθήκη υλικού σχετικά με την έρευνα Intel ISL 2017.

Επόμενο

NeRF: Το Facebook Co-Research αναπτύσσει μικτή στατική/δυναμική σύνθεση βίντεο

Μην χάσετε

Ένα σύστημα μηχανικής εκμάθησης για να ξαναγράψετε ένα άρθρο ενώ το διαβάζετε

Μάρτιν Άντερσον

Συγγραφέας για τη μηχανική μάθηση, την τεχνητή νοημοσύνη και τα μεγάλα δεδομένα.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai

Unite.AI

Νευρωνική απόδοση: Πόσο χαμηλά μπορείτε να πάτε από άποψη εισόδου;

Τεχνητή νοημοσύνη