Τεχνητή νοημοσύνη

ST-NeRF: Συνθέτηση και Επεξεργασία για τη Συνθέτηση Βίντεο

Published May 7, 2021

Updated April 5, 2026

Martin Anderson

Ένα κινεζικό ερευνητικό συνασπισμό έχει αναπτύξει τεχνικές για να φέρει ικανότητες επεξεργασίας και σύνθεσης σε einen από τους πιο热 image σύνθεσης ερευνών τομέων του τελευταίου έτους – Neural Radiance Fields (NeRF). Το σύστημα ονομάζεται ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).

То που φαίνεται να είναι μια φυσική κάμερα pan στην εικόνα παρακάτω είναι στην πραγματικότητα μόνο ένας χρήστης ‘scrolling’ μέσω των σημείων θέασης σε βίντεο περιεχόμενο που υπάρχει σε ένα 4D χώρο. Η POV δεν είναι κλειδωμένη στην απόδοση των ατόμων που απεικονίζονται στο βίντεο, των οποίων οι κινήσεις μπορούν να θεωρηθούν από οποιοδήποτε μέρος ενός 180-βαθμού ακτίνας.

ST-NeRF

Κάθε πτυχή μέσα στο βίντεο είναι ένα διακριτά κατεγραμμένο στοιχείο, συνθέτοντας μαζί σε ένα συνολό σκηνικό που μπορεί να εξερευνηθεί δυναμικά.

Οι πτυχές μπορούν να αναπαραχθούν ελεύθερα μέσα στη σκηνή, ή να αναδιασταθούν:

ST-NeRF

Επιπλέον, η χρονική συμπεριφορά κάθε πτυχής μπορεί να τροποποιηθεί εύκολα, να επιβραδύνεται, να τρέχει ανάποδα, ή να χειρίζεται με οποιοδήποτε τρόπο, ανοίγοντας το δρόμο για αρχιτεκτονικές φίλτρων και ένα εξαιρετικά υψηλό επίπεδο ερμηνευσιμότητας.

Δύο ξεχωριστά NeRF πτυχές τρέχουν σε διαφορετικές ταχύτητες στην ίδια σκηνή. Source: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Δεν υπάρχει ανάγκη να rotoscope εκτελεστές ή περιβάλλοντα, ή να έχουν εκτελεστές να εκτελούν τις κινήσεις τους τυφλά και εκτός του контекστού της προτεινόμενης σκηνής. Αντίθετα, το βίντεο καταγράφεται φυσικά μέσω eines πίνακα 16 βίντεο καμερών που καλύπτουν 180 μοίρες:

16 καμερές ST-NeRF

Τα τρία στοιχεία που απεικονίζονται παραπάνω, τα δύο άτομα και το περιβάλλον, είναι ξεχωριστά και περιγραμμένα μόνο για εικονογραφικές σκοπούς. Κάθε ένα μπορεί να αντικατασταθεί, και κάθε ένα μπορεί να εισαχθεί στη σκηνή σε ένα προηγούμενο ή μεταγενέστερο σημείο του ατομικού χρονοδιαγράμματος καταγραφής.

ST-NeRF είναι μια καινοτομία στην έρευνα των Neural Radiance Fields (NeRF), ένα πλαίσιο μηχανικής μάθησης όπου πολλαπλά σημεία θέασης συνθέτονται σε einen ναυτιλιακό εικονικό χώρο από εκτεταμένη εκπαίδευση (αν και η μονή θέαση είναι επίσης ένας υπο-τομέας της έρευνας NeRF).

Neural Radiance Fields λειτουργούν με τη συλλογή πολλαπλών σημείων θέασης σε einen συνολό και ναυτιλιακό 3D χώρο, με τα κενά μεταξύ της κάλυψης να εκτιμώνται και να αποδίδονται από ένα νευρωνικό δίκτυο. Όπου χρησιμοποιείται βίντεο (αντί για στατικές εικόνες), οι πόρους απόδοσης που απαιτούνται είναι συχνά σημαντικοί. Source: https://www.matthewtancik.com/nerf

Το ενδιαφέρον για NeRF έχει γίνει έντονο τους τελευταίους εννέα μήνες, και ένας κατάλογος που διατηρείται από το Reddit λίστα των παραγώγων ή εξερευνητικών NeRF εγγράφων τώρα περιλαμβάνει εξήντα έργα.

Μόνο quelques από τα πολλά παρακλάδια του αρχικού NeRF εγγράφου. Source: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Ευνοϊκή Εκπαίδευση

Το έγγραφο είναι μια συνεργασία μεταξύ ερευνητών στο Shanghai Tech University και DGene Digital Technology, και έχει γίνει δεκτό με κάποια ενθουσιασμό στο Open Review.

ST-NeRF προσφέρει μια σειρά από καινοτομίες πάνω στις προηγούμενες πρωτοβουλίες στις ML-παράγουσες ναυτιλιακές βίντεο χώρους. Όχι τουλάχιστον, επιτυγχάνει ένα υψηλό επίπεδο ρεαλισμού με μόνο 16 καμερές. Αν και η Facebook’s DyNeRF χρησιμοποιεί μόνο δύο καμερές περισσότερες από αυτό, προσφέρει ένα πολύ πιο περιορισμένο ναυτιλιακό τόξο.

Ένα παράδειγμα του περιβάλλοντος DyNeRF της Facebook, με ένα πιο περιορισμένο πεδίο κίνησης, και περισσότερες καμερές ανά τετραγωνικό πόδι που απαιτούνται για την ανασυγκρότηση της σκηνής. Source: https://neural-3d-video.github.io

Εκτός από το γεγονός ότι δεν έχει την ικανότητα να επεξεργαστεί και να συνθέσει ξεχωριστά πτυχές, η DyNeRF είναι ιδιαίτερα ακριβή σε σχέση με τους υπολογιστικούς πόρους. Αντίθετα, οι κινεζικοί ερευνητές δηλώνουν ότι το κόστος εκπαίδευσης για τα δεδομένα τους ανέρχεται κάπου μεταξύ $900-$3,000, σε σύγκριση με τα $30,000 για το state-of-the-art βίντεο γεννητικό μοντέλο DVDGAN, και εντατικά συστήματα όπως η DyNeRF.

Οι κριτές έχουν επίσης σημειώσει ότι η ST-NeRF κάνει μια σημαντική καινοτομία στη διαχωριστική διαδικασία της μάθησης της κίνησης από τη διαδικασία της σύνθεσης εικόνας. Αυτή η διάσταση είναι αυτή που επιτρέπει την επεξεργασία και τη σύνθεση, με προηγούμενες προσεγγίσεις περιοριστικές και γραμμικές σε σύγκριση.

Αν και 16 καμερές είναι ένα πολύ περιορισμένο πίνακα για ένα τόσο πλήρες ημικύκλιο θέασης, οι ερευνητές ελπίζουν να μειώσουν αυτόν τον αριθμό περαιτέρω σε μελλοντική εργασία μέσω της χρήσης προξένων προ-σκαναρισμένων στατικών φονών, και περισσότερων δεδομένων-κίνησης προσεγγίσεων μοντελοποίησης σκηνής. Ελπίζουν επίσης να ενσωματώσουν ικανότητες re-lichting, μια πρόσφατη καινοτομία στην έρευνα NeRF.

Αντιμετώπιση των Περιορισμών της ST-NeRF

Στο контέκστ της ακαδημαϊκής CS εγγράφων που τείνουν να απορρίψουν την πραγματική χρησιμότητα ενός νέου συστήματος σε ένα throw-away τελικό παράγραφο, ακόμη και οι περιορισμοί που οι ερευνητές αναγνωρίζουν για την ST-NeRF είναι ασυνήθιστοι.

Παρατηρούν ότι το σύστημα δεν μπορεί目前 να individuate και να αποδίδει ξεχωριστά αντικείμενα σε μια σκηνή, επειδή τα άτομα στο βίντεο είναι διαχωρισμένα σε ξεχωριστά entités μέσω eines συστήματος που σχεδιάστηκε για να αναγνωρίζει ανθρώπους και όχι αντικείμενα – ένα πρόβλημα που φαίνεται να λύνεται εύκολα με YOLO και παρόμοια πλαίσια, με την πιο δύσκολη δουλειά της εξαγωγής ανθρώπινου βίντεο να έχει ήδη ολοκληρωθεί.

Αν και οι ερευνητές σημειώνουν ότι δεν είναι δυνατόν να παράγουν σλοου-μοσιόν, φαίνεται να μην υπάρχει τίποτα που να εμποδίζει την υλοποίηση αυτής της χρησιμοποιώντας υπάρχουσες καινοτομίες στην interpolation πλαισίων όπως DAIN και RIFE.

Όπως και με όλες τις υλοποιήσεις NeRF, και σε πολλές άλλες περιοχές της έρευνας υπολογιστικής όρασης, η ST-NeRF μπορεί να αποτύχει σε περιπτώσεις σοβαρής occlusion, όπου το αντικείμενο είναι προσωρινά αποκρυμμένο από ένα άλλο πρόσωπο ή ένα αντικείμενο, και μπορεί να είναι δύσκολο να παρακολουθήσει συνεχώς ή να ανακτήσει με ακρίβεια αργότερα. Όπως και αλλού, αυτή η δυσκολία μπορεί να περιμένει λύσεις upstream. Εν τω μεταξύ, οι ερευνητές παραδέχονται ότι η χειροκίνητη επέμβαση είναι αναγκαία σε αυτές τις occluded πλαισιά.

Τέλος, οι ερευνητές παρατηρούν ότι οι διαδικασίες ανθρώπινης segmentations που χρησιμοποιούνται目前 βασίζονται σε διαφορές χρώματος, οι οποίες θα μπορούσαν να οδηγήσουν σε ακούσιες συλλογές δύο ατόμων σε ένα μπλοκ segmentations – ένα εμπόδιο που δεν είναι περιορισμένο στην ST-NeRF, αλλά είναι εγγενές στη βιβλιοθήκη που χρησιμοποιείται, και η οποία θα μπορούσε ίσως να λυθεί με ανάλυση οπτικού ροής και άλλες αναδυόμενες τεχνικές.

Πρώτη δημοσίευση 7ης Μαΐου 2021.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]