στέλεχος Αφαίρεση αντικειμένων από βίντεο πιο αποτελεσματικά με τη μηχανική μάθηση - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Αφαίρεση αντικειμένων από βίντεο πιο αποτελεσματικά με τη μηχανική εκμάθηση

mm
Ενημερώθηκε on

Νέα έρευνα από την Κίνα αναφέρει αποτελέσματα τελευταίας τεχνολογίας – καθώς και μια εντυπωσιακή βελτίωση στην απόδοση – για ένα νέο σύστημα ζωγραφικής βίντεο που μπορεί να αφαιρέσει επιδέξια αντικείμενα από το υλικό.

Η ζώνη ενός αιωρόπτερου βάφεται με τη νέα διαδικασία. Δείτε το βίντεο πηγής (ενσωματωμένο στο κάτω μέρος αυτού του άρθρου) για καλύτερη ανάλυση και περισσότερα παραδείγματα. Πηγή: https://www.youtube.com/watch?v=N--qC3T2wc4

Η ζώνη ενός αιωρόπτερου βάφεται με τη νέα διαδικασία. Δείτε το βίντεο πηγής (ενσωματωμένο στο κάτω μέρος αυτού του άρθρου) για καλύτερη ανάλυση και περισσότερα παραδείγματα. Πηγή: https://www.youtube.com/watch?v=N–qC3T2wc4

Η τεχνική, που ονομάζεται πλαίσιο End-to-End for Flow-Guided video Inpainting (E2FGVI), έχει επίσης τη δυνατότητα να αφαιρεί υδατογραφήματα και διάφορα άλλα είδη απόφραξης από περιεχόμενο βίντεο.

Το E2FGVI υπολογίζει προβλέψεις για περιεχόμενο που βρίσκεται πίσω από αποφράξεις, επιτρέποντας την αφαίρεση ακόμη και αξιοσημείωτων και δυσεπίλυτων υδατογραφημάτων. Πηγή: https://github.com/MCG-NKU/E2FGVI

Το E2FGVI υπολογίζει προβλέψεις για περιεχόμενο που βρίσκεται πίσω από αποφράξεις, επιτρέποντας την αφαίρεση ακόμη και αξιοσημείωτων και κατά τα άλλα δυσεπίλυτα υδατογραφήματα. Πηγή: https://github.com/MCG-NKU/E2FGVI

Για να δείτε περισσότερα παραδείγματα σε καλύτερη ανάλυση, ρίξτε μια ματιά στο βίντεο που είναι ενσωματωμένο στο τέλος του άρθρου.

Αν και το μοντέλο που παρουσιάζεται στη δημοσιευμένη εργασία εκπαιδεύτηκε σε βίντεο 432 px x 240 px (συνήθως χαμηλά μεγέθη εισόδου, περιορισμένα από τον διαθέσιμο χώρο GPU έναντι των βέλτιστων μεγεθών παρτίδας και άλλους παράγοντες), οι συγγραφείς έκτοτε κυκλοφόρησαν E2FGVI-HQ, το οποίο μπορεί να χειριστεί βίντεο σε αυθαίρετη ανάλυση.

Ο κωδικός για την τρέχουσα έκδοση είναι διαθέσιμος στο GitHub, ενώ μπορείτε να κατεβάσετε την έκδοση HQ που κυκλοφόρησε την περασμένη Κυριακή Google Drive και Δίσκος Baidu.

Το παιδί μένει στην εικόνα.

Το παιδί μένει στην εικόνα.

E2Το FGVI μπορεί να επεξεργαστεί βίντεο 432×240 στα 0.12 δευτερόλεπτα ανά καρέ σε Titan XP GPU (12 GB VRAM) και οι συγγραφείς αναφέρουν ότι το σύστημα λειτουργεί δεκαπέντε φορές πιο γρήγορα από προηγούμενες μεθόδους αιχμής που βασίζονται σε οπτική ροή.

Ένας τενίστας κάνει μια απρόσμενη έξοδο.

Ένας τενίστας κάνει μια απρόσμενη έξοδο.

Δοκιμασμένη σε τυπικά σύνολα δεδομένων για αυτόν τον υποτομέα της έρευνας σύνθεσης εικόνας, η νέα μέθοδος κατάφερε να ξεπεράσει τους ανταγωνιστές τόσο σε ποιοτικούς όσο και σε ποσοτικούς γύρους αξιολόγησης.

Δοκιμές έναντι προηγούμενων προσεγγίσεων. Πηγή: https://arxiv.org/pdf/2204.02663.pdf

Δοκιμές έναντι προηγούμενων προσεγγίσεων. Πηγή: https://arxiv.org/pdf/2204.02663.pdf

Η χαρτί είναι ο τίτλος Προς ένα πλαίσιο από άκρο σε άκρο για ζωγραφική βίντεο με καθοδήγηση ροής, και είναι μια συνεργασία μεταξύ τεσσάρων ερευνητών από το Πανεπιστήμιο Nankai, μαζί με έναν ερευνητή από την Hisilicon Technologies.

Τι λείπει σε αυτήν την εικόνα

Εκτός από τις προφανείς εφαρμογές της για οπτικά εφέ, η ζωγραφική βίντεο υψηλής ποιότητας πρόκειται να γίνει βασικό χαρακτηριστικό των νέων τεχνολογιών σύνθεσης εικόνας και αλλαγής εικόνας που βασίζονται σε τεχνητή νοημοσύνη.

Αυτό ισχύει ιδιαίτερα για εφαρμογές μόδας που αλλάζουν το σώμα και άλλα πλαίσια που επιδιώκω να «αδυνατίσω» ή αλλιώς να τροποποιήσετε σκηνές σε εικόνες και βίντεο. Σε τέτοιες περιπτώσεις, είναι απαραίτητο να «συμπληρώσετε» πειστικά το επιπλέον υπόβαθρο που αποκαλύπτεται από τη σύνθεση.

Από μια πρόσφατη δημοσίευση, ένας αλγόριθμος «αναμόρφωσης σώματος» είναι επιφορτισμένος με τη ζωγραφική του φόντου που μόλις αποκαλύφθηκε όταν αλλάζει το μέγεθος ενός θέματος. Εδώ, αυτό το έλλειμμα αντιπροσωπεύεται από το κόκκινο περίγραμμα που συνήθιζε να απασχολεί το πιο γεμάτο σώμα (την πραγματική ζωή, βλ. εικόνα αριστερά). Βασισμένο σε υλικό πηγής από https://arxiv.org/pdf/2203.10496.pdf

Από μια πρόσφατη δημοσίευση, ένας αλγόριθμος «αναμόρφωσης σώματος» είναι επιφορτισμένος με τη ζωγραφική του φόντου που μόλις αποκαλύφθηκε όταν αλλάζει το μέγεθος ενός θέματος. Εδώ, αυτό το έλλειμμα αντιπροσωπεύεται από το κόκκινο περίγραμμα που συνήθιζε να απασχολεί το πιο γεμάτο σώμα (την πραγματική ζωή, βλ. εικόνα αριστερά). Βασισμένο σε υλικό πηγής από https://arxiv.org/pdf/2203.10496.pdf

Συνεκτική Οπτική Ροή

Η οπτική ροή (OF) έχει γίνει βασική τεχνολογία στην ανάπτυξη της αφαίρεσης αντικειμένων βίντεο. Όπως ένα άτλαςΤο OF παρέχει έναν χάρτη μιας χρονικής ακολουθίας με μία λήψη. Συχνά χρησιμοποιείται για τη μέτρηση της ταχύτητας σε πρωτοβουλίες όρασης υπολογιστή, το OF μπορεί επίσης να ενεργοποιήσει τη χρονικά συνεπή ζωγραφική, όπου το συνολικό άθροισμα της εργασίας μπορεί να εξεταστεί με ένα μόνο πέρασμα, αντί για την προσοχή «ανά καρέ» τύπου Disney, η οποία οδηγεί αναπόφευκτα σε χρονική ασυνέχεια.

Οι μέθοδοι ζωγραφικής βίντεο μέχρι σήμερα έχουν επικεντρωθεί σε μια διαδικασία τριών σταδίων: ολοκλήρωση ροής, όπου το βίντεο ουσιαστικά χαρτογραφείται σε μια διακριτή και εξερευνήσιμη οντότητα. διάδοση εικονοστοιχείων, όπου οι τρύπες στα «κατεστραμμένα» βίντεο συμπληρώνονται με εικονοστοιχεία που διαδίδονται αμφίδρομα. και ψευδαίσθηση περιεχομένου («εφεύρεση» εικονοστοιχείων που είναι οικείο στους περισσότερους από εμάς από τα deepfakes και τα πλαίσια κειμένου σε εικόνα, όπως η σειρά DALL-E) όπου το εκτιμώμενο περιεχόμενο «που λείπει» επινοείται και εισάγεται στο υλικό.

Η κεντρική καινοτομία του Ε2Το FGVI συνδυάζει αυτά τα τρία στάδια σε ένα σύστημα από άκρο σε άκρο, αποφεύγοντας την ανάγκη να πραγματοποιηθούν χειροκίνητες λειτουργίες στο περιεχόμενο ή στη διαδικασία.

Το έγγραφο παρατηρεί ότι η ανάγκη για χειροκίνητη παρέμβαση απαιτεί οι παλαιότερες διεργασίες να μην εκμεταλλεύονται μια GPU, καθιστώντας τις αρκετά χρονοβόρες. Από την εφημερίδα*:

'Λήψη DFVI για παράδειγμα, συμπληρώνοντας ένα βίντεο με μέγεθος 432 × 240 από DAVIS, που περιέχει περίπου 70 καρέ, χρειάζεται περίπου 4 λεπτά, κάτι που είναι απαράδεκτο στις περισσότερες εφαρμογές του πραγματικού κόσμου. Επιπλέον, εκτός από τα προαναφερθέντα μειονεκτήματα, μόνο η χρήση ενός προκαταρτισμένου δικτύου ζωγραφικής εικόνων στο στάδιο της ψευδαίσθησης περιεχομένου αγνοεί τις σχέσεις περιεχομένου μεταξύ των χρονικών γειτόνων, οδηγώντας σε ασυνεπές περιεχόμενο που δημιουργείται στα βίντεο.'

Ενώνοντας τα τρία στάδια της ζωγραφικής βίντεο, η Ε2Το FGVI μπορεί να αντικαταστήσει το δεύτερο στάδιο, τη διάδοση εικονοστοιχείων, με τη διάδοση χαρακτηριστικών. Στις πιο τμηματοποιημένες διαδικασίες προηγούμενων εργασιών, τα χαρακτηριστικά δεν είναι τόσο εκτεταμένα διαθέσιμα, επειδή κάθε στάδιο είναι σχετικά ερμητικό και η ροή εργασίας μόνο ημι-αυτοματοποιημένη.

Επιπλέον, οι ερευνητές έχουν επινοήσει ένα χρονικός εστιακός μετασχηματιστής για το στάδιο της ψευδαίσθησης περιεχομένου, το οποίο λαμβάνει υπόψη όχι μόνο τους άμεσους γείτονες των εικονοστοιχείων στο τρέχον καρέ (δηλαδή τι συμβαίνει σε αυτό το μέρος του πλαισίου στην προηγούμενη ή την επόμενη εικόνα), αλλά και τους μακρινούς γείτονες που βρίσκονται πολλά καρέ μακριά, και ωστόσο θα επηρεάσει το συνεκτικό αποτέλεσμα οποιωνδήποτε λειτουργιών που εκτελούνται στο βίντεο στο σύνολό του.

Αρχιτεκτονική του E2FGVI.

Αρχιτεκτονική του E2FGVI.

Το νέο κεντρικό τμήμα της ροής εργασίας που βασίζεται σε χαρακτηριστικά μπορεί να επωφεληθεί από περισσότερες διεργασίες σε επίπεδο χαρακτηριστικών και μαθησιακές μετατοπίσεις δειγματοληψίας, ενώ ο νέος εστιακός μετασχηματιστής του έργου, σύμφωνα με τους συγγραφείς, επεκτείνει το μέγεθος των εστιακών παραθύρων «από 2D σε 3D». .

Δοκιμές και δεδομένα

Για να δοκιμάσετε την Ε2FGVI, οι ερευνητές αξιολόγησαν το σύστημα σε σχέση με δύο δημοφιλή σύνολα δεδομένων τμηματοποίησης αντικειμένων βίντεο: YouTube-VOS, να DAVIS. Το YouTube-VOS διαθέτει 3741 εκπαιδευτικά βίντεο κλιπ, 474 κλιπ επικύρωσης και 508 δοκιμαστικά κλιπ, ενώ το DAVIS διαθέτει 60 εκπαιδευτικά βίντεο κλιπ και 90 δοκιμαστικά κλιπ.

E2Το FGVI εκπαιδεύτηκε στο YouTube-VOS και αξιολογήθηκε και στα δύο σύνολα δεδομένων. Κατά τη διάρκεια της προπόνησης, δημιουργήθηκαν μάσκες αντικειμένων (οι πράσινες περιοχές στις παραπάνω εικόνες και το ενσωματωμένο βίντεο παρακάτω) για την προσομοίωση της ολοκλήρωσης του βίντεο.

Για τις μετρήσεις, οι ερευνητές υιοθέτησαν τον λόγο αιχμής σήματος προς θόρυβο (PSNR), δομική ομοιότητα (SSIM), Απόσταση έναρξης Fréchet βάσει βίντεο (VFID) και Σφάλμα στρέβλωσης ροής - το τελευταίο για τη μέτρηση της χρονικής σταθερότητας στο επηρεαζόμενο βίντεο.

Οι προηγούμενες αρχιτεκτονικές έναντι των οποίων δοκιμάστηκε το σύστημα ήταν VINet, DFVI, LGTSM, ΚΓΠ, FGVC, STTN, να FuseFormer.

Από την ενότητα ποσοτικών αποτελεσμάτων της εργασίας. Τα πάνω και τα κάτω βέλη δείχνουν ότι οι υψηλότεροι ή οι χαμηλότεροι αριθμοί είναι καλύτεροι, αντίστοιχα. Το E2FGVI επιτυγχάνει τις καλύτερες βαθμολογίες σε όλα τα επίπεδα. Οι μέθοδοι αξιολογούνται σύμφωνα με το FuseFormer, αν και τα DFVI, VINet και FGVC δεν είναι συστήματα end-to-end, γεγονός που καθιστά αδύνατη την εκτίμηση των FLOP τους.

Από την ενότητα ποσοτικών αποτελεσμάτων της εργασίας. Τα πάνω και τα κάτω βέλη δείχνουν ότι οι υψηλότεροι ή οι χαμηλότεροι αριθμοί είναι καλύτεροι, αντίστοιχα. Το E2FGVI επιτυγχάνει τις καλύτερες βαθμολογίες σε όλα τα επίπεδα. Οι μέθοδοι αξιολογούνται σύμφωνα με το FuseFormer, αν και τα DFVI, VINet και FGVC δεν είναι συστήματα end-to-end, γεγονός που καθιστά αδύνατη την εκτίμηση των FLOP τους.

Εκτός από την επίτευξη των καλύτερων βαθμολογιών σε όλα τα ανταγωνιστικά συστήματα, οι ερευνητές διεξήγαγαν μια ποιοτική μελέτη χρήστη, στην οποία βίντεο μετασχηματισμένα με πέντε αντιπροσωπευτικές μεθόδους εμφανίστηκαν μεμονωμένα σε είκοσι εθελοντές, οι οποίοι κλήθηκαν να τους βαθμολογήσουν ως προς την ποιότητα της εικόνας.

Ο κατακόρυφος άξονας αντιπροσωπεύει το ποσοστό των συμμετεχόντων που προτίμησαν την έξοδο E2FGVI από την άποψη της οπτικής ποιότητας.

Ο κατακόρυφος άξονας αντιπροσωπεύει το ποσοστό των συμμετεχόντων που προτίμησαν το Ε2Έξοδος FGVI από άποψη οπτικής ποιότητας.

Οι συγγραφείς σημειώνουν ότι παρά την ομόφωνη προτίμηση για τη μέθοδό τους, ένα από τα αποτελέσματα, το FGVC, δεν αντικατοπτρίζει τα ποσοτικά αποτελέσματα και προτείνουν ότι αυτό δείχνει ότι το Ε2Το FGVI μπορεί, συγκεκριμένα, να παράγει «πιο οπτικά ευχάριστα αποτελέσματα».

Όσον αφορά την αποτελεσματικότητα, οι συγγραφείς σημειώνουν ότι το σύστημά τους μειώνει σημαντικά τις λειτουργίες κινητής υποδιαστολής ανά δευτερόλεπτο (FLOPs) και τον χρόνο συμπερασμάτων σε μια μεμονωμένη GPU Titan στο σύνολο δεδομένων DAVIS και παρατηρούν ότι τα αποτελέσματα δείχνουν E2Το FGVI τρέχει x15 πιο γρήγορα από τις μεθόδους που βασίζονται στη ροή.

Σχολιάζουν:

'[ΜΙ2Το FGVI] διατηρεί τα χαμηλότερα FLOP σε αντίθεση με όλες τις άλλες μεθόδους. Αυτό υποδηλώνει ότι η προτεινόμενη μέθοδος είναι εξαιρετικά αποτελεσματική για τη ζωγραφική βίντεο.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

*Η μετατροπή των ενσωματωμένων παραπομπών των συγγραφέων σε υπερσυνδέσμους.

Πρώτη δημοσίευση 19 Μαΐου 2022.