Η γωνία του Anderson

Διαγραφή Αντικειμένων και Ατόμων από Βίντεο με τη Βοήθεια του AI

Δημοσιεύτηκε 21 Μαρτίου 2026

Ενημερώθηκε 16 Μαΐου 2026

Martin Anderson

AI-generated stylized image depicting a magician robot showing an empty cabinet with a lady's tiara at the bottom. GPT-1.5

Όχι, το παιδί δεν μένει στην εικόνα, αν το AI έχει κάτι να κάνει με αυτό.

Η αφαίρεση αντικειμένων και ατόμων από εικόνες και βίντεο είναι một δημοφιλής υπο-klad της έρευνας στη VFX-κεντρική βιβλιογραφία του AI, με έναν αυξανόμενο αριθμό αφοσιωμένων συνόλων δεδομένων και πλαισίων που αντιμετωπίζουν την πρόκληση. Το τελευταίο από αυτά, από το Ινστιτούτο Μεγάλων Δεδομένων του Πανεπιστημίου Fudan της Κίνας, είναι το EffectErase, ένα σύστημα αφαίρεσης αντικειμένων βίντεο που είναι “ενημερωμένο για τις επιπτώσεις” και που, σύμφωνα με τους συγγραφείς, βελτιώνει σημαντικά την κατάσταση της τέχνης στις δοκιμές:

Συναρμολογημένα από υλικό στον ιστότοπο του έργου, παραδείγματα της μεθόδου EffectErase (παρακαλούμε σημειώστε ότι ενώ παρέχουμε einen σύνδεσμο, ο ιστότοπος πηγή περιέχει πολλά υψηλής ανάλυσης και μη βελτιστοποιημένα βίντεο που μπορεί να επηρεάσουν τη σταθερότητα του προγράμματος περιήγησης. Το συνοδευτικό βίντεο στο YouTube είναι ένας εύκολος και πλήρης αναφορά και είναι ενσωματωμένο στο τέλος του άρθρου). Πηγή

Το νέο έργο περιελάμβανε τη δημιουργία/συντήρηση ενός ημι-νέου συνόλου δεδομένων που αποτελείται από σχεδόν 350 αυθεντικά πραγματικά και συνθετικά σκηνικά (χρησιμοποιώντας δημόσιες αποθήκες*), είτε καταγεγραμμένα με αφιερωμένο εξοπλισμό ή πηγαίνοντας και επαναχρησιμοποιώντας σε μια ροή εργασίας που βασίζεται στο ανοικτό πλαίσιο Blender 3D.

Το υβριδικό σύνολο δεδομένων Video Object Removal (VOR) αποτελεί τη βάση για την εφαρμογή EffectErase herself, η οποία είναι κατασκευασμένη πάνω στο Wan2.1 σύστημα γεννήτριας βίντεο. Το σύστημα ορίζει επίσης δύο νέες σχετικές βάσεις αξιολόγησης: VOR Eval και VOR Wild – αντίστοιχα, για δείγματα με και χωρίς αληθινή αξιολόγηση.

(Αν και το έγγραφο έχει einen συνοδευτικό ιστότοπο έργου, είναι khá υπερφορτωμένο με πολλά υψηλής ανάλυσης βίντεο και είναι δύσκολο να φορτωθεί· इसलिए, παρακαλούμε αναφερθείτε στα αποσπάσματα που έχω συντάξει στο ενσωματωμένο βίντεο παραπάνω, αν βρείτε τον ιστότοπο έργου δύσκολο να χρησιμοποιηθεί)

Μια σύγκριση ποσοτήτων σε σύγκριση με προηγούμενα σύνολα δεδομένων, σε σχέση με την νέα προσφορά. Πηγή

Οι ερευνητές ισχυρίζονται ότι η προσέγγισή τους προσφέρει_STATE-OF-THE-ART απόδοση, τόσο σε ποσοτικές μετρικές όσο και σε ποιοτικές αποτελέσματα που αξιολογούνται μέσω μιας μελέτης ανθρώπων.

Σημειώνουν ότι προηγούμενες εργασίες δεν έχουν πάντα επιτύχει την αφαίρεση των επιπλέον επιπτώσεων ενός αντικειμένου, όπως σκιές και ανακλάσεις, και ότι το σύνολο δεδομένων τους έχει δημιουργηθεί προσεκτικά για να διορθώσει αυτήν την ελλείψη:

Παραδείγματα προηγούμενων προσεγγίσεων που δεν κατάφεραν να κοιτάξουν πέρα από το αντικείμενο που ζητήθηκε για αφαίρεση, σε δευτερεύουσες ενδείξεις, όπως ανακλάσεις και σκιές.

Το νέο έγγραφο έχει τον τίτλο EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing, και προέρχεται από τέσσερις ερευνητές από το Κολλέγιο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης του Πανεπιστημίου Fudan.

Μέθοδος

Το υβριδικό σύνολο δεδομένων VOR σχεδιάστηκε για να περιλαμβάνει ένα αρκετά ευρύ φάσμα σεναρίων ώστε να καλύψει όλες τις επιπτώσεις της απόπειρας αφαίρεσης ενός ανθρώπου ή αντικειμένου από βίντεο:

Ζευγαρωμένα καρέ από το σύνολο δεδομένων VOR δείχνουν πώς η αφαίρεση αντικειμένου πρέπει να εκτείνεται πέρα από το ορατό αντικείμενο στα προκαλούμενα από αυτό αποτελέσματα, με παραδείγματα που δείχνουν οκλουσία, σκιές, αλλαγές φωτισμού, ανακλάσεις και φυσική παραμόρφωση, κάθε ένα παρουσιάζεται ως είσοδος (αντικείμενο παρόν) μαζί με το αντίστοιχο καθαρό φόντο μετά την αφαίρεση. Για περαιτέρω παραδείγματα, παρακαλούμε αναφερθείτε στο συνοδευτικό βίντεο που ενσωματώνεται στο τέλος του άρθρου.

Οι πέντε αντιπροσωπευτικές τύποι “επεμβάσεων” που πρέπει να αντιμετωπιστούν ορίζονται από τους συγγραφείς ως οκλουσία, συμπεριλαμβανομένων διαφόρων τύπων γυαλιού και καπνού οκλουσίας; σκιές; φωτισμός (για παράδειγμα, όταν ένα αντικείμενο που πρέπει να αφαιρεθεί δημιουργεί ή αλλάζει τη διαδρομή του φωτός); ανακλάσεις; και παραμόρφωση (για παράδειγμα, η εντύπωση ενός χρήστη σε ένα μαξιλάρι, η οποία δεν πρέπει να επιβιώσει της αφαίρεσης του ανθρώπου).

Πipeline κατασκευής συνόλου δεδομένων για VOR, που συνδυάζει συνθετικά σκηνικά που παράγονται από το Blender με πραγματικές λήψεις, όπου τα συνθετικά δεδομένα κατασκευάζονται από επιλεγμένα 3D περιβάλλοντα, αντικείμενα και τροχιές κάμερας, και πραγματικά βίντεο που ηχογραφούνται σε διάφορες σκηνές, ενισχυμένα με κίνηση Ken Burns. Η SAM2 διαίρεση και η χειροκίνητη βελτίωση παράγουν συγχρονισμένα ζευγαρωμένα βίντεο τριπλών με αντίστοιχους μάσκες.

Για τα πραγματικά πρωτότυπα δεδομένα, οι ερευνητές χρησιμοποίησαν σταθερές κάμερες για να ηχογραφήσουν “με” και “χωρίς” σκηνές που καλύπτουν ένα ευρύ φάσμα περιβαλλόντων, της ώρας της ημέρας και των καιρικών συνθηκών.

Για τα συνθετικά δεδομένα, πολλές οπτικές γωνίες αποδίδονται, και σενάρια πολλαπλών αντικειμένων δημιουργούνται, που παρουσιάζουν σκόπιμα σύνθετα και απαιτητικά τύποι κίνησης κάμερας, όπως μπορεί να συμβεί σε πραγματικά βίντεο· και οι ερευνητές παρατηρούν ότι αυτή η προσέγγιση είναι πιο σύνθετη και επιτυχημένη από αυτή που χρησιμοποιείται για το αλλιώς παρόμοιο Αφαίρεση Αντικειμένων με Πλευρικές Επιπτώσεις σε Βίντεο (ROSE) σύνολο δεδομένων.

Για να αυξηθεί η ποικιλία κίνησης, η επίπτωση Ken Burns εφαρμόστηκε σε ζευγαρωμένα βίντεο που ηχογραφήθηκαν από κάμερα, προσθέτοντας ελεγχόμενες πάνες, ζουμ και ήπια κίνηση χειρός υπό δεκατέσσερις προκαθορισμένες κανόνες, με πέντε μοτίβα κίνησης δειγμάτων ανά ζευγάρι ενώ διατηρούνται μέσα στο αρχικό πλαίσιο.

Η κλίμακα και η ποικιλία επεκτάθηκαν περαιτέρω με τη συνδυασμένη χρήση συνθετικών αντικειμένων με πολλαπλά στήρια κάμερας, Masks γεννήθηκαν με τοποθέτηση χειροκίνητων σημείων σε κλειδιά καρέ, propagating διαίρεση με Segment Anything 2 (SAM2), καθαρίζοντας και βελτιώνοντας αποτελέσματα, και συναρμολόγηση επικυρωμένων προσόψεων, φόντων και τριπλών μάσκων για εκπαίδευση.

Η τελική συλλογή εκτείνεται σε 145 ώρες βίντεο σε 60.000 ζευγαρωμένα βίντεο, πραγματικά και συνθετικά, που καλύπτουν 366 κλάσεις αντικειμένων σε 443 σκηνές.

Το δίκτυο EffectErase نفسه καταναλώνει υλικό μέσω ενός Variational Auto-Encoder (VAE^†), με τη θόρυβο λатεντικής αποσβέσεων που χειρίζεται από το Wan2.1. πάνω σε αυτό το σκελετό, το EffectErase λειτουργεί Αφαίρεση-Εισαγωγή Ενιαία Μάθηση, η οποία εκπαιδεύει και τις δύο εργασίες μαζί στις ίδιες περιοχές; Εργασία-Ευαίσθητη Περιοχική Οδηγία (TARG), η οποία χρησιμοποιεί αντικείμενα και εργασίες tokens με δια-προσοχή για να μοντελοποιήσει χωροχρονικές συνδέσεις μεταξύ αντικειμένων και των επιπτώσεων τους και να επιτρέψει την εναλλαγή εργασιών; και Απώλεια Συνέπειας Επιπτώσεων, η οποία ευθυγραμμίζει περιοχές επιπτώσεων που ευθυγραμμίζονται σε εργασίες αφαίρεσης και εισαγωγής:

Σχήμα για το πλαίσιο EffectErase. Κατά τη διάρκεια της εκπαίδευσης, ζευγαρωμένα βίντεο κωδικοποιούνται σε einen κοινό λανθάνων χώρο, συνδυάζονται με θόρυβο και επεξεργάζονται από einen διαχύτη μεταφοράς με οδηγία δια-προσοχής, ενώ μια απώλεια συνέπειας επιπτώσεων ευθυγραμμίζει περιοχές αφαίρεσης και εισαγωγής ώστε και οι δύο εργασίες να εστιάζουν στην ίδια περιοχή.

Από μόνη της, η διαδικασία αφαίρεσης και εισαγωγής εκπαιδεύεται μαζί, χρησιμοποιώντας einen κοινό διαχύτη μεταφοράς, ώστε το μοντέλο να μάθει να εστιάζει στις ίδιες περιοχές και δομικές ενδείξεις.

Βίντεο με αντικείμενα, βίντεο φόντου μόνο, και μάσκες, κωδικοποιούνται πρώτα σε einen λανθάνων χώρο; θόρυβος προστίθεται για εκπαίδευση διαχύτη, και το μοντέλο μαθαίνει να ανακτήσει καθαρές αναπαραστάσεις υπό οδηγία εργασίας. Ένας ελαφρύς προσαρμογέας συνδυάζει τις θορυβώδεις λειτουργίες με συνθήκες αφαίρεσης ή εισαγωγής, επιτρέποντας και στις δύο εργασίες να μοιράζονται την εποπτεία, ενώ παραμένουν ελεγχόμενες.

Εργασία-Ευαίσθητη Περιοχική Οδηγία δημιουργεί einen εργασία-ειδικό σήμα με τη συνδυασμένη χρήση γλωσσικών tokens με οπτικές λειτουργίες που εξάγονται από το αντικείμενο προσώπου, χρησιμοποιώντας CLIP, αντικαθιστώντας einen γενικό token αντικειμένου με einen ενσωματωμένο που προέρχεται από την πραγματική περιεχόμενο εικόνας. Αυτή η συνδυασμένη αναπαράσταση ενjectεται στο σκελετό μέσω δια-προσοχής, επιτρέποντας στο μοντέλο να παρακολουθήσει πώς ένα αντικείμενο και οι οπτικές του επιπτώσεις εξελίσσονται στο χώρο και τον χρόνο, ενώ επιτρέπει την εύκολη εναλλαγή μεταξύ αφαίρεσης και εισαγωγής.

Απώλεια Συνέπειας Επιπτώσεων αναγκάζει τις διαδικασίες αφαίρεσης και εισαγωγής να εστιάζουν στις ίδιες περιοχές,既然 και οι δύο εργασίες αντιμετωπίζουν το ίδιο αντικείμενο και τις οπτικές του επιπτώσεις. Χαρτογραφίες προσοχής από κάθε κλάδο συνδυάζονται σε μαλακές χαρτογραφίες περιοχών, και ευθυγραμμίζονται με einen χάρτη διαφοράς που υπολογίζεται από τα βίντεο αντικειμένου και φόντου, ώστε να διατηρηθούν οι λεπτές αλλαγές όπως φωτισμός και σκιές. Αυτή η πρόσθετη απώλεια βοηθά την εισαγωγή να οδηγήσει την αφαίρεση και να διατηρήσει και τις δύο εργασίες συνεπείς.

Δεδομένα και Δοκιμές

Οι ερευνητές δοκιμάζουν την προσέγγισή τους έναντι διαφόρων μεθόδων inpainting, βίντεο inpainting και αφαίρεσης αντικειμένων: OmniPaint; ObjectClear; VACE; DiffuEraser; ProPainter; ROSE; και MiniMax-Remover.

Wan2.1 ήταν fine-tuned με LoRA^†† χρησιμοποιώντας το σύνολο δεδομένων VOR σε ανάλυση 832x480px. 81 συνεχόμενα καρέ (το εφαρμοσμένο όριο για WAN, πέρα από το οποίο συμβαίνουν σφάλματα) επιλέχθηκαν τυχαία για εκπαίδευση, η οποία πραγματοποιήθηκε για 129.000 επαναλήψεις σε μέγεθος δείγματος 8, σε οκτώ H100 GPUs, κάθε一个 με 80GB VRAM. Η ταχύτητα εκμάθησης ορίστηκε σε 1×10², και ο βαθμός LoRA σε 256.

Η ROSE-Benchmark συλλογή συνθετικών ήταν το μόνο εξωτερικό σύνολο δεδομένων που δοκιμάστηκε· τα άλλα δύο ήταν VOR-Eval, η VOR δοκιμή διαίρεσης; και VOR-Wild, ένα σύνολο δοκιμών που αποτελείται από 195 πραγματικά βίντεο που συλλέχθηκαν από το διαδίκτυο, που παρουσιάζουν “δυναμικά αντικείμενα”.

Οι μετρικές που χρησιμοποιήθηκαν ήταν Peak Signal-to-Noise Ratio (PSNR); Structural Similarity Index (SSIM); Learned Perceptual Image Patch Similarity (LPIPS); και Fréchet Video Distance (FVD). Μια μελέτη χρηστών 195 γεννημένων βίντεο από VOR-Wild επίσης λήφθηκε υπόψη, με μέσες βαθμολογίες από 20 εθελοντές που λήφθηκαν υπόψη.

Επιπλέον, οι συγγραφείς ανέπτυξαν QScore, μια μετρική που αξιοποιεί το Qwen-VL πολυμεσικό μοντέλο, για να αξιολογήσει την ποιότητα της αφαίρεσης αντικειμένου βίντεο, σε σχέση με τις υπολείμματα επιπτώσεων ή τις λείψανες περιβαλλοντικές αφαίρεσεις, όπως σκιές και επιπτώσεις φωτισμού:

Ποσοτική σύγκριση σε ROSE και VOR βάσεις, με τις καλύτερες και δεύτερες καλύτερες επιδόσεις που εμφανίζονται με έντονα και υπογραμμισμένα, αντίστοιχα.

Σχετικά με αυτά τα αποτελέσματα, οι συγγραφείς σημειώνουν:

‘[Οι τρέχουσες] μεθόδους inpainting λειτουργούν σε μεμονωμένα καρέ χρησιμοποιώντας 2D μοντέλα χωρίς χρονική μοντελοποίηση, και επομένως αποτυγχάνουν να διατηρήσουν τη χρονική συνέπεια στα βίντεο.

Οι πρόσφατες μεθόδους inpainting βίντεο δεν μοντελοποιούν ρητά τις πλευρικές επιπτώσεις του αντικειμένου, με αποτέλεσμα την αφαίρεση να μην είναι φυσική. Οι υπάρχουσες μεθόδους αφαίρεσης αντικειμένων βίντεο λείπουν της μοντελοποίησης χωροχρονικής συσχέτισης μεταξύ του αντικειμένου και των πλευρικών επιπτώσεων, και επομένως συχνά παράγουν αρτεφάκτα και υπολείμματα των αφαιρεθέντων αντικειμένων.

‘Συνολικά, το EffectErase επιτυγχάνει την καλύτερη απόδοση σε όλα τα σύνολα δεδομένων και τις μετρικές αξιολόγησης. Παράγει τις καλύτερες βαθμολογίες στη μετρική ποιότητας βίντεο FVD, δείχνοντας ανώτερη ομαλή και συνέπεια των γεννημένων βίντεο.

‘Η μέθοδός μας επίσης επιτυγχάνει την υψηλότερη QScore και τις υψηλότερες βαθμολογίες χρηστών, επιβεβαιώνοντας περαιτέρω την αποτελεσματικότητά της στην παραγωγή οπτικά πειστικών αποτελεσμάτων αφαίρεσης.’

Για την ποιοτική αξιολόγηση, στατικά αποτελέσματα προσφέρονται στο έγγραφο (δείχνουν) απευθείας κάτω, καθώς και κινούμενα αποτελέσματα είναι διαθέσιμα στον ιστότοπο έργου και στο συνοδευτικό βίντεο παρουσίασης στο YouTube:

Ποιοτική σύγκριση σε VOR-Eval σε οκλουσία, σκιές, φωτισμό, ανακλάσεις και παραμόρφωση. Οι μεθόδους inpainting δυσκολεύονται να αφαιρέσουν επιπτώσεις έξω από τη μάσκα, ενώ οι μεθόδους αφαίρεσης συχνά αφήνουν ορατά αρτεφάκτα. Το EffectErase αφαιρεί και το στόχο αντικείμενο και τις συσχετιζόμενες επιπτώσεις πιο καθαρά. Παρακαλούμε αναφερθείτε στο πηγή έγγραφο για καλύτερη ανάλυση, και στον ιστότοπο έργου για παραδείγματα βίντεο.

Παρακαλούμε αναφερθείτε σε διάφορα συναφή παραδείγματα στον ιστότοπο έργου, που προβλέπονται παρακάτω, καθώς και στο επίσημο βίντεο στο YouTube που ενσωματώνεται στο τέλος του άρθρου:

Πατήστε για αναπαραγωγή. Ένα δείγμα σύγκρισης από τον ιστότοπο έργου του EffectErase. Παρακαλούμε αναφερθείτε στον ιστότοπο για καλύτερη ανάλυση (με τις προαναφερθείσες προφυλάξεις) και για περαιτέρω παραδείγματα.

Οι συγγραφείς σχολιάζουν:

‘Οι μεθόδους inpainting βίντεο συχνά παράγουν αρτεφάκτα στις περιοχές μάσκας και δεν μπορούν να αφαιρέσουν πλήρως τις πλευρικές επιπτώσεις που προκαλούνται από το αφαιρεθέν αντικείμενο. Οι προηγούμενες μεθόδους αφαίρεσης αντικειμένων, όπως [ROSE] και [MinMax-Remover], λειτουργούν καλά στην αφαίρεση του στόχου αντικειμένου αλλά vẫn δυσκολεύονται με τις πλευρικές επιπτώσεις, ιδιαίτερα σε σενάρια οκλουσίας, σκιών, φωτισμού, ανακλάσεων και παραμόρφωσης.

‘Αντίθετα, το EffectErase αφαιρεί αποτελεσματικά και το στόχο αντικείμενο και τις συσχετιζόμενες επιπτώσεις, με αποτέλεσμα καθαρά, συνεκτικά και υψηλής ποιότητας αποτελέσματα.’

Σε κλείσιμο, οι ερευνητές παρατηρούν ότι η μέθοδός τους μπορεί επίσης να προσαρμοστεί για εργασίες εισαγωγής αντί για αφαίρεσης, χωρίς την ανάγκη για πρόσθετη εκπαίδευση:

Αποτελέσματα εισαγωγής αντικειμένου βίντεο. Το EffectErase εισάγει αντικείμενα διατηρώντας το φόντο και παράγοντας συνεπείς αντικειμενο-προκαλούμενες επιπτώσεις όπως σκιές και ανακλάσεις σε καρέ.

Αποτελέσματα βίντεο για την εργασία εισαγωγής μπορούν να φανούν στο (χρονικά-ειδικά) βίντεο στο YouTube παραδείγματα (επίσης ενσωματωμένα χωρίς χρονικά-σημεία στο τέλος του άρθρου).

Συμπέρασμα

Μια ματιά σε παρόμοια έργα στη βιβλιογραφία αποκαλύπτει ότι πολλά ακόμα ελπίζουν ότι οι γενικής χρήσης μοντέλα VFX θα είναι σε θέση να ενσωματώσουν αυτό το είδος λειτουργικότητας σε ένα γενικό ‘εργαλείο’ μοντέλο που σχεδιάζεται για eine σειρά από επιπτώσεις, αντί για αυτήν την συγκεκριμένη εργασία.

Ωστόσο, με βάση την αρχή “jack of all trades”, φαίνεται λογικό να υποθέσουμε ότι αφοσιωμένα συστήματα όπως το EffectErase θα συνεχίσουν να διατηρούν ένα πλεονέκτημα έναντι πιο γενικών προσεγγίσεων· με την επιφύλαξη ότι ο χάσμα μπορεί τελικά να συρρικνωθεί αρκετά για να κάνει τη διαφορά να μην αξίζει την πρόσθετη προσπάθεια εκπαίδευσης ενός διακριτού μοντέλου.

* Θα ήταν καλό, με τις αυξανόμενες ανησυχίες γύρω από το ζήτημα της προέλευσης IP, να αναφερθούν όλες οι τέτοιες πηγές· αλλά αν τα διαθέσιμα υλικά από το νέο έργο λίστα της πηγής των 3D μοντέλων, δεν μπόρεσα να το βρω αυτήν την αναφορά.

^†Η αναφορά που παρέχεται φαίνεται να είναι ένα γενικό ερμηνευτικό κείμενο από το 2013, με το συγκεκριμένο VAE να μην περιγράφεται.

^†† Παρατηρήθηκε από το έγγραφο, αυτό είναι μια σημασιολογικά ασαφής περιγραφή,既然 η λεπτομέρεια και LoRA είναι διαφορετικές διαδικασίες με πολύ διαφορετικές απαιτήσεις.

Πρώτη δημοσίευση Σάββατο, 21 Μαρτίου 2026

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]