Unghiul lui Anderson
Ștergerea obiectelor și a oamenilor din videoclipuri cu ajutorul inteligenței artificiale

Nu, copilul nu rămâne în imagine, dacă inteligența artificială are ceva de spus în această privință.
Ștergerea oamenilor și a obiectelor din imagini și videoclipuri este o sub-ramură populară de cercetare în literatura de specialitate a inteligenței artificiale axată pe efecte vizuale, cu un număr tot mai mare de seturi de date și cadre dedicate care abordează această provocare. Ultimul dintre acestea, de la Institutul de Date Mari de la Universitatea Fudan din China, este EffectErase, un sistem de ștergere a obiectelor din videoclipuri “conștient de efecte” care, după cum susțin autorii, îmbunătățește în mod semnificativ starea actuală a tehnologiei în testele efectuate:
Asamblate din materialul de pe site-ul proiectului, exemple ale metodei EffectErase (vă rugăm să notați că, deși oferim un link, site-ul sursă conține atâtea videoclipuri cu rezoluție înaltă și neoptimizate care rulează automat, încât poate afecta stabilitatea browser-ului dvs. Videoclipul YouTube însoțitor este o referință mai ușoară și mai completă și este încorporat la sfârșitul acestui articol). Sursă
Noua lucrare a implicat crearea și curarea unui set de date semi-nou, cuprinzând aproape 350 de scene originale din lumea reală și sintetizate (folosind depozite publice*), capturate cu echipamente dedicate sau sursă și reutilizate într-un flux de lucru construit în jurul cadruului open source Blender 3D.
Setul hibrid de ștergere a obiectelor din videoclipuri (VOR) formează baza aplicației EffectErase în sine, care este construită pe sistemul de generare a videoclipurilor Wan2.1. Sistemul definește, de asemenea, două noi repere conexe: VOR Eval și VOR Wild – respectiv, pentru mostre cu și fără adevăr de bază.
(Deși articolul are un site de proiect însoțitor, este destul de încărcat cu multiple videoclipuri cu rezoluție înaltă și greu de încărcat; așa că vă rog să consultați extrasele pe care le-am curățat în videoclipul încorporat mai sus, dacă găsiți site-ul proiectului dificil de utilizat)

O comparație a cantităților din seturile de date anterioare, în raport cu noua ofertă. Sursă
Cercetătorii afirmă că abordarea lor oferă o performanță de ultimă generație, atât în ceea ce privește metricile cantitative, cât și rezultatele calitative, așa cum au fost evaluate prin intermediul unui studiu uman.
Ei notează că lucrările anterioare nu au reușit întotdeauna să elimine efectele conexe ale unui obiect, cum ar fi umbrele și reflexiile, și că setul lor de date a fost creat cu atenție pentru a remedia această lacună:

Exemple ale modului în care abordările anterioare nu au reușit să depășească obiectul căutat pentru ștergere, pentru a ajunge la indicații secundare, cum ar fi reflexiile și umbrele.
Noul articol se intitulează EffectErase: Ștergerea și inserarea obiectelor din videoclipuri pentru ștergerea efectelor de înaltă calitate și provine de la patru cercetători de la Facultatea de Științe a Calculatoarelor și Inteligență Artificială a Universității Fudan.
Metodă
Setul de date hibrid VOR a fost proiectat pentru a cuprinde un spectru suficient de larg de scenarii, astfel încât să acopere toate implicațiile încercării de a elimina o persoană sau un obiect dintr-un videoclip:

Cadrul pereche din setul de date VOR ilustrează modul în care ștergerea obiectului trebuie să depășească subiectul vizibil pentru a ajunge la efectele sale induse, cu exemple care arată occluziune, umbră, schimbări de iluminare, reflexii și deformări fizice, prezentate ca intrare (obiect prezent) alături de fundalul curat corespunzător după ștergere. Pentru exemple suplimentare, vă rugăm să consultați videoclipul YouTube însoțitor încorporat la sfârșitul acestui articol.
Cele cinci tipuri reprezentative de “interferență” care trebuie abordate sunt definite de autori ca occluziune, inclusiv diverse tipuri de occluziune cu sticlă și fum; umbre; iluminare (de exemplu, atunci când un obiect care urmează a fi eliminat creează sau alterează calea luminii); reflexie; și deformare (de exemplu, amprenta unei persoane pe o pernă, care nu ar trebui să supraviețuiască eliminării sale).

Construcția setului de date VOR, care combină scenele sintetice generate de Blender cu capturile din lumea reală, unde datele sintetice sunt construite din medii 3D, obiecte și trasee de cameră curate, și filmări reale înregistrate în diverse scene, augmentate cu mișcarea Ken Burns. Segmentarea SAM2 și rafinarea manuală produc apoi tripleți de videoclipuri aliniate cu fundal și masca corespunzătoare.
Pentru datele reale originale, cercetătorii au folosit camere fixe pentru a înregistra scene “cu” și “fără” care acoperă o gamă largă de medii, ore din zi și condiții meteorologice.
Pentru datele sintetice, au fost generate multiple puncte de vedere, și au fost create scenarii cu mai multe obiecte, care prezintă mișcări complexe și provocatoare de cameră, așa cum ar apărea în filmări din lumea reală; și cercetătorii observă că această abordare este mai sofisticată și mai solicitantă decât cea utilizată pentru setul de date Remove Objects with Side Effects in Videos (ROSE) similar.
Pentru a crește diversitatea de mișcare, a fost aplicat efectul Ken Burns perechilor de camere, adăugând panoramări, zoom-uri și mișcări ușoare cu mâna, sub paisprezece reguli predefinite, cu cinci modele de mișcare eșantionate pe pereche, în timp ce se păstrează cultura în cadrul original.
Scalabilitatea și diversitatea au fost extinse și mai mult prin combinarea obiectelor sintetice cu multiple configurații de cameră, măști generate prin plasarea de puncte de referință manuale pe cadrul cheie, propagarea segmentării cu Segment Anything 2 (SAM2), curățarea și rafinarea rezultatelor, și asamblarea tripleților de fundal, obiect și mască validate pentru antrenament.
Colecția finală cuprinde 145 de ore de videoclipuri pe 60.000 de videoclipuri pereche, reale și sintetice, care acoperă 366 de clase de obiecte în 443 de scene.
Rețeaua EffectErase înghite materialul prin intermediul unui Auto-Encoder Variational (VAE)†, cu zgomotul latent tratat de Wan2.1. Pe această bază, EffectErase funcționează Învățarea comună a ștergerii și inserării, care antrenează ambele sarcini împreună pe aceleași regiuni; Îndrumarea regiunii conștiente de sarcină (TARG), care utilizează token-uri de obiect și sarcină cu atenție încrucișată pentru a modela legăturile spațio-temporale dintre obiecte și efectele lor și pentru a permite comutarea sarcinilor; și Pierderea consistenței efectului, care aliniază regiunile efectului pe ștergerea și inserarea sarcinilor:

Schema cadrului EffectErase. În timpul antrenamentului, videoclipurile pereche sunt codificate într-un spațiu latent comun, fuzionate cu zgomot și procesate de un transformator de difuzie ghidat de atenția încrucișată conștientă de sarcină, în timp ce o pierdere a consistenței efectului aliniază regiunile ștergerii și inserării, astfel încât ambele sarcini să se concentreze pe aceeași zonă.
În ele însele, procesele de ștergere și inserare sunt antrenate împreună, utilizând o bază de difuzie comună, astfel încât modelul să învețe să se concentreze pe aceleași regiuni afectate și pe indicii structurale.
Videoclipurile cu obiecte, videoclipurile cu fundal doar și măștile sunt mai întâi codificate într-un spațiu latent; apoi se adaugă zgomot pentru antrenamentul de difuzie, și modelul învață să recupereze reprezentări curate sub îndrumarea specifică sarcinii. Un adaptor ușor fuzionează apoi caracteristicile zgomotoase cu condițiile de ștergere sau inserare, permițând ambelor sarcini să partajeze supravegherea, în timp ce rămân controlabile.
Îndrumarea regiunii conștiente de sarcină creează un semnal specific sarcinii prin combinarea token-urilor de limbaj cu caracteristicile vizuale extrase din obiectul din prim-plan, utilizând CLIP, înlocuind un token de obiect generic cu o încorporare derivată din conținutul real al imaginii. Această reprezentare fuzionată este injectată în baza de date prin atenție încrucișată, permițând modelului să urmărească modul în care un obiect și efectele sale vizuale evoluează în spațiu și timp, în timp ce permite comutarea flexibilă între ștergerea și inserarea sarcinilor.
Pierderea consistenței efectului forțează procesele de ștergere și inserare să se concentreze pe aceleași regiuni modificate, deoarece ambele sarcini se ocupă de același obiect și de efectele sale vizuale. Harta atenției din fiecare ramură este apoi combinată în hărți moi de regiuni, și aliniate cu o hartă a diferenței calculate din videoclipurile obiectului și fundalului, astfel încât schimbări subtile, cum ar fi iluminarea și umbrele, să fie păstrate. Această pierdere suplimentară ajută inserarea să ghideze ștergerea și menține ambele sarcini consistente.
Date și teste
Cercetătorii au testat abordarea lor împotriva diverselor metode de completare, completare de videoclipuri și ștergere a obiectelor: OmniPaint; ObjectClear; VACE; DiffuEraser; ProPainter; ROSE; și MiniMax-Remover.
Wan2.1 a fost reglat cu LoRA†† utilizând setul de date VOR la o rezoluție de 832x480px. 81 de cadre consecutive (limita efectivă pentru WAN, dincolo de care erorile tind să apară) au fost eșantionate aleatoriu pentru antrenament, care a avut loc timp de 129.000 de iterații la o dimensiune a lotului de 8, pe opt procesoare H100 GPU, fiecare cu 80GB de VRAM. Rata de învățare a fost setată la 1×102, și rangul LoRA la 256.
Setul de date ROSE-Benchmark sintetic a fost singurul set de date extern testat; celelalte două au fost VOR-Eval, setul de date de test VOR împărțit; și VOR-Wild, un set de test care cuprinde 195 de videoclipuri reale extrase de pe internet, care prezintă “obiecte dinamice”.
Metricile utilizate au fost Raportul de semnal la zgomot de vârf (PSNR); Indexul de similaritate structurală (SSIM); Similaritatea perceptuală a patch-urilor de imagine învățate (LPIPS); și Distanța videoclipului Fréchet (FVD). De asemenea, a fost efectuat un studiu cu utilizatori asupra a 195 de videoclipuri generate din VOR-Wild, cu evaluări medii de la 20 de voluntari luate în considerare.
În plus, autorii au conceput QScore, o metrică care utilizează modelul multimodal Qwen-VL pentru a evalua calitatea videoclipurilor cu obiecte eliminate, în ceea ce privește artefactele rămase sau eliminările de mediu ratate, cum ar fi umbrele și efectele de iluminare:

Comparație cantitativă pe reperele ROSE și VOR, cu rezultatele cele mai bune și cele mai bune a doua prezentate în caractere aldine și subliniate, respectiv.
În ceea ce privește aceste rezultate, autorii notează:
‘Metodele actuale de completare a imaginilor operează pe cadre individuale utilizând modele 2D fără modelare temporală și, prin urmare, nu reușesc să mențină coerența temporală în videoclipuri.
Metodele recente de completare a videoclipurilor nu modelează în mod explicit efectele secundare ale obiectelor, ceea ce duce la rezultate ne naturale. Abordările existente de ștergere a obiectelor din videoclipuri lipsesc modelarea corelației spațio-temporale dintre obiect și efectele sale secundare și, în consecință, adesea produc artefacte și urme reziduale ale obiectelor eliminate.
‘În general, EffectErase obține o performanță de ultimă generație în toate seturile de date și metricile de evaluare. Obține cele mai bune scoruri pe metrica calității videoclipului FVD, demonstrând o netedire temporală și o coerență superioară a videoclipurilor generate.
‘Metoda noastră obține, de asemenea, cel mai ridicat scor QScore și evaluări ale utilizatorilor, demonstrând în continuare eficacitatea sa în producerea de rezultate de ștergere convingătoare din punct de vedere vizual.’
Pentru evaluarea calitativă, rezultatele statice sunt oferite în articol (prezentate direct mai jos), precum și rezultatele în mișcare, disponibile pe site-ul proiectului și în videoclipul YouTube însoțitor:

Comparație calitativă pe VOR-Eval pentru cazurile de occluziune, umbră, iluminare, reflexie și deformare. Metodele de completare a imaginilor au dificultăți în a elimina efectele din afara măștii, în timp ce modelele de ștergere a obiectelor adesea lasă artefacte vizibile. EffectErase elimină atât obiectele țintă, cât și efectele lor asociate, într-un mod mai curat. Vă rugăm să consultați articolul sursă pentru o rezoluție mai bună și site-ul proiectului pentru exemple de videoclipuri.
De asemenea, vă rugăm să consultați exemplele diverse de pe site-ul proiectului, prezentate mai jos, precum și videoclipul YouTube oficial încorporat la sfârșitul acestui articol:
Faceți clic pentru a reda. Un exemplu de comparație de pe site-ul EffectErase. Vă rugăm să consultați site-ul pentru o rezoluție mai bună (cu rezervele menționate) și pentru exemple suplimentare.
Autorii comentează:
‘Metodele de completare a videoclipurilor adesea produc artefacte în regiunile mascate și nu reușesc să elimine complet efectele secundare cauzate de obiectele eliminate. Abordările anterioare de ștergere a obiectelor, cum ar fi [ROSE] și [MinMax-Remover], se descurcă bine în eliminarea obiectelor țintă, dar totuși au dificultăți cu efectele secundare, în special în scenariile de occluziune, umbră, iluminare, reflexie și deformare.
‘În schimb, EffectErase elimină atât obiectele țintă, cât și efectele lor asociate, rezultând în rezultate curate, coerente și de înaltă calitate.’
În încheiere, cercetătorii observă că metoda lor poate fi adaptată, de asemenea, pentru sarcini de inserare, în loc de ștergere, fără a necesita antrenament suplimentar:

Rezultatele inserării obiectelor din videoclipuri. EffectErase inserează obiecte, păstrând conținutul fundalului și generând efecte induse de obiecte, cum ar fi umbre și reflexii, consistente pe cadre.
Rezultatele videoclipurilor pentru sarcina de inserare pot fi văzute în (videoclipul YouTube specific timpului) (de asemenea, încorporat fără timpi la sfârșitul articolului).
Concluzie
O privire asupra proiectelor similare din literatură arată că multe dintre ele încă speră că modelele generale de efecte vizuale vor fi în cele din urmă capabile să încorporeze acest tip de funcționalitate într-un model de “cutie de unelte” general, destinat unei game largi de efecte, și nu doar acestei sarcini specifice.
Cu toate acestea, pe principiul “omul care își face singur treaba”, pare rezonabil să se presupună că sistemele dedicate, cum ar fi EffectErase, vor continua să mențină un avantaj față de abordările mai generale; cu rezerva că diferența poate contracta în cele din urmă suficient de mult pentru a face ca efortul suplimentar de antrenare a unui model discret să nu mai fie justificat.
* Ar fi de dorit, având în vedere preocupările crescânde legate de problema provenienței drepturilor de autor, ca toate aceste surse să fie citate; dar dacă materialele disponibile din noua lucrare listează sursa modelelor 3D, nu am putut să găsesc această referință.
† Referința furnizată pare a fi un text explicativ generic din 2013, cu VAE specifică nelămurită.
†† Luate din articol, aceasta este o descriere semantică neclară, deoarece reglarea și LoRA sunt procese diferite cu cerințe foarte diferite.
Publicat pentru prima dată sâmbătă, 21 martie 2026












