Unghiul lui Anderson
Drumul către o mai bună editare video bazată pe AI

Sectorul de cercetare a sintezei video/imagine produce în mod regulat arhitecturi de editare video*, iar în ultimele nouă luni, ieșirile de această natură au devenit și mai frecvente. Acestea fiind spuse, cele mai multe dintre ele reprezintă doar progrese incrementale în ceea ce privește stadiul tehnicii, deoarece provocările de bază sunt substanțiale.
Cu toate acestea, o nouă colaborare între China și Japonia în această săptămână a produs câteva exemple care merită o examinare mai atentă a abordării, chiar dacă nu este neapărat o lucrare de reper.
În clipul video de mai jos (de pe site-ul proiectului asociat lucrării, care – fiți avertizat – vă poate taxa browserul) vedem că, în timp ce capabilitățile de deepfaking ale sistemului sunt inexistente în configurația actuală, sistemul face o treabă bună de a modifica în mod plauzibil și semnificativ identitatea tinerei din imagine, pe baza unei mască video (stânga jos):
Faceți clic pentru a juca. Pe baza măștii de segmentare semantică vizualizată în stânga jos, femeia originală (stânga sus) este transformată într-o identitate notabil diferită, chiar dacă acest proces nu realizează schimbarea de identitate indicată în prompt. Sursa: https://yxbian23.github.io/project/video-painter/ (rețineți că, în momentul scrierii acestui articol, acest site cu redare automată și plin de videoclipuri avea tendința de a bloca browserul meu). Vă rugăm să consultați videoclipurile sursă, dacă le puteți accesa, pentru o rezoluție și detalii mai bune sau să consultați exemplele din videoclipul de prezentare generală a proiectului la adresa https://www.youtube.com/watch?v=HYzNfsD3A0s
Editarea pe bază de mască de acest fel este bine stabilită în static modele de difuzie latentă, folosind instrumente precum ControlNet. Cu toate acestea, menținerea consistenței de fundal în videoclipuri este mult mai dificilă, chiar și atunci când zonele mascate oferă modelului flexibilitate creativă, după cum se arată mai jos:
Faceți clic pentru a juca. O schimbare de specie, cu noua metodă VideoPainter. Vă rugăm să consultați videoclipurile sursă, dacă le puteți accesa, pentru o rezoluție și detalii mai bune sau să consultați exemplele din videoclipul de prezentare generală a proiectului la https://www.youtube.com/watch?v=HYzNfsD3A0s
Autorii noii lucrări își analizează metoda atât în ceea ce privește propria perspectivă a Tencent, BrushNet arhitectura (care am acoperit anul trecut), și la ControlNet, ambele tratând o arhitectură cu două ramuri capabile să izoleze generarea primului plan și a fundalului.
Cu toate acestea, aplicarea acestei metode direct la abordarea foarte productivă a transformatoarelor de difuzie (DiT). propus de către Sora de la OpenAI, aduce provocări specifice, după cum notează autorii”
„[Direct] aplicarea [arhitecturii BrushNet și ControlNet] la DiT video prezintă mai multe provocări: [În primul rând, având în vedere] fundația generativă robustă a Video DiT și dimensiunea mare a modelului, replicarea coloanei vertebrale Video DiT complet/semi-gigant ca codificator de context ar fi inutilă și prohibitivă din punct de vedere computațional.
„[În al doilea rând, spre deosebire de] ramura de control convoluțional pur a BrushNet, jetoanele DiT din regiunile mascate conțin în mod inerent informații de fundal datorită atenției globale, complicând distincția dintre regiunile mascate și cele nemascate în coloana vertebrală DiT.
„[În cele din urmă], ControlNet nu are injecție de caracteristici în toate straturile, ceea ce împiedică controlul dens al fundalului pentru sarcinile de re-picturare.”
Prin urmare, cercetătorii au dezvoltat o abordare plug-and-play sub forma unui cadru cu două ramuri intitulat VideoPainter.
VideoPainter oferă un cadru de inpainting video cu două ramificații care îmbunătățește DiT-urile pre-antrenate cu un codificator de context ușor. Acest codificator reprezintă doar 6% din parametrii rețelei principale, ceea ce, susțin autorii, face ca abordarea să fie mai eficientă decât metodele convenționale.
Modelul propune trei inovații cheie: un codificator de context simplificat cu două straturi pentru ghidare eficientă în fundal; un sistem de integrare a caracteristicilor selective pentru mască care separă jetoanele mascate și nemascate; și o tehnică de reeșantionare a ID-ului regiunii de inpainting care menține consistența identității pe secvențele video lungi.
By congelare Atât DiT pre-antrenat, cât și codificatorul de context, în timp ce introduce un ID-Adaptor, VideoPainter se asigură că simbolurile de regiune de inpainting din clipurile anterioare persistă pe tot parcursul unui videoclip, reducând pâlpâirea și inconsecvențele.
Cadrul este, de asemenea, proiectat pentru compatibilitate plug-and-play, permițând utilizatorilor să-l integreze perfect în fluxurile de lucru existente de generare și editare video.
Pentru a sprijini munca, care folosește CogVideo-5B-I2V ca motor generativ, autorii au organizat ceea ce ei declară că este cel mai mare set de date de pictură video de până acum. Intitulat VPData, colecția constă din peste 390,000 de clipuri, pentru o durată totală a videoclipului de peste 886 de ore. Ei au dezvoltat, de asemenea, un cadru de evaluare comparativ intitulat VPBench.
Faceți clic pentru a juca. Din exemplele de pe site-ul proiectului, observăm capacitățile de segmentare oferite de colecția VPData și de suita de teste VPBench. Vă rugăm să consultați videoclipurile sursă, dacă le puteți accesa, pentru o rezoluție și detalii mai bune sau să consultați exemplele din videoclipul de prezentare generală a proiectului la https://www.youtube.com/watch?v=HYzNfsD3A0s
lucrare nouă se intitulează VideoPainter: Pictură și editare video pe orice lungime cu control context Plug-and-Playși provine de la șapte autori de la Tencent ARC Lab, Universitatea Chineză din Hong Kong, Universitatea din Tokyo și Universitatea din Macao.
Pe lângă site-ul proiectului menționat mai sus, autorii au lansat și un site mai accesibil Prezentare generală YouTube, precum și a Pagina Hugging Face.
Metodă
Canalul de colectare a datelor pentru VPData constă în colectare, adnotare, împărțire, selecție și subtitrare:

Schema pentru conducta de construcție a setului de date. Sursa: https://arxiv.org/pdf/2503.05639
Din colecțiile sursă utilizate pentru această compilație provin Video și Pexels, cu un volum inițial de aproximativ 450,000 de videoclipuri obținute.
Mai multe biblioteci și metode care contribuie au cuprins etapa de pre-procesare: the Recunoaște orice framework a fost folosit pentru a oferi etichetare video deschisă, însărcinată cu identificarea obiectelor primare; Pământul lui Dino a fost folosit pentru detectarea cutiilor de delimitare din jurul obiectelor identificate; iar cel Segmentează orice model 2 (SAM 2) a fost folosit pentru a rafina aceste selecții grosiere în segmente de mască de înaltă calitate.
Pentru a gestiona tranzițiile scenei și pentru a asigura coerența în pictura video, folosește VideoPainter PySceneDetect pentru a identifica și segmenta clipurile la punctele de întrerupere naturale, evitând schimbările perturbatoare cauzate adesea de urmărirea aceluiași obiect din mai multe unghiuri. Clipurile au fost împărțite în intervale de 10 secunde, cu orice altceva mai scurt de șase secunde eliminat.
Pentru selectarea datelor au fost aplicate trei criterii de filtrare: calitate estetica, evaluat cu Laion-Estetic Score Predictor; puterea de mișcare, măsurată prin flux optic folosind PLUTĂŞi siguranța conținutului, verificat prin Stable Diffusion's Verificator de siguranță.
O limitare majoră în seturile de date de segmentare video existente este lipsa adnotărilor textuale detaliate, care sunt cruciale pentru ghidarea modelelor generative:

Cercetătorii subliniază lipsa de subtitrări video în colecții comparabile.
Prin urmare, procesul de curatare a datelor VideoPainter încorporează diverse modele de limbaj viziune de vârf, inclusiv CogVLM2 și Chat GPT-4o pentru a genera legendele bazate pe cadre cheie și descrieri detaliate ale regiunilor mascate.
VideoPainter îmbunătățește DiT-urile pre-antrenate prin introducerea unui codificator de context personalizat ușor care separă extragerea contextului de fundal de generarea primului plan, văzută în dreapta sus a schemei ilustrative de mai jos:

Schemă conceptuală pentru VideoPainter. Codificatorul de context al VideoPainter procesează semnale latente zgomotoase, măști subeșantionate și semnale latente video mascate prin VAE, integrând doar token-uri de fundal în DiT pre-antrenat pentru a evita ambiguitatea. Adaptorul de resamplere ID asigură consecvența identității prin concatenarea token-urilor regiunilor mascate în timpul antrenamentului și reeșantionarea lor din clipurile anterioare în timpul inferenței.
În loc să încarce coloana vertebrală cu procesare redundantă, acest codificator funcționează pe o intrare simplificată: o combinație de video zgomotos latent, mascat (extras printr-o autoencoder variațional, sau VAE), și măști subeșantionate.
Latentele zgomotoase oferă context de generare, iar latentele video mascate se aliniază cu distribuția existentă a DiT, cu scopul de a îmbunătăți compatibilitatea.
În loc să dubleze secțiuni mari ale modelului, despre care autorii afirmă că a apărut în lucrări anterioare, VideoPainter integrează doar primele două straturi ale DiT. Aceste caracteristici extrase sunt reintroduse în DiT înghețat într-o manieră structurată, în funcție de grup – caracteristicile stratului timpuriu informează jumătatea inițială a modelului, în timp ce caracteristicile ulterioare rafinează a doua jumătate.
În plus, un mecanism selectiv de simboluri asigură reintegrarea numai a caracteristicilor relevante pentru fundal, prevenind confuzia între regiunile mascate și cele nemascate. Această abordare, susțin autorii, permite VideoPainter să mențină o fidelitate ridicată în conservarea fundalului, îmbunătățind în același timp eficiența picturii în prim-plan.
Autorii notează că metoda pe care o propun acceptă diverse metode de stilizare, inclusiv cele mai populare, Adaptare de rang scăzut (LoRA).
Date și teste
VideoPainter a fost instruit folosind modelul CogVideo-5B-I2V, împreună cu echivalentul său text-to-video. Corpul VPData curatat a fost utilizat la 480x720px, la a rata de învățare de 1 × 10-5.
Adaptorul ID Resample a fost antrenat pentru 2,000 de pași, iar codificatorul de context pentru 80,000 de pași, ambele utilizând AdamW optimizator. Antrenamentul a avut loc în două etape folosind un formidabil 64 de GPU-uri NVIDIA V100 (deși lucrarea nu specifică dacă acestea aveau 16 GB sau 32 GB de VRAM).
Pentru benchmarking, Davis a fost utilizat pentru măști aleatorii, iar propriul VPBench al autorilor pentru măști bazate pe segmentare.
Setul de date VPBench include obiecte, animale, oameni, peisaje și diverse sarcini și acoperă patru acțiuni: adăuga, scoate, Schimbare și schimba. Colecția conține 45 de videoclipuri de 6 secunde și nouă videoclipuri care durează, în medie, 30 de secunde.
Opt metrici au fost utilizate pentru proces. Pentru Conservarea Regiunii Mascate, autorii au folosit Raportul semnal-zgomot de vârf (PSNR); Metricurile de similitudine perceptivă învățate (LPIPS); Indicele de similaritate structurală (SSIM); şi Eroare absolută medie (MAE).
Pentru alinierea textului, cercetătorii au folosit CLIP Similaritate atât pentru a evalua distanța semantică dintre legenda clipului și conținutul său real perceput, cât și pentru a evalua acuratețea regiunilor mascate.
Pentru a evalua calitatea generală a videoclipurilor de ieșire, Distanța video Fréchet (FVD) a fost utilizat.
Pentru o rundă de comparație cantitativă pentru pictura video, autorii și-au stabilit sistemul împotriva abordărilor anterioare ProPainter, COCOCO și Cog-Inp (CogVideoX). Testul a constat în încorporarea primului cadru al unui clip utilizând modele de imagine în pictura, apoi în utilizarea unei coloane vertebrale imagine-video (I2V) pentru a propaga rezultatele într-o operație de amestec latentă, în conformitate cu o metodă propusă de un Hârtie 2023 din Israel.
Întrucât site-ul web al proiectului nu este complet funcțional în momentul scrierii și întrucât videoclipul YouTube asociat proiectului s-ar putea să nu includă toate exemplele incluse pe site-ul proiectului, este destul de dificil să găsim exemple video care să fie foarte specifice rezultatelor prezentate în lucrare. Prin urmare, vom afișa rezultate statice parțiale prezentate în lucrare și vom încheia articolul cu câteva exemple video suplimentare pe care am reușit să le extragem de pe site-ul proiectului.

Comparație cantitativă a VideoPainter vs. ProPainter, COCOCO și Cog-Inp pe VPBench (măști de segmentare) și Davis (măști aleatorii). Valorile acoperă conservarea regiunilor mascate, alinierea textului și calitatea video. Roșu = cel mai bun, Albastru = al doilea cel mai bun.
Dintre aceste rezultate calitative, autorii comentează:
„În VPBench bazat pe segmentare, ProPainter și COCOCO prezintă cea mai slabă performanță în majoritatea parametrilor, în primul rând din cauza incapacității de a picta obiecte complet mascate și a dificultății arhitecturii cu un singur backbone de a echilibra conservarea fundalului concurent și, respectiv, generarea primului plan.
„În cadrul testului de măști aleatorii Davis, ProPainter prezintă îmbunătățiri prin valorificarea informațiilor parțiale din fundal. Cu toate acestea, VideoPainter obține performanțe optime în segmentare (lungime standard și lungă) și măști aleatorii prin arhitectura sa cu două ramificații, care decuplează eficient conservarea fundalului de generarea prim-planului.”
Autorii prezintă apoi exemple statice de teste calitative, dintre care prezentăm o selecție mai jos. În toate cazurile, trimitem cititorul către site-ul proiectului și videoclipul YouTube pentru o mai bună rezoluție.

O comparație cu metodele de inpainting din cadrele anterioare.
Faceți clic pentru a juca. Exemple concatenate de noi din videoclipurile cu „rezultate” de pe site-ul proiectului.
În ceea ce privește această rundă calitativă de inpainting video, autorii comentează:
„VideoPainter arată în mod constant rezultate excepționale în coerența, calitatea și alinierea video cu subtitrarea textului. În special, ProPainter nu reușește să genereze obiecte complet mascate, deoarece depinde doar de propagarea pixelilor de fundal în loc să genereze.
„În timp ce COCOCO demonstrează funcționalitatea de bază, nu reușește să mențină ID-ul consecvent în regiunile vopsite (aspecte inconsecvente ale navelor și schimbări bruște ale terenului) datorită arhitecturii sale cu o singură coloană vertebrală care încearcă să echilibreze conservarea fundalului și generarea primului plan.
„Cog-Inp realizează rezultate de bază în vopsire; cu toate acestea, incapacitatea operației sale de amestecare de a detecta limitele măștii duce la artefacte semnificative.
„Mai mult, VideoPainter poate genera videoclipuri coerente care depășesc un minut, menținând în același timp consecvența ID-ului prin reeșantionarea ID-ului.”
Cercetătorii au testat suplimentar capacitatea VideoPainter de a îmbunătăți subtitrările și de a obține rezultate îmbunătățite prin această metodă, punând sistemul împotriva... UniEdit, DiTCtrl și ReVideo.

Rezultatele editării video în raport cu trei abordări anterioare.
Autorii comentează:
„Atât pentru videoclipurile standard, cât și pentru cele lungi în VPBench, VideoPainter atinge performanțe superioare, depășind chiar și ReVideo end-to-end. Acest succes poate fi atribuit arhitecturii sale cu două ramificații, care asigură capacități excelente de conservare a fundalului și generare a prim-planului, menținând o fidelitate ridicată în regiunile needitate, asigurând în același timp că regiunile editate se aliniază îndeaproape cu instrucțiunile de editare, completată de reeșantionarea ID-ului regiunii prin repictare, care menține consecvența ID-ului în videoclipurile lungi.”
Deși lucrarea prezintă exemple calitative statice pentru această măsurătoare, acestea sunt neluminoase și, în schimb, trimitem cititorul la diversele exemple răspândite în diferitele videoclipuri publicate pentru acest proiect.
În cele din urmă, a fost efectuat un studiu uman, în care treizeci de utilizatori au fost rugați să evalueze 50 de generații selectate aleatoriu din VPBench și subseturi de editare. Exemplele au evidențiat conservarea fundalului, alinierea la prompt și calitatea generală a video.

Rezultate din studiul utilizatorului pentru VideoPainter.
Autorii afirmă:
„VideoPainter a depășit semnificativ performanțele de referință existente, atingând rate de preferință mai mari pentru toate criteriile de evaluare în ambele sarcini.”
Ei recunosc, însă, că calitatea generațiilor VideoPainter depinde de modelul de bază, care se poate confrunta cu mișcări și fizici complexe; și observă că acesta are performanțe slabe și cu măști de calitate scăzută sau legende aliniate greșit.
Concluzie
VideoPainter pare o completare utilă la literatură. Cu toate acestea, tipic pentru soluțiile recente, are cerințe de calcul considerabile. În plus, multe dintre exemplele alese pentru prezentare la locul proiectului sunt foarte departe de cele mai bune exemple; Prin urmare, ar fi interesant să vedem acest cadru în comparație cu intrările viitoare și cu o gamă mai largă de abordări anterioare.
* Merită menționat că „editarea video” în acest sens nu înseamnă „asamblarea diverselor clipuri într-o secvență”, care este sensul tradițional al acestui termen; ci mai degrabă schimbarea directă sau modificarea într-un fel a conținutului interior al clipurilor video existente, folosind tehnici de învățare automată
Publicat prima dată luni, 10 martie 2025