Anderson’un Açısı
Nesneleri ve Kişileri Videodan AI ile Silme

Hayır, çocuk resimdeki kalıntıları silinirse, AI’nin bir şeyi varsa, o da budur.
Görüntülerden ve videolardan insanların ve nesnelerin silinmesi, VFX odaklı AI literatüründe popüler bir alt dalıdır ve artan sayıda adanmış veri setleri ve çerçeveler bu zorluğu ele almaktadır. Çin’in Fudan Üniversitesi’ndeki Büyük Veri Enstitüsü’nden sonuncusu, EffectErase adlı bir ‘etki-farkında’ video nesne silme sistemidir ve yazarlar, bunun testlerde mevcut durumdan önemli ölçüde daha iyi performans gösterdiğini iddia etmektedir:
Proje web sitesindeki malzemeden derlenen EffectErase yönteminin örnekleri (lütfen verilen bağlantıdaki kaynak sitesinin birçok yüksek çözünürlüklü ve optimize edilmemiş otomatik oynatma videosu nedeniyle web tarayıcınızın kararlılığını etkileyebileceğini unutmayın. Eklenen YouTube videosu daha kolay ve daha kapsamlı bir referans olarak bu makalenin sonundadır). Kaynak
Yeni çalışma, yaklaşık 350 orijinal gerçek dünya ve sentezlenmiş sahnelerin (kamuya açık depolar* kullanılarak) oluşturulması veya dedike ekipmanla kaydedilmesi veya açık kaynaklı Blender 3D çerçevesi etrafında oluşturulan bir iş akışına yeniden amaçlanmasıyla ilgiliydi.
Melez Video Nesne Silme (VOR) veri kümesi, EffectErase uygulamasının kendisi için temel oluşturur ve Wan2.1 video oluşturma sistemine inşa edilmiştir. Sistem ayrıca iki yeni ilgili testleri tanımlar: VOR Eval ve VOR Wild – sırasıyla, zemin truth’ü olan ve olmayan örnekler için.
(Makale, ek bir proje sitesine sahiptir, ancak çok sayıda yüksek çözünürlüklü video ile oldukça fazla yüklenmiş durumdadır ve yüklenmesi zordur; bu nedenle, projenin sitesini kullanmakta zorlanıyorsanız, yukarıda derlediğim video parçalarına başvurmanızı rica ederim)

Benzer önceki veri kümelerine göre yeni teklifle ilgili miktarların karşılaştırılması. Kaynak
Araştırmacılar, approach’un hem nicel metriklerde hem de insan çalışması aracılığıyla yargılanan nitel sonuçlarda devlet-sanat performansını sunduğunu iddia ediyorlar.
Önceki çalışmaların nesnenin ek etkilerini, such as gölgeleri ve yansımaları, her zaman erfolgreich bir şekilde silinmediğini ve veri kümesinin bu eksikliği gidermek için özenle oluşturulduğunu belirtiyorlar:

Önceki yaklaşımların silinmek istenen nesneye ek ikincil işaretlere, such as yansımalara ve gölgelere, bakmaksızın başarısızlık örnekleri.
Yeni makale, EffectErase: Yüksek Kaliteli Etki Silme için Birlikte Video Nesne Silme ve Ekleme olarak adlandırılmıştır ve Fudan Üniversitesi Bilgisayar Bilimi ve Yapay Zeka Koleji’nden dört araştırmacıdan gelmektedir.
Yöntem
Melez VOR veri kümesi, video Nesne Silme girişimlerinin tüm etkilerini kapsayacak şekilde tasarlandı:

VOR veri kümesinden eşleştirilmiş çerçeveler, nesne silme işleminin görünür konudan öteye, örneğin örtme, gölge, aydınlatma değişiklikleri, yansıma ve fiziksel deformasyon gösteren örneklerle birlikte temiz arka planı nasıl uzatabileceğini gösterir. Makaledeki daha fazla örnek için lütfen bu makalenin sonundaki eklenen YouTube videosuna başvurun.
Beş temsilci ‘etki’ türü, yazarlar tarafından örtme olarak tanımlanmıştır, çeşitli cam ve duman örtme tiplerini içerir; gölgeler; aydınlatma (örneğin, silinecek bir nesne ışık oluşturur veya aydınlatma yolunu değiştirir); yansıma; ve deformasyon (örneğin, bir kullanıcı bir yastığın üzerindeki izi, ki bu kişi silindiğinde hayatta kalmamalıdır).

VOR için veri kümesi inşaat pipeline, Blender tarafından üretilen sentetik sahnelerle gerçek dünya kayıtlarını birleştiren, sentetik verilerin 3D ortamlardan, nesnelerden ve kamera yörüngelerinden oluşturulduğu ve gerçek görüntülerin çeşitli sahnelerde kaydedildiği ve Ken Burns hareketiyle tăngırıldığı bir pipeline.
Gerçek dünya orijinal verileri için araştırmacılar, geniş bir çevre yelpazesini, günün saatini ve hava koşullarını kapsayan ‘ile’ ve ‘olmadan’ sahnelerini kaydetmek için sabit kameralar kullandılar.
Sentezlenen veriler için, çoklu görüş açıları oluşturuldu ve birden fazla nesne senaryoları oluşturuldu, kasıtlı olarak karmaşık ve zorlu kamera hareketleri içeren gerçek dünya görüntülerine benzeyen senaryolar oluşturuldu; ve araştırmacılar, bu yaklaşımın, benzer Nesneleri Videolardan Yan Etkileriyle Silme (ROSE) veri kümesi için kullanılan yaklaşımdan daha sofistike ve daha fazla çaba gerektirdiğini gözlemlediler.
Hareket çeşitliliğini artırmak için, Ken Burns etkisi kamera-captured çiftlerine uygulandı, kontrol edilen pan, zoom ve hafif el hareketi ekledi, on dört önceden tanımlanmış kural altında, her çift için beş hareket deseni örneklendi, orijinal çerçevenin içinde kalırken.
Ölçek ve çeşitlilik, sentetik nesnelerin birden fazla kamera kurulumuyla birleştirilmesiyle daha da genişletildi, Maskeler, ana çerçevelerde el ile nokta promtları yerleştirilerek, Segment Anything 2 (SAM2) ile segmentasyon propagasyonu, sonuçların temizlenmesi ve düzeltilmesi ve eğitim için geçerli ön plan, arka plan ve maske üçlüsünün montajı ile oluşturuldu.
Son koleksiyon, 60.000 gerçek ve sentetik video çiftini kapsayan 145 saatlik videoya kadar uzanıyor, 366 nesne sınıfını 443 sahneye yayıyor.
EffectErase ağı, bir Variational Auto-Encoder (VAE†) aracılığıyla malzeme algoritmasını işler, latent gürültü giderme Wan2.1 tarafından ele alınır. Bu omurga üzerinde, EffectErase Silme-Ekleme Birlikte Öğrenme, her iki görevi de aynı bölgelerde birlikte eğiten; Görev-Bilinçli Bölge Rehberliği (TARG), nesne ve görev tokenları ile çapraz dikkat kullanarak nesneler ve etkileri arasındaki uzamsal-zamansal bağlantılar modellemeye ve görev değişimine izin vermeye yardımcı olur; ve Etki Tutarlılık Kaybı, silme ve ekleme görevleri arasında etki bölgelerini hizalamaya yardımcı olur:

EffectErase çerçevesi şeması. Eğitim sırasında, eşleştirilmiş videolar paylaşılan bir latent uzaya kodlanır, gürültü ile birleştirilir ve görev-bilinçli çapraz dikkat tarafından rehberlik edilen bir difüzyon transformatörü tarafından işlenir, aynı zamanda bir etki tutarlılık kaybı, silme ve ekleme bölgelerini hizalar, böylece her iki görev de aynı alana odaklanır.
Kendileri içinde, silme ve ekleme süreçleri birlikte eğitilir, paylaşılan bir difüzyon omurgası kullanılarak, böylece model aynı etkilenen bölgelere ve yapısal ipuçlarına odaklanır.
Nesneli videolar, arka plan yalnızca videolar ve maskeler, önce latent uzaya kodlanır; sonra difüzyon eğitimi için gürültü eklenir ve model, görev-spesifik rehberlik altında temiz temsilleri geri kazanmayı öğrenir. Bir hafif adaptör, sonra gürültülü özellikleri silme veya ekleme koşullarıyla birleştirir, böylece her iki görev de denetimi paylaşabilir ve aynı zamanda kontrol edilebilir.
Görev-Bilinçli Bölge Rehberliği, bir görev-spesifik sinyal oluşturur, dil tokenları ile ön plan nesnesinden çıkarılan görsel özellikler birleştirilerek, CLIP kullanılarak, bir generic nesne tokenının, gerçek görüntüden türetilen bir gömme ile değiştirilmesini sağlar. Bu birleştirilmiş temsil, omurga içine çapraz dikkat yoluyla enjekte edilir, böylece model, bir nesne ve görsel etkilerinin nasıl geliştiğini uzay ve zaman boyunca takip edebilir ve aynı zamanda esnek bir şekilde silme ve ekleme arasında geçiş yapabilir.
Etki Tutarlılık Kaybı, silme ve ekleme süreçlerinin aynı değişen alanlara odaklanmasını sağlar, çünkü her iki görev de aynı nesne ve görsel etkileriyle ilgilenir. Her dalın dikkat haritaları, sonra yumuşak bölge haritalarına birleştirilir ve nesne ve arka plan videolarından hesaplanan bir fark haritası ile hizalanır, böylece aydınlatma ve gölgeler gibi ince değişiklikler korunur. Bu ek kayıp, ekleme işleminin silme işlemini rehberlik etmesine ve her iki görevin tutarlı kalmasına yardımcı olur.
Veri ve Testler
Araştırmacılar, approach’unu çeşitli dolgu, video dolgu ve nesne silme yöntemleriyle karşılaştırdı: OmniPaint; ObjectClear; VACE; DiffuEraser; ProPainter; ROSE; ve MiniMax-Remover.
Wan2.1, LoRA†† kullanarak VOR veri kümesi ile 832x480px çözünürlükte fine-tune edildi. 81 ardışık çerçeve (WAN için etkili sınır, ötesinde hatalar oluşmaya eğilimlidir) rastgele olarak eğitim için örneklendi, eğitim 129.000 iterasyon için sekiz H100 GPU’sunda, her biri 80GB VRAM ile gerçekleştirildi. Batch boyutu 8 olarak ayarlandı, öğrenme oranı 1×102 olarak ayarlandı ve LoRA rank 256 olarak ayarlandı.
ROSE-Benchmark sentetik koleksiyonu, test edilen dış veri kümesiydi; diğer iki veri kümesi VOR-Eval, VOR veri kümesi test bölümü; ve VOR-Wild, 195 gerçek videosu içeren bir test kümesiydi, ‘dinamik nesneleri’ içeren internetten kazınmış videolardan oluşuyordu.
Kullanılan metrikler Peak Signal-to-Noise Ratio (PSNR); Structural Similarity Index (SSIM); Learned Perceptual Image Patch Similarity (LPIPS); ve Fréchet Video Distance (FVD). VOR-Wild’den 195 üretilen video için bir kullanıcı çalışması da dikkate alındı, 20 gönüllüden alınan ortalama puanlar dikkate alındı.
Ek olarak, yazarlar QScore adlı bir metrik geliştirdiler, bu, Qwen-VL çoklu modelini kullanarak, nesne-silinmiş video çıkışının kalitesini, kalıntı artifact’leri veya môi çevre silme eksikliklerini, such as aydınlatma etkilerini değerlendirmek için:

ROSE ve VOR testlerinde nicel karşılaştırma, en iyi ve ikinci en iyi sonuçlar kalın ve altı çizili olarak gösterilir.
Bu sonuçlarla ilgili olarak, yazarlar şunları belirtiyorlar:
‘[Mevcut] görüntü dolgu yöntemleri, 2D modelleri kullanarak bireysel çerçevelerde çalışır ve bu nedenle videolarda zamanlararası tutarlılığı korumak için başarısız olurlar.
Video dolgu yöntemleri, nesne yan etkilerini açıkça modellemez, bu nedenle doğal olmayan silme sonuçları verir. Mevcut video nesne silme yöntemleri, nesne ve yan etkileri arasındaki uzamsal-zamansal korelasyon modellemesinden yoksundur ve bu nedenle genellikle artifact’ler ve silinen nesnelerin kalıntı izleri üretir.
‘Genel olarak, EffectErase tüm veri kümeleri ve değerlendirme metrikleri boyunca devlet-sanat performansını sağlar. Video kalitesi metriği FVD’de en iyi puanları alır, böylece üretilen videoların zamanlararası pürüzsüzlüğü ve tutarlılığını gösterir.
‘Yöntemimiz ayrıca en yüksek QScore ve kullanıcı geri bildirim puanlarını alır, böylece görsel olarak inandırıcı silme sonuçları üretme etkinliğini daha da gösterir.’
Nitel değerlendirme için, statik sonuçlar makalede (gösterilen) doğrudan aşağıda sunulur, ayrıca hareketli sonuçlar proje sitesinde ve eklenen YouTube video sunumunda mevcuttur:

VOR-Eval üzerinde örtme, gölge, aydınlatma, yansıma ve deformasyon durumları açısından nitel karşılaştırma. Dolgu yöntemleri, maske dışındaki etkileri silmekte zorlanırlar, mentre silme modelleri genellikle görünür artifact’ler bırakırlar. EffectErase, hem hedef nesneleri hem de ilişkili etkilerini daha temiz bir şekilde siler. Lütfen daha iyi bir çözünürlük için kaynak makaleye ve video örnekleri için proje sitesine başvurun.
Ayrıca, projenin sitesindeki çeşitli ilgili örnekleri de sunuyoruz, aşağıda önizlenmiştir, ayrıca makalenin sonundaki resmi YouTube videosu:
Oynatmak için tıklayın. EffectErase’in proje sitesinden bir örnek karşılaştırma. Lütfen daha iyi bir çözünürlük (yukarıda belirtilen uyarılar ile) ve daha fazla örnek için siteye başvurun.
Yazarlar şunları belirtiyorlar:
‘Video dolgu yöntemleri, maskeleştirilmiş bölgelerde artifact’ler üretir ve silinen nesnelerin yan etkilerini tamamen silmekte başarısız olurlar. Önceki nesne silme yaklaşımları, such as ROSE ve MinMax-Remover, hedef nesneleri silmekte iyi performans gösterir, ancak yan etkilerle, özellikle örtme, gölge, aydınlatma, yansıma ve deformasyon senaryolarında, hala zorlanırlar.
‘Karşılaştırıldığında, EffectErase hem hedef nesneleri hem de ilişkili etkilerini etkili bir şekilde siler, temiz, tutarlı ve yüksek kaliteli sonuçlar elde eder.’
Son olarak, araştırmacılar, yöntemlerinin ayrıca ekleme görevlerine uyarlanabileceğini, ek eğitim gerektirmeden, gözlemlediler:

Video nesne ekleme sonuçları. EffectErase, nesneleri eklerken arka plan içeriğini korur ve kareler boyunca tutarlı nesne-indüklenen etkileri, such as gölgeleri ve yansımalara, üretir.
Ekleme görevi için video sonuçları, (zaman-specific) YouTube video örneklerinde (ayrıca makalenin sonundaki zaman damgasız olarak eklenmiştir) görülebilir.
Sonuç
Benzer projeleri literatürde incelemek, birçok çalışmanın, bu tür işlevselliği genel bir ‘araç seti’ modeline entegre etmeyi umduğunu, yalnızca bu özel görev için değil, çeşitli efektler için tasarlanmış bir model için, gösteriyor.
Ancak, ‘her şeye yeten bir usta’ ilkesine göre, adanmış sistemlerin, EffectErase gibi, genel amaçlı yaklaşımlara karşı bir avantajı koruması makul görünüyor; bu farkın, ayrı bir model eğitmenin ek çabayı hak etmemesi için yeterli ölçüde daralabileceği uyarısı ile birlikte.
* Artan IP-kaynaklanma endişeleriyle, bu tür tüm kaynakların atıf yapılmasını umuyoruz, ancak yeni çalışmanın mevcut malzemeleri 3D modellerinin kaynağını listelediğini göremedik.
† Verilen referans, 2013’ten generic bir açıklama metnidir, ancak spesifik VAE ayrıntıları verilmemiştir.
†† Makaleden alınan bu, semantik olarak belirsiz bir tanımdır, çünkü fine-tune ve LoRA farklı süreçlerdir ve çok farklı talepleri vardır.
İlk olarak Cumartesi, 21 Mart 2026’da yayımlandı.












