Bizimle iletişime geçin

Anderson'ın Açısı

Yapay Zeka ile Videolardan Nesneleri ve İnsanları Silme

mm
Yapay zeka tarafından oluşturulmuş, stilize edilmiş bir görüntüde, sihirbaz bir robotun, dibinde bir kadının tacı bulunan boş bir dolabı gösterdiği görülüyor. GPT-1.5

Hayır, yapay zekanın bir etkisi olursa çocuk resimde kalmayacak.

 

Görüntülerden ve videolardan insanları ve nesneleri kaldırmak, VFX odaklı yapay zeka literatüründe popüler bir araştırma alt dalı olup, bu zorluğun üstesinden gelmek için giderek artan sayıda özel veri seti ve çerçeve geliştirilmektedir. Bunlardan en yenisi, Çin'deki Fudan Üniversitesi Büyük Veri Enstitüsü'nden geliyor. EtkiSilmeYazarların iddiasına göre, testlerde en gelişmiş yöntemlere kıyasla önemli ölçüde iyileşme sağlayan, 'efekt duyarlı' bir video nesne kaldırma sistemi:

Proje web sitesindeki materyallerden derlenen EffectErase yöntemine örnekler (lütfen dikkat: bağlantı sağlasak da, kaynak sitede çok sayıda yüksek çözünürlüklü ve optimize edilmemiş otomatik oynatılan video bulunmaktadır ve bu durum web tarayıcınızın kararlılığını etkileyebilir. Ekteki YouTube videosu daha kolay ve kapsamlı bir referans olup, bu makalenin sonunda yer almaktadır).  Kaynak

Yeni çalışma, yaklaşık 350 orijinal gerçek dünya sahnesinden ve sentezlenmiş sahneden (kamuya açık depolardan* yararlanılarak) oluşan, yarı yeni bir veri setinin oluşturulmasını/düzenlenmesini içeriyordu; bu sahneler ya özel ekipmanlarla yakalanmış ya da açık kaynaklı Blender 3D çerçevesi etrafında oluşturulmuş bir iş akışına yeniden entegre edilmiştir.

Hibrit Video Nesne Kaldırma (VOR) veri seti, aşağıdakilerin temelini oluşturmaktadır: EtkiSilme Uygulamanın kendisi, üzerine inşa edilmiştir. Wan2.1 Video oluşturma sistemi. Sistem ayrıca iki yeni ilgili ölçüt de tanımlıyor: VOR Değerlendirmesi ve VOR Vahşi – sırasıyla, içeren ve içermeyen örnekler için Zemin gerçeği.

(Makalede bir madde olmasına rağmen) eşlik eden proje sahasıÇok sayıda yüksek çözünürlüklü video içerdiği için yüklenmesi biraz zor; bu nedenle proje sitesini kullanmakta zorlanıyorsanız, lütfen yukarıdaki gömülü videoda derlediğim bölümlere bakın.)

Yeni veri setine ilişkin olarak, karşılaştırılabilir önceki veri setlerindeki miktarların karşılaştırılması. Kaynak - https://arxiv.org/pdf/2603.19224

Yeni ürünle ilgili olarak, karşılaştırılabilir önceki veri kümelerindeki miktarların karşılaştırılması. Kaynak

Araştırmacılar, yaklaşımlarının hem nicel ölçümlerde hem de insan üzerinde yapılan bir çalışma ile değerlendirilen nitel sonuçlarda en üst düzey performansı sağladığını iddia ediyor.

Önceki çalışmaların, gölge ve yansıma gibi bir nesnenin ek etkilerini ortadan kaldırmada her zaman başarılı olamadığını ve kendi veri setlerinin bu eksikliği gidermek için özenle oluşturulduğunu belirtiyorlar:

Önceki yaklaşımların, ortadan kaldırılması hedeflenen nesnenin ötesine, yansımalar ve gölgeler gibi ikincil göstergelere bakmada başarısız olduğunun örnekleri.

Önceki yaklaşımların, ortadan kaldırılması hedeflenen nesnenin ötesine, yansımalar ve gölgeler gibi ikincil göstergelere bakmada başarısız olduğunun örnekleri.

MKS yeni kağıt başlıklı EffectErase: Yüksek Kaliteli Efekt Silme İçin Video Nesnesi Kaldırma ve Ekleme Özelliğini Bir Arada Sunan AraçBu çalışma, Fudan Üniversitesi Bilgisayar Bilimleri ve Yapay Zeka Fakültesi'nden dört araştırmacı tarafından geliştirilmiştir.

Yöntem

Hibrit VOR veri seti, bir kişiyi veya nesneyi videodan kaldırma girişiminin tüm sonuçlarını kapsayacak kadar geniş bir senaryo yelpazesini içerecek şekilde tasarlanmıştır:

VOR veri setinden alınan eşleştirilmiş kareler, nesne kaldırma işleminin görünür nesnenin ötesine, ortaya çıkardığı etkilere kadar uzanması gerektiğini göstermektedir; örnekler arasında tıkanma, gölge, ışık kaymaları, yansımalar ve fiziksel deformasyon yer almaktadır; her biri girdi (nesne mevcut) olarak sunulurken, kaldırma işleminden sonraki temiz arka plan da gösterilmiştir.

VOR veri setinden alınan eşleştirilmiş kareler, nesne kaldırma işleminin görünür nesnenin ötesine, ortaya çıkardığı etkilere kadar uzanması gerektiğini göstermektedir. Örnekler arasında tıkanma, gölge, ışık kaymaları, yansımalar ve fiziksel deformasyon yer almaktadır; her biri girdi (nesne mevcut) olarak sunulurken, kaldırma işleminden sonraki temiz arka plan da gösterilmiştir. Daha fazla örnek için, bu makalenin sonunda yer alan YouTube videosuna bakınız.

Yazarlar tarafından ele alınacak beş temsili 'müdahale' türü şu şekilde tanımlanmıştır: tıkanmaBunlara çeşitli cam ve duman engelleme türleri de dahildir; gölgeler; aydınlatma (Örneğin, kaldırılacak bir nesne ışığın yolunu oluşturduğunda veya değiştirdiğinde); yansıma; Ve deformasyon (Örneğin, bir yastığın üzerinde kullanıcının bıraktığı iz, kişi yastığı kaldırdıktan sonra kaybolmalıdır.)

VOR için veri seti oluşturma işlem hattı, Blender tarafından oluşturulan sentetik sahneleri gerçek dünya görüntüleriyle birleştirir; sentetik veriler, özenle seçilmiş 3D ortamlar, nesneler ve kamera yörüngelerinden oluşturulurken, gerçek görüntüler çeşitli sahnelerde kaydedilir ve Ken Burns hareketleriyle zenginleştirilir. Ardından SAM2 segmentasyonu ve manuel iyileştirme, karşılık gelen maskelerle hizalanmış ön plan ve arka plan video üçlüleri üretir.

VOR için veri seti oluşturma işlem hattı, Blender tarafından oluşturulan sentetik sahneleri gerçek dünya görüntüleriyle birleştirir; sentetik veriler, özenle seçilmiş 3D ortamlar, nesneler ve kamera yörüngelerinden oluşturulurken, gerçek görüntüler çeşitli sahnelerde kaydedilir ve Ken Burns hareketleriyle zenginleştirilir. Ardından SAM2 segmentasyonu ve manuel iyileştirme, karşılık gelen maskelerle hizalanmış ön plan ve arka plan video üçlüleri üretir.

Gerçek dünya verileri için araştırmacılar, çok çeşitli ortamları, günün saatini ve hava koşullarını kapsayan "olan" ve "olmayan" sahneleri kaydetmek üzere sabit kameralar kullandılar.

Sentezlenen veriler için, gerçek dünya görüntülerinde meydana gelebilecek türden, kasıtlı olarak karmaşık ve zorlu kamera hareketleri içeren çoklu bakış açıları oluşturuldu ve çoklu nesne senaryoları yaratıldı; araştırmacılar bu yaklaşımın, aksi takdirde benzer olan diğer yöntemlere göre daha gelişmiş ve daha fazla çaba gerektirdiğini gözlemlediler. Videolardan Yan Etkileri Olan Nesneleri Kaldırma (ROSE) veri kümesi.

Hareket çeşitliliğini artırmak için, Ken Burns etkisi Kamera ile çekilen çiftlere, önceden tanımlanmış on dört kural altında kontrollü kaydırmalar, yakınlaştırmalar ve hafif el hareketleri eklenerek, her çift için beş hareket deseni örneklenerek ve kırpma işlemi orijinal çerçeve içinde tutularak uygulandı.

Sentetik nesnelerin birden fazla kamera kurulumuyla birleştirilmesiyle ölçek ve çeşitlilik daha da genişletildi, anahtar karelere manuel nokta işaretleri yerleştirilerek maskeler oluşturuldu ve segmentasyon yayıldı. Herhangi Bir Şeyi Bölümlendir 2 (SAM2), sonuçları temizleme ve iyileştirme, ayrıca eğitim için doğrulanmış ön plan, arka plan ve maske üçlülerini bir araya getirme.

Son koleksiyon, 443 sahnede 366 nesne sınıfını kapsayan, gerçek ve sentetik olmak üzere 60,000 çift videodan oluşan 145 saatlik bir video içeriğine ulaşıyor.

EffectErase ağı, Varyasyonel Otomatik Kodlayıcı (Variational Auto-Encoder) aracılığıyla materyali alır (VAE), gizli gürültü giderme işlemi ise Wan2.1 tarafından gerçekleştirilir. Bu altyapı üzerinde EffectErase çalışır. Eklem Çıkarma-Takma ÖğrenimiBu yöntem, her iki görevi de aynı bölgelerde birlikte eğitir; Görev Odaklı Bölge Rehberi (TARG), nesne ve görev belirteçlerini kullanır. çapraz dikkat Nesneler ve etkileri arasındaki uzamsal-zamansal bağlantıları modellemek ve görev değiştirme olanağı sağlamak; ve Etki Tutarlılığı KaybıBu, kaldırma ve ekleme görevleri boyunca hizalanmış etki bölgelerini hizalar:

EffectErase çerçevesinin şeması. Eğitim sırasında, eşleştirilmiş videolar paylaşılan bir gizli alana kodlanır, gürültü ile birleştirilir ve görev odaklı çapraz dikkat tarafından yönlendirilen bir difüzyon dönüştürücü tarafından işlenir; bu sırada bir etki tutarlılığı kaybı, kaldırma ve ekleme bölgelerini hizalayarak her iki görevin de aynı alana odaklanmasını sağlar.

EffectErase çerçevesinin şeması. Eğitim sırasında, eşleştirilmiş videolar paylaşılan bir gizli alana kodlanır, gürültü ile birleştirilir ve görev odaklı çapraz dikkat tarafından yönlendirilen bir difüzyon dönüştürücü tarafından işlenir; bu sırada bir etki tutarlılığı kaybı, kaldırma ve ekleme bölgelerini hizalayarak her iki görevin de aynı alana odaklanmasını sağlar.

Çıkarma ve ekleme süreçleri, ortak bir difüzyon omurgası kullanılarak birlikte eğitilir; böylece model, aynı etkilenen bölgelere ve yapısal ipuçlarına odaklanmayı öğrenir.

Nesne içeren videolar, yalnızca arka plan içeren videolar ve maskeler öncelikle bir formata kodlanır. gizli alanArdından, difüzyon eğitimi için gürültü eklenir ve model, göreve özgü yönlendirme altında temiz temsilleri geri kazanmayı öğrenir. Hafif bir adaptör daha sonra gürültülü özellikleri kaldırma veya ekleme koşullarıyla birleştirerek, her iki görevin de denetimi paylaşmasına ve kontrol edilebilir kalmasına olanak tanır.

Görev Odaklı Bölge Rehberi Ön plandaki nesneden çıkarılan görsel özelliklerle dil belirteçlerini birleştirerek göreve özgü bir sinyal oluşturur. CLIPGenel bir nesne belirtecinin yerine, gerçek görüntü içeriğinden türetilen bir gömme kullanılır. Bu birleştirilmiş temsil, çapraz dikkat mekanizması aracılığıyla omurgaya enjekte edilir ve modelin bir nesnenin ve görsel efektlerinin uzay ve zaman içinde nasıl geliştiğini izlemesine olanak tanırken, kaldırma ve ekleme arasında esnek geçişi de sağlar.

Etki Tutarlılığı Kaybı Bu yöntem, kaldırma ve ekleme işlemlerini aynı değişen alanlara odaklanmaya zorlar, çünkü her iki görev de aynı nesne ve görsel efektleriyle ilgilenir. Daha sonra her daldan elde edilen dikkat haritaları yumuşak bölge haritalarında birleştirilir ve bir fark haritası Nesne ve arka plan videolarından hesaplanarak, aydınlatma ve gölgeler gibi ince değişiklikler korunur. Bu ek özellik kayıp Takma ve çıkarma işlemlerine yardımcı olur ve her iki işlemin de tutarlı olmasını sağlar.

Veriler ve Testler

Araştırmacılar, yaklaşımlarını çeşitli görüntü tamamlama, video tabanlı görüntü tamamlama ve nesne kaldırma yöntemleriyle karşılaştırdılar: OmniPaint; Nesne Temizle; Tatil; DiffuEraser; ProBoyacı; ROSE; Ve MiniMax-Çıkarma Makinesi.

Wan2.1 ince ayarlarıyla geliştirildi. LoRA†† 832x480 piksel çözünürlükte VOR veri setini kullanarak. 81 ardışık kare ( etkili sınır WAN için (bu sınırın ötesinde hataların oluşma eğilimi vardır) rastgele örneklenerek eğitim için kullanıldı ve eğitim 129,000 yineleme boyunca gerçekleştirildi. Parti boyutu 8'li set, her biri 80 GB VRAM'e sahip sekiz adet H100 GPU üzerinde çalışmaktadır. öğrenme oranı 1×10 olarak ayarlandı2, Ve LoRA sıralaması 256 için.

MKS ROSE-Kıyaslama Test edilen tek harici veri seti sentetik veri setiydi; diğer ikisi ise... VOR-Değerlendirme, ÖNCE veri kümesi testi bölmek; ve VOR-Wild, internetten derlenmiş ve 'dinamik nesneler' içeren 195 gerçek videodan oluşan bir test seti.

Kullanılan metrikler Tepe Sinyal-Gürültü Oranı (PSNR); Yapısal Benzerlik Endeksi (SSM); Öğrenilmiş Algısal Görüntü Yama Benzerliği (LPIP'ler); ve Fréchet Video Mesafesi (FVD). VOR-Wild'dan oluşturulan 195 videonun kullanıcı incelemesi de dikkate alındı ​​ve 20 gönüllünün ortalama değerlendirmeleri hesaba katıldı.

Ayrıca yazarlar şunları tasarladılar: QScore, bir ölçüt kullanarak Qwen-VL Nesnelerin kaldırıldığı video çıktısının kalitesini, kalan yapaylıklar veya gölgeler ve ışık efektleri gibi gözden kaçan çevresel unsurların kaldırılması açısından değerlendirmek için çok modlu bir model kullanılmaktadır:

ROSE ve VOR kıyaslama testlerinde nicel karşılaştırma; en iyi ve ikinci en iyi sonuçlar sırasıyla kalın ve altı çizili olarak gösterilmiştir.

ROSE ve VOR kıyaslama testlerinde nicel karşılaştırma; en iyi ve ikinci en iyi sonuçlar sırasıyla kalın ve altı çizili olarak gösterilmiştir.

Yazarlar bu sonuçlarla ilgili olarak şunları belirtiyor:

'[Güncel] görüntü tamamlama yöntemleri, zamansal modelleme olmaksızın 2B modeller kullanarak tek tek kareler üzerinde çalışır ve bu nedenle videolarda zamansal tutarlılığı koruyamaz.

Son zamanlarda geliştirilen video nesne onarım yöntemleri, nesne yan etkilerini açıkça modellemediği için doğal olmayan kaldırma sonuçlarına yol açmaktadır. Mevcut video nesne kaldırma yöntemleri, nesne ile yan etkileri arasındaki uzamsal-zamansal korelasyon modellemesinden yoksundur ve sonuç olarak genellikle kaldırılan nesnelerin kalıntı izlerini ve yapaylıklarını üretir.

'Genel olarak, EffectErase tüm veri kümelerinde ve değerlendirme ölçütlerinde en üst düzey performansı sergiliyor. Video kalitesi ölçütü olan FVD'de en iyi puanları alarak, oluşturulan videoların üstün zamansal düzgünlüğünü ve tutarlılığını gösteriyor.'

'Yöntemimiz ayrıca en yüksek QScore ve kullanıcı geri bildirim puanlarını elde ederek, görsel olarak ikna edici silme sonuçları üretmedeki etkinliğini daha da kanıtlamaktadır.'

Niteliksel değerlendirme için, statik sonuçlar (aşağıda gösterilen) makalede sunulurken, hareketli sonuçlar ise proje sitesinde ve eklerinde mevcuttur. YouTube video sunumu:

VOR-Eval'in tıkanma, gölge, aydınlatma, yansıma ve deformasyon durumları üzerindeki niteliksel karşılaştırması. Boyama yöntemleri maskenin dışındaki efektleri kaldırmakta zorlanırken, kaldırma modelleri genellikle görünür kalıntılar bırakır. EffectErase hem hedef nesneleri hem de bunlarla ilişkili efektleri daha temiz bir şekilde kaldırır. Daha iyi çözünürlük için lütfen kaynak makaleye, video örnekleri için ise proje sitesine bakın.

VOR-Eval'in tıkanma, gölge, aydınlatma, yansıma ve deformasyon durumları üzerindeki niteliksel karşılaştırması. Boyama yöntemleri maskenin dışındaki efektleri kaldırmakta zorlanırken, kaldırma modelleri genellikle görünür kalıntılar bırakır. EffectErase hem hedef nesneleri hem de bunlarla ilişkili efektleri daha temiz bir şekilde kaldırır. Daha iyi çözünürlük için lütfen kaynak makaleye, video örnekleri için ise proje sitesine bakın.

Ayrıca, aşağıda önizlemesi bulunan proje sitesindeki çeşitli ilgili örneklere ve bu makalenin sonunda yer alan resmi YouTube videosuna da okuyucularımızı yönlendiriyoruz:

Oynatmak için tıklayın. EffectErase'in proje sitesinden bir örnek karşılaştırma. Daha iyi çözünürlük (yukarıda belirtilen uyarılarla birlikte) ve daha fazla örnek için lütfen siteye bakın.

Yazarlar yorum:

'Video onarım yöntemleri genellikle maskelenmiş bölgelerde yapaylıklar üretir ve kaldırılan nesnelerin neden olduğu yan etkileri tamamen ortadan kaldırmada başarısız olur. [ROSE] ve [MinMax-Remover] gibi önceki nesne kaldırma yaklaşımları, hedef nesneleri kaldırmada iyi performans gösterir ancak özellikle örtüşme, gölge, aydınlatma, yansıma ve deformasyon senaryolarında yan etkilerle mücadele eder.'

'Buna karşılık, EffectErase hem hedef nesneleri hem de bunlarla ilişkili etkileri etkili bir şekilde kaldırarak temiz, tutarlı ve yüksek kaliteli sonuçlar elde edilmesini sağlar.'

Sonuç olarak, araştırmacılar yöntemlerinin ek eğitime gerek kalmadan, çıkarma işlemlerinden ziyade yerleştirme işlemlerine de uyarlanabileceğini belirtiyorlar:

Video nesne ekleme sonuçları. EffectErase, arka plan içeriğini koruyarak ve kareler arasında gölge ve yansıma gibi tutarlı nesne kaynaklı efektler oluşturarak nesneleri ekler.

Video nesne ekleme sonuçları. EffectErase, arka plan içeriğini koruyarak ve kareler arasında gölge ve yansıma gibi tutarlı nesne kaynaklı efektler oluşturarak nesneleri ekler.

Ekleme görevine ait video sonuçları aşağıdaki bağlantıda görülebilir. (zamana özel) YouTube videosu Örnekler (makalenin sonunda zaman damgası olmadan da eklenmiştir).

Sonuç

Literatürdeki benzer projelere bakıldığında, birçok kişinin genel amaçlı VFX modellerinin, bu tür işlevselliği yalnızca bu özel görev için değil, bir dizi efekt için tasarlanmış genel bir 'araç seti' modeline entegre edebileceği umudunu taşıdığı görülmektedir.

Ancak, "her işe el atan" ilkesine göre, EffectErase gibi özel sistemlerin daha genel yaklaşımlara göre üstünlüğünü koruyacağını varsaymak mantıklı görünüyor; ancak aradaki farkın zamanla azalabileceği ve ayrı bir model eğitmenin ekstra çabasına değmeyecek hale gelebileceği de unutulmamalıdır.

 

* Fikri mülkiyetin kökeniyle ilgili artan endişeler göz önüne alındığında, tüm bu kaynakların belirtilmesi umulmaktadır; ancak yeni çalışmadan elde edilen mevcut materyallerde 3D modellerin kaynağı belirtilmiş olsa da, ben bu referansı bulamadım.

Verilen referans şu gibi görünüyor: genel açıklayıcı metin 2013'ten itibaren, ancak belirli VAE'nin ayrıntıları belirtilmemiştir.

†† Makaleden alınan bu açıklama, anlamsal olarak belirsizdir, çünkü ince ayar ve LoRA, çok farklı gereksinimlere sahip farklı süreçlerdir.

İlk yayınlanma tarihi: Cumartesi, 21 Mart 2026 

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai