Погляд Anderson
Видалення об’єктів і людей з відео за допомогою штучного інтелекту

Ні, дитини не залишається на картинці, якщо штучний інтелект має щось до цього.
Видалення людей і об’єктів з зображень і відео – популярна галузь досліджень у сфері VFX-орієнтованої літератури штучного інтелекту, з все зростаючою кількістю спеціалізованих наборів даних і框, що адресують цю проблему. Остання з них, від Інституту великих даних Китайського університету Фудань, – це EffectErase, система видалення об’єктів з відео, яка, на думку авторів, суттєво покращує стан справ у тестах:
Зібрано з матеріалів на сайті проекту, приклади методу EffectErase (просимо звернути увагу, що хоча ми надаємо посилання, джерельний сайт містить багато відео з високою роздільною здатністю та неоптимізованими автозапусками, що може вплинути на стабільність вашого веб-браузера. Посилання на супутній відеоролик на YouTube є легшим і повнішим посиланням і вкладено в кінці статті). Джерело
Нова робота включала створення/кураторство напівнового набору даних, що складається з майже 350 оригінальних реальних та синтезованих сцен (з використанням публічних репозиторіїв*), або знятої з використанням спеціального обладнання чи отриманої та перепрофільованої у робочий процес, побудований навколо відкритої платформи Blender 3D.
Гібридний набір даних Video Object Removal (VOR) є основою для застосування EffectErase, яке побудовано на основі системи генерації відео Wan2.1. Система також визначає два нових пов’язаних бенчмарків: VOR Eval і VOR Wild – відповідно, для зразків з і без ground truth.
(Хоча у статті є супутній сайт проекту, він досить завантажений багатьма відео з високою роздільною здатністю, і важко завантажується; тому просимо звернутися до витягів, які я підготував у вкладеному відео вище, якщо ви знаходитесь сайт проекту важким для використання)

Порівняння кількостей у порівняних попередніх наборах даних щодо нового пропозиції. Джерело
Дослідники стверджують, що їхній підхід забезпечує найвищу якість виконання, як у кількісних метриках, так і у якісних результатах, засуджених через дослідження людини.
Вони відзначають, що попередні роботи не завжди вдавалися до видалення додаткових ефектів об’єкта, таких як тіні та відблиски, і що їхній набір даних був створений для виправлення цього недоліку:

Приклади попередніх підходів, які не змогли вийти за межі об’єкта, який підлягає видаленню, до вторинних вказівок, таких як відблиски та тіні.
Нова стаття називається EffectErase: Спільне видалення об’єктів з відео та вставлення для високоякісного видалення ефектів, і походить від чотирьох дослідників Коледжу комп’ютерних наук та штучного інтелекту університету Фудань.
Метод
Гібридний набір даних VOR був створений для охоплення широкого спектра сценаріїв, достатнього для покриття всіх наслідків спроби видалення людини чи об’єкта з відео:

Парні кадри з набору даних VOR ілюструють, як видалення об’єкта повинно виходити за межі видимого суб’єкта до його індукованих ефектів, з прикладами, що показують окуляцію, тінь, зміну освітлення, відблиски та фізичну деформацію, кожна з яких представлена як вхід (об’єкт присутній) поряд з відповідним чистим фоном після видалення. Для подальших прикладів див. супутній відеоролик, вкладений в кінці статті.
П’ять представницьких типів “інтерференції”, які потрібно вирішити, визначаються авторами як окуляція, включаючи різні типи окуляції скла та диму; тіні; освітлення (наприклад, коли об’єкт, який підлягає видаленню, створює або змінює напрямок світла); відблиск; і деформація (наприклад, відбиток користувача на подушці, який не повинен виживати після видалення людини).

Конструкція набору даних VOR, що поєднує синтетичні сцени, згенеровані з допомогою Blender, з реальними кадрами, де синтетичні дані будуються з кураторських 3D-окружень, об’єктів та траєкторій камери, а реальні кадри записуються у різних сценах, доповнені рухом Ken Burns. SAM2-сегментація та ручне уточнення потім створюють вирівняні відео-трійки з відповідними масками.
Для реальних оригінальних даних дослідники використовували стаціонарні камери для запису сцен “із” і “без” об’єктів, що охоплюють широкий спектр середовищ, часу доби та погодних умов.
Для синтетичних даних були згенерованіหลาย перспективи, створені багатопредметні сценарії, що містять спеціально складні та складні типи руху камери, як це могло відбуватися у реальних кадрах; і дослідники відзначають, що цей підхід є більш складним і трудомістким, ніж той, який використовувався для іншого подібного набору даних Remove Objects with Side Effects in Videos (ROSE).
Щоб збільшити різноманітність руху, до пар камер-даних було застосовано ефект Ken Burns, додаючи контрольовані панорами, зуму та легкий рух камери під чотирнадцятьма попередньо визначеними правилами, з п’ятьма руховими шаблонами, вибраними для кожної пари, при цьому кадр залишався всередині оригінального кадру.
Масштаб і різноманітність були ще більше розширені шляхом поєднання синтетичних об’єктів з багатьма налаштуваннями камери, Маски були згенеровані шляхом розміщення ручних точкових сигналів на ключових кадрах, пропагуючи сегментацію з використанням Segment Anything 2 (SAM2), очищення та уточнення результатів, і складання валідованих трійок переднього плану, фону та масок для навчання.
Остаточна колекція складається з 145 годин відео по 60 000 парних відео, реальних та синтетичних, що охоплюють 366 класів об’єктів у 443 сценах.
Мережа EffectErase сама по собі приймає матеріал через варіаційний автоенкодер (VAE†), з латентним шумоподавленням, обробленим за допомогою Wan2.1. Над цією основою EffectErase працює Спільне навчання видалення-вставлення, яке тренує обидва завдання разом на одних і тих же регіонах; Орієнтоване керування регіоном (TARG), яке використовує об’єктні та завдання-токени з крос-аттенцією для моделювання просторово-часових зв’язків між об’єктами та їхніми ефектами та дозволяє перемикання завдань; і Втрата консистентності ефектів, яка вирівнює регіони ефектів, вирівняні по видаленню та вставці завдань:

Схема.framework EffectErase. Під час навчання парні відео кодуються у спільний латентний простір, поєднуються з шумом та обробляються дифузійним трансформером, керованим орієнтованою на завдання крос-аттенцією, тоді як втрата консистентності ефектів вирівнює регіони видалення та вставки, щоб обидва завдання фокусувалися на одному й тому ж регіоні.
Самі процеси видалення та вставки тренуються разом, використовуючи спільний дифузійний бекбон, так що модель вчиться фокусуватися на одному й тому ж регіоні та структурних підказках.
Відео з об’єктами, відео тільки з фоном та маски спочатку кодуються у латентний простір; потім додається шум для дифузійного навчання, і модель вчиться відновлювати чисті представлення під керівництвом завдання. Легкий адаптер потім поєднує шумові функції з умовами видалення або вставки, дозволяючи обидвом завданням спільне керівництво, залишаючись під контролем.
Орієнтоване керування регіоном створює завдання-специфічний сигнал шляхом поєднання мовних токенів з візуальними функціями, витягнутими з переднього плану об’єкта, використовуючи CLIP, заміняючи загальний об’єкт-токен на вкладення, отримане з фактичного зображення. Це поєднане представлення інжектується у бекбон через крос-аттенцію, дозволяючи моделі відстежувати, як об’єкт та його візуальні ефекти еволюціонують у просторі та часі, дозволяючи гнучке перемикання між видаленням та вставкою.
Втрата консистентності ефектів змушує процеси видалення та вставки фокусуватися на одному й тому ж регіоні, оскільки обидва завдання займаються одним і тим же об’єктом та його візуальними ефектами. Карти уваги з кожного гілки потім поєднуються у м’які регіональні карти, і вирівнюються з картою різниці, розрахованою з об’єкта та відео-фону, так що тонкі зміни, такі як освітлення та тіні, зберігаються. Ця додаткова втрата допомагає вставці керувати видаленням та підтримувати обидва завдання послідовними.
Дані та тести
Дослідники протестували свій підхід проти різних методів інпейнтінгу, відео-інпейнтінгу та видалення об’єктів: OmniPaint; ObjectClear; VACE; DiffuEraser; ProPainter; ROSE; і MiniMax-Remover.
Wan2.1 був дофінований з LoRA†† з використанням набору даних VOR на роздільній здатності 832x480px. 81 послідовний кадр (ефективний ліміт для WAN, після якого починаються помилки) були випадково вибрані для навчання, яке проходило протягом 129 000 ітерацій на батч-розмір 8, на восьми GPU H100, кожна з 80 ГБ відеопам’яті. Темп навчання був встановлений на 1х102, а ранг LoRA – на 256.
ROSE-Бенчмарк синтетична колекція була єдиною зовнішньою набором даних, який був протестований; два інших були VOR-Eval, тестовий розріз VOR-набору даних; і VOR-Wild, тестовий набір, що складається з 195 реальних відео, зібраних з інтернету, що містять “динамічні об’єкти”.
Використані метрики були Пікова сигнал-шумова співвідношення (PSNR); Індекс структуальної подібності (SSIM); Навчена перцепційна подібність зображення-патчу (LPIPS); і Відстань Фреше для відео (FVD). Також проводилось дослідження користувачів 195 згенерованих відео з VOR-Wild, з урахуванням середніх оцінок від 20 волонтерів.
Крім того, автори розробили QScore, метрику, яка використовує мультимодальну модель Qwen-VL, для оцінки якості відео після видалення об’єктів, у термінах залишкових артефактів або пропущених видалень середовища, таких як тіні та ефекти освітлення:

Кількісне порівняння на бенчмарках ROSE і VOR, з показанням найкращих і других результатів жирним шрифтом та підкресленням відповідно.
Відносно цих результатів, автори відзначають:
‘[Поточні] методи інпейнтінгу працюють з окремими кадрами, використовуючи 2D-моделі без тимчасової моделі, і тому не можуть підтримувати тимчасову послідовність у відео.
Недавні методи відео-інпейнтінгу не явно моделюють побічні ефекти об’єкта, що призводить до нявірного видалення. Існуючі методи видалення об’єктів з відео не мають просторово-часової кореляційної моделі між об’єктом та його побічними ефектами, і тому часто створюють артефакти та залишкові сліди видалених об’єктів.
‘Загалом, EffectErase досягає найвищої якості виконання на всіх наборах даних та метриках оцінки. Він отримує найкращі результати на метриці якості відео FVD, демонструючи вищу тимчасову гладкість та послідовність згенерованих відео.
‘Наш метод також досягає найвищого QScore та оцінок користувачів, що ще раз підтверджує його ефективність у створенні візуально переконливих результатів видалення.’
Для якісної оцінки статичні результати надаються у статті (показані нижче), а також рухомі результати доступні на сайті проекту та у супутньому відео на YouTube:

Якісне порівняння на VOR-Eval за випадками окуляції, тіні, освітлення, відблисків та деформації. Методи інпейнтінгу мають труднощі з видаленням ефектів поза маскою, тоді як методи видалення часто залишають видимі артефакти. EffectErase видаляє як цільові об’єкти, так і їхні асоційовані ефекти більш чисто. Будь ласка, зверніться до джерельної статті для кращої роздільної здатності, а до сайту проекту – для прикладів відео.
Ми також звертаємо увагу читача на різні пов’язані приклади на сайті проекту, попередній перегляд яких нижче, а також офіційне відео на YouTube, вкладене в кінці статті:
Натисніть, щоб відтворити. Приклад порівняння з сайту проекту EffectErase. Будь ласка, зверніться до сайту для кращої роздільної здатності (з вище згаданими застереженнями) та для подальших прикладів.
Автори коментують:
‘Методи відео-інпейнтінгу часто створюють артефакти у масованих регіонах та не можуть повністю видалити побічні ефекти, спричинені видаленими об’єктами. Попередні підходи до видалення об’єктів, такі як [ROSE] та [MinMax-Remover], добре видаляють цільові об’єкти, але все ще мають труднощі з побічними ефектами, особливо у випадках окуляції, тіні, освітлення, відблисків та деформації.
‘Натомість, EffectErase ефективно видаляє як цільові об’єкти, так і їхні асоційовані ефекти, що призводить до чистих, послідовних та високоякісних результатів.’
У підсумку дослідники відзначають, що їхній метод також можна адаптувати для завдань вставки, а не видалення, без потреби додаткового навчання:

Результати вставки об’єктів у відео. EffectErase вставляє об’єкти, зберігаючи фоновий контент та генеруючи послідовні об’єкт-індуковані ефекти, такі як тіні та відблиски, у всіх кадрах.
Результати відео для завдання вставки можна побачити у (часовий) відео на YouTube (також вкладено без часу у кінці статті).
Висновок
Огляд подібних проектів у літературі показує, що багато з них все ще сподіваються, що загальні моделі VFX зможуть в кінцевому підсумку включити цю функціональність у загальний “інструментарій” моделі, призначеної для ряду ефектів, а не тільки для цього конкретного завдання.
Однак, згідно з принципом “універсального солдата”, здається розумним припустити, що спеціалізовані системи, такі як EffectErase, продовжуватимуть зберігати перевагу над більш загальними підходами; з застереженням, що розрив може в кінцевому підсумку звузитися достатньо, щоб зробити різницю не вартою додаткових зусиль для навчання окремої моделі.
* Хоча б із зростаючими проблемами щодо питань походження інтелектуальної власності, можна сподіватися, що всі такі джерела будуть цитовані; але якщо матеріали нового дослідження перелічують джерело 3D-моделей, я не зміг знайти це посилання.
† Посилання, надане як посилання, є загальним пояснювальним текстом з 2013 року, з неозначеним конкретним VAE.
†† Взяті з статті, це семантично неясне пояснення, оскільки дофінування та LoRA є різними процесами з різними вимогами.
Опубліковано в суботу, 21 березня 2026 року












