Зв'язатися з нами

Ефективніше видалення об’єктів із відео за допомогою машинного навчання

Штучний Інтелект

Ефективніше видалення об’єктів із відео за допомогою машинного навчання

mm

Нове дослідження, проведене в Китаї, повідомляє про найсучасніші результати, а також про вражаюче підвищення ефективності нової системи малювання відео, яка може спритно видаляти об’єкти з відзнятого матеріалу.

За новим порядком фарбують ремінь дельтаплана. Перегляньте вихідне відео (вбудоване внизу цієї статті), щоб отримати кращу роздільну здатність і більше прикладів. Джерело: https://www.youtube.com/watch?v=N--qC3T2wc4

Підвіску дельтаплана зафарбовано за новою процедурою. Дивіться оригінальне відео для кращої роздільної здатності та додаткових прикладів. Джерело: https://www.youtube.com/watch?v=N–qC3T2wc4

Техніка під назвою «Наскрізна структура для відео Inpainting із керуванням» (E2FGVI), також здатний видаляти водяні знаки та різні інші види оклюзії з відеовмісту.

E2FGVI розраховує передбачення для вмісту, який знаходиться за оклюзіями, дозволяючи видаляти навіть помітні та важкорозв’язані водяні знаки. Джерело: https://github.com/MCG-NKU/E2FGVI

E2FGVI розраховує передбачення для вмісту, який лежить за оклюзіями, дозволяючи видаляти навіть помітні водяні знаки, які важко вирішити. Джерело: https://github.com/MCG-NKU/E2FGVI

(Щоб побачити більше прикладів у кращій роздільній здатності, перегляньте Відео)

Хоча модель, представлена ​​в опублікованій статті, була навчена на відео 432 x 240 пікселів (зазвичай малі розміри вхідних даних, обмежені доступним простором GPU порівняно з оптимальними розмірами пакетів та іншими факторами), автори з тих пір випустили E2FGVI-HQ, який може обробляти відео з довільною роздільною здатністю.

Код для поточної версії є доступний на GitHub, а версію HQ, випущену минулої неділі, можна завантажити з Google Drive та Диск Baidu.

Малюк залишається на фото.

Малюк залишається на фото.

E2FGVI може обробляти відео 432 × 240 за 0.12 секунди на кадр на графічному процесорі Titan XP (12 ГБ відеопам’яті), і автори повідомляють, що система працює в п’ятнадцять разів швидше, ніж попередні найсучасніші методи, засновані на оптичний потік.

Тенісист робить несподіваний вихід.

Тенісист робить несподіваний вихід.

Випробуваний на стандартних наборах даних для цього підсектору досліджень синтезу зображень, новий метод зміг перевершити конкурентів як у якісному, так і в кількісному раундах оцінювання.

Тести на попередні підходи. Джерело: https://arxiv.org/pdf/2204.02663.pdf

Тести на попередні підходи. Джерело: https://arxiv.org/pdf/2204.02663.pdf

Команда папір має титул Назустріч наскрізній структурі для керованого відео Inpainting, і це співпраця між чотирма дослідниками з Нанкайського університету та дослідником з Hisilicon Technologies.

Чого бракує на цьому зображенні

Окрім очевидних застосувань для візуальних ефектів, високоякісне малювання відео має стати основною визначальною особливістю нових технологій синтезу зображень і зміни зображень на основі ШІ.

Особливо це стосується модних програм, що змінюють тіло, та інших фреймворків прагнути «схуднути» або іншим чином змінювати сцени на зображеннях та відео. У таких випадках необхідно переконливо «заповнити» додатковий фон, що виявляється синтезом.

Згідно з нещодавньою статтею, алгоритм «переформування» тіла має завдання зафарбовувати щойно відкритий фон, коли об’єкт змінюється. Тут цей недолік представлений червоним контуром, який раніше займала повніша людина (у реальному житті, див. зображення зліва). За матеріалами джерела https://arxiv.org/pdf/2203.10496.pdf

Згідно з нещодавньою статтею, алгоритм «зміни форми» тіла має завдання дофарбувати щойно виявлений фон під час зміни розміру об’єкта. Тут цей дефіцит представлений червоним контуром, який раніше займала (реальна, див. зображення ліворуч) повніша людина. За матеріалами джерела https://arxiv.org/pdf/2203.10496.pdf

Когерентний оптичний потік

Оптичний потік (OF) став основною технологією в розробці видалення відеооб’єктів. Як an АтлантOF надає одноразову карту часової послідовності. OF, який часто використовується для вимірювання швидкості в ініціативах комп'ютерного зору, також може забезпечити часово узгоджене малювання, де сукупну суму завдання можна розглядати за один прохід, замість уваги «на кадр» у стилі Діснея, що неминуче призводить до часової розривності.

Методи відеомалювання на сьогоднішній день зосереджені на триетапному процесі: завершення потоку, де відео по суті розміщується в окрему та досліджувану сутність; піксельне поширення, де прогалини у «пошкоджених» відео заповнюються пікселями, що поширюються в обох напрямках; та зміст галюцинації (піксельний «винахід», знайомий більшості з нас з діпфейків та фреймворків перетворення тексту на зображення, таких як серія DALL-E), де передбачуваний «відсутній» контент вигадується та вставляється у відеоматеріал.

Центральне нововведення Е2FGVI поєднує ці три етапи в наскрізну систему, уникаючи необхідності виконувати ручні операції над вмістом або процесом.

У статті зазначається, що потреба в ручному втручанні вимагає, щоб старіші процеси не використовували переваги GPU, що робить їх досить трудомісткими. З паперу*:

'Взяття DFVI як приклад, заповнивши одне відео розміром 432 × 240 від ДЕВІС, який містить близько 70 кадрів, потребує близько 4 хвилин, що є неприйнятним у більшості реальних застосувань. Крім того, за винятком вищезгаданих недоліків, використання лише попередньо навченої мережі інпайнтингу зображень на етапі галюцинації контенту ігнорує зв'язки контенту між часовими сусідами, що призводить до непослідовної генерації контенту у відео.

Об’єднавши три етапи відеоживопису, Е2FGVI може замінити другу стадію, піксельне поширення, поширенням ознак. У більш сегментованих процесах попередніх робіт функції не так широко доступні, оскільки кожен етап відносно герметичний, а робочий процес лише напівавтоматичний.

Крім того, дослідники розробили a тимчасовий фокальний трансформатор для етапу галюцинації вмісту, який розглядає не лише безпосередніх сусідів пікселів у поточному кадрі (тобто те, що відбувається в тій частині кадру на попередньому чи наступному зображенні), але й віддалених сусідів, розташованих за багато кадрів, і але це вплине на зв’язаний ефект будь-яких операцій, які виконуються над відео в цілому.

Архітектура E2FGVI.

Архітектура E2FGVI.

Новий центральний розділ робочого процесу, що базується на ознаках, здатний використовувати переваги більшої кількості процесів на рівні ознак та зміщень вибірки, які можна навчати, тоді як новий фокальний трансформатор проекту, за словами авторів, розширює розмір фокальних вікон «з 2D до 3D».

Тести та дані

Щоб перевірити Е2FGVI, дослідники оцінили систему за двома популярними наборами даних сегментації відеооб’єктів: YouTube-ВОС та ДЕВІС. YouTube-VOS містить 3741 навчальний відеокліп, 474 перевірочні кліпи та 508 тестових кліпів, тоді як DAVIS містить 60 навчальних відеокліпів і 90 тестових кліпів.

E2FGVI було навчено на YouTube-VOS та оцінено на обох наборах даних. Під час навчання маски об'єктів (зелені області на зображеннях вище та супровідне відео YouTube) були створені для імітації завершення відео.

Для показників дослідники взяли пікове відношення сигнал/шум (PSNR), структурну подібність (SSIM), відстань початку відео на основі Fréchet (VFID) і похибку деформації потоку – останній для вимірювання тимчасової стабільності в постраждалому відео.

Попередні архітектури, на яких перевірялася система, були VINet, DFVI, ЛГТСМ, CAP, FGVC, STTN та FuseFormer.

З розділу статті про кількісні результати. Стрілки вгору та вниз вказують, що більші чи менші числа є кращими відповідно. E2FGVI досягає найкращих результатів за всіма напрямками. Методи оцінюються відповідно до FuseFormer, хоча DFVI, VINet і FGVC не є наскрізними системами, що унеможливлює оцінку їхніх FLOP.

З розділу статті про кількісні результати. Стрілки вгору та вниз вказують, що більші чи менші числа є кращими відповідно. E2FGVI досягає найкращих результатів за всіма напрямками. Методи оцінюються відповідно до FuseFormer, хоча DFVI, VINet і FGVC не є наскрізними системами, що унеможливлює оцінку їхніх FLOP.

На додаток до досягнення найкращих результатів у порівнянні з усіма конкуруючими системами, дослідники провели якісне дослідження користувачів, під час якого відео, трансформовані за допомогою п’яти репрезентативних методів, демонструвалися окремо двадцяти добровольцям, яких попросили оцінити їх з точки зору якості зображення.

Вертикальна вісь відображає відсоток учасників, які віддали перевагу результату E2FGVI з точки зору візуальної якості.

Вертикальна вісь відображає відсоток учасників, які віддали перевагу E2Вихід FGVI з точки зору візуальної якості.

Автори зазначають, що, незважаючи на одностайну перевагу їхнього методу, один із результатів, FGVC, не відображає кількісних результатів, і вони припускають, що це вказує на те, що E2FGVI може, ймовірно, генерувати «візуально приємніші результати».

З точки зору ефективності, автори відзначають, що їхня система значно скорочує кількість операцій з плаваючою комою в секунду (FLOP) і час висновку на одному GPU Titan на наборі даних DAVIS, і зауважують, що результати показують E2FGVI працює x15 швидше, ніж методи на основі потоку.

Вони коментують:

'[Е2FGVI] має найнижчі показники FLOP порівняно з усіма іншими методами. Це вказує на те, що запропонований метод є високоефективним для інпайнтингу відео.

*Моє перетворення вбудованих цитат авторів на гіперпосилання.

 

Вперше опубліковано 19 травня 2022 р.

Змінено у вівторок, 28 жовтня 2025 року, щоб видалити помилкове вбудовування відео та змінити посилання на вбудовуване відео в тексті статті.

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai