Штучний Інтелект

Ефективніше видалення об’єктів із відео за допомогою машинного навчання

оновлений on 9 Грудня, 2022

Нове дослідження, проведене в Китаї, повідомляє про найсучасніші результати, а також про вражаюче підвищення ефективності нової системи малювання відео, яка може спритно видаляти об’єкти з відзнятого матеріалу.

За новим порядком фарбують ремінь дельтаплана. Перегляньте вихідне відео (вбудоване внизу цієї статті), щоб отримати кращу роздільну здатність і більше прикладів. Джерело: https://www.youtube.com/watch?v=N–qC3T2wc4

Техніка під назвою «Наскрізна структура для відео Inpainting із керуванням» (E²FGVI), також здатний видаляти водяні знаки та різні інші види оклюзії з відеовмісту.

E2FGVI розраховує передбачення для вмісту, який знаходиться за оклюзіями, дозволяючи видаляти навіть помітні та важкорозв’язані водяні знаки. Джерело: https://github.com/MCG-NKU/E2FGVI

E2FGVI розраховує передбачення для вмісту, який лежить за оклюзіями, дозволяючи видаляти навіть помітні водяні знаки, які важко вирішити. Джерело: https://github.com/MCG-NKU/E2FGVI

Щоб побачити більше прикладів у кращій роздільній здатності, перегляньте відео, вбудоване в кінці статті.

Хоча модель, представлена в опублікованій статті, була навчена на відео 432 x 240 пікселів (зазвичай малі розміри вхідних даних, обмежені доступним простором GPU порівняно з оптимальними розмірами пакетів та іншими факторами), автори з тих пір випустили E²FGVI-HQ, який може обробляти відео з довільною роздільною здатністю.

Код для поточної версії є доступний на GitHub, а версію HQ, випущену минулої неділі, можна завантажити з Google Drive та Диск Baidu.

Малюк залишається на фото.

E²FGVI може обробляти відео 432 × 240 за 0.12 секунди на кадр на графічному процесорі Titan XP (12 ГБ відеопам’яті), і автори повідомляють, що система працює в п’ятнадцять разів швидше, ніж попередні найсучасніші методи, засновані на оптичний потік.

Тенісист робить несподіваний вихід.

Випробуваний на стандартних наборах даних для цього підсектору досліджень синтезу зображень, новий метод зміг перевершити конкурентів як у якісному, так і в кількісному раундах оцінювання.

Тести на попередні підходи. Джерело: https://arxiv.org/pdf/2204.02663.pdf

Команда папір має титул Назустріч наскрізній структурі для керованого відео Inpainting, і це співпраця між чотирма дослідниками з Нанкайського університету та дослідником з Hisilicon Technologies.

Чого не вистачає на цій картинці

Окрім очевидних застосувань для візуальних ефектів, високоякісне малювання відео має стати основною визначальною особливістю нових технологій синтезу зображень і зміни зображень на основі ШІ.

Особливо це стосується модних програм, що змінюють тіло, та інших фреймворків прагнути "схуднути" або іншим чином змінювати сцени на зображеннях і відео. У таких випадках необхідно переконливо «заповнити» зайвий фон, який оголюється синтезом.

Згідно з нещодавньою статтею, алгоритм «переформування» тіла має завдання зафарбовувати щойно відкритий фон, коли об’єкт змінюється. Тут цей недолік представлений червоним контуром, який раніше займала повніша людина (у реальному житті, див. зображення зліва). За матеріалами джерела https://arxiv.org/pdf/2203.10496.pdf

Когерентний оптичний потік

Оптичний потік (OF) став основною технологією в розробці видалення відеооб’єктів. Як an Атлант, OF забезпечує одноразову карту часової послідовності. Часто використовується для вимірювання швидкості в ініціативах комп’ютерного бачення, OF також може увімкнути часове узгоджене малювання, де загальну суму завдання можна розглянути за один прохід, замість «кадрової» уваги в стилі Діснея, що неминуче призводить до до тимчасового розриву.

Методи відеомалювання на сьогоднішній день зосереджені на триетапному процесі: завершення потоку, де відео по суті розміщується в окрему та досліджувану сутність; піксельне поширення, де дірки в «пошкоджених» відеозаписах заповнюються пікселями, що поширюються в двох напрямках; і зміст галюцинації (піксельний «винахід», який знайомий більшості з нас із глибоких фейків і фреймворків перетворення тексту в зображення, таких як серія DALL-E), де приблизний «відсутній» контент винаходиться та вставляється у відеоматеріал.

Центральне нововведення Е²FGVI поєднує ці три етапи в наскрізну систему, уникаючи необхідності виконувати ручні операції над вмістом або процесом.

У статті зазначається, що потреба в ручному втручанні вимагає, щоб старіші процеси не використовували переваги GPU, що робить їх досить трудомісткими. З паперу*:

'Взяття DFVI як приклад, заповнивши одне відео розміром 432 × 240 від ДЕВІС, який містить близько 70 кадрів, потребує близько 4 хвилин, що є неприйнятним у більшості реальних додатків. Крім того, за винятком вищезгаданих недоліків, лише використання попередньо підготовленої мережі малювання зображень на етапі галюцинації вмісту ігнорує зв’язки вмісту між тимчасовими сусідами, що призводить до неузгодженого генерованого вмісту у відео».

Об’єднавши три етапи відеоживопису, Е²FGVI може замінити другу стадію, піксельне поширення, поширенням ознак. У більш сегментованих процесах попередніх робіт функції не так широко доступні, оскільки кожен етап відносно герметичний, а робочий процес лише напівавтоматичний.

Крім того, дослідники розробили a тимчасовий фокальний трансформатор для етапу галюцинації вмісту, який розглядає не лише безпосередніх сусідів пікселів у поточному кадрі (тобто те, що відбувається в тій частині кадру на попередньому чи наступному зображенні), але й віддалених сусідів, розташованих за багато кадрів, і але це вплине на зв’язаний ефект будь-яких операцій, які виконуються над відео в цілому.

Архітектура E2FGVI.

Нова центральна частина робочого процесу, заснована на функціях, може використовувати переваги більшої кількості процесів на рівні функцій і зсувів вибірки, які можна вивчати, тоді як новий фокусний трансформатор проекту, за словами авторів, розширює розмір фокусних вікон «від 2D до 3D». .

Тести та дані

Щоб перевірити Е²FGVI, дослідники оцінили систему за двома популярними наборами даних сегментації відеооб’єктів: YouTube-ВОС та ДЕВІС. YouTube-VOS містить 3741 навчальний відеокліп, 474 перевірочні кліпи та 508 тестових кліпів, тоді як DAVIS містить 60 навчальних відеокліпів і 90 тестових кліпів.

E²FGVI пройшов навчання на YouTube-VOS і оцінив обидва набори даних. Під час навчання були створені маски об’єктів (зелені області на зображеннях вище та вбудоване відео нижче) для імітації завершення відео.

Для показників дослідники взяли пікове відношення сигнал/шум (PSNR), структурну подібність (SSIM), відстань початку відео на основі Fréchet (VFID) і похибку деформації потоку – останній для вимірювання тимчасової стабільності в постраждалому відео.

Попередні архітектури, на яких перевірялася система, були VINet, DFVI, ЛГТСМ, CAP, FGVC, STTN та FuseFormer.

З розділу статті про кількісні результати. Стрілки вгору та вниз вказують, що більші чи менші числа є кращими відповідно. E2FGVI досягає найкращих результатів за всіма напрямками. Методи оцінюються відповідно до FuseFormer, хоча DFVI, VINet і FGVC не є наскрізними системами, що унеможливлює оцінку їхніх FLOP.

На додаток до досягнення найкращих результатів у порівнянні з усіма конкуруючими системами, дослідники провели якісне дослідження користувачів, під час якого відео, трансформовані за допомогою п’яти репрезентативних методів, демонструвалися окремо двадцяти добровольцям, яких попросили оцінити їх з точки зору якості зображення.

Вертикальна вісь відображає відсоток учасників, які віддали перевагу результату E2FGVI з точки зору візуальної якості.

Вертикальна вісь відображає відсоток учасників, які віддали перевагу E²Вихід FGVI з точки зору візуальної якості.

Автори зазначають, що, незважаючи на одностайну перевагу їхнього методу, один із результатів, FGVC, не відображає кількісних результатів, і вони припускають, що це вказує на те, що E²FGVI, можливо, генерує «більш візуально приємні результати».

З точки зору ефективності, автори відзначають, що їхня система значно скорочує кількість операцій з плаваючою комою в секунду (FLOP) і час висновку на одному GPU Titan на наборі даних DAVIS, і зауважують, що результати показують E²FGVI працює x15 швидше, ніж методи на основі потоку.

Вони коментують:

'[Е²FGVI] має найнижчий FLOP на відміну від усіх інших методів. Це вказує на те, що запропонований метод є високоефективним для малювання відео».

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*Моє перетворення вбудованих цитат авторів у гіперпосилання.

Вперше опубліковано 19 травня 2022 р.

Схожі теми:синтез зображення дослідження трансформатор відео

Вгору Далі

Виявлення «професійних» шкідливих онлайн-оглядів за допомогою машинного навчання

Не пропустіть

Апаратна технологія ШІ імітує зміни в топології нейронної мережі

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai

Об'єднуйтесь.AI

Ефективніше видалення об’єктів із відео за допомогою машинного навчання

Штучний Інтелект