Штучний Інтелект

Використання штучного інтелекту для узагальнення довгих відео «Інструкції».

оновлений on 9 Грудня, 2022

Головне зображення: DALL-E 2

Якщо ви з тих, хто хоче пришвидшити відео з інструкціями на YouTube, щоб отримати потрібну інформацію; перегляньте стенограму відео, щоб отримати важливу інформацію, приховану в тривалому та часто завантаженому спонсорами часу виконання; або ж сподіватися, що WikiHow вдалося створити менш трудомістку версію інформації з навчального відео; тоді вас може зацікавити новий проект від Каліфорнійського університету в Берклі, Google Research і Університету Брауна.

Титулований TL;DW? Резюмування навчальних відео з релевантністю завдань і крос-модальним характером, новий папір докладно розповідає про створення системи підсумовування відео за допомогою штучного інтелекту, яка може визначати відповідні кроки з відео та відкидати все інше, що призводить до коротких підсумків, які швидко переходять до суті.

Експлуатація WikiHow існуючих довгих відеокліпів як для текстової, так і для відеоінформації використовується проектом IV-Sum для створення фальшивих підсумків, які надають основну правду для навчання системи. Джерело: https://arxiv.org/pdf/2208.06773.pdf

Отримані підсумки займають частину часу виконання оригінального відео, тоді як багатомодальна (тобто текстова) інформація також записується під час процесу, щоб майбутні системи потенційно могли автоматизувати створення дописів у блозі у стилі WikiHow, які можуть автоматично аналізувати велике відео з інструкціями в стислу коротку статтю з можливістю пошуку, доповнену ілюстраціями, потенційно заощаджуючи час і розчарування.

Нова система називається IV-Сум («Резюме навчального відео») і використовує відкритий код ResNet-50 алгоритм розпізнавання комп’ютерного зору, серед кількох інших методів, для виділення відповідних кадрів і сегментів тривалого вихідного відео.

Концептуальний робочий процес для IV-Sum.

Система навчається на основі псевдорезюме, створеної зі структури контенту веб-сайту WikiHow, де реальні люди часто використовують популярні навчальні відео в більш плоскій, текстовій мультимедійній формі, часто використовуючи короткі кліпи та анімовані GIF-файли, взяті з вихідних навчальних відео.

Обговорюючи використання проектом підсумків WikiHow як джерела базових правдивих даних для системи, автори заявляють:

«Кожна стаття на Відео WikiHow Веб-сайт складається з основного навчального відео, яке демонструє завдання, яке часто включає рекламний вміст, відеоролики, на яких інструктор розмовляє на камеру, без візуальної інформації про завдання, а також кроки, які не є ключовими для виконання завдання.

«Глядачі, які хочуть отримати огляд завдання, віддадуть перевагу коротшому відео без усієї вищезгаданої нерелевантної інформації. Статті WikiHow (наприклад, див Як приготувати рис для суші) містять саме це: відповідний текст, який містить усі важливі кроки у відео, перерахованому разом із супровідними зображеннями/кліпами, що ілюструють різні етапи завдання.'

База даних, отримана в результаті цього веб-збирання, називається Підсумки WikiHow. База даних складається з 2,106 вхідних відео та відповідних підсумків. Це значно більший розмір набору даних, ніж зазвичай доступний для проектів узагальнення відео, які зазвичай вимагають дорогих і трудомістких ручних позначок і анотацій – процес, який був значною мірою автоматизований у новій роботі, завдяки більш обмеженому діапазону узагальнення навчальні (а не загальні) відео.

IV-Sum використовує часові тривимірні згорточні нейронні мережеві представлення, а не фреймові представлення, які характеризують попередні подібні роботи, і дослідження абляції, докладне в статті, підтверджує, що всі компоненти цього підходу є важливими для функціональності системи.

IV-Sum позитивно протестовано проти різних порівнянних фреймворків, у тому числі CLIP-It (над яким також працювали кілька авторів статті).

IV-Sum має хороші результати порівняно з аналогічними методами, можливо, через більш обмежену сферу застосування порівняно із загальним циклом ініціатив узагальнення відео. Детальна інформація про показники та методи підрахунку балів наведена нижче в цій статті.

Метод

Перший етап у процесі підсумовування передбачає використання алгоритму з відносно невеликими зусиллями, слабким контролем для створення псевдорезюме та кадрові оцінки важливості для великої кількості навчальних відео, взятих із Інтернету, лише з однією міткою завдання в кожному відео.

Далі на цих даних навчається мережа узагальнення інструкцій. Система приймає автоматично транскрибовану мову (наприклад, власні субтитри YouTube, згенеровані штучним інтелектом для відео) і вихідне відео як вхідні дані.

Мережа складається з відеокодера та трансформатора оцінки сегментів (SST), а навчання керується балами важливості, призначеними в псевдопідсумках. Остаточний підсумок створюється шляхом об’єднання сегментів, які отримали високу оцінку важливості.

З паперу:

«Основна інтуїція, яка лежить в основі нашого конвеєра створення псевдорезюме, полягає в тому, що враховуючи багато відео про завдання, кроки, які є вирішальними для завдання, ймовірно, з’являться в кількох відео (релевантність завдання).

«Крім того, якщо крок важливий, демонстратор зазвичай говорить про цей крок до, під час або після його виконання. Таким чином, субтитри до відео, отримані за допомогою автоматичного розпізнавання мовлення (ASR), ймовірно, посилатимуться на ці ключові кроки (крос-модальна помітність).»

Щоб створити псевдорезюме, відео спочатку рівномірно розбивається на сегменти, а сегменти групуються на основі їх візуальної подібності в «кроки» (різні кольори на зображенні вище). Потім цим крокам призначаються оцінки важливості на основі «релевантності завдання» та «кросмодальної помітності» (тобто кореляції між текстом ASR та зображеннями). Потім вибираються кроки з високими балами для представлення етапів у псевдопідсумку.

Система використовує Крос-модальна помітність щоб допомогти визначити релевантність кожного кроку, порівнюючи інтерпретоване мовлення із зображеннями та діями у відео. Це досягається за допомогою попередньо підготовленої відео-текстової моделі, де кожен елемент спільно навчається під час втрати MIL-NCE за допомогою 3D відеокодер CNN розроблений, серед іншого, DeepMind.

Тоді загальний бал важливості отримується з обчисленого середнього значення цих етапів релевантності завдання та крос-модального аналізу.

дані

Для цього процесу було створено початковий набір псевдозведених даних, який містить більшу частину вмісту двох попередніх наборів даних – МОНЕТИ, набір 2019 року, що містить 11,000 180 відео, пов’язаних із XNUMX завданнями; і Перехресне завдання, який містить 4,700 навчальних відео, з яких 3,675 були використані в дослідженні. Cross-Task містить 83 різні завдання.

Вище приклади з COIN; нижче, з Cross-Task. Джерела відповідно: https://arxiv.org/pdf/1903.02874.pdf та https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

Використовуючи відео, які були представлені в обох наборах даних лише один раз, дослідники змогли отримати 12,160 263 відео, що охоплюють 628.53 різні завдання, і XNUMX години вмісту для свого набору даних.

Щоб заповнити базований на WikiHow набір даних і надати основну правду для системи, автори зібрали WikiHow Videos для всіх довгих навчальних відео разом із їхніми зображеннями та відеокліпами (тобто GIF-файлами), пов’язаними з кожним кроком. Таким чином, структура похідного вмісту WikiHow мала слугувати шаблоном для індивідуації кроків у новій системі.

Функції, витягнуті через ResNet50, використовувалися для перехресного зіставлення вибраних розділів відео на зображеннях WikiHow і виконання локалізації кроків. Найбільш схоже отримане зображення в 5-секундному відеовікні використовувалося як опорна точка.

Ці коротші кліпи потім зшивалися у відео, які містили б основну правду для навчання моделі.

Кожному кадру у вхідному відео було призначено мітки, щоб визначити, чи належать вони до вхідного підсумку чи ні, при цьому кожне відео отримувало від дослідників бінарну мітку на рівні кадру та усереднений підсумковий бал, отриманий за допомогою балів важливості для всіх кадрів в сегменті.

На цьому етапі «кроки» в кожному навчальному відео тепер були пов’язані з текстовими даними та позначені.

Навчання, тести та показники

Остаточний набір даних WikiHow було розділено на 1,339 тестових відео та 768 перевірочних відео – значне збільшення середнього розміру необроблених наборів даних, присвячених аналізу відео.

Кодувальники відео та тексту в новій мережі були спільно навчені на S3D мережі з вагами, завантаженими з попередньо навченого HowTo100M модель під втратою MIL-NCE.

Модель було навчено за допомогою оптимізатора Adam зі швидкістю навчання 0.01 при розмірі пакета 24 із паралельним зв’язуванням розподілених даних, що розподіляє навчання між вісьмома графічними процесорами NVIDIA RTX 2080, загалом 24 ГБ розподіленої VRAM.

Потім IV-Sum порівнювали з різними сценаріями для CLIP-It відповідно до аналогічний попередній робіт, у тому числі дослідження CLIP-It. Використаними показниками були значення Precision, Recall і F-Score за трьома неконтрольованими базовими рівнями (докладніше див. документ).

Результати наведено на попередньому зображенні, але дослідники додатково відзначають, що CLIP-It пропускає ряд можливих кроків на різних етапах тестування, чого не робить IV-Sum. Вони приписують це тому, що CLIP-It був навчений і розроблений з використанням значно менших наборів даних, ніж новий корпус WikiHow.

Наслідки

Можлива довгострокова цінність цього напрямку дослідження (яке IV-Sum поділяє з ширшим завданням аналізу відео) може полягати в тому, щоб зробити навчальні відеоролики більш доступними для звичайного індексування пошукових систем, а також уможливити редуктивний "фрагмент" результатів для відео, які Google так часто вилучає з довшої звичайної статті.

Очевидно, розвиток в будь-який Процес за допомогою штучного інтелекту, який зменшує наші зобов’язання приділяти лінійну й ексклюзивну увагу відеовмісту, може мати наслідки для привабливості медіа для покоління маркетологів, для яких непрозорість відео була, можливо, єдиним способом, яким вони могли залучити виключно нас.

Оскільки розташування «цінного» вмісту важко визначити, відео, надане користувачами, користується широкою (хоча й неохочею) поблажливістю споживачів засобів масової інформації щодо розміщення продукту, місця для спонсорів і загального самозвеличення, у якому пропозиція цінності відео так часто висловлюється. Такі проекти, як IV-Sum, обіцяють, що з часом суб-фасети відеовмісту стануть гранульованими й відокремлюватимуться від того, що багато хто вважає «баластом» реклами в контенті та експромізації неконтенту.

Вперше опубліковано 16 серпня 2022 р. Оновлено о 2.52:16 XNUMX серпня, вилучено повторювану фразу.

Схожі теми:Комп'ютерне бачення дослідження відео

Вгору Далі

Великі дані проти малих даних: ключові відмінності

Не пропустіть

Як найняти спеціаліста з даних (травень 2024)

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai