Вештачка интелигенција

Користење на вештачка интелигенција за сумирање на долги видеа „Како да“.

Ажурирани on Декември 9, 2022

Главна слика: DALL-E 2

Ако сте таков што можете да ја зголемите брзината на видеото за упатување на YouTube за да дојдете до информациите што всушност ги сакате; консултирајте се со транскриптот на видеото за да ги соберете основните информации скриени во долгите и честопати оптоварени со спонзори на траење; или да се надеваме дека WikiHow успеа да создаде помалку одзема време верзија на информациите во видеото со упатства; тогаш нов проект од UC Berkeley, Google Research и Brown University може да ве интересира.

насловена TL; DW? Сумирање на наставни видеа со релевантност на задачите и вкрстено модално значење, нова хартија го детализира создавањето на систем за сумирање на видео со помош на вештачка интелигенција, кој може да ги идентификува релевантните чекори од видеото и да отфрли сè друго, што резултира со кратки резимеа кои брзо завршуваат со потера.

Експлоатацијата на WikiHow на постојните долги видео клипови и за текстуални и за видео информации се користи од проектот IV-Sum за да се генерираат лажни резимеа што ја обезбедуваат основната вистина за обука на системот. Извор: https://arxiv.org/pdf/2208.06773.pdf

Добиените резимеа имаат дел од времето на траење на оригиналното видео, додека мултимодалните (т.е. текстуални) информации исто така се снимаат во текот на процесот, така што идните системи би можеле потенцијално да го автоматизираат создавањето на блог постови во стилот на WikiHow кои можат автоматски да се анализираат проликс како да се видео во кратка статија што може да се пребарува, комплетна со илустрации, потенцијално заштедувајќи време и фрустрации.

Новиот систем се вика IV-Сум („Сумаризатор на упатства за видео“), и користи отворен код ResNet-50 Алгоритам за препознавање на компјутерска визија, меѓу неколку други техники, за да се издвојат соодветните рамки и сегменти од долго изворно видео.

Концептуалниот тек на работа за IV-Sum.

Системот е обучен за псевдорезимеа генерирани од структурата на содржината на веб-локацијата WikiHow, каде што вистинските луѓе често ги користат популарните наставни видеа во порамна мултимедијална форма базирана на текст, често користејќи кратки клипови и анимирани GIF-ови земени од изворни наставни видеа.

Дискутирајќи за користењето на проектот на резимеата на WikiHow како извор на основни податоци за вистинитоста за системот, авторите наведуваат:

„Секоја статија за Вики како видеа веб-страницата се состои од главно видео со настава што демонстрира задача што често вклучува промотивна содржина, клипови од инструкторот што зборува пред камерата без визуелни информации за задачата и чекори кои не се клучни за извршување на задачата.

„Гледачите кои сакаат преглед на задачата би претпочитале пократко видео без сите горенаведени ирелевантни информации. Статиите на WikiHow (на пр. види Како да направите суши ориз) го содржи токму ова: соодветниот текст кој ги содржи сите важни чекори во видеото наведени со придружните слики/клипови кои ги илустрираат различните чекори во задачата.'

Резултирачката база на податоци од ова веб-стружење се нарекува ВикиКако резимеа. Базата на податоци се состои од 2,106 влезни видеа и нивните поврзани резимеа. Ова е значително поголема големина на податоци отколку што е вообичаено достапна за проекти за видео сумирање, кои вообичаено бараат скапо и трудоинтензивно рачно етикетирање и прибелешка - процес кој е во голема мера автоматизиран во новата работа, благодарение на поограничениот опсег на сумирање наставни (наместо општи) видеа.

IV-Sum користи временски репрезентации на 3D конволуционерна невронска мрежа, наместо репрезентации базирани на рамка кои ги карактеризираат претходните слични дела, а студијата за аблација детална во трудот потврдува дека сите компоненти на овој пристап се од суштинско значење за функционалноста на системот.

IV-Sum поволно тестиран против различни споредливи рамки, вклучително КЛИП-Тоа (на што работеа и неколку автори на трудот).

IV-Sum добива добри резултати во однос на споредливите методи, веројатно поради поограничениот опсег на примена, во споредба со општата серија на иницијативи за видео сумирање. Детали за метрика и методи на бодување понатаму во оваа статија.

Метод

Првата фаза во процесот на сумирање вклучува користење на релативно мал напор, слабо надгледуван алгоритам за создавање псевдорезимеа и оценки за важност според рамката за голем број на наставни видеа исчистени од веб, со само една ознака за задачи во секое видео.

Следно, мрежата за сумирање на наставата е обучена за овие податоци. Системот ги зема автоматски транскрибираните говори (на пример, титлите за видеото генерирани со вештачка интелигенција на YouTube) и изворното видео како влез.

Мрежата се состои од видео енкодер и трансформатор за бодување сегменти (SST), а обуката се раководи од оценките за важност доделени во псевдорезимеата. Крајното резиме е создадено со поврзување на сегменти кои постигнале оценка со висока важност.

Од хартија:

„Главната интуиција зад нашата линија за генерирање псевдо резиме е дека со оглед на многу видеа од задача, чекорите кои се клучни за задачата веројатно ќе се појават на повеќе видеа (релевантност на задачата).

„Дополнително, ако некој чекор е важен, типично е демонстрантот да зборува за овој чекор или пред, за време или по неговото извршување. Затоа, преводите за видеото добиено со помош на автоматско препознавање говор (ASR) најверојатно ќе се однесуваат на овие клучни чекори (вкрстено модална важност).'

За да се генерира псевдорезимето, видеото прво е рамномерно поделено на сегменти, а сегментите се групираат врз основа на нивната визуелна сличност во „чекори“ (различни бои на сликата погоре). На овие чекори потоа им се доделуваат оценки за важност врз основа на „релевантноста на задачата“ и „вкрстеното модално значење“ (т.е. корелацијата помеѓу текстот и сликите на ASR). Потоа се избираат чекори со високи оценки за да се претстават фазите во псевдорезимето.

Системот користи Крос-модална истакнатост да помогне да се утврди релевантноста на секој чекор, со споредување на толкуваниот говор со сликите и дејствата во видеото. Ова се постигнува со употреба на претходно обучен модел на видео-текст каде што секој елемент е заеднички обучен при загуба на MIL-NCE, користејќи 3D CNN видео енкодер развиена од, меѓу другите, DeepMind.

Потоа се добива оценка од општа важност од пресметаниот просек на овие фази на релевантност на задачите и вкрстена модална анализа.

податоци

За процесот беше генерирана почетна база на податоци за псевдорезимеа, која ги сочинуваше повеќето содржини од две претходни групи на податоци - Кокошка, сет од 2019 година кој содржи 11,000 видеа поврзани со 180 задачи; и Вкрстена задача, кој содржи 4,700 наставни видеа, од кои 3,675 се користени во истражувањето. Cross-Task содржи 83 различни задачи.

Погоре, примери од COIN; подолу, од Cross-Task. Извори, соодветно: https://arxiv.org/pdf/1903.02874.pdf и https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_pdfFrom_Instructional_VPR_Vide.

Користејќи видеа што се појавија во двете збирки на податоци само еднаш, истражувачите на тој начин можеа да добијат 12,160 видеа кои опфаќаат 263 различни задачи и 628.53 часа содржина за нивната база на податоци.

За да се пополни базата на податоци заснована на WikiHow и да се обезбеди основната вистина за системот, авторите ги избришаа видеата на WikiHow за сите долги наставни видеа, заедно со нивните слики и видео клипови (т.е. GIF) поврзани со секој чекор. Така, структурата на изведените содржини на WikiHow требаше да послужи како образец за индивидуализирање на чекорите во новиот систем.

Функциите извлечени преку ResNet50 беа искористени за вкрстено совпаѓање на деловите од видеото избрани од цреша во сликите на WikiHow и за локализација на чекорите. Најсличната добиена слика во видео прозорец од 5 секунди се користеше како точка на прицврстување.

Овие пократки клипови потоа беа споени во видеа кои ќе ја сочинуваат основната вистина за обуката на моделот.

Беа доделени етикети на секоја рамка во влезното видео, за да се изјаснат дали припаѓаат на влезното резиме или не, при што секое видео добиваше од истражувачите бинарна ознака на ниво на рамка и просечен резултат за сумирање добиен преку оценките за важност за сите кадри. во сегментот.

Во оваа фаза, „чекорите“ во секое наставно видео сега беа поврзани со податоци засновани на текст и означени.

Обука, тестови и метрика

Конечната база на податоци на WikiHow беше поделена на 1,339 видеа за тестирање и 768 видеа за валидација - забележително зголемување на просечната големина на несуровини збирки на податоци посветени на видео анализа.

Кодерите за видео и текст во новата мрежа беа заеднички обучени на ан S3D мрежа со тегови натоварени од претходно обучен Како до 100 милиони модел под загуба MIL-NCE.

Моделот беше обучен со Adam оптимизатор со брзина на учење од 0.01 со големина на серија од 24, со поврзување на дистрибуирани податоци паралелно што ја рашири обуката низ осум графички процесори NVIDIA RTX 2080, за вкупно 24 GB дистрибуирана VRAM.

IV-Sum потоа беше спореден со различни сценарија за CLIP-It во согласност со слични пред работи, вклучително и студија за CLIP-It. Метриките што се користеа беа вредности за прецизност, отповикување и F-оценка, во три ненадгледувани основни линии (види хартија за детали).

Резултатите се наведени на претходната слика, но истражувачите дополнително забележуваат дека CLIP-It промашува голем број можни чекори во различни фази во тестовите, а IV-Sum не. Тие го припишуваат ова на CLIP-It што е обучен и развиен користејќи значително помали збирки на податоци од новиот корпус WikiHow.

Импликации

Аргументираната долгорочна вредност на оваа нишка на истражување (која IV-Sum го дели поширокиот предизвик на видео анализата) би можела да биде да ги направи наставните видео клипови подостапни за конвенционалното индексирање на пребарувачите и да овозможи вид на редуктивна „парче“ од резултатите за видеа што Google толку често ќе ги извлекува од подолга конвенционална статија.

Очигледно, развојот на било Процесот потпомогнат од вештачката интелигенција, кој ја намалува нашата обврска да примениме линеарно и ексклузивно внимание на видео содржините, може да има последици за привлечноста на медиумот за генерација на маркетери за кои непроѕирноста на видеото беше можеби единствениот начин на кој сметаа дека можат исклучиво да не ангажираат.

Со оглед на тоа што локацијата на „вредната“ содржина е тешко да се утврди, видеото придонесено од корисникот ужива широко (ако не сакаат) уживање од медиумските потрошувачи во однос на пласманот на производите, местата за спонзори и општото самопочитување во кое се дава понуда за вредност на видеото е толку често легната. Проектите како што е IV-Sum ветуваат дека на крајот под-аспектите на видео содржината ќе станат грануларни и раздвојливи од она што многумина го сметаат за „баласт“ на рекламирањето во содржината и екстемпоризацијата без содржина.

Прво објавено на 16 август 2022 година. Ажурирано на 2.52 август во 16:XNUMX часот, отстранета дупликат фраза.

Поврзани теми:Компјутерска визија истражување Видео

Следно

Големи податоци наспроти мали податоци: клучни разлики

Не ја пропуштајте

Како да ангажирате научник за податоци (мај 2024 година)

Мартин Андерсон

Писател за машинско учење, вештачка интелигенција и големи податоци.
Лична страница: martinanderson.ai
Контакт: [заштитена по е-пошта]
Твитер: @manders_ai