Intelligence artificielle
Utilisation de l’IA pour rĂ©sumer des vidĂ©os « Comment faire » longues

Si vous êtes le type de personne qui augmente la vitesse d’une vidéo tutoriel YouTube pour obtenir l’information que vous voulez vraiment ; consultez la transcription de la vidéo pour extraire les informations essentielles cachées dans les longues et souvent sponsorisées durées de lecture ; ou espérez que WikiHow a créé une version moins chronophage de l’information dans la vidéo instructive ; alors un nouveau projet de l’UC Berkeley, Google Research et Brown University peut vous intéresser.
Intitulé TL;DW? Résumer des vidéos instructives avec la pertinence des tâches et la saillance cross-modale, le nouvel article détaille la création d’un système d’aide à la résumé de vidéo par l’IA qui peut identifier les étapes pertinentes de la vidéo et éliminer tout le reste, aboutissant à des résumés brefs qui vont droit au but.

L’exploitation par WikiHow de clips vidéo longs existants pour les informations texte et vidéo est utilisée par le projet IV-Sum pour générer de faux résumés qui fournissent la vérité de base pour former le système. Source: https://arxiv.org/pdf/2208.06773.pdf
Les résumés résultants ont une fraction de la durée de lecture originale de la vidéo, tandis que les informations multi-modales (c’est-à-dire basées sur le texte) sont également enregistrées au cours du processus, de sorte que les futurs systèmes pourraient potentiellement automatiser la création de billets de blog de style WikiHow capables de parser automatiquement une vidéo tutoriel prolixe en un article court et recherchable, avec des illustrations, ce qui pourrait potentiellement économiser du temps et de la frustration.
Le nouveau système est appelé IV-Sum (‘Résumé de vidéo instructive’), et utilise l’algorithme de reconnaissance de vision par ordinateur open source ResNet-50, entre autres techniques, pour individualiser les cadres et les segments pertinents d’une vidéo source longue.
Le système est formé sur des pseudo-résumés générés à partir de la structure de contenu du site Web WikiHow, où les personnes réelles utilisent souvent des vidéos instructives populaires pour créer une forme multimédia plate et basée sur le texte, en utilisant fréquemment des clips courts et des GIF animés extraits de vidéos instructives source.
En discutant de l’utilisation par le projet des résumés WikiHow comme source de données de vérité de base pour le système, les auteurs déclarent :
‘Chaque article sur le site WikiHow Videos se compose d’une vidéo instructive principale démontrant une tâche qui comprend souvent du contenu promotionnel, des clips de l’instructeur parlant à la caméra sans information visuelle de la tâche, et des étapes qui ne sont pas cruciales pour la réalisation de la tâche.
‘Les spectateurs qui veulent une vue d’ensemble de la tâche préféreraient une vidéo plus courte sans toutes les informations non pertinentes mentionnées ci-dessus. Les articles WikiHow (par exemple, voir Comment faire du riz pour sushi) contiennent exactement cela: du texte qui contient toutes les étapes importantes de la vidéo répertoriées avec des images/extraits illustrant les différentes étapes de la tâche.’
La base de données résultante de ce web-scraping est appelée WikiHow Summaries. La base de données se compose de 2 106 vidéos d’entrée et de leurs résumés associés. Il s’agit d’une taille de jeu de données notablement plus grande que celle qui est généralement disponible pour les projets de résumé de vidéo, qui nécessitent normalement un étiquetage et une annotation manuels coûteux et fastidieux – un processus qui a été largement automatisé dans le nouveau travail, grâce à la portée plus restreinte de la résumé de vidéos instructives (plutôt que générales).
IV-Sum utilise des représentations de réseaux de neurones convolutifs temporels 3D, plutôt que les représentations basées sur les cadres qui caractérisent les travaux similaires antérieurs, et une étude d’ablation détaillée dans l’article confirme que tous les composants de cette approche sont essentiels au fonctionnement du système.
IV-Sum a été testé avec succès contre divers cadres comparables, notamment CLIP-It (sur lequel plusieurs des auteurs de l’article ont également travaillé).

IV-Sum obtient de bons résultats contre les méthodes comparables, peut-être en raison de sa portée d’application plus restreinte, par rapport à l’ensemble général des initiatives de résumé de vidéo. Détails des métriques et des méthodes de notation plus bas dans cet article.
Méthode
La première étape du processus de résumé consiste à utiliser un algorithme faiblement supervisé relativement peu coûteux pour créer des pseudo-résumés et des scores d’importance de cadre pour un grand nombre de vidéos instructives web-scrapées, avec une seule étiquette de tâche dans chaque vidéo.
Ensuite, un réseau de résumé d’instruction est formé sur ces données. Le système prend en entrée la parole auto-transcrite (par exemple, les sous-titres générés par l’IA de YouTube pour la vidéo) et la vidéo source.
Le réseau se compose d’un encodeur de vidéo et d’un transformateur de notation de segment (SST), et la formation est guidée par les scores d’importance attribués dans les pseudo-résumés. Le résumé final est créé en concaténant les segments qui ont obtenu un score d’importance élevé.
À partir de l’article :
‘L’intuition principale derrière notre pipeline de génération de pseudo-résumé est que, étant donné de nombreuses vidéos d’une tâche, les étapes cruciales pour la tâche sont susceptibles d’apparaître dans de multiples vidéos (pertinence de la tâche).
‘En outre, si une étape est importante, il est typique que le démonstrateur parle de cette étape soit avant, pendant ou après l’avoir effectuée. Par conséquent, les sous-titres de la vidéo obtenus à l’aide de la reconnaissance automatique de la parole (ASR) feront probablement référence à ces étapes clés (salience cross-modale).’

Pour générer le pseudo-résumé, la vidéo est d’abord partitionnée uniformément en segments, et les segments sont regroupés en fonction de leur similarité visuelle en ‘étapes’ (couleurs différentes dans l’image ci-dessus). Ces étapes sont ensuite attribuées des scores d’importance en fonction de la ‘pertinence de la tâche’ et de la ‘salience cross-modale’ (c’est-à-dire la corrélation entre le texte ASR et les images). Les étapes à score élevé sont ensuite sélectionnées pour représenter les étapes du pseudo-résumé.
Le système utilise la salience cross-modale pour aider à établir la pertinence de chaque étape, en comparant la parole interprétée avec les images et les actions de la vidéo. Cela est réalisé à l’aide d’un modèle vidéo-texte pré-formé où chaque élément est formé conjointement sous une perte MIL-NCE, en utilisant un encodeur de vidéo 3D CNN développé par, entre autres, DeepMind.
Un score d’importance général est ensuite obtenu à partir d’une moyenne calculée de ces étapes de pertinence de la tâche et d’analyse cross-modale.
Données
Un jeu de données de pseudo-résumés initial a été généré pour le processus, comprenant la plupart du contenu de deux jeux de données antérieurs – COIN, un ensemble de 2019 contenant 11 000 vidéos liées à 180 tâches ; et Cross-Task, qui contient 4 700 vidéos instructives, dont 3 675 ont été utilisées dans la recherche. Cross-Task comporte 83 tâches différentes.

Ci-dessus, des exemples de COIN ; ci-dessous, de Cross-Task. Sources, respectivement: https://arxiv.org/pdf/1903.02874.pdf et https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf
En utilisant des vidéos qui figuraient dans les deux jeux de données seulement une fois, les chercheurs ont pu obtenir 12 160 vidéos couvrant 263 tâches différentes, et 628,53 heures de contenu pour leur jeu de données.
Pour peupler le jeu de données basé sur WikiHow, et pour fournir la vérité de base pour le système, les auteurs ont scrapé WikiHow Videos pour toutes les vidéos instructives longues, ainsi que leurs images et extraits de vidéo (c’est-à-dire les GIF) associés à chaque étape. Ainsi, la structure du contenu dérivé de WikiHow devait servir de modèle pour l’individualisation des étapes dans le nouveau système.
Les fonctionnalités extraites via ResNet50 ont été utilisées pour faire correspondre les sections de vidéo sélectionnées dans les images WikiHow, et pour effectuer une localisation des étapes. L’image la plus similaire obtenue dans une fenêtre de vidéo de 5 secondes a été utilisée comme point d’ancrage.
Ces clips plus courts ont ensuite été assemblés en vidéos qui constitueraient la vérité de base pour la formation du modèle.
Des étiquettes ont été attribuées à chaque trame de la vidéo d’entrée, pour déclarer si elles appartenaient au résumé d’entrée ou non, avec chaque vidéo recevant des chercheurs une étiquette binaire au niveau de la trame, et un score de résumé moyen obtenu via les scores d’importance pour tous les cadres du segment.
À ce stade, les « étapes » de chaque vidéo instructive étaient maintenant associées à des données basées sur le texte, et étiquetées.
Formation, tests et métriques
Le jeu de données WikiHow final a été divisé en 1 339 vidéos de test et 768 vidéos de validation – une augmentation notable par rapport à la taille moyenne des jeux de données non bruts dédiés à l’analyse de vidéo.
Les encodeurs de vidéo et de texte du nouveau réseau ont été formés conjointement sur un réseau S3D avec des poids chargés à partir d’un modèle HowTo100M pré-formé sous une perte MIL-NCE.
Le modèle a été formé avec l’optimiseur Adam à un taux d’apprentissage de 0,01 à une taille de lot de 24, avec un lien de données parallèles distribuées reliant la formation à huit GPU NVIDIA RTX 2080, pour un total de 24 Go de VRAM distribué.
IV-Sum a ensuite été comparé à divers scénarios pour CLIP-It conformément à des travaux antérieurs similaires, notamment une étude sur CLIP-It. Les métriques utilisées étaient les valeurs de précision, de rappel et de score F, sur trois lignes de base non supervisées (voir l’article pour les détails).
Les résultats sont répertoriés dans l’image précédente, mais les chercheurs notent en outre que CLIP-It manque un certain nombre d’étapes possibles à divers stades des tests que IV-Sum ne manque pas. Ils attribuent cela au fait que CLIP-It a été formé et développé en utilisant des jeux de données nettement plus petits que le nouveau corpus WikiHow.
Implications
La valeur à long terme de cette branche de recherche (que IV-Sum partage avec le défi plus large de l’analyse de vidéo) pourrait être de rendre les clips vidéo instructifs plus accessibles à l’indexation des moteurs de recherche conventionnels, et de permettre le type de réduction de résultats « extraits » pour les vidéos que Google extraira souvent d’un article plus long.
Évidemment, le développement de tout processus aidé par l’IA qui réduit notre obligation d’appliquer une attention linéaire et exclusive au contenu vidéo pourrait avoir des ramifications pour l’attrait du médium pour une génération de marketeurs pour lesquels l’opacité du vidéo était peut-être la seule façon dont ils se sentaient capables de nous engager de manière exclusive.
Avec la localisation du « contenu précieux » difficile à déterminer, la vidéo contributive par l’utilisateur a bénéficié d’une large (bien que réticente) indulgence de la part des consommateurs de médias en ce qui concerne le placement de produits, les espaces de parrainage et l’autoglorification générale dans laquelle la proposition de valeur d’une vidéo est si souvent couchée. Les projets tels que IV-Sum tiennent la promesse que les sous-facettes du contenu vidéo deviendront à terme granulaires et séparables de ce que beaucoup considèrent comme le « lest » de la publicité dans le contenu et de l’extemporisation non pertinente.
Publié pour la première fois le 16 août 2022. Mis à jour à 14h52 le 16 août, phrase en double supprimée.













