Intelligence artificielle

Rétablir les vidéos de réseaux sociaux surempressées avec l’apprentissage automatique

Published August 19, 2022

Updated May 23, 2026

Martin Anderson

De nouvelles recherches menées en Chine offrent une méthode efficace et novatrice pour restaurer les détails et la résolution des vidéos téléchargées par les utilisateurs qui sont compressées automatiquement sur des plateformes telles que WeChat et YouTube afin d’économiser la bande passante et l’espace de stockage.

Comparaison de la nouvelle méthode avec les approches précédentes, en termes de capacité à rétablir avec précision les détails rejetés lors de l’optimisation automatique de la plateforme de réseaux sociaux. Source: https://arxiv.org/pdf/2208.08597.pdf

Contrairement aux méthodes précédentes qui peuvent mettre à l’échelle et échantillonner des vidéos en fonction de données d’entraînement génériques, la nouvelle approche dérive une carte de fonctionnalités de dégradation (DFM) pour chaque trame de la vidéo compressée – effectivement une vue d’ensemble des régions les plus endommagées ou détériorées de la trame qui résultent de la compression.

À partir des études d’ablation du nouveau document: deuxième à droite, la vérité terrain pour une ‘pure’ carte de fonctionnalités de dégradation (DFM) ; troisième à droite, une estimation des dommages sans utiliser DFM. Gauche, une carte de dommages beaucoup plus précise avec DFM.

Le processus de rétablissement, qui utilise des réseaux de neurones convolutifs (CNN), entre autres technologies, est guidé et concentré par les informations de la DFM, permettant à la nouvelle méthode de surpasser les performances et la précision des approches précédentes.

La vérité terrain pour le processus a été obtenue par les chercheurs en téléchargeant des vidéos de haute qualité sur quatre plateformes de partage populaires, en téléchargeant les résultats compressés, et en développant un pipeline de vision par ordinateur capable d’apprendre de manière abstraite les artefacts de compression et la perte de détails, de sorte qu’il puisse être appliqué à plusieurs plateformes pour rétablir les vidéos à une qualité proche de l’originale, sur la base de données complètement opposées.

Exemples à partir du nouveau jeu de données UVSSM des chercheurs.

Le matériel utilisé dans la recherche a été compilé dans un jeu de données HQ/LQ intitulé Utilisateurs de vidéos partagées sur les réseaux sociaux (UVSSM), et a été mis à disposition pour téléchargement (mot de passe: rsqw) sur Baidu, pour le bénéfice des projets de recherche ultérieurs qui cherchent à développer de nouvelles méthodes pour rétablir les vidéos compressées par les plateformes.

Une comparaison entre deux échantillons HQ/LQ équivalents du jeu de données UVSSM téléchargeable (voir les liens ci-dessus pour les URL de source). Puisque même cet exemple peut être soumis à plusieurs cycles de compression (application d’image, CMS, CDN, etc.), veuillez vous référer aux données sources originales pour une comparaison plus précise.

Le code du système, connu sous le nom de Restauration de vidéo par détection adaptative de dégradation (VOTES), a également été publié sur GitHub, bien que sa mise en œuvre implique un certain nombre de dépendances basées sur les tirages.

Le document est intitulé Rétablissement de vidéos partagées par les utilisateurs sur les réseaux sociaux, et provient de trois chercheurs de l’Université de Shenzhen, et d’un chercheur du Département de génie électronique et d’information de l’Université polytechnique de Hong Kong.

Des artefacts aux faits

La capacité à rétablir la qualité des vidéos extraites du web sans la « hallucination » générique, parfois excessive, de détails fournie par des programmes tels que Gigapixel (et la plupart des packages open source de portée similaire) pourrait avoir des implications pour le secteur de la recherche en vision par ordinateur.

Les recherches sur les technologies de vision par ordinateur basées sur la vidéo s’appuient souvent sur des séquences obtenues à partir de plateformes telles que YouTube et Twitter, où les méthodes de compression et les codecs utilisés sont étroitement gardés, ne peuvent pas être facilement déduits sur la base de modèles d’artefacts ou d’autres indicateurs visuels, et peuvent changer périodiquement.

La plupart des projets qui utilisent des vidéos trouvées sur le web ne recherchent pas la compression, et doivent faire des accommodements pour la qualité disponible des vidéos compressées que les plateformes offrent, puisqu’ils n’ont pas accès aux versions de haute qualité originales que les utilisateurs ont téléchargées.

Par conséquent, la capacité à rétablir fidèlement une qualité et une résolution plus élevées pour de telles vidéos, sans introduire d’influence en aval à partir de jeux de données de vision par ordinateur non liés, pourrait aider à éviter les contournements et les accommodements fréquents que les projets de vision par ordinateur doivent actuellement faire pour les sources de vidéos dégradées.

Bien que des plateformes telles que YouTube annoncent occasionnellement des changements importants dans la façon dont elles compressent les vidéos des utilisateurs (comme VP9), aucune d’entre elles ne révèle explicitement l’ensemble du processus ou les codecs et les paramètres utilisés pour réduire les fichiers de haute qualité que les utilisateurs téléchargent.

Obtenir une meilleure qualité de sortie à partir des téléchargements d’utilisateurs est donc devenu une sorte d’art druidique dans les dix dernières années, avec divers (la plupart non confirmés) ‘contournements’ qui entrent et sortent de la mode.

Méthode

Les approches précédentes de restauration de vidéo basée sur l’apprentissage profond ont impliqué une extraction de fonctionnalités génériques, soit comme une approche de restauration de trame unique, soit dans une architecture multi-trame qui utilise le flux optique (c’est-à-dire qui prend en compte les trames adjacentes et ultérieures lors de la restauration d’une trame actuelle).

Toutes ces approches ont dû faire face à l’effet « boîte noire » – le fait qu’elles ne peuvent pas examiner les effets de compression dans les technologies de base, car il n’est pas certain que les technologies de base soient ou comment elles ont été configurées pour une vidéo téléchargée par l’utilisateur.

VOTES, au lieu de cela, cherche à extraire des fonctionnalités pertinentes directement à partir de la vidéo originale et compressée, et à déterminer des modèles de transformation qui seront généralisés aux normes d’un certain nombre de plateformes.

Architecture conceptuelle simplifiée pour VOTES.

VOTES utilise un module de détection de dégradation spécialement développé (DSM, voir image ci-dessus) pour extraire des fonctionnalités dans des blocs convolutifs. Plusieurs trames sont ensuite passées à un module d’extraction et d’alignement de fonctionnalités (FEAM), avec celles-ci étant ensuite acheminées vers un module de modulation de dégradation (DMM). Enfin, le module de reconstruction produit la vidéo rétablie.

Données et expériences

Dans le nouveau travail, les chercheurs se sont concentrés sur la restauration de vidéos téléchargées sur et rétéléchargées à partir de la plateforme WeChat, mais se sont préoccupés de s’assurer que l’algorithme résultant pouvait être adapté à d’autres plateformes.

Il s’est avéré qu’une fois qu’ils avaient obtenu un modèle de rétablissement efficace pour les vidéos WeChat, l’adapter à Bilibili, Twitter et YouTube ne prenait que 90 secondes pour une seule époque pour chaque modèle personnalisé pour chaque plateforme (sur une machine exécutant 4 NVIDIA Tesla P40 GPUs avec un total de 96 Go de VRAM).

L’adaptation du modèle WeChat réussi à d’autres plateformes de partage de vidéos s’est avérée assez triviale. Ici, nous voyons VOTES atteignant presque instantanément la parité de performance sur les différentes plateformes, en utilisant le propre jeu de données UVSSM des auteurs et le jeu de données REDS (voir ci-dessous).

Pour peupler le jeu de données UVSSM, les chercheurs ont rassemblé 264 vidéos allant de 5 à 30 secondes, chacune avec un taux de trames de 30 fps, provenant soit directement de caméras de téléphone mobile, soit d’Internet. Les vidéos étaient toutes soit 1920 x 1080, soit 1280 x 270 de résolution.

Le contenu (voir image ci-dessus) comprenait des vues de ville, des paysages, des personnes et des animaux, parmi une variété d’autres sujets, et sont utilisables dans le jeu de données public via une licence Creative Commons Attribution, permettant la réutilisation.

Les auteurs ont téléchargé 214 vidéos sur WeChat en utilisant cinq marques différentes de téléphone mobile, obtenant la résolution vidéo par défaut de WeChat de 960×540 (à moins que la vidéo source ne soit déjà plus petite que ces dimensions), parmi les conversions les plus « punitives » à travers les plateformes populaires.

En haut à gauche, la trame HQ originale avec trois sections agrandies ; en haut à droite, la même trame à partir d’une version compressée de la même vidéo ; en bas à gauche, la dégradation calculée de la trame compressée ; et en bas à droite, la zone de travail consécutive pour que VOTES se concentre sur elle. Évidemment, la taille de l’image de basse qualité est la moitié de celle de la HQ, mais a été redimensionnée ici pour une comparaison claire.

Pour les comparaisons ultérieures contre les routines de conversion d’autres plateformes, les chercheurs ont téléchargé 50 vidéos non incluses dans les 214 premières sur Bilibili, YouTube et Twitter. Les vidéos avaient une résolution d’origine de 1280×270, avec les versions téléchargées à 640×360.

Ceci porte le jeu de données UVSSM à un total de 364 paires de vidéos HQ (haute qualité) et LQ (basse qualité), avec 214 pour WeChat, et 50 pour chacune des plateformes Bilibili, YouTube et Twitter.

Pour les expériences, 10 vidéos aléatoires ont été sélectionnées comme ensemble de test, quatre comme ensemble de validation, et les 200 restants comme ensemble d’entraînement principal. Les expériences ont été menées cinq fois avec une validation croisée K-fold, avec les résultats moyennés sur ces instances.

Dans les tests de rétablissement de vidéo, VOTES a été comparé à Spatio-Temporal Deformable Fusion (STDF). Pour l’amélioration de la résolution, il a été testé contre Enhanced Deformable convolutions (EDVR), RSDN, Video Super-resolution with Temporal Group Attention (VSR_TGA), et BasicVSR. La méthode à une seule étape de Google COMISR a également été incluse, bien qu’elle ne corresponde pas au type d’architecture des autres travaux précédents.

Les méthodes ont été testées contre les jeux de données UVSS et REDS, avec VOTES atteignant les scores les plus élevés:

Les auteurs affirment que les résultats qualitatifs indiquent également la supériorité de VOTES par rapport aux systèmes précédents:

Trames de vidéo de REDS rétablies par des approches concurrentes. Résolution indicative uniquement – voir le document pour la résolution définitive.

Publié pour la première fois le 19 août 2022.

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

Rétablir les vidéos de réseaux sociaux surempressées avec l’apprentissage automatique

Des artefacts aux faits

Méthode

Données et expériences

You may like