Angle dâAnderson
Recherche en intelligence artificielle prévoit des contrÎles de volume séparés pour le dialogue, la musique et les effets sonores

Une nouvelle collaboration de recherche dirigée par Mitsubishi examine la possibilité d’extraire trois bandes sonores distinctes d’une source audio originale, en décomposant la piste audio en parole, musique et effets sonores (c’est-à-dire le bruit ambiant).
Étant donné que cela constitue un cadre de traitement postérieur, il offre un potentiel pour les futures générations de plateformes de visionnage multimédia, notamment les équipements grand public, pour proposer des contrôles de volume à trois points, permettant à l’utilisateur d’augmenter le volume du dialogue ou de réduire le volume d’une bande sonore.
Dans la courte vidéo ci-dessous issue de la vidéo accompagnant la recherche (voir fin de l’article pour la vidéo complète), nous voyons différents aspects de la bande sonore mis en évidence lorsque l’utilisateur fait glisser un contrôle sur un triangle avec chacun des trois composants audio dans un coin :
Une courte vidéo issue de la vidéo accompagnant l’article (voir embed à la fin de l’article). Lorsque l’utilisateur fait glisser le curseur vers l’un des trois aspects extraits dans l’interface de triangle (à droite), l’audio met en évidence cette partie de la bande sonore tripartite. Bien que la vidéo plus longue cite un certain nombre d’exemples supplémentaires sur YouTube, ceux-ci semblent actuellement indisponibles. Source: https://vimeo.com/634073402
L’article intitulé Le problème de la fourchette de cocktail: séparation audio à trois voies pour les bandes sonores du monde réel, provient de chercheurs des laboratoires de recherche électriques Mitsubishi (MERL) à Cambridge, MA, et du département d’ingénierie des systèmes intelligents de l’Université de l’Indiana dans l’Illinois.
Séparation des aspects d’une bande sonore
Les chercheurs ont baptisé le défi « Le problème de la fête de cocktail » car il s’agit d’isoler des éléments fortement entremêlés d’une bande sonore, ce qui crée une carte ressemblant à une fourchette (voir image ci-dessous). Dans la pratique, les bandes sonores multicanal (c’est-à-dire stéréo et plus) peuvent avoir des quantités différentes de types de contenu, tels que le dialogue, la musique et l’ambiance, en particulier depuis que le dialogue tend à dominer le canal central dans les mélanges Dolby 5.1. Actuellement, cependant, le domaine de recherche très actif de la séparation audio se concentre sur la capture de ces éléments à partir d’une bande sonore unique et « cuite », comme le fait la recherche actuelle.

La fourchette de cocktail – en dérivant trois bandes sonores distinctes à partir d’une bande sonore fusionnée et unique. Source: https://arxiv.org/pdf/2110.09958.pdf
Les recherches récentes se sont concentrées sur l’extraction de la parole dans divers environnements, souvent à des fins de débruitage de l’audio de la parole pour une utilisation ultérieure avec des systèmes de traitement automatique du langage naturel (NLP), mais également sur l’isolement des voix de chanteurs d’archives, soit pour créer des versions synthétiques de chanteurs réels (même décédés), soit pour faciliter l’isolement de la musique de type karaoké.
Un jeu de données pour chaque aspect
Jusqu’à présent, peu d’attention a été accordée à l’utilisation de ce type de technologie d’intelligence artificielle pour donner aux utilisateurs un contrôle plus important sur le mélange d’une bande sonore. Par conséquent, les chercheurs ont formalisé le problème et créé un nouveau jeu de données pour aider à la poursuite de la recherche sur la séparation de bandes sonores multitypes, ainsi que pour tester sur divers cadres de séparation audio existants.
Le nouveau jeu de données développé par les auteurs s’appelle Divide and Remaster (DnR), et est dérivé des jeux de données précédents LibriSpeech, Free Music Archive et le Freesound Dataset 50k (FSD50K). Pour ceux qui souhaitent travailler avec DnR à partir de zéro, le jeu de données doit être reconstruit à partir des trois sources ; sinon, il sera bientôt disponible sur Zenodo, affirment les auteurs. Cependant, au moment de la rédaction, le lien GitHub fourni pour les utilitaires d’extraction de sources n’est pas actuellement actif, donc ceux qui sont intéressés peuvent devoir attendre un peu.
Les chercheurs ont constaté que l’architecture CrossNet un-mix (XUMX) proposée par Sony en mai fonctionne particulièrement bien avec DnR.

L’architecture audio CrossNet de Sony.
Les auteurs affirment que leurs modèles d’extraction d’apprentissage automatique fonctionnent bien sur les bandes sonores de YouTube, bien que les évaluations présentées dans l’article soient basées sur des données synthétiques, et que la vidéo principale fournie (intégrée ci-dessous) est actuellement la seule qui semble disponible.
Les trois jeux de données utilisés comprennent chacun une collection du type de sortie qui doit être séparée d’une bande sonore : le FSD50K est occupé par les effets sonores et comporte 50 000 extraits audio mono 44,1 kHz étiquetés avec 200 étiquettes de classe de l’ontologie AudioSet de Google ; le Free Music Archive comporte 100 000 chansons stéréo couvrant 161 genres de musique, bien que les auteurs aient utilisé un sous-ensemble contenant 25 000 chansons, pour parité avec le FSD50K ; et LibriSpeech fournit à DnR 100 heures d’échantillons audio de livres audio sous forme de fichiers audio mp3 44,1 kHz.
Travaux futurs
Les auteurs prévoient des travaux supplémentaires sur le jeu de données et une combinaison des modèles distincts développés pour une recherche supplémentaire sur les cadres de reconnaissance de la parole et de classification des sons, présentant une génération automatique de légendes pour la parole et les sons non verbaux. Ils ont également l’intention d’évaluer les possibilités d’approches de remixage qui peuvent réduire les artefacts perceptuels, qui reste le problème central lors de la division d’une bande sonore fusionnée en ses composants constitutifs.
Ce type de séparation pourrait à l’avenir être disponible en tant que commodité grand public dans les téléviseurs intelligents qui intègrent des réseaux d’inférence hautement optimisés, bien qu’il semble probable que les premières mises en œuvre nécessiteraient un certain niveau de temps de prétraitement et d’espace de stockage. Samsung utilise déjà des réseaux neuronaux locaux pour le suréchantillonnage, tandis que le processeur cognitif XR de Sony, utilisé dans la gamme Bravia de l’entreprise, analyse et réinterprète les bandes sonores en temps réel via une intelligence artificielle légère intégrée.
Les appels à un contrôle plus important sur le mélange d’une bande sonore se reproduisent périodiquement, et la plupart des solutions proposées doivent faire face au fait que la bande sonore a déjà été réduite conformément aux normes actuelles (et aux hypothèses sur ce que les téléspectateurs veulent) dans les industries cinématographique et télévisuelle.
Un téléspectateur, exaspéré par la disparité choquante des niveaux de volume entre les différents éléments des bandes sonores de films, est devenu suffisamment désespéré pour développer un ajusteur de volume automatique basé sur du matériel capable d’égaliser le volume pour les films et la télévision.
Bien que les téléviseurs intelligents offrent une gamme diversifiée de méthodes pour essayer d’amplifier le volume du dialogue contre les niveaux de volume grandioses pour la musique, ils luttent tous contre les décisions prises au moment du mélange, et, de manière arguable, les visions des producteurs de contenu qui souhaitent que le public expérimente leurs bandes sonores exactement telles qu’elles ont été configurées.
Les producteurs de contenu semblent susceptibles de s’opposer à cet ajout potentiel à la « culture du remix », puisque plusieurs personnalités de l’industrie ont déjà exprimé leur mécontentement contre les algorithmes de traitement postérieur par défaut basés sur la télévision, tels que le lissage du mouvement.
https://vimeo.com/634073402












