Suivez nous sur

AudioSep : sĂ©parez tout ce que vous dĂ©crivez

Intelligence Artificielle

AudioSep : sĂ©parez tout ce que vous dĂ©crivez

mm

LASS ou Language-Queried Audio Source Separation est le nouveau paradigme pour CASA ou Computational Auditory Scene Analysis qui vise Ă  sĂ©parer un son cible d'un mĂ©lange audio donnĂ© Ă  l'aide d'une requĂŞte en langage naturel qui fournit une interface naturelle mais Ă©volutive pour les tâches et applications audio numĂ©riques. . Bien que les frameworks LASS aient considĂ©rablement progressĂ© au cours des dernières annĂ©es en termes d'obtention des performances souhaitĂ©es sur des sources audio spĂ©cifiques comme les instruments de musique, ils sont incapables de sĂ©parer l'audio cible dans le domaine ouvert. 

AudioSep, est un modèle fondamental qui vise Ă  rĂ©soudre les limites actuelles des frameworks LASS en permettant la sĂ©paration audio cible Ă  l'aide de requĂŞtes en langage naturel. Les dĂ©veloppeurs du framework AudioSep ont entraĂ®nĂ© le modèle de manière approfondie sur une grande variĂ©tĂ© d'ensembles de donnĂ©es multimodaux Ă  grande Ă©chelle et ont Ă©valuĂ© les performances du framework sur un large Ă©ventail de tâches audio, notamment la sĂ©paration des instruments de musique, la sĂ©paration des Ă©vĂ©nements audio et l'amĂ©lioration de la parole. parmi tant d'autres. Les performances initiales d'AudioSep satisfont aux critères car elles dĂ©montrent des capacitĂ©s d'apprentissage zĂ©ro-shot impressionnantes et offrent de solides performances de sĂ©paration audio. 

Dans cet article, nous approfondirons le fonctionnement du framework AudioSep en Ă©valuant l'architecture du modèle, les ensembles de donnĂ©es utilisĂ©s pour la formation et l'Ă©valuation, ainsi que les concepts essentiels impliquĂ©s dans le fonctionnement du modèle AudioSep. Commençons donc par une introduction de base au framework CASA. 

Frameworks CASA, USS, QSS, LASS : la base d'AudioSep

Le cadre CASA ou Computational Auditory Scene Analysis est un cadre utilisĂ© par les dĂ©veloppeurs pour concevoir des systèmes d'Ă©coute automatique capables de percevoir des environnements sonores complexes d'une manière similaire Ă  la façon dont les humains perçoivent le son Ă  l'aide de leur système auditif. La sĂ©paration acoustique, avec un accent particulier sur la sĂ©paration sonore cible, est un domaine de recherche fondamental dans le cadre de CASA et vise Ă  rĂ©soudre le problème «problème de cocktail" ou en sĂ©parant les enregistrements audio du monde rĂ©el des enregistrements ou fichiers de sources audio individuelles. L'importance de la sĂ©paration sonore peut ĂŞtre attribuĂ©e principalement Ă  ses applications rĂ©pandues, notamment la sĂ©paration des sources musicales, la sĂ©paration des sources audio, l'amĂ©lioration de la parole, l'identification du son cible et bien plus encore. 

La plupart des travaux sur la sĂ©paration sonore rĂ©alisĂ©s dans le passĂ© tournent principalement autour de la sĂ©paration d'une ou plusieurs sources audio comme la sĂ©paration musicale ou la sĂ©paration vocale. Un nouveau modèle baptisĂ© USS ou Universal Sound Separation vise Ă  sĂ©parer les sons arbitraires dans les enregistrements audio du monde rĂ©el. Cependant, il est difficile et restrictif de sĂ©parer chaque source sonore d'un mĂ©lange audio, principalement en raison du large Ă©ventail de sources sonores diffĂ©rentes existant dans le monde, ce qui constitue la principale raison pour laquelle la mĂ©thode USS n'est pas rĂ©alisable pour les applications du monde rĂ©el. en temps rĂ©el. 

Une alternative rĂ©alisable Ă  la mĂ©thode USS est la mĂ©thode QSS ou Query-based Sound Separation qui vise Ă  sĂ©parer une source sonore individuelle ou cible du mĂ©lange audio en fonction d'un ensemble particulier de requĂŞtes. Grâce Ă  cela, le framework QSS permet aux dĂ©veloppeurs et aux utilisateurs d'extraire les sources audio souhaitĂ©es du mĂ©lange en fonction de leurs besoins, ce qui fait de la mĂ©thode QSS une solution plus pratique pour les applications numĂ©riques du monde rĂ©el telles que l'Ă©dition de contenu multimĂ©dia ou l'Ă©dition audio. 

De plus, les dĂ©veloppeurs ont rĂ©cemment proposĂ© une extension du framework QSS, du framework LASS ou du framework Language-queried Audio Source Separation qui vise Ă  sĂ©parer les sources sonores arbitraires d'un mĂ©lange audio en utilisant les descriptions en langage naturel de la source audio cible. . Étant donnĂ© que le framework LASS permet aux utilisateurs d'extraire les sources audio cibles Ă  l'aide d'un ensemble d'instructions en langage naturel, il pourrait devenir un outil puissant avec des applications largement rĂ©pandues dans les applications audio numĂ©riques. Par rapport aux mĂ©thodes traditionnelles d'interrogation audio ou visuelle, l'utilisation d'instructions en langage naturel pour la sĂ©paration audio offre un plus grand avantage car elle ajoute de la flexibilitĂ© et rend l'acquisition d'informations de requĂŞte beaucoup plus facile et pratique. De plus, comparĂ© aux cadres de sĂ©paration audio basĂ©s sur des requĂŞtes d'Ă©tiquettes qui utilisent un ensemble prĂ©dĂ©fini d'instructions ou de requĂŞtes, le cadre LASS ne limite pas le nombre de requĂŞtes d'entrĂ©e et a la flexibilitĂ© d'ĂŞtre gĂ©nĂ©ralisĂ© pour ouvrir un domaine de manière transparente. 

Ă€ l'origine, le cadre LASS repose sur un apprentissage supervisĂ© dans lequel le modèle est formĂ© sur un ensemble de donnĂ©es appariĂ©es audio-texte Ă©tiquetĂ©es. Cependant, le principal problème de cette approche est la disponibilitĂ© limitĂ©e de donnĂ©es audio-textuelles annotĂ©es et Ă©tiquetĂ©es. Afin de rĂ©duire la fiabilitĂ© du cadre LASS sur les donnĂ©es Ă©tiquetĂ©es en texte audio, les modèles sont formĂ©s en utilisant l'approche d'apprentissage par supervision multimodale. L'objectif principal de l'utilisation d'une approche de supervision multimodale est d'utiliser des modèles de prĂ©-formation contrastifs multimodaux tels que le modèle CLIP ou Contrastive Language Image Pre Training comme encodeur de requĂŞte pour le cadre. Étant donnĂ© que le framework CLIP a la capacitĂ© d'aligner les intĂ©grations de texte avec d'autres modalitĂ©s telles que l'audio ou la vision, il permet aux dĂ©veloppeurs d'entraĂ®ner les modèles LASS Ă  l'aide de modalitĂ©s riches en donnĂ©es et permet l'interfĂ©rence avec les donnĂ©es textuelles dans un cadre zĂ©ro-shot. Les cadres LASS actuels utilisent cependant des ensembles de donnĂ©es Ă  petite Ă©chelle pour la formation, et les applications du cadre LASS dans des centaines de domaines potentiels doivent encore ĂŞtre explorĂ©es. 

Pour rĂ©soudre les limitations actuelles rencontrĂ©es par les frameworks LASS, les dĂ©veloppeurs ont introduit AudioSep, un modèle fondamental qui vise Ă  sĂ©parer le son d'un mĂ©lange audio Ă  l'aide de descriptions en langage naturel. L'objectif actuel d'AudioSep est de dĂ©velopper un modèle de sĂ©paration sonore prĂ©-entraĂ®nĂ© qui exploite les ensembles de donnĂ©es multimodaux Ă  grande Ă©chelle existants pour permettre la gĂ©nĂ©ralisation des modèles LASS dans les applications Ă  domaine ouvert. Pour rĂ©sumer, le modèle AudioSep est : «Un modèle fondamental pour la sĂ©paration universelle du son dans un domaine ouvert utilisant des requĂŞtes ou des descriptions en langage naturel formĂ©es sur des ensembles de donnĂ©es audio et multimodaux Ă  grande Ă©chelle ». 

AudioSep : Composants clĂ©s et architecture

L'architecture du framework AudioSep comprend deux composants clĂ©s : un encodeur de texte et un modèle de sĂ©paration. 

L'encodeur de texte

Le framework AudioSep utilise un encodeur de texte du modèle CLIP ou Contrastive Language Image Pre Training ou du modèle CLAP ou Contrastive Language Audio Pre Training pour extraire des intĂ©grations de texte dans une requĂŞte en langage naturel. La requĂŞte de texte de saisie consiste en une sĂ©quence de «N" qui sont ensuite traitĂ©s par l'encodeur de texte pour extraire les intĂ©grations de texte pour la requĂŞte de langue d'entrĂ©e donnĂ©e. L'encodeur de texte utilise une pile de blocs de transformateur pour encoder les jetons de texte d'entrĂ©e, et les reprĂ©sentations de sortie sont agrĂ©gĂ©es après avoir traversĂ© les couches de transformateur, ce qui aboutit au dĂ©veloppement d'une reprĂ©sentation vectorielle dimensionnelle de longueur fixe oĂą D correspond. aux dimensions des modèles CLAP ou CLIP alors que l'encodeur de texte est figĂ© pendant la pĂ©riode de formation. 

Le modèle CLIP est prĂ©-entraĂ®nĂ© sur un ensemble de donnĂ©es Ă  grande Ă©chelle de donnĂ©es appariĂ©es image-texte en utilisant un apprentissage contrastif, ce qui est la principale raison pour laquelle son encodeur de texte apprend Ă  mapper les descriptions textuelles sur l'espace sĂ©mantique Ă©galement partagĂ© par les reprĂ©sentations visuelles. L'avantage qu'AudioSep gagne en utilisant l'encodeur de texte de CLIP est qu'il peut dĂ©sormais mettre Ă  l'Ă©chelle ou entraĂ®ner le modèle LASS Ă  partir de donnĂ©es audiovisuelles non Ă©tiquetĂ©es en utilisant les intĂ©grations visuelles comme alternative, permettant ainsi la formation de modèles LASS sans avoir besoin d'annotations ou d'Ă©tiquettes. donnĂ©es audio-texte. 

Le modèle CLAP fonctionne de manière similaire au modèle CLIP et utilise un objectif d'apprentissage contrastif car il utilise un texte et un encodeur audio pour connecter l'audio et la langue, rassemblant ainsi le texte et les descriptions audio sur un espace latent audio-texte rĂ©unis. 

Modèle de séparation

Le framework AudioSep utilise un modèle ResUNet dans le domaine frĂ©quentiel qui alimente un mĂ©lange de clips audio comme Ă©pine dorsale de sĂ©paration du framework. Le cadre fonctionne en appliquant d'abord une STFT ou une transformĂ©e de Fourier Ă  court terme sur la forme d'onde pour extraire un spectrogramme complexe, le spectrogramme de magnitude et la phase de X. Le modèle suit ensuite le mĂŞme paramètre et construit un rĂ©seau codeur-dĂ©codeur pour traiter le spectrogramme de magnitude. 

Le rĂ©seau codeur-dĂ©codeur ResUNet se compose de 6 blocs rĂ©siduels, 6 blocs de dĂ©codeur et 4 blocs de goulot d'Ă©tranglement. Le spectrogramme de chaque bloc codeur utilise 4 blocs conventionnels rĂ©siduels pour se sous-Ă©chantillonner en une caractĂ©ristique de goulot d'Ă©tranglement, tandis que les blocs dĂ©codeurs utilisent 4 blocs dĂ©convolutifs rĂ©siduels pour obtenir les composants de sĂ©paration en surĂ©chantillonnant les caractĂ©ristiques. Ensuite, chacun des blocs codeurs et ses blocs dĂ©codeurs correspondants Ă©tablissent une connexion de saut qui fonctionne au mĂŞme taux de surĂ©chantillonnage ou de sous-Ă©chantillonnage. Le bloc rĂ©siduel du framework se compose de 2 couches d'activation Leaky-ReLU, de 2 couches de normalisation par lots et de 2 couches CNN. De plus, le framework introduit Ă©galement un raccourci rĂ©siduel supplĂ©mentaire qui relie l'entrĂ©e et la sortie de chaque bloc rĂ©siduel individuel. Le modèle ResUNet prend le spectrogramme complexe X comme entrĂ©e et produit le masque d'amplitude M comme sortie, le rĂ©sidu de phase Ă©tant conditionnĂ© par des incorporations de texte qui contrĂ´lent l'ampleur de la mise Ă  l'Ă©chelle et la rotation de l'angle du spectrogramme. Le spectrogramme complexe sĂ©parĂ© peut ensuite ĂŞtre extrait en multipliant le masque d'amplitude prĂ©dit et le rĂ©sidu de phase avec la STFT (transformation de Fourier Ă  court terme) du mĂ©lange. 

Dans son cadre, AudioSep utilise une couche modulĂ©e FiLm ou Feature-wise Linearly pour relier le modèle de sĂ©paration et l'encodeur de texte après le dĂ©ploiement des blocs convolutionnels dans ResUNet. 

Formation et perte

Au cours de la formation du modèle AudioSep, les dĂ©veloppeurs utilisent la mĂ©thode d'augmentation du volume sonore et entraĂ®nent le framework AudioSep de bout en bout en utilisant une fonction de perte L1 entre la vĂ©ritĂ© terrain et les formes d'onde prĂ©dites. 

Ensembles de données et points de repère

Comme mentionnĂ© dans les sections prĂ©cĂ©dentes, AudioSep est un modèle fondamental qui vise Ă  rĂ©soudre la dĂ©pendance actuelle des modèles LASS Ă  l'Ă©gard d'ensembles de donnĂ©es appariĂ©s audio-texte annotĂ©s. Le modèle AudioSep est formĂ© sur un large Ă©ventail d'ensembles de donnĂ©es pour le doter de capacitĂ©s d'apprentissage multimodal, et voici une description dĂ©taillĂ©e de l'ensemble de donnĂ©es et des benchmarks utilisĂ©s par les dĂ©veloppeurs pour former le framework AudioSep. 

Ensemble audio

AudioSet est un ensemble de donnĂ©es audio Ă  grande Ă©chelle, faiblement Ă©tiquetĂ©, comprenant plus de 2 millions d'extraits audio de 10 secondes extraits directement de YouTube. Chaque extrait audio de l'ensemble de donnĂ©es AudioSet est classĂ© en fonction de l'absence ou de la prĂ©sence de classes sonores sans les dĂ©tails de synchronisation spĂ©cifiques des Ă©vĂ©nements sonores. L'ensemble de donnĂ©es AudioSet contient plus de 500 classes audio distinctes, notamment les sons naturels, les sons humains, les sons de vĂ©hicules et bien plus encore. 

VGGSon

L'ensemble de donnĂ©es VGGSound est un ensemble de donnĂ©es visuelles et audio Ă  grande Ă©chelle qui, tout comme AudioSet, provient directement de YouTube et contient plus de 2,00,000 10 300 clips vidĂ©o, chacun d'eux ayant une durĂ©e de XNUMX secondes. L'ensemble de donnĂ©es VGGSound est classĂ© en plus de XNUMX classes sonores, notamment les sons humains, les sons naturels, les sons d'oiseaux, etc. L'utilisation de l'ensemble de donnĂ©es VGGSound garantit que l'objet responsable de la production du son cible est Ă©galement descriptible dans le clip visuel correspondant. 

Caps audio

AudioCaps est le plus grand ensemble de donnĂ©es de sous-titrage audio disponible publiquement et comprend plus de 50,000 10 clips audio de 5 secondes extraits de l'ensemble de donnĂ©es AudioSet. Les donnĂ©es contenues dans AudioCaps sont divisĂ©es en trois catĂ©gories : donnĂ©es de formation, donnĂ©es de test et donnĂ©es de validation, et les clips audio sont annotĂ©s humainement avec des descriptions en langage naturel Ă  l'aide de la plateforme Amazon Mechanical Turk. Il convient de noter que chaque clip audio de l'ensemble de donnĂ©es de formation a une seule lĂ©gende, alors que les donnĂ©es des ensembles de test et de validation ont chacune XNUMX lĂ©gendes de vĂ©ritĂ© terrain. 

ClothoV2

ClothoV2 est un ensemble de donnĂ©es de sous-titrage audio composĂ© de clips provenant de la plateforme FreeSound et, tout comme AudioCaps, chaque clip audio est annotĂ© humainement avec des descriptions en langage naturel Ă  l'aide de la plateforme Amazon Mechanical Turk. 

WavCaps

Tout comme AudioSet, WavCaps est un ensemble de données audio à grande échelle faiblement étiqueté comprenant plus de 400,000 7568 clips audio avec sous-titres et une durée d'exécution totale d'environ XNUMX XNUMX heures de données d'entraînement. Les clips audio de l'ensemble de données WavCaps proviennent d'un large éventail de sources audio, notamment BBC Sound Effects, AudioSet, FreeSound, SoundBible, etc.

Détails de la formation

Pendant la phase de formation, le modèle AudioSep Ă©chantillonne de manière alĂ©atoire deux segments audio provenant de deux clips audio diffĂ©rents de l'ensemble de donnĂ©es de formation, puis les mĂ©lange pour crĂ©er un mĂ©lange de formation dans lequel la durĂ©e de chaque segment audio est d'environ 5 secondes. Le modèle extrait ensuite le spectrogramme complexe du signal de forme d'onde Ă  l'aide d'une fenĂŞtre de Hann de taille 1024 avec une taille de 320 sauts. 

Le modèle utilise ensuite l'encodeur de texte des modèles CLIP/CLAP pour extraire les incorporations textuelles, la supervision de texte Ă©tant la configuration par dĂ©faut pour AudioSep. Pour le modèle de sĂ©paration, le framework AudioSep utilise une couche ResUNet composĂ©e de 30 couches, 6 blocs d'encodeur et 6 blocs de dĂ©codeur ressemblant Ă  l'architecture suivie dans le cadre de sĂ©paration sonore universelle. De plus, chaque bloc de codeur comporte deux couches convolutives avec une taille de noyau 3 Ă— 3, le nombre de cartes de caractĂ©ristiques de sortie des blocs de codeur Ă©tant respectivement de 32, 64, 128, 256, 512 et 1024. Les blocs de dĂ©codeur partagent la symĂ©trie avec les blocs d'encodeur et les dĂ©veloppeurs appliquent l'optimiseur Adam pour entraĂ®ner le modèle AudioSep avec une taille de lot de 96. 

Résultats de l'évaluation

Sur les ensembles de données vus

La figure suivante compare les performances du framework AudioSep sur les ensembles de données vus pendant la phase de formation, y compris les ensembles de données de formation. La figure ci-dessous représente les résultats de l'évaluation de référence du cadre AudioSep par rapport aux systèmes de référence, notamment Speech. Modèles d'amélioration, LASS et CLIP. Le modèle AudioSep avec encodeur de texte CLIP est représenté par AudioSep-CLIP, tandis que le modèle AudioSep avec encodeur de texte CLAP est représenté par AudioSep-CLAP.

Comme le montre la figure, le framework AudioSep fonctionne bien lors de l'utilisation de sous-titres audio ou d'Ă©tiquettes de texte comme requĂŞtes d'entrĂ©e, et les rĂ©sultats indiquent les performances supĂ©rieures du framework AudioSep par rapport aux prĂ©cĂ©dents modèles de rĂ©fĂ©rence LASS et de sĂ©paration sonore interrogĂ©s par audio. 

Sur des ensembles de données invisibles

Pour Ă©valuer les performances d'AudioSep dans un paramètre zĂ©ro-shot, les dĂ©veloppeurs ont continuĂ© Ă  Ă©valuer les performances sur des ensembles de donnĂ©es invisibles, et le framework AudioSep offre des performances de sĂ©paration impressionnantes dans un paramètre zĂ©ro-shot, et les rĂ©sultats sont affichĂ©s dans la figure ci-dessous. 

De plus, l'image ci-dessous montre les rĂ©sultats de l'Ă©valuation du modèle AudioSep par rapport Ă  l'amĂ©lioration de la parole Voicebank-Demand. 

L'Ă©valuation du framework AudioSep indique des performances solides et souhaitĂ©es sur des ensembles de donnĂ©es invisibles dans un environnement de tir nul, et ouvre ainsi la voie Ă  l'exĂ©cution de tâches d'exploitation solides sur de nouvelles distributions de donnĂ©es. 

Visualisation des résultats de séparation

La figure ci-dessous montre les rĂ©sultats obtenus lorsque les dĂ©veloppeurs ont utilisĂ© le framework AudioSep-CLAP pour effectuer des visualisations de spectrogrammes pour des sources audio cibles de vĂ©ritĂ© terrain, ainsi que des mĂ©langes audio et des sources audio sĂ©parĂ©es Ă  l'aide de requĂŞtes textuelles de divers audios ou sons. Les rĂ©sultats ont permis aux dĂ©veloppeurs d'observer que le modèle de source sĂ©parĂ©e du spectrogramme est proche de la source de la vĂ©ritĂ© terrain, ce qui conforte davantage les rĂ©sultats objectifs obtenus au cours des expĂ©riences. 

Comparaison des requĂŞtes de texte

Les dĂ©veloppeurs Ă©valuent les performances d'AudioSep-CLAP et d'AudioSep-CLIP sur AudioCaps Mini, et utilisent les Ă©tiquettes d'Ă©vĂ©nement AudioSet, les lĂ©gendes AudioCaps et les descriptions rĂ©annotĂ©es en langage naturel pour examiner les effets de diffĂ©rentes requĂŞtes, et les Ă©lĂ©ments suivants La figure montre un exemple de l'AudioCaps Mini en action. 

Conclusion

AudioSep est un modèle fondamental dĂ©veloppĂ© dans le but d'ĂŞtre un cadre de sĂ©paration sonore universel Ă  domaine ouvert qui utilise des descriptions en langage naturel pour la sĂ©paration audio. Comme observĂ© lors de l'Ă©valuation, le framework AudioSep est capable d'effectuer un apprentissage zĂ©ro-shot et non supervisĂ© de manière transparente en utilisant des lĂ©gendes audio ou des Ă©tiquettes de texte comme requĂŞtes. Les rĂ©sultats et les performances d'Ă©valuation d'AudioSep indiquent une solide performance qui surpasse les cadres de sĂ©paration sonore de pointe actuels comme LASS, et il pourrait ĂŞtre suffisamment capable de rĂ©soudre les limites actuelles des cadres de sĂ©paration sonore populaires. 

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.