인공 지능

AudioSep: 설명하는 모든 항목을 분리하세요.

게재

7 개월 전

2023 년 10 월 17 일

LASS 또는 언어 쿼리 오디오 소스 분리는 디지털 오디오 작업 및 애플리케이션을 위한 자연스러우면서도 확장 가능한 인터페이스를 제공하는 자연어 쿼리를 사용하여 주어진 오디오 혼합에서 대상 사운드를 분리하는 것을 목표로 하는 CASA(전산 청각 장면 분석)의 새로운 패러다임입니다. . LASS 프레임워크는 악기와 같은 특정 오디오 소스에서 원하는 성능을 달성한다는 측면에서 지난 몇 년 동안 크게 발전했지만 개방형 도메인에서 대상 오디오를 분리할 수는 없습니다.

오디오Sep는 자연어 쿼리를 사용하여 대상 오디오 분리를 활성화하여 현재 LASS 프레임워크의 한계를 해결하는 것을 목표로 하는 기본 모델입니다. AudioSep 프레임워크의 개발자는 광범위한 대규모 멀티모달 데이터 세트에서 모델을 광범위하게 교육했으며 악기 분리, 오디오 이벤트 분리 및 음성 향상을 포함한 광범위한 오디오 작업에서 프레임워크의 성능을 평가했습니다. 다른 많은 것 중에서. AudioSep의 초기 성능은 인상적인 제로샷 학습 기능을 보여주고 강력한 오디오 분리 성능을 제공하므로 벤치마크를 만족합니다.

이 기사에서는 모델의 아키텍처, 교육 및 평가에 사용되는 데이터 세트, AudioSep 모델 작동과 관련된 필수 개념을 평가하면서 AudioSep 프레임워크의 작동에 대해 더 자세히 알아볼 것입니다. 이제 CASA 프레임워크에 대한 기본적인 소개부터 시작하겠습니다.

CASA, USS, QSS, LASS 프레임워크: AudioSep의 기반

CASA 또는 전산 청각 장면 분석 프레임워크는 인간이 청각 시스템을 사용하여 소리를 인식하는 방식과 유사한 방식으로 복잡한 사운드 환경을 인식할 수 있는 기능을 갖춘 기계 청취 시스템을 설계하기 위해 개발자가 사용하는 프레임워크입니다. 목표 소리 분리에 특별히 초점을 맞춘 소리 분리는 CASA 프레임워크 내 연구의 기본 영역이며 다음 문제를 해결하는 것을 목표로 합니다.칵테일 파티 문제” 또는 실제 오디오 녹음을 개별 오디오 소스 녹음 또는 파일과 분리합니다. 사운드 분리의 중요성은 주로 음악 소스 분리, 오디오 소스 분리, 음성 향상, 대상 사운드 식별 등을 포함한 광범위한 응용 분야에 기인할 수 있습니다.

과거에 수행된 사운드 분리에 대한 대부분의 작업은 주로 음악 분리 또는 음성 분리와 같은 하나 이상의 오디오 소스 분리를 중심으로 이루어졌습니다. USS 또는 Universal Sound Separation이라는 이름의 새로운 모델은 실제 오디오 녹음에서 임의의 사운드를 분리하는 것을 목표로 합니다. 그러나 세계에 존재하는 다양한 음원으로 인해 오디오 혼합에서 모든 음원을 분리하는 것은 어렵고 제한적인 작업이며, 이는 USS 방법이 실제 응용 프로그램 작업에 적합하지 않은 주요 이유입니다. 실시간.

USS 방법에 대한 실행 가능한 대안은 특정 쿼리 세트를 기반으로 오디오 혼합에서 개별 또는 대상 음원을 분리하는 것을 목표로 하는 QSS 또는 쿼리 기반 사운드 분리 방법입니다. 덕분에 QSS 프레임워크를 사용하면 개발자와 사용자가 요구 사항에 따라 혼합물에서 원하는 오디오 소스를 추출할 수 있으므로 QSS 방법이 멀티미디어 콘텐츠 편집 또는 오디오 편집과 같은 디지털 실제 응용 프로그램에 대한 보다 실용적인 솔루션이 됩니다.

또한 개발자는 최근 대상 오디오 소스의 자연어 설명을 활용하여 오디오 혼합에서 임의의 사운드 소스를 분리하는 것을 목표로 하는 QSS 프레임워크, LASS 프레임워크 또는 언어 쿼리 오디오 소스 분리 프레임워크의 확장을 제안했습니다. . LASS 프레임워크를 사용하면 사용자가 일련의 자연어 명령을 사용하여 대상 오디오 소스를 추출할 수 있으므로 디지털 오디오 응용 프로그램에서 널리 응용되는 강력한 도구가 될 수 있습니다. 기존의 오디오 쿼리 또는 비전 쿼리 방법과 비교할 때 오디오 분리를 위해 자연어 지침을 사용하면 유연성이 추가되고 쿼리 정보를 훨씬 더 쉽고 편리하게 얻을 수 있으므로 더 큰 이점을 얻을 수 있습니다. 또한 사전 정의된 명령 또는 쿼리 세트를 사용하는 레이블 쿼리 기반 오디오 분리 프레임워크와 비교할 때 LASS 프레임워크는 입력 쿼리 수를 제한하지 않으며 도메인을 원활하게 개방하도록 일반화할 수 있는 유연성을 가지고 있습니다.

원래 LASS 프레임워크는 레이블이 지정된 오디오-텍스트 쌍 데이터 세트에 대해 모델을 훈련하는 지도 학습에 의존합니다. 그러나 이 접근 방식의 주요 문제는 주석이 추가되고 레이블이 지정된 오디오 텍스트 데이터의 가용성이 제한적이라는 것입니다. 주석이 달린 LASS 프레임워크의 신뢰성을 줄이기 위해 오디오 텍스트 레이블이 지정된 데이터, 모델은 다중 모드 감독 학습 접근 방식을 사용하여 훈련됩니다. 다중 모드 감독 접근 방식을 사용하는 주요 목표는 CLIP 또는 대조 언어 이미지 사전 학습 모델과 같은 다중 모드 대조 사전 학습 모델을 프레임워크의 쿼리 인코더로 사용하는 것입니다. CLIP 프레임워크에는 텍스트 임베딩을 오디오 또는 비전과 같은 다른 양식과 정렬할 수 있는 기능이 있으므로 개발자는 풍부한 데이터 양식을 사용하여 LASS 모델을 교육할 수 있으며 제로샷 설정에서 텍스트 데이터와의 간섭을 허용합니다. 그러나 현재의 LASS 프레임워크는 교육을 위해 소규모 데이터 세트를 사용하며 수백 개의 잠재적 도메인에 대한 LASS 프레임워크의 적용은 아직 탐색되지 않았습니다.

LASS 프레임워크가 직면한 현재 제한 사항을 해결하기 위해 개발자는 자연어 설명을 사용하여 오디오 혼합에서 사운드를 분리하는 것을 목표로 하는 기본 모델인 AudioSep을 도입했습니다. AudioSep의 현재 초점은 기존 대규모 다중 모드 데이터 세트를 활용하여 개방형 도메인 애플리케이션에서 LASS 모델의 일반화를 가능하게 하는 사전 훈련된 사운드 분리 모델을 개발하는 것입니다. 요약하면 AudioSep 모델은 다음과 같습니다.대규모 오디오 및 멀티모달 데이터 세트에 대해 훈련된 자연어 쿼리 또는 설명을 사용하여 개방형 도메인에서 보편적인 사운드 분리를 위한 기본 모델".

AudioSep: 주요 구성 요소 및 아키텍처

AudioSep 프레임워크의 아키텍처는 텍스트 인코더와 분리 모델이라는 두 가지 주요 구성 요소로 구성됩니다.

텍스트 인코더

AudioSep 프레임워크는 CLIP(Contrastive Language Image Pre Training) 모델 또는 CLAP(Contrastive Language Image Pre Training) 모델의 텍스트 인코더를 사용하여 자연어 쿼리 내에서 텍스트 임베딩을 추출합니다. 입력 텍스트 쿼리는 "N” 토큰은 지정된 입력 언어 쿼리에 대한 텍스트 임베딩을 추출하기 위해 텍스트 인코더에 의해 처리됩니다. 텍스트 인코더는 변환기 블록 스택을 사용하여 입력 텍스트 토큰을 인코딩하고, 출력 표현은 변환기 레이어를 통과한 후 집계되어 D가 일치하는 고정 길이의 D차원 벡터 표현이 개발됩니다. 훈련 기간 동안 텍스트 인코더가 고정된 동안 CLAP 또는 CLIP 모델의 차원으로 이동합니다.

CLIP 모델은 텍스트 인코더가 시각적 표현에서도 공유되는 의미 공간에 대한 매핑 텍스트 설명을 학습하는 주된 이유인 대조 학습을 사용하여 이미지-텍스트 쌍 데이터의 대규모 데이터 세트에 대해 사전 훈련됩니다. CLIP의 텍스트 인코더를 사용하여 AudioSep이 얻을 수 있는 이점은 시각적 임베딩을 대안으로 사용하여 레이블이 지정되지 않은 시청각 데이터에서 LASS 모델을 확장하거나 교육할 수 있다는 것입니다. 따라서 주석을 달거나 레이블을 지정할 필요 없이 LASS 모델을 교육할 수 있습니다. 오디오 텍스트 데이터.

CLAP 모델은 CLIP 모델과 유사하게 작동하며 텍스트 및 오디오 인코더를 사용하여 오디오 및 언어를 연결하므로 함께 결합된 오디오-텍스트 잠재 공간에 텍스트 및 오디오 설명을 가져오기 때문에 대조 학습 목표를 활용합니다.

분리 모델

AudioSep 프레임워크는 프레임워크의 분리 백본으로 오디오 클립의 혼합을 제공하는 주파수 영역 ResUNet 모델을 사용합니다. 프레임워크는 먼저 파형에 STFT 또는 단시간 푸리에 변환을 적용하여 복잡한 스펙트로그램, 크기 스펙트로그램 및 X 위상을 추출하는 방식으로 작동합니다. 그런 다음 모델은 동일한 설정을 따르고 인코더-디코더 네트워크를 구성하여 처리합니다. 크기 스펙트로그램.

ResUNet 인코더-디코더 네트워크는 6개의 잔여 블록, 6개의 디코더 블록, 4개의 병목 블록으로 구성됩니다. 각 인코더 블록의 스펙트로그램은 4개의 잔류 기존 블록을 사용하여 자체적으로 병목 현상이 있는 특징으로 다운샘플링하는 반면, 디코더 블록은 4개의 잔류 역합성곱 블록을 사용하여 특징을 업샘플링하여 분리 구성 요소를 얻습니다. 그 후, 각 인코더 블록과 해당 디코더 블록은 동일한 업샘플링 또는 다운샘플링 속도로 작동하는 건너뛰기 연결을 설정합니다. 프레임워크의 잔차 블록은 2개의 Leaky-ReLU 활성화 레이어, 2개의 배치 정규화 레이어, 2개의 CNN 레이어로 구성되며, 또한 프레임워크는 모든 개별 잔차 블록의 입력과 출력을 연결하는 추가 잔차 지름길을 도입합니다. ResUNet 모델은 복잡한 스펙트로그램 X를 입력으로 사용하고 스케일링 크기와 스펙트로그램 각도 회전을 제어하는 텍스트 임베딩에 따라 위상 잔차를 조절하여 크기 마스크 M을 출력으로 생성합니다. 분리된 복합 스펙트로그램은 예측된 크기 마스크 및 위상 잔차를 혼합물의 STFT(Short-Time Fourier Transform)와 곱하여 추출할 수 있습니다.

프레임워크에서 AudioSep은 ResUNet에 컨벌루션 블록을 배포한 후 FiLm 또는 기능별 선형 변조 레이어를 사용하여 분리 모델과 텍스트 인코더를 연결합니다.

훈련과 손실

AudioSep 모델을 훈련하는 동안 개발자는 음량 증대 방법을 사용하고, 실제와 예측된 파형 사이의 L1 손실 함수를 사용하여 AudioSep 프레임워크를 엔드 투 엔드로 훈련합니다.

데이터 세트 및 벤치마크

이전 섹션에서 언급했듯이 AudioSep은 주석이 달린 오디오-텍스트 쌍 데이터 세트에 대한 LASS 모델의 현재 종속성을 해결하는 것을 목표로 하는 기본 모델입니다. AudioSep 모델은 다중 모달 학습 기능을 갖추기 위해 다양한 데이터 세트에서 훈련되었으며, 여기에 개발자가 AudioSep 프레임워크를 훈련하는 데 사용하는 데이터 세트 및 벤치마크에 대한 자세한 설명이 있습니다.

오디오세트

AudioSet은 YouTube에서 직접 추출한 2만 개 이상의 10초 오디오 조각으로 구성된 약한 레이블이 지정된 대규모 오디오 데이터세트입니다. AudioSet 데이터세트의 각 오디오 조각은 사운드 이벤트의 특정 타이밍 세부 정보 없이 사운드 클래스의 유무에 따라 분류됩니다. AudioSet 데이터 세트에는 자연 소리, 사람 소리, 차량 소리 등을 포함하여 500개 이상의 고유한 오디오 클래스가 있습니다.

VGG사운드

VGGSound 데이터 세트는 AudioSet과 마찬가지로 YouTube에서 직접 소스를 가져온 대규모 시각 오디오 데이터 세트로, 각각의 길이가 2,00,000초인 10개 이상의 비디오 클립을 포함합니다. VGGSound 데이터 세트는 인간의 소리, 자연의 소리, 새 소리 등을 포함하여 300개 이상의 소리 클래스로 분류됩니다. VGGSound 데이터세트를 사용하면 대상 사운드 생성을 담당하는 개체를 해당 시각적 클립에서도 설명할 수 있습니다.

오디오캡

AudioCaps는 공개적으로 사용할 수 있는 가장 큰 오디오 캡션 데이터 세트이며 AudioSet 데이터 세트에서 추출된 50,000개 이상의 10초 오디오 클립으로 구성됩니다. AudioCaps의 데이터는 교육 데이터, 테스트 데이터, 검증 데이터의 세 가지 범주로 나뉘며, 오디오 클립에는 Amazon Mechanical Turk 플랫폼을 사용하여 자연어 설명으로 사람이 주석을 추가합니다. 훈련 데이터 세트의 각 오디오 클립에는 단일 캡션이 있는 반면, 테스트 및 검증 세트의 데이터에는 각각 5개의 실측 캡션이 있다는 점은 주목할 가치가 있습니다.

ClothoV2

ClothoV2는 FreeSound 플랫폼에서 가져온 클립으로 구성된 오디오 캡션 데이터 세트이며, AudioCaps와 마찬가지로 각 오디오 클립에는 Amazon Mechanical Turk 플랫폼을 사용하여 자연어 설명으로 사람이 주석을 추가합니다.

WavCaps

AudioSet과 마찬가지로 WavCaps는 캡션이 포함된 400,000개 이상의 오디오 클립과 약 7568시간의 훈련 데이터로 구성된 총 런타임으로 구성된 약한 레이블이 지정된 대규모 오디오 데이터 세트입니다. WavCaps 데이터세트의 오디오 클립은 BBC Sound Effects, AudioSet, FreeSound, SoundBible 등을 포함한 다양한 오디오 소스에서 제공됩니다.

교육 세부정보

훈련 단계에서 AudioSep 모델은 훈련 데이터 세트의 서로 다른 두 오디오 클립에서 가져온 두 개의 오디오 세그먼트를 무작위로 샘플링한 다음 이를 혼합하여 각 오디오 세그먼트의 길이가 약 5초인 훈련 혼합을 만듭니다. 그런 다음 모델은 1024 홉 크기의 Hann 창 크기 320를 사용하여 파형 신호에서 복잡한 스펙트로그램을 추출합니다.

그런 다음 모델은 CLIP/CLAP 모델의 텍스트 인코더를 사용하여 텍스트 감독이 AudioSep의 기본 구성인 텍스트 임베딩을 추출합니다. 분리 모델의 경우 AudioSep 프레임워크는 범용 사운드 분리 프레임워크에서 따르는 아키텍처와 유사한 30개의 레이어, 6개의 인코더 블록, 6개의 디코더 블록으로 구성된 ResUNet 레이어를 사용합니다. 또한 각 인코더 블록에는 3×3 커널 크기를 갖는 두 개의 컨벌루션 레이어가 있으며 인코더 블록의 출력 특징 맵 수는 각각 32, 64, 128, 256, 512 및 1024입니다. 디코더 블록은 인코더 블록과 대칭을 공유하며 개발자는 Adam 최적화 프로그램을 적용하여 배치 크기 96으로 AudioSep 모델을 교육합니다.

평가 결과

본 데이터세트에 대해

다음 그림은 훈련 데이터 세트를 포함한 훈련 단계 동안 표시된 데이터 세트에 대한 AudioSep 프레임워크의 성능을 비교합니다. 아래 그림은 Speech를 포함한 기본 시스템과 비교한 AudioSep 프레임워크의 벤치마크 평가 결과를 나타냅니다. 강화 모델, LASS 및 CLIP. CLIP 텍스트 인코더가 있는 AudioSep 모델은 AudioSep-CLIP로 표시되는 반면, CLAP 텍스트 인코더가 있는 AudioSep 모델은 AudioSep-CLAP로 표시됩니다.

그림에서 볼 수 있듯이 AudioSep 프레임워크는 오디오 캡션이나 텍스트 레이블을 입력 쿼리로 사용할 때 우수한 성능을 발휘하며, 결과는 이전 벤치마크 LASS 및 오디오 쿼리 사운드 분리 모델과 비교할 때 AudioSep 프레임워크의 성능이 우수함을 나타냅니다.

보이지 않는 데이터세트에 대해

제로샷 설정에서 AudioSep의 성능을 평가하기 위해 개발자는 보이지 않는 데이터세트에 대한 성능을 계속 평가했으며, AudioSep 프레임워크는 제로샷 설정에서 인상적인 분리 성능을 제공했으며 그 결과는 아래 그림에 표시되어 있습니다.

또한 아래 이미지는 Voicebank-Demand 음성 향상에 대해 AudioSep 모델을 평가한 결과를 보여줍니다.

AudioSep 프레임워크의 평가는 제로샷 설정에서 보이지 않는 데이터세트에 대해 강력하고 원하는 성능을 나타냄으로써 새로운 데이터 배포에서 건전한 작업 작업을 수행할 수 있는 방법을 제공합니다.

분리 결과의 시각화

아래 그림은 개발자가 AudioSep-CLAP 프레임워크를 사용하여 다양한 오디오 또는 사운드의 텍스트 쿼리를 사용하여 실측 타겟 오디오 소스, 오디오 혼합 및 분리된 오디오 소스에 대한 스펙트로그램 시각화를 수행했을 때 얻은 결과를 보여줍니다. 결과를 통해 개발자는 스펙트로그램의 분리된 소스 패턴이 실험 중에 얻은 객관적인 결과를 더욱 뒷받침하는 실제 소스에 가깝다는 것을 관찰할 수 있었습니다.

텍스트 쿼리 비교

개발자는 AudioCaps Mini에서 AudioSep-CLAP 및 AudioSep-CLIP의 성능을 평가하고, 개발자는 AudioSet 이벤트 레이블, AudioCaps 캡션 및 다시 주석이 달린 자연어 설명을 활용하여 다양한 쿼리의 효과를 검사합니다. 그림은 AudioCaps Mini의 실제 작동 예를 보여줍니다.

결론

오디오Sep 오디오 분리를 위해 자연어 설명을 사용하는 개방형 범용 사운드 분리 프레임워크를 목표로 개발된 기본 모델입니다. 평가 중에 관찰된 바와 같이 AudioSep 프레임워크는 오디오 캡션이나 텍스트 레이블을 쿼리로 사용하여 제로샷 및 비지도 학습을 원활하게 수행할 수 있습니다. AudioSep의 결과 및 평가 성능은 LASS와 같은 최신 사운드 분리 프레임워크를 능가하는 강력한 성능을 나타내며 널리 사용되는 사운드 분리 프레임워크의 현재 한계를 해결하기에 충분할 수 있습니다.

관련 주제 :오디오 오디오셉 박수 쥐다

다음 위로

AutoGen: 차세대 대규모 언어 모델 애플리케이션 지원

놓치지 마세요.

대규모 언어 모델과 비즈니스 연결: LLMops

쿠날 케지리왈

"직업은 엔지니어, 마음은 작가". Kunal은 AI와 ML에 대한 깊은 애정과 이해를 가진 기술 작가로, 매력적이고 유익한 문서를 통해 이 분야의 복잡한 개념을 단순화하는 데 전념하고 있습니다.

Unite.AI

AudioSep: 설명하는 모든 항목을 분리하세요.

인공 지능

AudioSep: 설명하는 모든 항목을 분리하세요.

차례

CASA, USS, QSS, LASS 프레임워크: AudioSep의 기반