인공지능

AI 연구, 대화, 음악, 사운드 이펙트를 위한 별도의 볼륨 컨트롤을 시각화한다

Published October 21, 2021

Updated April 28, 2026

Martin Anderson

미쓰비시가 주도하는 새로운 연구 협력은 원본 오디오 소스에서 세 개의 별도 사운드트랙을 추출하는 가능성을 조사하며, 오디오 트랙을 대화, 음악 및 사운드 이펙트(즉, 환경 노이즈)로 분해한다.

이 후처리 프레임워크는 소비자 장비를 포함한 미디어 뷰어 플랫폼의 향후 세대에서 세 점 볼륨 컨트롤을 제공할 수 있는 잠재력을 제공하며, 사용자는 대화의 볼륨을 높이거나 사운드트랙의 볼륨을 낮출 수 있다.

아래의 연구 동영상(본문 끝에 전체 동영상 참조)의 짧은 클립에서 사용자가 삼각형의 각 모서리에 있는 세 개의 오디오 구성 요소 중 하나로 커서를 끌 때 사운드트랙의 다른 측면이 강조되는 것을 볼 수 있다:

본문 끝에 첨부된 동영상의 짧은 클립. 사용자가 삼각형 UI(오른쪽)의 추출된 세 가지 요소 중 하나로 커서를 끌면 오디오가 해당 부분을 강조한다. 더 긴 동영상은 유튜브에서 추가 예를 인용하지만, 현재는 사용할 수 없다. 출처: https://vimeo.com/634073402

논문은 칵테일 포크 문제: 실제 사운드트랙을 위한 3스팀 오디오 분리라고 제목이 붙여져 있으며, 미쓰비시 전기 연구소(MERL)와 인디애나 주 일리노이의 인텔리전트 시스템 엔지니어링 학과의 연구자들이 작성했다.

사운드트랙의 측면 분리

연구자들은 이 문제를 ‘칵테일 파티 문제’라고 명명했는데, 이는 사운드트랙의 심하게 얽힌 요소를 분리하는 것을 포함하기 때문이며, 포크와 같은 지도도를 생성한다(아래 이미지 참조). 실제로 다채널(즉, 스테레오 및 이상) 사운드트랙은 다이얼로그, 음악, 앰비언스와 같은 다양한 유형의 콘텐츠를 가질 수 있으며, 특히 다이얼로그는 돌비 5.1 믹스에서 중심 채널을 지배하는 경향이 있다. 현재, 오디오 분리 분야의 매우 활발한 연구 분야는 단일 믹스된 사운드트랙에서 이러한 스트랜드를 캡처하는 데 집중하고 있으며, 현재 연구에서도 vậy.

칵테일 포크 – 단일 사운드트랙에서 세 개의 별도 사운드트랙을 파생 출처: https://arxiv.org/pdf/2110.09958.pdf

최근 연구는 다양한 환경에서 음성을 추출하는 데 집중했으며, 자연어 처리(NLP) 시스템과의 후속 상호 작용을 위해 음성 오디오를 덴오이즈하는 목적으로 수행되며, 또한 보관된 노래 목소리의 분리에 대해 수행되는데, 이는 실제( 심지어 죽은) 가수를 위한 합성 버전을 만들거나 카라오케 스타일 음악 분리를 용이하게 하기 위해 수행된다.

각 측면에 대한 데이터셋

현재까지 이種 AI 기술을 사용하여 사용자가 사운드트랙의 믹스를 더 많이 제어할 수 있도록 하는 데에는 거의 고려가되지 않았다. 따라서 연구자들은 문제를 공식화하고 다중 유형 사운드트랙 분리를 위한 연구를 지원하기 위한 새로운 데이터셋을 생성했으며, 다양한 기존 오디오 분리 프레임워크에서 테스트했다.

연구자들이 개발한 새로운 데이터셋은 나누기 및 리마스터(DnR)라고 불리며, 이전 데이터셋 LibriSpeech, Free Music Archive 및 Freesound Dataset 50k(FSD50K)에서 파생된다. DnR를 처음부터 작업하려는 경우, 데이터셋은 세 가지 소스에서 재구성되어야 하며, 그렇지 않으면 곧 Zenodo에서 제공될 것이라고 저자들은 주장한다. 그러나 작성 당시 제공된 GitHub 링크는 현재 활성화되지 않았으므로 관심 있는 사람들은 잠시 기다려야 할 수 있다.

연구자들은 소니가 제안한 CrossNet un-mix(XUMX) 아키텍처가 특히 DnR에서 잘 작동하는 것을 발견했다.

소니의 CrossNet 아키텍처

저자들은 자신의 기계 학습 추출 모델이 유튜브의 사운드트랙에서 잘 작동한다고 주장하지만, 논문에 제시된 평가들은 합성 데이터에 기반하며, 제공된 주요 지원 동영상(아래에 첨부됨)은 현재 사용할 수 있는 유일한 것 같다.

사용된 세 가지 데이터셋은 각기 분리해야 하는 사운드트랙의 종류를 구성한다: FSD50K는 사운드 이펙트로 구성되며, 44.1kHz 모노 오디오 클립 50,000개와 200개의 클래스 레이블이 포함된 Google의 AudioSet 온톨로지로 태그가 지정되어 있다. Free Music Archive에는 161개의 음악 장르를 포함하는 100,000개의 스테레오 노래가 포함되어 있지만, 저자들은 FSD50K와 일치시키기 위해 25,000개의 노래로 구성된 하위 집합을 사용했다. 또한 LibriSpeech는 44.1kHz mp3 오디오 파일로 100시간의 오디오북 샘플을 제공한다.

미래 작업

저자들은 데이터셋과 추가 연구를 위한 별도의 모델의 조합에 대한 추가 작업을 예상하며, 이는 음성 인식 및 사운드 분류 프레임워크를 특징으로 하며, 자동 캡션 생성을 위한 음성 및 비음성 사운드가 포함된다. 또한 저자들은 인식할 수 있는 아티팩트를 줄이는 리믹스 접근 방식을 평가할 계획이며, 이는 결합된 오디오 사운드트랙을 구성 요소로 분할할 때 여전히 중심 문제이다.

이러한 종류의 분리는 향후 스마트 TV에서 소비자 商品으로 제공될 수 있으며, 이는 고도로 최적화된 추론 네트워크를 통합하는 것을 특징으로 한다. 그러나 초기 구현에서는 일부 전처리 시간과 저장 공간이 필요할 수 있다. 삼성은 이미 로컬 신경 네트워크를 사용하여 업스케일링을 수행하며, 소니의 인지 프로세서 XR는 라이브로 사운드트랙을 분석하고 재해석하며, 이는 소니의 Bravia 시리즈에서 사용된다.

사운드트랙의 믹스에 대한 더 큰 제어를 요구하는 목소리는 주기적으로 반복되며, 대부분의 제공된 솔루션은 현재 영화 및 TV 산업에서 원하는 것으로 가정되는 표준 및 사운드트랙에 대한 가정을 처리해야 한다.

한 시청자는 영화 사운드트랙의 다양한 요소 간에 볼륨 수준의 충격적인 불일치를 겪었으며, 영화 및 TV의 볼륨을 평준화할 수 있는 자동 볼륨 조정기를 개발하기에 충분히 절망적이게 되었다.

스마트 TV는 다이얼로그 볼륨을 대규모 볼륨 수준으로 대조하여 높이려는 다양한 방법을 제공하지만, 모두 믹싱 시간에 이루어진 결정과, 정확히 설정된대로 사운드트랙을 경험하기를 원하는 콘텐츠 제작자의 비전에 대항하는斗争을 벌이고 있다.

콘텐츠 제작자는 이 потен적인 추가 기능에 대해 불평할 가능성이 크다. ‘리믹스 문화’에 대한 몇몇 업계 저명 인사들이 이미 기본적인 TV 기반 알고리즘에 대한 불만을 표명했기 때문이다. 모션 스무딩과 같은 것들이다.

Unite.AI

AI 연구, 대화, 음악, 사운드 이펙트를 위한 별도의 볼륨 컨트롤을 시각화한다

사운드트랙의 측면 분리

각 측면에 대한 데이터셋

미래 작업

You may like