인공지능

연구진, 중국어와 영어로 노래할 수 있는 AI 모델 개발

Published July 17, 2020

Updated April 28, 2026

Daniel Nelson

마이크로소프트와 자장 대학의 연구진은 최근 여러 언어로 노래할 수 있는 AI 모델을 개발했다. VentureBeat에 따르면, 연구진이 개발한 DeepSinger AI는 다양한 음악 웹사이트의 데이터를 사용하여 알고리즘으로 가수의 음색을 캡처했다.

AI 가수가 “목소리”를 생성하는 데 필요한 알고리즘은 오디오의 음고와 지속 시간을 예측하고 제어할 수 있어야 한다. 사람들이 노래를 부를 때, 그들이 생성하는 소리는 단순한 말보다 훨씬 더 복잡한 리듬과 패턴을 가지고 있다. 연구진이 극복해야 할 또 다른 문제는 말/스피치 훈련 데이터가 충분히 उपलब하지만, 노래 훈련 데이터 세트는 khá 희귀하다는 것이다. 이러한 도전을 결합하면 노래에는 사운드와 가사가 분석되어야 하므로 노래 생성 문제는 매우 복잡하다.

연구진이 개발한 DeepSinger 시스템은 오디오 데이터를 채굴하고 변환하는 데이터 파이프라인을 개발하여 이러한 도전을 극복했다. 다양한 음악 웹사이트에서 노래 클립을 추출하고, 노래를 나머지 오디오에서 분리하고, 문장으로 나눈 다음, 가사 내의 각 음소의 지속 시간을 결정하여 각 고유한 음소를 나타내는 샘플 시리즈를 생성했다. 가사와 오디오 샘플을 정렬한 후에 데이터를 정리하여 왜곡된 훈련 샘플을 처리했다.

同じ 방법이 다양한 언어에 효과적으로 작동하는 것으로 보인다. DeepSinger는 89명의 가수가 92시간 이상 노래한 중국어, 광동어, 영어 보컬 샘플로 훈련되었다. 연구 결과는 DeepSinger 시스템이 피치의 정확성과 노래의 자연스러움과 같은 지표에 따라 높은 품질의 “노래” 샘플을 신뢰성 있게 생성할 수 있음을 발견했다. 연구진은 20명에게 DeepSinger와 훈련 노래를 이러한 지표에 따라 평가하도록 요청했으며, 생성된 샘플과 실제 오디오 사이의 점수 차이는 khá 작았다. 참가자들은 DeepSinger에 평균 의견 점수를 부여했으며, 이는 0.34에서 0.76 사이로 편차했다.

향후 연구진은 WaveNet과 같은 전문 기술을 사용하여 DeepSinger의 하위 모델을 공동으로 훈련함으로써 생성된 목소리의 품질을 개선하려고 한다.

DeepSinger 시스템은 가수와 다른 음악 아티스트가 또 다른 녹음 세션으로 스튜디오에 다시 갈 필요 없이 작업을 수정하는 데 도움이 될 수 있다. 또한 실제로 노래를 부르지 않은 아티스트가 노래를 부른 것처럼 보이게 하는 오디오 딥페이크를 생성하는 데 사용될 수 있다. 패러디 또는 풍자에 사용될 수 있지만, 법적 문제가 있을 수 있다.

DeepSinger는 음악과 오디오를 상호 작용시키는 방식을 변환할 수 있는 새로운 AI 기반 음악 및 오디오 시스템의 물결 중 하나이다. OpenAI는 최근 특정 장르 또는 특정 아티스트의 스타일로 원본 음악 트랙을 생성할 수 있는 JukeBox라는 자신의 AI 시스템을 출시했다. 다른 음악 AI 도구에는 Google의 Magenta와 Amazon의 DeepComposer가 있다. Magenta는 자동 드럼 백킹에서 간단한 음악 기반 비디오 게임까지 모든 것을 생성할 수 있는 오픈 소스 오디오(및 이미지) 조작 라이브러리이다. 한편, Amazon의 DeepComposer는 자신의 음악 기반 딥 러닝 모델을 훈련하고 사용자 지정하려는 사람들을 대상으로 한다. 사전 훈련된 샘플 모델을 가져와 모델을 사용자의需求에 맞게 조정할 수 있다.

DeepSinger가 생성한 일부 오디오 샘플을 이 링크에서 들을 수 있다.

Daniel Nelson

블로거이자 프로그래머로 Machine Learning과 Deep Learning 주제에 전문가입니다. 다니엘은 다른 사람들이 AI의 힘을 사회적善으로 사용하는 것을 돕기를 희망합니다.

Unite.AI

연구진, 중국어와 영어로 노래할 수 있는 AI 모델 개발

You may like