์ธ๊ณต์ง๋ฅ
Text-to-Music Generative AI : Stability Audio, Google์ MusicLM ๋ฐ ๊ธฐํ

음악, 인간 영혼과 공鳴하는 예술 형식은 우리 모두의 상수적인 동반자였다. 인공 지능을 사용하여 음악을 생성하는 것은 수십 년 전부터 시작되었다. 초기 시도는 간단하고 직관적이었으며, 기본 알고리즘이 단조로운 멜로디를 생성했다. 그러나 기술이 발전함에 따라 AI 음악 생성기의 복잡성과 능력도 발전하여, 딥 러닝과 자연어 처리(NLP)가 이 기술에서 핵심적인 역할을 하게 되었다.
오늘날 Spotify와 같은 플랫폼은 사용자의 청취 경험을 세부적으로 조정하기 위해 AI를 활용하고 있다. 이러한 딥 러닝 알고리즘은 다양한 음악 요소(템포, 분위기 등)에 따라 개인의 취향을 분석하여 개인화된 노래 제안을 제공한다. 또한 더 넓은 청취 패턴을 분석하고 인터넷에서 노래 관련 토론을 조사하여詳細한 노래 프로필을 구축한다.
AI 음악의 기원: 알고리즘 작곡에서 생성 모델링까지의 여정
AI가 음악 세계에 처음 등장한 1950년대에서 1970년대까지, 주요 초점은 알고리즘 작곡에 있었다. 이는 컴퓨터가 정의된 규칙 집합을 사용하여 음악을 생성하는 방법이었다. 이 기간 동안 가장 주목할 만한 창작물은 1957年の Illiac Suite for String Quartet이었다. 이는 몬테 카를로 알고리즘을 사용하여, 전통적인 음악 이론과 통계적 확률의 범위 내에서 피치와 리듬을 결정하는 랜덤 숫자를涉及하는 과정이었다.
이 기간 동안 또 다른 개척자 Iannis Xenakis는 확률 분포를涉한隨機 프로세스를 사용하여 음악을 생성했다. 그는 컴퓨터와 FORTRAN 언어를 사용하여 여러 확률 함수를 연결하여, 다양한 그래픽 표현이 다양한 사운드 공간에 해당하는 패턴을 생성했다.
텍스트를 음악으로 번역하는 복잡성
음악은 멜로디, 하모니, 리듬, 템포 등 다양한 요소를 포함하는 다차원 데이터 형식으로 저장되므로, 텍스트를 음악으로 번역하는 작업은 매우 복잡하다. 표준 노래는 컴퓨터에서 거의 100만 개의 숫자로 표현되며, 이는 이미지, 텍스트 등 다른 데이터 형식보다 훨씬 높은 숫자이다.
오디오 생성 분야는 현실적인 사운드 생성을 위해 혁신적인 접근 방식을 목표로 하고 있다. 한 방법은 스펙트로그램을 생성한 다음 이를 오디오로 다시 변환하는 것이다.
또 다른 전략은 음악의 기호적 표현, 즉 악보를 사용한다. 이는 음악가를 통해 해석되고 연주될 수 있으며, 이미 디지털화되어 있다. Magenta의 Chamber Ensemble Generator와 같은 도구는 MIDI 형식의 음악을 생성하며, 이는 컴퓨터와 음악 기기 간의 통신을 위한 프로토콜이다.
이러한 접근 방식은 이 분야를 발전시켰지만, 각자 한계점을 가지고 있다. 이는 오디오 생성의 복잡한 성질을 강조한다.
Transformer 기반의 자율 회귀 모델과 U-Net 기반의 확산 모델은 오디오, 텍스트, 음악 등 다양한 분야에서 최첨단 결과를 생산하는 기술의 선두에 있다. OpenAI의 GPT 시리즈와 대부분의 다른 LLM은 트랜스포머를 사용하며, 인코더, 디코더 또는 둘 다의 아키텍처를 활용한다. 미드저니, 스테이블리티 AI, DALL-E 2와 같은 이미지/아트 분야에서도 확산 프레임워크를 활용한다. 이러한 두 가지 핵심 기술은 오디오 분야에서도 최첨단 결과를 달성하는 데 핵심적인 역할을 했다. 이 기사에서는 Google의 MusicLM과 Stable Audio에 대해 자세히 살펴보겠다.
Google의 MusicLM
Google의 MusicLM은 올해 5월에 출시되었다. MusicLM은 텍스트에서 설명된 정서와 정확히 공鳴하는 고신뢰도 음악을 생성할 수 있다. 계층적 시퀀스-시퀀스 모델링을 사용하여, MusicLM은 텍스트 설명을 24 kHz에서 확장된 기간 동안 공鳴하는 음악으로 변환할 수 있다.
이 모델은 다차원적으로 작동하며, 텍스트 입력에만 국한되지 않고, 멜로디에도 조건을 둘 수 있다. 즉, 흥얼거리는 또는 휘파람 불는 멜로디를 텍스트 캡션에 설명된 스타일에 따라 변환할 수 있다.
기술적 통찰
MusicLM은 2022년에 도입된 AudioLM 프레임워크의 원리를 활용한다. AudioLM은 이산 표현 공간 내에서 오디오 생성을 언어 모델링 작업으로 합성하며,粗から 미세한 오디오 이산 단위(토큰)의 계층 구조를 사용한다. 이 접근 방식은 장기간에 걸쳐 고신뢰도와 일관성을 보장한다.
생성 과정을 용이하게 하기 위해, MusicLM은 AudioLM의 능력을 확장하여 텍스트 조건을 포함한다. 이는 MuLan, 즉 음악과 해당 텍스트 설명을 임베딩 공간에서 가까이 프로젝션하는 공동 음악-텍스트 모델을 사용하여 달성된다. 이 전략은 훈련 중에 캡션의 필요성을 제거하여, 모델을 대규모 오디오 전용 코퍼스에서 훈련할 수 있다.
MusicLM 모델은 또한 SoundStream을 오디오 토크나이저로 사용하며, 이는 6 kbps에서 24 kHz 음악을 재구성할 수 있으며, 잔차 벡터 양자화(RVQ)를 사용하여 효율적이고 고품질의 오디오 압축을 제공한다.

MusicLM의 프리트레이닝 프로세스: SoundStream, w2v-BERT, MuLan | 이미지 소스: 여기
또한 MusicLM은 멜로디 조건을 허용하여, 심지어 단순한 흥얼거림으로도 텍스트 스타일 설명에 맞춘 멋진 청각 경험을 위한 기초를 제공할 수 있다.
MusicLM의 개발자들은 또한 MusicCaps라는 데이터셋을 오픈 소스로 제공했으며, 이는 5.5k개의 음악-텍스트 쌍으로 구성되어 있으며, 각 쌍은 인간 전문가가 작성한 풍부한 텍스트 설명을 포함한다. 여기서 확인할 수 있다: MusicCaps on Hugging Face.
Google의 MusicLM으로 AI 사운드트랙을 생성하려면 다음 단계를 따르세요:
- 공식 MusicLM 웹사이트를 방문하고 “시작하기”를 클릭합니다.
- 대기열에加入하기 위해 “등록하기”를 선택합니다.
- Google 계정으로 로그인합니다.
- 접근 권한이 허가되면 “시도하기”를 클릭하여 시작합니다.
아래는 제가 실험한 몇 가지 예시 프롬프트입니다:
“명상곡, 차분하고 편안한, 플루트와 기타. 음악은 느리며, 평화와 안식을 창조하는 데 중점을 둡니다.”
“재즈, 색소폰”
Riffusion 및 Mubert와 같은 이전 최첨단 모델과 비교하여, MusicLM은 10초 오디오 클립의 텍스트 캡션 호환성에서 더 선호되었다.

MusicLM 성능 비교, 이미지 소스: 여기
Stability Audio
Stability AI는 최근 “Stable Audio“를 출시했으며, 이는 텍스트 메타데이터, 오디오 파일 기간, 시작 시간 조건을 갖춘 잠재적 확산 모델 아키텍처이다. Google의 MusicLM과 마찬가지로, 이 접근 방식은 생성된 오디오의 내용과 길이를 제어할 수 있다. 이는 지정된 길이의 오디오 클립을 생성할 수 있으며, 훈련 창 크기까지 가능하다.
기술적 통찰
Stable Audio는 여러 구성 요소를 포함하며, 여기에는 변분 오토인코더(VAE)와 조건부 확산 모델이 포함된 U-Net, 그리고 텍스트 인코더가 있다.

Stable Audio 아키텍처, 이미지 소스: 여기
VAE는 오디오를 데이터 압축, 노이즈 저항, 가역적 잠재적 인코딩으로 압축하여, 생성과 훈련을 더 빠르게 한다. 이는 원시 오디오 샘플을 직접 처리할 필요를 없애준다.
텍스트 인코더는 CLAP 모델에서 파생된 것으로, 단어와 소리의 복잡한 관계를 이해하는 데 핵심적인 역할을 한다. 이는 텍스트 토큰의 특징을 제공하며, 이는 U-Net의 크로스 어텐션 레이어를 통해 통합된다.
또한 타이밍 임베딩이 포함되며, 이는 오디오 청크의 시작 시간과 원본 오디오 파일의 총 기간에 기반한다. 이러한 값은 초당 이산화된 학습 임베딩으로 변환되어, 프롬프트 토큰과 함께 U-Net의 크로스 어텐션 레이어에 공급된다. 이는 사용자가 출력 오디오의 전체 길이를 제어할 수 있게 한다.
Stable Audio 모델은 80만 개 이상의 오디오 파일을 사용하여 훈련되었으며, 이는 AudioSparx와의 협력을 통해 가능했다.
Stable Audio는 무료 버전을 제공하며, 이는 월 20회, 20초까지의 트랙 생성을 허용한다. 또한 월 $12의 Pro 플랜을 제공하며, 이는 월 500회, 90초까지의 트랙 생성을 허용한다.
아래는 저가 사용하여 생성한 Stable Audio 오디오 클립입니다.
“영화적, 사운드트랙, 부드러운 비, ambiente, 차분한,遠處의 개 짖는 소리, 평화로운 잎 소리, 미묘한 바람, 40 BPM”
이러한 정교하게 제작된 오디오 조각의 응용 분야는 끝이 없다. 영화 제작자들은 이러한 기술을 사용하여 풍부하고 몰입감 있는 사운드 스케이프를 생성할 수 있다. 상업 분야에서는 광고주가 이러한 맞춤형 오디오 트랙을 활용할 수 있다. 또한 이 도구는 개인 창작자와 예술가에게 무한한 가능성의 캔버스를 제공하여, 이전에는 상당한 예산이나 기술 전문 지식 없이 달성하기 어려웠던 이야기, 감정, 분위기를 창조하는 사운드 피스를 제작할 수 있다.
프롬프트 팁
텍스트 프롬프트를 사용하여 완벽한 오디오를 생성하는 방법은 다음과 같다:
- 상세히: 장르, 분위기, 악기를 지정하세요. 예: 영화적, 와일드 웨스트, 퍼커션, 긴장감, 대기
- 분위기 설정: 음악적 및 감정적 용어를 결합하여 원하는 분위기를 전달하세요.
- 악기 선택: 악기 이름에 형용사를 추가하여, “반향 있는 기타” 또는 “강력한 합창”과 같은 효과를 낼 수 있습니다.
- BPM: 장르와 일치하는 템포를 지정하여, 조화로운 출력을 생성하세요. 예: 드럼과 베이스 트랙의 경우 “170 BPM”과 같은 설정
마무리
이 기사에서 우리는 알고리즘 작곡에서 시작하여 오늘날의 정교한 생성 AI 프레임워크인 Google의 MusicLM과 Stability Audio에 이르기까지 AI 생성 음악/오디오에 대해 살펴보았다. 이러한 기술은 딥 러닝과 최첨단 압축 모델을 활용하여 음악 생성을 향상시키고 청취자들의 경험을 세부적으로 조정한다.
그러나 이는 끊임없이 발전하는 분야이며, 장기적인 일관성을 유지하는 어려움과 AI로 생성된 음악의 진정성에 대한 논쟁과 같은 도전들이 이 분야의 개척자들을 앞두고 있다. 최근에는 드레이크와 위켄드의 스타일을 모방한 AI 생성 노래가 온라인에서 화제가 된 바 있다. 그러나 그레이미 상 후보에서 제외되면서, 음악 산업에서 AI 생성 음악의 합법성에 대한 논쟁을 다시 불러일으켰다(출처). AI가 음악과 청취자 사이의 간격을 메우는 동안, 기술과 예술이 공존하여 혁신을 촉진하는 생태계를 형성하고 있다.

















