Connect with us

Text-to-Music Generative AI : Stability Audio, Google’s MusicLM และอื่นๆ

ปัญญาประดิษฐ์

Text-to-Music Generative AI : Stability Audio, Google’s MusicLM และอื่นๆ

mm

ดนตรี ซึ่งเป็นรูปแบบศิลปะที่สร้างความสัมพันธ์กับจิตวิญญาณของมนุษย์ ได้เป็นเพื่อนร่วมทางของเราทุกคน มานานแล้วที่เริ่มสร้างดนตรีโดยใช้ปัญญาประดิษฐ์ ซึ่งเริ่มต้นเมื่อหลายทศวรรษที่แล้ว ในช่วงแรกๆ การพยายามสร้างดนตรีด้วยวิธีการง่ายๆ และ直觉 โดยใช้อัลกอริทึมพื้นฐานในการสร้างทำนองเพลงที่น่าเบื่อ แต่เมื่อเทคโนโลยีได้พัฒนาไปแล้ว ความซับซ้อนและความสามารถของเครื่องมือสร้างดนตรีของ AI ก็เพิ่มขึ้นตามไปด้วย ซึ่งเปิดทางให้การเรียนรู้ลึกและประมวลผลภาษาธรรมชาติ (NLP) มีบทบาทสำคัญในด้านเทคโนโลยีนี้

ในปัจจุบัน แพลตฟอร์มอย่าง Spotify กำลังใช้ AI เพื่อปรับปรุงประสบการณ์การฟังเพลงให้กับผู้ใช้ของตน อัลกอริทึมการเรียนรู้ลึกเหล่านี้วิเคราะห์ความชอบส่วนบุคคลตามองค์ประกอบดนตรีต่างๆ เช่น จังหวะและอารมณ์ เพื่อสร้างคำแนะนำเพลงส่วนบุคคล พวกเขายังวิเคราะห์รูปแบบการฟังเพลงในวงกว้างและค้นหาเรื่องราวเกี่ยวกับเพลงในอินเทอร์เน็ตเพื่อสร้างโปรไฟล์เพลงที่มีรายละเอียด

จุดเริ่มต้นของ AI ในดนตรี: การเดินทางจากการประพันธ์แบบอัลกอริทึมไปยังการสร้างแบบเจเนอรатив

ในระยะแรกของการผสมผสาน AI เข้ากับโลกดนตรี ซึ่งครอบคลุมช่วงปี 1950 ถึง 1970 การมุ่งเน้นหลักอยู่ที่การประพันธ์แบบอัลกอริทึม ซึ่งเป็นวิธีการที่คอมพิวเตอร์ใช้เซตของกฎที่กำหนดไว้เพื่อสร้างดนตรี การสร้างที่น่าสังเกตในระยะนี้คือ Illiac Suite for String Quartet ในปี 1957 ซึ่งใช้อัลกอริทึม Monte Carlo ซึ่งเป็นกระบวนการที่เกี่ยวข้องกับตัวเลขสุ่มเพื่อกำหนดเสียงสูงและจังหวะภายในขอบเขตของทฤษฎีดนตรีและความน่าจะเป็นทางสถิติ

Image generated by the author using Midjourney

Image generated by the author using Midjourney

ในช่วงเวลานั้น ผู้บุกเบิกอีกคนหนึ่ง คือ Iannis Xenakis ใช้กระบวนการแบบสุ่ม ซึ่งเป็นแนวคิดที่เกี่ยวข้องกับการกระจายตัวของความน่าจะเป็นแบบสุ่ม เพื่อสร้างดนตรี เขาใช้คอมพิวเตอร์และภาษา FORTRAN เพื่อเชื่อมโยงฟังก์ชันความน่าจะเป็นต่างๆ ซึ่งสร้างรูปแบบที่การแสดงภาพกราฟฟิกต่างๆ สอดคล้องกับพื้นที่เสียงที่หลากหลาย

ความซับซ้อนของการแปลข้อความเป็นดนตรี

ดนตรีถูกเก็บไว้ในรูปแบบข้อมูลที่มีหลายมิติ ซึ่งครอบคลุมองค์ประกอบเช่น เมโลดี้ ฮาร์มอนี จังหวะ และเทมโป ทำให้การแปลข้อความเป็นดนตรีนั้นซับซ้อนมาก เพลงมาตรฐานหนึ่งเพลงจะถูกแทนที่ด้วยตัวเลขเกือบหนึ่งล้านตัวในคอมพิวเตอร์ ซึ่งเป็นตัวเลขที่สูงกว่า 格式ข้อมูลอื่นๆ เช่น ภาพหรือข้อความ

สาขาการสร้างเสียงกำลังได้รับการ 접근ใหม่ๆ เพื่อเอาชนะความท้าทายในการสร้างเสียงที่สมจริง วิธีหนึ่งคือการสร้างสเปกโตรแกรม แล้วแปลงกลับเป็นเสียง

ยุทธวิธีอื่นๆ ใช้การแสดงผลแบบสัญลักษณ์ของดนตรี เช่น นอตเพลง ซึ่งสามารถตีความและเล่นโดยนักดนตรีได้ วิธีนี้ได้รับการดิจิตอล化แล้ว โดยมีเครื่องมืออย่าง Chamber Ensemble Generator ของ Magenta ซึ่งสร้างดนตรีใน 格式 MIDI ซึ่งเป็นโพรโทคอลที่อำนวยความสะดวกในการสื่อสารระหว่างคอมพิวเตอร์และเครื่องดนตรี

แม้ว่าวิธีการเหล่านี้จะพัฒนาในสาขานี้ แต่ก็มีข้อจำกัดของตัวเอง ซึ่งเน้นย้ำถึงความซับซ้อนของการสร้างเสียง

Transformer-based autoregressive models และ U-Net-based diffusion models อยู่ในแนวหน้าของเทคโนโลยี โดยสร้างผลลัพธ์ที่ดีที่สุด (SOTA) ในการสร้างเสียง ข้อความ ดนตรี และอื่นๆ โมเดล GPT ของ OpenAI และ LLM ส่วนใหญ่ในปัจจุบันใช้ทรานส์ฟอร์เมอร์ โดยใช้โครงสร้าง encoder, decoder หรือทั้งสองอย่าง เทคโนโลยีหลักสองอย่างนี้มีบทบาทสำคัญในการบรรลุผลลัพธ์ที่ดีที่สุดในสาขาเสียง

ในบทความนี้ เราจะสำรวจ Google’s MusicLM และ Stable Audio ซึ่งเป็นตัวอย่างที่น่าประทับใจของความสามารถของเทคโนโลยีเหล่านี้

Google’s MusicLM

Google’s MusicLM ถูกปล่อยออกมาในเดือนพฤษภาคมปีนี้ MusicLM สามารถสร้างชิ้นดนตรีสูงคุณภาพที่สอดคล้องกับอารมณ์ที่อธิบายไว้ในข้อความ โดยใช้แบบจำลองลำดับแบบลำดับแบบหลายระดับ MusicLM มีความสามารถในการเปลี่ยนคำอธิบายข้อความเป็นดนตรีที่สอดคล้องกันในความถี่ 24 kHz ในช่วงเวลาที่ยาวนาน

โมเดลนี้ทำงานในหลายมิติ ไม่เพียงแต่ปฏิบัติตามข้อความเท่านั้น แต่ยังแสดงความสามารถในการมีเงื่อนไขตามทำนองด้วย ซึ่งหมายความว่าสามารถรับทำนองที่ถูกขานหรือส่งเสียงและเปลี่ยนตามสไตล์ที่อธิบายไว้ในคำบรรยายข้อความ

ข้อมูลทางเทคนิค

MusicLM ใช้หลักการของ AudioLM ซึ่งเป็นโครงสร้างที่แนะนำในปี 2022 สำหรับการสร้างเสียง AudioLM สังเคราะห์เสียงเป็นงานสร้างแบบจำลองภาษาในพื้นที่การแสดงผลที่ไม่ต่อเนื่อง โดยใช้ลำดับของหน่วยเสียงที่ไม่ต่อเนื่องจากหยาบถึงละเอียด ซึ่งเรียกว่า token นี่ทำให้แน่ใจว่ามีคุณภาพสูงและความสอดคล้องในระยะยาวในระยะเวลาที่สำคัญ

เพื่ออำนวยความสะดวกในการสร้าง MusicLM ขยายความสามารถของ AudioLM เพื่อรวมการมีเงื่อนไขข้อความ ซึ่งเป็นเทคนิคที่จัดตำแหน่งเสียงที่สร้างขึ้นให้สอดคล้องกับเนื้อหาของข้อความเข้าด้วยกัน นี่ได้รับการบรรลุผ่านพื้นที่การแสดงผลร่วมที่สร้างขึ้นโดยใช้ MuLan ซึ่งเป็นแบบจำลองดนตรี-ข้อความร่วมที่ฝึกให้โครงสร้างดนตรีและคำบรรยายข้อความที่สอดคล้องกันใกล้กันในพื้นที่การแสดงผล

โมเดล MusicLM ยังใช้ SoundStream เป็นตัวแทนเสียง ซึ่งสามารถสร้างเสียง 24 kHz ที่ 6 kbps ด้วยคุณภาพที่น่าประทับใจ โดยใช้ การปรับขนาดเวกเตอร์แบบส่วนที่เหลือ (RVQ) สำหรับการบีบอัดเสียงที่มีประสิทธิภาพและคุณภาพสูง

An illustration of the independent pretraining process for the foundational models of MusicLM: SoundStream, w2v-BERT, and MuLan,

An illustration of the pretraining process of MusicLM: SoundStream, w2v-BERT, and Mulan | Image source: here

นอกจากนี้ MusicLM ยังขยายความสามารถโดยการอนุญาตให้มีเงื่อนไขทำนอง ซึ่งทำให้แม้แต่ทำนองง่ายๆ ที่ถูกขานหรือส่งเสียงก็สามารถเป็นพื้นฐานสำหรับประสบการณ์เสียงที่น่าประทับใจ ซึ่งปรับให้เหมาะสมกับคำบรรยายสไตล์ข้อความที่แน่นอน

ผู้พัฒนา MusicLM ยังได้เปิดเผย MusicCaps ซึ่งเป็นชุดข้อมูลที่มี 5.5k คู่ดนตรี-ข้อความ โดยแต่ละคู่มีคำบรรยายข้อความที่มีรายละเอียดซึ่งสร้างโดยผู้เชี่ยวชาญคน คุณสามารถดูได้ที่นี่: MusicCaps on Hugging Face.

พร้อมที่จะสร้างเสียงประกอบด้วย Google’s MusicLM? นี่คือขั้นตอนในการเริ่มต้น:

  1. ไปที่เว็บไซต์ MusicLM อย่างเป็นทางการและคลิก “Get Started.”
  2. เข้าร่วมรายการรอโดยเลือก “Register your interest.”
  3. เข้าสู่ระบบโดยใช้บัญชี Google ของคุณ.
  4. เมื่อคุณได้รับอนุญาตแล้ว คลิก “Try Now” เพื่อเริ่มต้น.

ด้านล่างนี้คือคำสั่งบางส่วนที่ฉันลองใช้:

“เพลงพักผ่อน อารมณ์เย็นๆ ด้วยฟลุตและกีตาร์ เพลงนี้ช้า โดยมุ่งเน้นในการสร้างความรู้สึกสบายใจและสงบ”

“จั๊ซกับแซกโซโฟน”

เมื่อเปรียบเทียบกับโมเดล SOTA ก่อนหน้า เช่น Riffusion และ Mubert ในการประเมินคุณภาพ MusicLM ได้รับการยกย่องมากกว่า โดยผู้เข้าร่วมให้คะแนนความสอดคล้องของคำบรรยายข้อความกับคลิปเสียง 10 วินาที

MusicLM Performance comparision

MusicLM Performance, Image source: here

Stability Audio

Stability AI เปิดตัว “Stable Audio” โครงสร้างแบบจำลองการแพร่กระจายแบบ 潜ใน ที่มีเงื่อนไขตามข้อมูลข้อความและระยะเวลาไฟล์เสียงและเวลาเริ่มต้น นี่คล้ายกับ Google’s MusicLM โดยมีการควบคุมเนื้อหาและความยาวของเสียงที่สร้างขึ้น ทำให้สามารถสร้างคลิปเสียงที่มีความยาวตามที่ต้องการได้ถึงขนาดหน้าต่างการฝึก

ข้อมูลทางเทคนิค

Stable Audio ประกอบด้วยส่วนประกอบหลายอย่าง รวมถึง Variational Autoencoder (VAE) และแบบจำลองการแพร่กระจายแบบมีเงื่อนไขที่ใช้ U-Net ร่วมกับเครื่องมือเข้ารหัสข้อความ

An illustration showcasing the integration of a variational autoencoder (VAE), a text encoder, and a U-Net-based conditioned diffusion model

Stable Audio Architecture, Image source: here

VAE ช่วยให้การสร้างและฝึกอบรมเร็วขึ้นโดยการบีบอัดเสียงสเตอริโอเป็นรูปแบบการแสดงผลที่บีบอัดข้อมูล ลดความเสี่ยงต่อเสียงและกลับด้านได้ โดยไม่ต้องทำงานกับตัวอย่างเสียงดิบ

เครื่องมือเข้ารหัสข้อความซึ่งมาจากโมเดล CLAP มีบทบาทสำคัญในการทำความเข้าใจความสัมพันธ์ที่ซับซ้อนระหว่างคำและเสียง โดยให้การแสดงผลที่มีข้อมูลของข้อความที่เข้ารหัสแล้ว นี่ได้รับการบรรลุผ่านการใช้คุณลักษณะข้อความจากชั้นหนึ่งล่าสุดของเครื่องมือเข้ารหัสข้อความ CLAP ซึ่งถูกผสมเข้ากับชั้นการแพร่กระจาย U-Net ผ่านชั้น cross-attention

ประเด็นสำคัญคือการรวมการฝังตัวของเวลา ซึ่งคำนวณตามคุณสมบัติสองประการ: วินาทีเริ่มต้นของชิ้นส่วนเสียงและระยะเวลาทั้งหมดของไฟล์เสียงต้นฉบับ ค่าเหล่านี้ถูกแปลเป็นการฝังตัวแบบสุ่มที่เรียนรู้ได้แบบต่อวินาทีและผสมกับโทเค็นพรอมต์แล้วป้อนเข้าไปในชั้น cross-attention ของ U-Net ทำให้ผู้ใช้สามารถกำหนดความยาวรวมของเสียงที่สร้างขึ้นได้

โมเดล Stable Audio ถูกฝึกโดยใช้เซตข้อมูลเสียงมากกว่า 800,000 ไฟล์ ผ่านการร่วมมือกับผู้ให้บริการเสียงสต็อก AudioSparx

Stable audio commercials

Stable audio Commercials

Stable Audio มีเวอร์ชันฟรี ซึ่งอนุญาตให้สร้างเสียงได้ 20 ครั้ง ต่อเดือน โดยมีความยาวสูงสุด 20 วินาที และแผน Pro ที่มีค่าใช้จ่าย $12 ต่อเดือน โดยอนุญาตให้สร้างเสียงได้ 500 ครั้ง โดยมีความยาวสูงสุด 90 วินาที

ด้านล่างนี้คือคลิปเสียงที่ฉันสร้างโดยใช้ Stable Audio

Image generated by the author using Midjourney

Image generated by the author using Midjourney

“ภาพยนตร์, เสียงประกอบ Gentle Rainfall, Ambient, สบายๆ, มีสุนัขเห่าไกลๆ, สบายๆ, ใบไม้กระซิบ, ลมเบาๆ, 40 BPM”

การประยุกต์ใช้ของชิ้นส่วนเสียงที่สร้างขึ้นด้วยความประณีตเหล่านี้มีมากมาย ผู้สร้างภาพยนตร์สามารถใช้เทคโนโลยีนี้เพื่อสร้างเสียงที่มีรายละเอียดและสมจริง ในภาคการค้า ผู้โฆษณาสามารถใช้เสียงที่ปรับให้เหมาะสมเหล่านี้ นอกจากนี้เครื่องมือนี้ยังเปิดโอกาสให้สร้างสรรค์และนวัตกรรมสำหรับผู้สร้างและศิลปินรายบุคคล โดยให้พื้นที่ที่ไม่มีขอบเขตในการสร้างชิ้นส่วนเสียงที่เล่าเรื่องราว สร้างอารมณ์ และสร้างบรรยากาศที่มีความลึกซึ้งซึ่งก่อนหน้านี้ทำได้ยากโดยไม่ต้องมีงบประมาณหรือความเชี่ยวชาญทางเทคนิคที่สำคัญ

คำแนะนำในการใช้พรอมต์

สร้างเสียงที่สมบูรณ์แบบโดยใช้พรอมต์ข้อความ นี่คือคำแนะนำเริ่มต้น:

  1. ให้รายละเอียด: ระบุประเภท เพลง อารมณ์ และเครื่องดนตรี เช่น Cinematic, Wild West, Percussion, ตึงเครียด, Atmospheric
  2. การตั้งอารมณ์: ผสมผสานคำศัพท์ทางดนตรีกับคำศัพท์ทางอารมณ์ เพื่อถ่ายทอดอารมณ์ที่ต้องการ
  3. การเลือกเครื่องดนตรี: เพิ่มคุณลักษณะของเครื่องดนตรี เช่น “กีตาร์ที่มีการสะท้อน” หรือ “คอรัสที่มีพลัง”
  4. BPM: จัดจังหวะให้สอดคล้องกับประเภท เพื่อให้ได้ผลลัพธ์ที่สอดคล้องกัน เช่น “170 BPM” สำหรับเพลง Drum and Bass

สรุป

Image generated by the author using Midjourney

Image generated by the author using Midjourney

ในบทความนี้ เราได้สำรวจการสร้างดนตรีและเสียงโดยใช้ AI ตั้งแต่การประพันธ์แบบอัลกอริทึมไปจนถึงโครงสร้างเจเนอรативที่ซับซ้อนในปัจจุบัน เช่น Google’s MusicLM และ Stability Audio เทคโนโลยีเหล่านี้ โดยใช้การเรียนรู้ลึกและโมเดลการบีบอัดที่ดีที่สุด ไม่เพียงแต่ปรับปรุงการสร้างดนตรีเท่านั้น แต่ยังปรับปรุงประสบการณ์การฟังของผู้ฟังด้วย

อย่างไรก็ตาม นี่เป็นสาขาที่กำลังพัฒนา โดยมีข้อท้าทาย เช่น การรักษาความสอดคล้องในระยะยาวและการถกเถียงเรื่องความถูกต้องของดนตรีที่สร้างโดย AI ที่ท้าทายผู้บุกเบิกในด้านนี้ เพียงไม่กี่สัปดาห์ที่ผ่านมา มีข่าวเกี่ยวกับเพลงที่สร้างโดย AI ที่เลียนแบบสไตล์ของ Drake และ The Weeknd ซึ่งถูกเผยแพร่ออนไลน์ แต่ถูกถอดออกจากชื่อผู้เข้าชิงรางวัล Grammy ซึ่งแสดงให้เห็นถึงการถกเถียงเกี่ยวกับสถานะของดนตรีที่สร้างโดย AI ในอุตสาหกรรม (แหล่งที่มา) เมื่อ AI ยังคงลดช่องว่างระหว่างดนตรีและผู้ฟัง มันกำลังส่งเสริมระบบนิเวศที่เทคโนโลยีร่วมกับศิลปะ โดยส่งเสริมนวัตกรรมในขณะเดียวกันก็เคารพประเพณี

ฉันใช้เวลา 5 ปีที่ผ่านมาในการศึกษาและเรียนรู้เกี่ยวกับโลกของ Machine Learning และ Deep Learning อย่างลึกซึ้ง ความรู้และความเชี่ยวชาญของฉันทำให้ฉันได้เข้าร่วมในโครงการพัฒนาซอฟต์แวร์มากกว่า 50 โครงการที่มีความหลากหลาย โดยมุ่งเน้นไปที่ AI/ML ความอยากรู้อยากเห็นของฉันยังดึงดูดให้ฉันสนใจไปที่ Natural Language Processing ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม