ปัญญาประดิษฐ์
Text-to-Music Generative AI : Stability Audio, Google’s MusicLM และอื่นๆ

ดนตรี ซึ่งเป็นรูปแบบศิลปะที่สร้างความสัมพันธ์กับจิตวิญญาณของมนุษย์ ได้เป็นเพื่อนร่วมทางของเราทุกคน มานานแล้วที่เริ่มสร้างดนตรีโดยใช้ปัญญาประดิษฐ์ ซึ่งเริ่มต้นเมื่อหลายทศวรรษที่แล้ว ในช่วงแรกๆ การพยายามสร้างดนตรีด้วยวิธีการง่ายๆ และ直觉 โดยใช้อัลกอริทึมพื้นฐานในการสร้างทำนองเพลงที่น่าเบื่อ แต่เมื่อเทคโนโลยีได้พัฒนาไปแล้ว ความซับซ้อนและความสามารถของเครื่องมือสร้างดนตรีของ AI ก็เพิ่มขึ้นตามไปด้วย ซึ่งเปิดทางให้การเรียนรู้ลึกและประมวลผลภาษาธรรมชาติ (NLP) มีบทบาทสำคัญในด้านเทคโนโลยีนี้
ในปัจจุบัน แพลตฟอร์มอย่าง Spotify กำลังใช้ AI เพื่อปรับปรุงประสบการณ์การฟังเพลงให้กับผู้ใช้ของตน อัลกอริทึมการเรียนรู้ลึกเหล่านี้วิเคราะห์ความชอบส่วนบุคคลตามองค์ประกอบดนตรีต่างๆ เช่น จังหวะและอารมณ์ เพื่อสร้างคำแนะนำเพลงส่วนบุคคล พวกเขายังวิเคราะห์รูปแบบการฟังเพลงในวงกว้างและค้นหาเรื่องราวเกี่ยวกับเพลงในอินเทอร์เน็ตเพื่อสร้างโปรไฟล์เพลงที่มีรายละเอียด
จุดเริ่มต้นของ AI ในดนตรี: การเดินทางจากการประพันธ์แบบอัลกอริทึมไปยังการสร้างแบบเจเนอรатив
ในระยะแรกของการผสมผสาน AI เข้ากับโลกดนตรี ซึ่งครอบคลุมช่วงปี 1950 ถึง 1970 การมุ่งเน้นหลักอยู่ที่การประพันธ์แบบอัลกอริทึม ซึ่งเป็นวิธีการที่คอมพิวเตอร์ใช้เซตของกฎที่กำหนดไว้เพื่อสร้างดนตรี การสร้างที่น่าสังเกตในระยะนี้คือ Illiac Suite for String Quartet ในปี 1957 ซึ่งใช้อัลกอริทึม Monte Carlo ซึ่งเป็นกระบวนการที่เกี่ยวข้องกับตัวเลขสุ่มเพื่อกำหนดเสียงสูงและจังหวะภายในขอบเขตของทฤษฎีดนตรีและความน่าจะเป็นทางสถิติ
ในช่วงเวลานั้น ผู้บุกเบิกอีกคนหนึ่ง คือ Iannis Xenakis ใช้กระบวนการแบบสุ่ม ซึ่งเป็นแนวคิดที่เกี่ยวข้องกับการกระจายตัวของความน่าจะเป็นแบบสุ่ม เพื่อสร้างดนตรี เขาใช้คอมพิวเตอร์และภาษา FORTRAN เพื่อเชื่อมโยงฟังก์ชันความน่าจะเป็นต่างๆ ซึ่งสร้างรูปแบบที่การแสดงภาพกราฟฟิกต่างๆ สอดคล้องกับพื้นที่เสียงที่หลากหลาย
ความซับซ้อนของการแปลข้อความเป็นดนตรี
ดนตรีถูกเก็บไว้ในรูปแบบข้อมูลที่มีหลายมิติ ซึ่งครอบคลุมองค์ประกอบเช่น เมโลดี้ ฮาร์มอนี จังหวะ และเทมโป ทำให้การแปลข้อความเป็นดนตรีนั้นซับซ้อนมาก เพลงมาตรฐานหนึ่งเพลงจะถูกแทนที่ด้วยตัวเลขเกือบหนึ่งล้านตัวในคอมพิวเตอร์ ซึ่งเป็นตัวเลขที่สูงกว่า 格式ข้อมูลอื่นๆ เช่น ภาพหรือข้อความ
สาขาการสร้างเสียงกำลังได้รับการ 접근ใหม่ๆ เพื่อเอาชนะความท้าทายในการสร้างเสียงที่สมจริง วิธีหนึ่งคือการสร้างสเปกโตรแกรม แล้วแปลงกลับเป็นเสียง
ยุทธวิธีอื่นๆ ใช้การแสดงผลแบบสัญลักษณ์ของดนตรี เช่น นอตเพลง ซึ่งสามารถตีความและเล่นโดยนักดนตรีได้ วิธีนี้ได้รับการดิจิตอล化แล้ว โดยมีเครื่องมืออย่าง Chamber Ensemble Generator ของ Magenta ซึ่งสร้างดนตรีใน 格式 MIDI ซึ่งเป็นโพรโทคอลที่อำนวยความสะดวกในการสื่อสารระหว่างคอมพิวเตอร์และเครื่องดนตรี
แม้ว่าวิธีการเหล่านี้จะพัฒนาในสาขานี้ แต่ก็มีข้อจำกัดของตัวเอง ซึ่งเน้นย้ำถึงความซับซ้อนของการสร้างเสียง
Transformer-based autoregressive models และ U-Net-based diffusion models อยู่ในแนวหน้าของเทคโนโลยี โดยสร้างผลลัพธ์ที่ดีที่สุด (SOTA) ในการสร้างเสียง ข้อความ ดนตรี และอื่นๆ โมเดล GPT ของ OpenAI และ LLM ส่วนใหญ่ในปัจจุบันใช้ทรานส์ฟอร์เมอร์ โดยใช้โครงสร้าง encoder, decoder หรือทั้งสองอย่าง เทคโนโลยีหลักสองอย่างนี้มีบทบาทสำคัญในการบรรลุผลลัพธ์ที่ดีที่สุดในสาขาเสียง
ในบทความนี้ เราจะสำรวจ Google’s MusicLM และ Stable Audio ซึ่งเป็นตัวอย่างที่น่าประทับใจของความสามารถของเทคโนโลยีเหล่านี้
Google’s MusicLM
Google’s MusicLM ถูกปล่อยออกมาในเดือนพฤษภาคมปีนี้ MusicLM สามารถสร้างชิ้นดนตรีสูงคุณภาพที่สอดคล้องกับอารมณ์ที่อธิบายไว้ในข้อความ โดยใช้แบบจำลองลำดับแบบลำดับแบบหลายระดับ MusicLM มีความสามารถในการเปลี่ยนคำอธิบายข้อความเป็นดนตรีที่สอดคล้องกันในความถี่ 24 kHz ในช่วงเวลาที่ยาวนาน
โมเดลนี้ทำงานในหลายมิติ ไม่เพียงแต่ปฏิบัติตามข้อความเท่านั้น แต่ยังแสดงความสามารถในการมีเงื่อนไขตามทำนองด้วย ซึ่งหมายความว่าสามารถรับทำนองที่ถูกขานหรือส่งเสียงและเปลี่ยนตามสไตล์ที่อธิบายไว้ในคำบรรยายข้อความ
ข้อมูลทางเทคนิค
MusicLM ใช้หลักการของ AudioLM ซึ่งเป็นโครงสร้างที่แนะนำในปี 2022 สำหรับการสร้างเสียง AudioLM สังเคราะห์เสียงเป็นงานสร้างแบบจำลองภาษาในพื้นที่การแสดงผลที่ไม่ต่อเนื่อง โดยใช้ลำดับของหน่วยเสียงที่ไม่ต่อเนื่องจากหยาบถึงละเอียด ซึ่งเรียกว่า token นี่ทำให้แน่ใจว่ามีคุณภาพสูงและความสอดคล้องในระยะยาวในระยะเวลาที่สำคัญ
เพื่ออำนวยความสะดวกในการสร้าง MusicLM ขยายความสามารถของ AudioLM เพื่อรวมการมีเงื่อนไขข้อความ ซึ่งเป็นเทคนิคที่จัดตำแหน่งเสียงที่สร้างขึ้นให้สอดคล้องกับเนื้อหาของข้อความเข้าด้วยกัน นี่ได้รับการบรรลุผ่านพื้นที่การแสดงผลร่วมที่สร้างขึ้นโดยใช้ MuLan ซึ่งเป็นแบบจำลองดนตรี-ข้อความร่วมที่ฝึกให้โครงสร้างดนตรีและคำบรรยายข้อความที่สอดคล้องกันใกล้กันในพื้นที่การแสดงผล
โมเดล MusicLM ยังใช้ SoundStream เป็นตัวแทนเสียง ซึ่งสามารถสร้างเสียง 24 kHz ที่ 6 kbps ด้วยคุณภาพที่น่าประทับใจ โดยใช้ การปรับขนาดเวกเตอร์แบบส่วนที่เหลือ (RVQ) สำหรับการบีบอัดเสียงที่มีประสิทธิภาพและคุณภาพสูง

An illustration of the pretraining process of MusicLM: SoundStream, w2v-BERT, and Mulan | Image source: here
นอกจากนี้ MusicLM ยังขยายความสามารถโดยการอนุญาตให้มีเงื่อนไขทำนอง ซึ่งทำให้แม้แต่ทำนองง่ายๆ ที่ถูกขานหรือส่งเสียงก็สามารถเป็นพื้นฐานสำหรับประสบการณ์เสียงที่น่าประทับใจ ซึ่งปรับให้เหมาะสมกับคำบรรยายสไตล์ข้อความที่แน่นอน
ผู้พัฒนา MusicLM ยังได้เปิดเผย MusicCaps ซึ่งเป็นชุดข้อมูลที่มี 5.5k คู่ดนตรี-ข้อความ โดยแต่ละคู่มีคำบรรยายข้อความที่มีรายละเอียดซึ่งสร้างโดยผู้เชี่ยวชาญคน คุณสามารถดูได้ที่นี่: MusicCaps on Hugging Face.
พร้อมที่จะสร้างเสียงประกอบด้วย Google’s MusicLM? นี่คือขั้นตอนในการเริ่มต้น:
- ไปที่เว็บไซต์ MusicLM อย่างเป็นทางการและคลิก “Get Started.”
- เข้าร่วมรายการรอโดยเลือก “Register your interest.”
- เข้าสู่ระบบโดยใช้บัญชี Google ของคุณ.
- เมื่อคุณได้รับอนุญาตแล้ว คลิก “Try Now” เพื่อเริ่มต้น.
ด้านล่างนี้คือคำสั่งบางส่วนที่ฉันลองใช้:
“เพลงพักผ่อน อารมณ์เย็นๆ ด้วยฟลุตและกีตาร์ เพลงนี้ช้า โดยมุ่งเน้นในการสร้างความรู้สึกสบายใจและสงบ”
“จั๊ซกับแซกโซโฟน”
เมื่อเปรียบเทียบกับโมเดล SOTA ก่อนหน้า เช่น Riffusion และ Mubert ในการประเมินคุณภาพ MusicLM ได้รับการยกย่องมากกว่า โดยผู้เข้าร่วมให้คะแนนความสอดคล้องของคำบรรยายข้อความกับคลิปเสียง 10 วินาที

MusicLM Performance, Image source: here
Stability Audio
Stability AI เปิดตัว “Stable Audio” โครงสร้างแบบจำลองการแพร่กระจายแบบ 潜ใน ที่มีเงื่อนไขตามข้อมูลข้อความและระยะเวลาไฟล์เสียงและเวลาเริ่มต้น นี่คล้ายกับ Google’s MusicLM โดยมีการควบคุมเนื้อหาและความยาวของเสียงที่สร้างขึ้น ทำให้สามารถสร้างคลิปเสียงที่มีความยาวตามที่ต้องการได้ถึงขนาดหน้าต่างการฝึก
ข้อมูลทางเทคนิค
Stable Audio ประกอบด้วยส่วนประกอบหลายอย่าง รวมถึง Variational Autoencoder (VAE) และแบบจำลองการแพร่กระจายแบบมีเงื่อนไขที่ใช้ U-Net ร่วมกับเครื่องมือเข้ารหัสข้อความ

Stable Audio Architecture, Image source: here
VAE ช่วยให้การสร้างและฝึกอบรมเร็วขึ้นโดยการบีบอัดเสียงสเตอริโอเป็นรูปแบบการแสดงผลที่บีบอัดข้อมูล ลดความเสี่ยงต่อเสียงและกลับด้านได้ โดยไม่ต้องทำงานกับตัวอย่างเสียงดิบ
เครื่องมือเข้ารหัสข้อความซึ่งมาจากโมเดล CLAP มีบทบาทสำคัญในการทำความเข้าใจความสัมพันธ์ที่ซับซ้อนระหว่างคำและเสียง โดยให้การแสดงผลที่มีข้อมูลของข้อความที่เข้ารหัสแล้ว นี่ได้รับการบรรลุผ่านการใช้คุณลักษณะข้อความจากชั้นหนึ่งล่าสุดของเครื่องมือเข้ารหัสข้อความ CLAP ซึ่งถูกผสมเข้ากับชั้นการแพร่กระจาย U-Net ผ่านชั้น cross-attention
ประเด็นสำคัญคือการรวมการฝังตัวของเวลา ซึ่งคำนวณตามคุณสมบัติสองประการ: วินาทีเริ่มต้นของชิ้นส่วนเสียงและระยะเวลาทั้งหมดของไฟล์เสียงต้นฉบับ ค่าเหล่านี้ถูกแปลเป็นการฝังตัวแบบสุ่มที่เรียนรู้ได้แบบต่อวินาทีและผสมกับโทเค็นพรอมต์แล้วป้อนเข้าไปในชั้น cross-attention ของ U-Net ทำให้ผู้ใช้สามารถกำหนดความยาวรวมของเสียงที่สร้างขึ้นได้
โมเดล Stable Audio ถูกฝึกโดยใช้เซตข้อมูลเสียงมากกว่า 800,000 ไฟล์ ผ่านการร่วมมือกับผู้ให้บริการเสียงสต็อก AudioSparx
Stable Audio มีเวอร์ชันฟรี ซึ่งอนุญาตให้สร้างเสียงได้ 20 ครั้ง ต่อเดือน โดยมีความยาวสูงสุด 20 วินาที และแผน Pro ที่มีค่าใช้จ่าย $12 ต่อเดือน โดยอนุญาตให้สร้างเสียงได้ 500 ครั้ง โดยมีความยาวสูงสุด 90 วินาที
ด้านล่างนี้คือคลิปเสียงที่ฉันสร้างโดยใช้ Stable Audio
“ภาพยนตร์, เสียงประกอบ Gentle Rainfall, Ambient, สบายๆ, มีสุนัขเห่าไกลๆ, สบายๆ, ใบไม้กระซิบ, ลมเบาๆ, 40 BPM”
การประยุกต์ใช้ของชิ้นส่วนเสียงที่สร้างขึ้นด้วยความประณีตเหล่านี้มีมากมาย ผู้สร้างภาพยนตร์สามารถใช้เทคโนโลยีนี้เพื่อสร้างเสียงที่มีรายละเอียดและสมจริง ในภาคการค้า ผู้โฆษณาสามารถใช้เสียงที่ปรับให้เหมาะสมเหล่านี้ นอกจากนี้เครื่องมือนี้ยังเปิดโอกาสให้สร้างสรรค์และนวัตกรรมสำหรับผู้สร้างและศิลปินรายบุคคล โดยให้พื้นที่ที่ไม่มีขอบเขตในการสร้างชิ้นส่วนเสียงที่เล่าเรื่องราว สร้างอารมณ์ และสร้างบรรยากาศที่มีความลึกซึ้งซึ่งก่อนหน้านี้ทำได้ยากโดยไม่ต้องมีงบประมาณหรือความเชี่ยวชาญทางเทคนิคที่สำคัญ
คำแนะนำในการใช้พรอมต์
สร้างเสียงที่สมบูรณ์แบบโดยใช้พรอมต์ข้อความ นี่คือคำแนะนำเริ่มต้น:
- ให้รายละเอียด: ระบุประเภท เพลง อารมณ์ และเครื่องดนตรี เช่น Cinematic, Wild West, Percussion, ตึงเครียด, Atmospheric
- การตั้งอารมณ์: ผสมผสานคำศัพท์ทางดนตรีกับคำศัพท์ทางอารมณ์ เพื่อถ่ายทอดอารมณ์ที่ต้องการ
- การเลือกเครื่องดนตรี: เพิ่มคุณลักษณะของเครื่องดนตรี เช่น “กีตาร์ที่มีการสะท้อน” หรือ “คอรัสที่มีพลัง”
- BPM: จัดจังหวะให้สอดคล้องกับประเภท เพื่อให้ได้ผลลัพธ์ที่สอดคล้องกัน เช่น “170 BPM” สำหรับเพลง Drum and Bass
สรุป
ในบทความนี้ เราได้สำรวจการสร้างดนตรีและเสียงโดยใช้ AI ตั้งแต่การประพันธ์แบบอัลกอริทึมไปจนถึงโครงสร้างเจเนอรативที่ซับซ้อนในปัจจุบัน เช่น Google’s MusicLM และ Stability Audio เทคโนโลยีเหล่านี้ โดยใช้การเรียนรู้ลึกและโมเดลการบีบอัดที่ดีที่สุด ไม่เพียงแต่ปรับปรุงการสร้างดนตรีเท่านั้น แต่ยังปรับปรุงประสบการณ์การฟังของผู้ฟังด้วย
อย่างไรก็ตาม นี่เป็นสาขาที่กำลังพัฒนา โดยมีข้อท้าทาย เช่น การรักษาความสอดคล้องในระยะยาวและการถกเถียงเรื่องความถูกต้องของดนตรีที่สร้างโดย AI ที่ท้าทายผู้บุกเบิกในด้านนี้ เพียงไม่กี่สัปดาห์ที่ผ่านมา มีข่าวเกี่ยวกับเพลงที่สร้างโดย AI ที่เลียนแบบสไตล์ของ Drake และ The Weeknd ซึ่งถูกเผยแพร่ออนไลน์ แต่ถูกถอดออกจากชื่อผู้เข้าชิงรางวัล Grammy ซึ่งแสดงให้เห็นถึงการถกเถียงเกี่ยวกับสถานะของดนตรีที่สร้างโดย AI ในอุตสาหกรรม (แหล่งที่มา) เมื่อ AI ยังคงลดช่องว่างระหว่างดนตรีและผู้ฟัง มันกำลังส่งเสริมระบบนิเวศที่เทคโนโลยีร่วมกับศิลปะ โดยส่งเสริมนวัตกรรมในขณะเดียวกันก็เคารพประเพณี

















