ปัญญาประดิษฐ์

OpenVoice : การโคลนนิ่งเสียงที่มีความยืดหยุ่นและทันที

mm

ใน Text-to-Speech synthesis (TTS) การโคลนนิ่งเสียงทันที (IVC) ช่วยให้โมเดล TTS สามารถโคลนนิ่งเสียงของพูดที่อ้างอิงโดยใช้ตัวอย่างเสียงสั้น ๆ โดยไม่ต้องมีการฝึกอบรมเพิ่มเติมสำหรับพูดที่อ้างอิงเทคนิคนี้ยังเป็นที่รู้จักกันในชื่อ Zero-Shot Text-to-Speech Synthesis การโคลนนิ่งเสียงทันทีมักเป็นหัวข้อการวิจัยที่มีการทำงานอยู่ โดยมีผลงานที่มีอยู่แล้ว เช่น XTTS และ VALLE ที่สามารถดึงเอา embedding ของผู้พูดและ/หรือ token เสียงจากตัวอย่างเสียงที่ใช้เป็นเงื่อนไขสำหรับโมเดล auto-regressive จากนั้นโมเดล auto-regressive จะสร้าง token เสียงทีละลำดับ และจากนั้นจะถอดรหัส token เหล่านั้นเป็นเวฟฟอร์มเสียงดิบ

แม้ว่าเฟรมเวิร์กการโคลนนิ่งเสียงที่มีอยู่จะทำงานได้ดี แต่ก็มีข้อจำกัดบางประการในด้านการควบคุมรูปแบบเสียงที่ยืดหยุ่น เช่น โมเดลเหล่านี้ขาดความสามารถในการจัดการรูปแบบเสียงได้อย่างยืดหยุ่นหลังจากการโคลนนิ่งเสียง นอกจากนี้ โมเดลการโคลนนิ่งเสียงทันทียังต้องการการเข้าถึงชุดข้อมูลผู้พูดจำนวนมากหลายภาษา (MSML) สำหรับการโคลนนิ่งเสียงข้ามภาษา

เพื่อแก้ไขปัญหเหล่านี้ นักพัฒนาจึงได้ทำงานใน OpenVoice ซึ่งเป็นเฟรมเวิร์กการโคลนนิ่งเสียงทันทีที่สามารถโคลนนิ่งเสียงของผู้ใช้ใดๆ และสร้างเสียงพูดในหลายภาษาโดยใช้ตัวอย่างเสียงสั้น ๆ จากผู้พูดที่อ้างอิง OpenVoice แสดงให้เห็นว่าโมเดลการโคลนนิ่งเสียงทันทีสามารถโคลนนิ่งสีเสียงของผู้พูดที่อ้างอิงได้ และสามารถควบคุมรูปแบบเสียงได้อย่างยืดหยุ่น รวมถึงการเน้นย้ำ จังหวะ สูงต่ำ และแม้กระทั่งอารมณ์

ในบทความนี้ เราจะพูดถึงเฟรมเวิร์ก OpenVoice ในเชิงลึก และเราจะเปิดเผยสถาปัตยกรรมที่ช่วยให้สามารถทำงานได้ดีเยี่ยมในการโคลนนิ่งเสียงทันที

OpenVoice : การโคลนนิ่งเสียงที่มีความยืดหยุ่นและทันที

ตามที่กล่าวไว้ก่อนหน้านี้ การโคลนนิ่งเสียงทันที หรือที่เรียกว่า Zero-Shot Text-to-Speech Synthesis ช่วยให้โมเดล TTS สามารถโคลนนิ่งเสียงของผู้พูดที่อ้างอิงโดยใช้ตัวอย่างเสียงสั้น ๆ โดยไม่ต้องมีการฝึกอบรมเพิ่มเติมสำหรับผู้พูดที่อ้างอิง

แม้ว่าโมเดลการโคลนนิ่งเสียงทันทีแบบ auto-regressive จะสามารถโคลนนิ่งสีเสียงได้ดี แต่ก็ขาดความสามารถในการจัดการรูปแบบเสียงอื่นๆ เช่น การเน้นย้ำ อารมณ์ จังหวะ และสูงต่ำ นอกจากนี้ โมเดล auto-regressive ยังมีการทำงานที่ช้าและต้นทุนการดำเนินการที่สูง

เพื่อแก้ไขปัญหาที่เกิดขึ้นในเฟรมเวิร์กการโคลนนิ่งเสียงที่มีอยู่ นักพัฒนาจึงได้ทำงานใน OpenVoice ซึ่งเป็นเฟรมเวิร์กการโคลนนิ่งเสียงทันทีที่มีเป้าหมายในการแก้ไขปัญหาดังต่อไปนี้

  1. การควบคุมรูปแบบเสียงที่ยืดหยุ่น รวมถึงการเน้นย้ำ จังหวะ สูงต่ำ และอารมณ์
  2. การโคลนนิ่งเสียงข้ามภาษาในสถานการณ์ zero-shot
  3. การทำงานที่รวดเร็วและต้นทุนการดำเนินการที่ต่ำ

เพื่อแก้ไขอุปสรรคสองประการแรก สถาปัตยกรรมของ OpenVoice ได้รับการออกแบบเพื่อแยกส่วนประกอบเสียงออกจากกันให้มากที่สุด

OpenVoice : วิธีการและสถาปัตยกรรม

เฟรมเวิร์ก OpenVoice มีสถาปัตยกรรมที่มีประสิทธิภาพและง่ายต่อการนำไปใช้

เฟรมเวิร์ก OpenVoice ประกอบด้วยสองส่วนหลัก ได้แก่ โมเดล TTS สำหรับผู้พูดหลัก และตัวแปลงสีเสียง

ตัวแปลงสีเสียงเป็นส่วนประกอบที่มี encoder และ decoder โดยมี normalizing flow อยู่ตรงกลาง

ส่วน encoder ของตัวแปลงสีเสียงเป็น CNN หนึ่งมิติที่รับ mel-spectrogram ของเสียงพูดที่อ้างอิงเป็นข้อมูลเข้า

ส่วน decoder ของตัวแปลงสีเสียงเป็น CNN สองมิติที่รับ feature maps จากส่วน encoder เป็นข้อมูลเข้า

OpenVoice : การทดลองและผลลัพธ์

การประเมินผลการโคลนนิ่งเสียงเป็นเรื่องที่ยากเนื่องจากหลายปัจจัย

การโคลนนิ่งสีเสียงที่แม่นยำ

ในการทดลองนี้ ผู้พัฒนาสร้างชุดข้อมูลทดสอบที่มีผู้พูดที่ไม่ทราบตัวตน ตัวละครในเกม และผู้มีชื่อเสียง

การควบคุมรูปแบบเสียงที่ยืดหยุ่น

ผลการทดลองแสดงให้เห็นว่าโมเดลสามารถควบคุมรูปแบบเสียงได้อย่างยืดหยุ่น

การโคลนนิ่งเสียงข้ามภาษา

ผลการทดลองแสดงให้เห็นว่าโมเดลสามารถโคลนนิ่งเสียงข้ามภาษาได้ในสถานการณ์ zero-shot

ข้อคิดสุดท้าย

ในบทความนี้ เราได้พูดถึงเฟรมเวิร์ก OpenVoice ซึ่งเป็นเฟรมเวิร์กการโคลนนิ่งเสียงทันทีที่มีความยืดหยุ่นและสามารถโคลนนิ่งเสียงของผู้ใช้ใดๆ และสร้างเสียงพูดในหลายภาษาโดยใช้ตัวอย่างเสียงสั้น ๆ จากผู้พูดที่อ้างอิง

OpenVoice แสดงให้เห็นว่าโมเดลการโคลนนิ่งเสียงทันทีสามารถโคลนนิ่งสีเสียงของผู้พูดที่อ้างอิงได้ และสามารถควบคุมรูปแบบเสียงได้อย่างยืดหยุ่น รวมถึงการเน้นย้ำ จังหวะ สูงต่ำ และแม้กระทั่งอารมณ์

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล