ปัญญาประดิษฐ์
OpenVoice : การโคลนนิ่งเสียงที่มีความยืดหยุ่นและทันที

ใน Text-to-Speech synthesis (TTS) การโคลนนิ่งเสียงทันที (IVC) ช่วยให้โมเดล TTS สามารถโคลนนิ่งเสียงของพูดที่อ้างอิงโดยใช้ตัวอย่างเสียงสั้น ๆ โดยไม่ต้องมีการฝึกอบรมเพิ่มเติมสำหรับพูดที่อ้างอิงเทคนิคนี้ยังเป็นที่รู้จักกันในชื่อ Zero-Shot Text-to-Speech Synthesis การโคลนนิ่งเสียงทันทีมักเป็นหัวข้อการวิจัยที่มีการทำงานอยู่ โดยมีผลงานที่มีอยู่แล้ว เช่น XTTS และ VALLE ที่สามารถดึงเอา embedding ของผู้พูดและ/หรือ token เสียงจากตัวอย่างเสียงที่ใช้เป็นเงื่อนไขสำหรับโมเดล auto-regressive จากนั้นโมเดล auto-regressive จะสร้าง token เสียงทีละลำดับ และจากนั้นจะถอดรหัส token เหล่านั้นเป็นเวฟฟอร์มเสียงดิบ
แม้ว่าเฟรมเวิร์กการโคลนนิ่งเสียงที่มีอยู่จะทำงานได้ดี แต่ก็มีข้อจำกัดบางประการในด้านการควบคุมรูปแบบเสียงที่ยืดหยุ่น เช่น โมเดลเหล่านี้ขาดความสามารถในการจัดการรูปแบบเสียงได้อย่างยืดหยุ่นหลังจากการโคลนนิ่งเสียง นอกจากนี้ โมเดลการโคลนนิ่งเสียงทันทียังต้องการการเข้าถึงชุดข้อมูลผู้พูดจำนวนมากหลายภาษา (MSML) สำหรับการโคลนนิ่งเสียงข้ามภาษา
เพื่อแก้ไขปัญหเหล่านี้ นักพัฒนาจึงได้ทำงานใน OpenVoice ซึ่งเป็นเฟรมเวิร์กการโคลนนิ่งเสียงทันทีที่สามารถโคลนนิ่งเสียงของผู้ใช้ใดๆ และสร้างเสียงพูดในหลายภาษาโดยใช้ตัวอย่างเสียงสั้น ๆ จากผู้พูดที่อ้างอิง OpenVoice แสดงให้เห็นว่าโมเดลการโคลนนิ่งเสียงทันทีสามารถโคลนนิ่งสีเสียงของผู้พูดที่อ้างอิงได้ และสามารถควบคุมรูปแบบเสียงได้อย่างยืดหยุ่น รวมถึงการเน้นย้ำ จังหวะ สูงต่ำ และแม้กระทั่งอารมณ์
ในบทความนี้ เราจะพูดถึงเฟรมเวิร์ก OpenVoice ในเชิงลึก และเราจะเปิดเผยสถาปัตยกรรมที่ช่วยให้สามารถทำงานได้ดีเยี่ยมในการโคลนนิ่งเสียงทันที
OpenVoice : การโคลนนิ่งเสียงที่มีความยืดหยุ่นและทันที
ตามที่กล่าวไว้ก่อนหน้านี้ การโคลนนิ่งเสียงทันที หรือที่เรียกว่า Zero-Shot Text-to-Speech Synthesis ช่วยให้โมเดล TTS สามารถโคลนนิ่งเสียงของผู้พูดที่อ้างอิงโดยใช้ตัวอย่างเสียงสั้น ๆ โดยไม่ต้องมีการฝึกอบรมเพิ่มเติมสำหรับผู้พูดที่อ้างอิง
แม้ว่าโมเดลการโคลนนิ่งเสียงทันทีแบบ auto-regressive จะสามารถโคลนนิ่งสีเสียงได้ดี แต่ก็ขาดความสามารถในการจัดการรูปแบบเสียงอื่นๆ เช่น การเน้นย้ำ อารมณ์ จังหวะ และสูงต่ำ นอกจากนี้ โมเดล auto-regressive ยังมีการทำงานที่ช้าและต้นทุนการดำเนินการที่สูง
เพื่อแก้ไขปัญหาที่เกิดขึ้นในเฟรมเวิร์กการโคลนนิ่งเสียงที่มีอยู่ นักพัฒนาจึงได้ทำงานใน OpenVoice ซึ่งเป็นเฟรมเวิร์กการโคลนนิ่งเสียงทันทีที่มีเป้าหมายในการแก้ไขปัญหาดังต่อไปนี้
- การควบคุมรูปแบบเสียงที่ยืดหยุ่น รวมถึงการเน้นย้ำ จังหวะ สูงต่ำ และอารมณ์
- การโคลนนิ่งเสียงข้ามภาษาในสถานการณ์ zero-shot
- การทำงานที่รวดเร็วและต้นทุนการดำเนินการที่ต่ำ
เพื่อแก้ไขอุปสรรคสองประการแรก สถาปัตยกรรมของ OpenVoice ได้รับการออกแบบเพื่อแยกส่วนประกอบเสียงออกจากกันให้มากที่สุด
OpenVoice : วิธีการและสถาปัตยกรรม
เฟรมเวิร์ก OpenVoice มีสถาปัตยกรรมที่มีประสิทธิภาพและง่ายต่อการนำไปใช้
เฟรมเวิร์ก OpenVoice ประกอบด้วยสองส่วนหลัก ได้แก่ โมเดล TTS สำหรับผู้พูดหลัก และตัวแปลงสีเสียง
ตัวแปลงสีเสียงเป็นส่วนประกอบที่มี encoder และ decoder โดยมี normalizing flow อยู่ตรงกลาง
ส่วน encoder ของตัวแปลงสีเสียงเป็น CNN หนึ่งมิติที่รับ mel-spectrogram ของเสียงพูดที่อ้างอิงเป็นข้อมูลเข้า
ส่วน decoder ของตัวแปลงสีเสียงเป็น CNN สองมิติที่รับ feature maps จากส่วน encoder เป็นข้อมูลเข้า
OpenVoice : การทดลองและผลลัพธ์
การประเมินผลการโคลนนิ่งเสียงเป็นเรื่องที่ยากเนื่องจากหลายปัจจัย
การโคลนนิ่งสีเสียงที่แม่นยำ
ในการทดลองนี้ ผู้พัฒนาสร้างชุดข้อมูลทดสอบที่มีผู้พูดที่ไม่ทราบตัวตน ตัวละครในเกม และผู้มีชื่อเสียง
การควบคุมรูปแบบเสียงที่ยืดหยุ่น
ผลการทดลองแสดงให้เห็นว่าโมเดลสามารถควบคุมรูปแบบเสียงได้อย่างยืดหยุ่น
การโคลนนิ่งเสียงข้ามภาษา
ผลการทดลองแสดงให้เห็นว่าโมเดลสามารถโคลนนิ่งเสียงข้ามภาษาได้ในสถานการณ์ zero-shot
ข้อคิดสุดท้าย
ในบทความนี้ เราได้พูดถึงเฟรมเวิร์ก OpenVoice ซึ่งเป็นเฟรมเวิร์กการโคลนนิ่งเสียงทันทีที่มีความยืดหยุ่นและสามารถโคลนนิ่งเสียงของผู้ใช้ใดๆ และสร้างเสียงพูดในหลายภาษาโดยใช้ตัวอย่างเสียงสั้น ๆ จากผู้พูดที่อ้างอิง
OpenVoice แสดงให้เห็นว่าโมเดลการโคลนนิ่งเสียงทันทีสามารถโคลนนิ่งสีเสียงของผู้พูดที่อ้างอิงได้ และสามารถควบคุมรูปแบบเสียงได้อย่างยืดหยุ่น รวมถึงการเน้นย้ำ จังหวะ สูงต่ำ และแม้กระทั่งอารมณ์












