Refresh

This website www.unite.ai/th/hierspeech-hierarchical-variational-inference-for-zero-shot-speech-synthesis/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

ต้นขั้ว HierSpeech++ : การอนุมานแบบลำดับชั้นสำหรับการสังเคราะห์คำพูดแบบ Zero-shot - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

HierSpeech++ : การอนุมานแบบลำดับชั้นสำหรับการสังเคราะห์คำพูดแบบ Zero-shot

mm
วันที่อัพเดท on
HierSpeech++ : การอนุมานแบบลำดับชั้นสำหรับการสังเคราะห์คำพูดแบบ Zero-shot

การพัฒนาล่าสุดและความก้าวหน้าในความสามารถของโมเดลภาษาขนาดใหญ่มีบทบาทสำคัญในการพัฒนากรอบงานที่ใช้ LLM สำหรับงานสร้างเสียงและการสังเคราะห์เสียงพูด โดยเฉพาะอย่างยิ่งในการตั้งค่าแบบ Zero-Shot กรอบงานการสังเคราะห์เสียงพูดแบบดั้งเดิมมีความก้าวหน้าที่สำคัญอันเป็นผลมาจากการบูรณาการคุณสมบัติเพิ่มเติม เช่น ตัวแปลงสัญญาณเสียงแบบนิวรอลสำหรับหน่วยเสียงและคำพูดที่รอบคอบ แม้ว่าเฟรมเวิร์กเสียงพูดและเสียงสังเคราะห์เหล่านี้จะให้ผลลัพธ์ที่น่าพอใจ แต่ก็ยังมีช่องว่างสำหรับการปรับปรุง เนื่องจากเฟรมเวิร์กเสียงที่ใช้ LLM ในปัจจุบันมีข้อจำกัดหลักสามประการดังต่อไปนี้

  1. มีแนวโน้มที่จะสร้างเอาต์พุตเสียงโดยอัตโนมัติ ซึ่งในที่สุดจะทำให้เกิดการขาดความคงทนและความเร็วการรบกวนที่ช้า และส่งผลให้เกิดการออกเสียงผิด ข้าม หรือเล่นซ้ำ 
  2. พวกเขามักจะพึ่งพาหน่วยคำพูดแยกหรือตัวแปลงสัญญาณเสียงประสาทที่ได้รับการฝึกอบรมไว้ล่วงหน้ามากเกินไป 
  3. มักต้องการข้อมูลการฝึกอบรมจำนวนมาก 

เพื่อจัดการกับปัญหาที่กล่าวมาข้างต้น และปรับปรุงความสามารถของโมเดลการสังเคราะห์เสียงและคำพูดที่ใช้ LLM นักพัฒนาจึงได้คิดค้น HierSpeech++ ซึ่งเป็นเครื่องสังเคราะห์เสียงพูดแบบ Zero-shot ที่แข็งแกร่งและมีประสิทธิภาพสำหรับการแปลงเสียงและข้อความเป็นคำพูดหรือ TTS เฟรมเวิร์ก HierSpeech++ สร้างขึ้นจากการเรียนรู้ของเฟรมเวิร์กการสังเคราะห์เสียงพูดแบบลำดับชั้นซึ่งไม่เพียงแต่ช่วยเพิ่มความทนทานเท่านั้น แต่ยังเพิ่มความชัดเจนของเอาท์พุตคำพูดสังเคราะห์ ในขณะเดียวกันก็เพิ่มความเป็นธรรมชาติและความคล้ายคลึงของผู้พูดของเสียงพูดที่สร้างขึ้นเอง แม้ในการตั้งค่าที่ไม่มีช็อตใดๆ 

ในบทความนี้ เราจะพูดถึงเฟรมเวิร์ก HierSpeech++ โดยละเอียด และดูสถาปัตยกรรม การทำงาน และผลลัพธ์ของโมเดลเมื่อเปรียบเทียบกับโมเดลการสร้างข้อความและเสียงที่ทันสมัย มาเริ่มกันเลย 

HierSpeech++ : การอนุมานแบบลำดับชั้นสำหรับการสังเคราะห์คำพูดแบบ Zero-shot

HierSpeech++ เป็นเฟรมเวิร์กการสังเคราะห์คำพูดที่รวดเร็ว แข็งแกร่ง และมีประสิทธิภาพซึ่งใช้ไปป์ไลน์การสังเคราะห์คำพูดแบบลำดับชั้น และด้วยการใช้เฟรมเวิร์กการสังเคราะห์คำพูดตั้งแต่ต้นจนจบนี้ โมเดล HierSpeech++ ก็สามารถเพิ่มศักยภาพของการสร้างรูปคลื่นคุณภาพสูงได้สูงสุด เพื่อลดช่องว่างระหว่างการแสดงความหมายและเสียงตามลำดับชั้นโดยการนำการแสดงคำพูดแบบมีการดูแลตนเองมาใช้แทนการแสดงคำพูดเชิงความหมาย และด้วยเหตุนี้จึงพยายามแก้ไขข้อจำกัดในปัจจุบันของการปรับเปลี่ยนรูปแบบ เฟรมเวิร์กการสังเคราะห์เสียงพูดตั้งแต่ต้นจนจบถูกนำมาใช้ครั้งแรกโดยโมเดล VITS และใช้ VAE หรือตัวเข้ารหัสอัตโนมัติแบบแปรผันที่เสริมด้วยการฝึกอบรมฝ่ายตรงข้ามและโฟลว์การทำให้เป็นมาตรฐาน นอกจากนี้ เฟรมเวิร์กที่ใช้ VAE พร้อมไปป์ไลน์การฝึกอบรมแบบครบวงจรยังมีความสามารถในการสร้างเสียงรูปคลื่นคุณภาพสูงโดยมีคุณภาพการสังเคราะห์เสียงในการรับรู้ที่ดีกว่าเสียงที่สร้างโดยเฟรมเวิร์กการสังเคราะห์เสียงพูดอื่น ๆ อย่างมาก 

คุณภาพการสร้างเสียงใหม่ของเฟรมเวิร์กเหล่านี้สามารถปรับปรุงเพิ่มเติมได้โดยใช้ Variational AutoEncoder แบบมีเงื่อนไขแบบลำดับชั้นที่ใช้ในเฟรมเวิร์ก HierSpeech แม้จะมีศักยภาพ แต่โมเดลที่ใช้ไปป์ไลน์การฝึกอบรมแบบ end-to-end มีข้อจำกัดบางประการโดยเฉพาะอย่างยิ่งในการตั้งค่าแบบ Zero-shot แม้ว่าจะสามารถสังเคราะห์ตัวอย่างคำพูดด้วยเสียงคุณภาพสูงได้ แต่ความคล้ายคลึงกันของลำโพงในงานโคลนเสียงแบบ Zero-shot ยังคงเต็มไปด้วยระดับสูง ความซับซ้อนในการคำนวณ ในทางกลับกัน, แบบจำลองการสังเคราะห์เสียงพูดแบบกระจาย ทำงานได้ดีในแง่ของการดัดแปลงลำโพง แต่ก็ยังห่างไกลจากความสมบูรณ์แบบเนื่องจากใช้กระบวนการสร้างเชิงโต้ตอบที่ทำให้ความเร็วในการอนุมานช้าลง มักจะเสี่ยงต่อข้อมูลที่มีเสียงดัง และเป็นผลจากความไม่ตรงกันระหว่างการฝึกและการอนุมานของ กระบวนการสร้างสองขั้นตอนระหว่าง Mel-spectrogram และสร้างความจริงขึ้นมา คุณภาพเสียงไม่ได้มาตรฐาน 

เพื่อจัดการกับปัญหาที่รุ่นก่อนเผชิญอยู่ โมเดล HierSpeech++ ใช้เครื่องสังเคราะห์เสียงพูดแบบลำดับชั้น ความละเอียดขั้นสูงของเสียงพูด และข้อความเป็นองค์ประกอบ vec และแนะนำเครื่องสังเคราะห์เสียงพูดแบบลำดับชั้นที่ได้รับการปรับปรุงซึ่งสร้างขึ้นบน VAE แบบมีเงื่อนไขแบบลำดับชั้นหรือตัวเข้ารหัสอัตโนมัติแบบแปรผัน ในความพยายามที่จะปรับปรุงคุณภาพเสียงให้เหนือกว่าคุณภาพการรับรู้ เฟรมเวิร์ก HierSpeech++ ใช้ระบบเสียงคู่เพื่อเพิ่มคุณภาพเสียงด้านหลัง และปรับปรุงการกระจายเสียงทั่วไปโดยการใช้เครื่องกำเนิดการปรับตัวแบบลำดับชั้นที่ติดตั้งทั้งการสร้างแบบมีเงื่อนไขและไม่มีเงื่อนไข นอกจากนี้ เพื่อแยกองค์ประกอบคำพูด และปรับปรุงข้อมูลความหมายที่เกี่ยวข้องกับผู้พูดและผู้ไม่เชื่อเรื่องพระเจ้า เฟรมเวิร์ก HierSpeech++ ยังใช้ตัวเข้ารหัสความหมายหลายเส้นทางตามทฤษฎีตัวกรองแหล่งที่มา ผลจากการใช้ Variational AutoEncoder โมเดล HierSpeech++ สามารถเชื่อมต่อและเรียนรู้การนำเสนอตามลำดับชั้น และปรับให้เข้ากับสไตล์เสียงเป้าหมายอย่างต่อเนื่องเพื่ออนุมานเสียงรูปคลื่น นอกจากนี้ เฟรมเวิร์ก HierSpeech++ ยังปรับใช้เครือข่ายสองทิศทางของโฟลว์ Transformers ที่ทำให้เป็นมาตรฐานในความพยายามที่จะปรับปรุงการปรับตัว และยังลดความไม่ตรงกันระหว่างการฝึกอบรมและการอนุมาน 

โดยรวมแล้ว โมเดล HierSpeech++ เป็นเฟรมเวิร์กการสังเคราะห์เสียงพูดแบบลำดับชั้นที่ขนานกันอย่างสมบูรณ์ แปลกใหม่ และมีจุดมุ่งหมายเพื่อสังเคราะห์ตัวอย่างเสียงพูดในการตั้งค่าแบบ Zero-Shot และพยายามสนับสนุนดังต่อไปนี้

  • การใช้กรอบงานการสังเคราะห์เสียงพูดแบบลำดับชั้นเพื่อควบคุมและถ่ายโอนรูปแบบเสียงและเสียงฉันทลักษณ์ 
  • เปิดใช้งานความสามารถในการปรับขนาดข้อมูลและการสังเคราะห์เสียงพูดที่มีความละเอียดสูงโดยการเพิ่มสุ่มตัวอย่างเสียงรูปคลื่นจาก 16 เป็น 48 kHz 
  • บรรลุความสามารถระดับมนุษย์ในการแปลงเสียงเป็นศูนย์และงานอ่านออกเสียงข้อความ 

HierSpeech++ : โมเดลส่วนประกอบและสถาปัตยกรรม

ตามที่กล่าวไว้ HierSpeech++ คือโมเดลการสังเคราะห์เสียงพูดแบบ Zero-shot ที่พยายามเพื่อให้ได้ความแม่นยำระดับมนุษย์ในแง่ของความคล้ายคลึงกันของเสียงและความเป็นธรรมชาติของคำพูด 

โมเดล HierSpeech++ ประกอบด้วยส่วนประกอบที่แตกต่างกัน รวมถึงเครื่องสังเคราะห์เสียงพูดแบบลำดับชั้น ความละเอียดพิเศษของเสียงพูด และการแปลงข้อความเป็น vec ไปยัง TTV ซึ่งทำงานร่วมกันเพื่ออำนวยความสะดวกในการฝึกอบรมแต่ละรุ่นที่สามารถใช้เสียงต่ำจำนวนมากได้อย่างมีประสิทธิภาพ ข้อมูลคำพูดความละเอียดสำหรับการโคลนเสียง เรามาแจกแจงกรอบการทำงานและพูดคุยเกี่ยวกับแต่ละองค์ประกอบกัน 

การแสดงคำพูด

เนื่องจากย่านความถี่ของมนุษย์ต่ำกว่า 4 kHz สำหรับการสังเคราะห์เสียงพูด เฟรมเวิร์ก HierSpeech++ จึงลดตัวอย่างเสียงที่ 16 kHz นอกจากนี้ สำหรับการสร้างสัญญาณเสียงขึ้นมาใหม่ จำเป็นอย่างยิ่งที่จะต้องใช้องค์ประกอบความถี่เสียงสูงสุดอย่างน้อยสองเท่า นอกเหนือจากการลดขนาดตัวอย่างเสียง เพื่อให้ได้คุณภาพการรับรู้ที่ดีขึ้น เฟรมเวิร์ก HierSpeech++ จะใช้ความละเอียดสูงพิเศษของคำพูดหรือส่วนประกอบ SpeechSR เพื่อเพิ่มตัวอย่างเสียงจาก 16 ถึง 48 kHz และใช้การนำเสนอที่มีความละเอียดต่ำสำหรับการนำเสนอความหมายและอะคูสติก 

สำหรับการแสดงเสียง เฟรมเวิร์กข้อความเป็นคำพูดหรือ TTS แบบดั้งเดิมใช้ Mel-spectrogram เป็นคุณสมบัติเสียงระดับกลาง จากนั้นจะเปลี่ยนจากรูปคลื่นด้วยความช่วยเหลือของ STFT หรือ Short-Time Fourier Transform อย่างไรก็ตาม เป็นที่น่าสังเกตว่าเนื่องจากคุณลักษณะทางเสียงเป็นตัวแทนที่หลากหลายซึ่งประกอบด้วยคุณลักษณะต่างๆ รวมถึงเนื้อหาและการออกเสียง ข้อมูลเสียง และอื่นๆ ที่ทำให้กรอบการทำงานสรุปการเป็นตัวแทนเหล่านี้ได้ยาก ซึ่งเป็นสถานการณ์ที่มักจะนำไปสู่การออกเสียงผิด ขาดความคล้ายคลึงกัน หรือการพูดจาที่เรียบเกินไป 

ต่อไปเพื่อแยกการแสดงความหมายอย่างต่อเนื่องจากรูปคลื่น เฟรมเวิร์ก HierSpeech++ ใช้เฟรมเวิร์ก Wav2Vec ตรงกันข้ามกับวิธีการแสดงคำพูดแบบควบคุมตัวเองยอดนิยมสำหรับการแสดงความหมาย แม้ว่าแนวทางนี้จะเป็นทางเลือกที่ดีสำหรับโมเดลที่มีภาษาเดียวที่หลากหลาย แต่ก็ส่งผลต่อความสามารถในการโคลนเสียงแบบ Zero-shot ของโมเดลทั้งในแง่ของความแข็งแกร่งและการแสดงออก โดยเฉพาะอย่างยิ่งในงานสังเคราะห์เสียงพูดหลายภาษา 

เครื่องสังเคราะห์เสียงพูดแบบลำดับชั้น

ส่วนประกอบเครื่องสังเคราะห์คำพูดแบบลำดับชั้นเป็นรากฐานสำหรับเฟรมเวิร์ก HierSpeech++ เนื่องจากช่วยให้สามารถฝึกฝนโมดูลได้โดยไม่ต้องใช้ป้ายกำกับใดๆ เช่น การถอดเสียงข้อความหรือรหัสผู้พูด และอาศัยข้อมูลคำพูดเพียงอย่างเดียว เพื่อเพิ่มความสามารถด้านเสียง โมเดลการสังเคราะห์เสียงพูดที่ล้ำสมัยก่อนหน้านี้ได้แทนที่ Mel-spectrogram ด้วยสเปกโตรแกรมเชิงเส้น อย่างไรก็ตาม วิธีการดังกล่าวจะลดคะแนน KL Divergence ให้เหลือน้อยที่สุดในแง่ของระยะพิทช์ PESQ คะแนนเสียงและ unvoice และแม้แต่ Mel- ระยะทางสเปกโตรแกรม เครื่องสังเคราะห์เสียงพูดแบบลำดับชั้นใช้ตัวเข้ารหัสเสียงแบบ Dual-audio เพื่อแก้ปัญหาท้าทายที่นำเสนอโดยการใช้สเปกโตรแกรมเชิงเส้นที่ออกแบบมาเพื่อบันทึกการแสดงเสียงที่สมบูรณ์และครอบคลุมมากขึ้น เฟรมเวิร์กยังใช้ตัวเข้ารหัสรูปคลื่นเพื่อกลั่นข้อมูลจากเสียงรูปคลื่นดิบ และต่อเข้ากับการแสดงสเปกโตรแกรมเชิงเส้น และสุดท้ายฉายการแสดงเสียงเป็นการแสดงแบบต่อกัน 

นอกจากนี้ เพื่อจัดการกับผู้ไม่เชื่อเรื่องพระเจ้าและการแสดงความหมายที่เกี่ยวข้องกับผู้พูด เฟรมเวิร์ก HierSpeech++ ใช้การแสดงคำพูดแบบควบคุมตนเองแบบหลายเส้นทาง โดยที่การแสดงแต่ละรายการจะถูกใช้สำหรับการปรับสไตล์แบบลำดับชั้นด้วยการแสดงความหมายที่แยกออกมาเพื่อรับข้อมูลทางภาษาจาก ชั้นกลางของ MMS เฟรมเวิร์กยังใช้ความถี่พื้นฐานเพื่อปรับปรุงการแยกเสียงพูด ซึ่งช่วยให้สามารถควบคุมรูปร่างของระดับเสียงได้ด้วยตนเอง กรอบงานยังใช้การนำเสนอทางภาษาเป็นข้อมูลตามเงื่อนไขเพื่อสร้างเสียงรูปคลื่นตามลำดับชั้น และใช้การนำเสนอทางภาษาที่ได้รับการปรับปรุงของการนำเสนอแบบมีผู้ดูแลด้วยตนเอง นอกจากนี้ ยังเป็นที่น่าสังเกตว่าการแสดงเสียงที่แยกออกมาระหว่างการฝึกโดยใช้รูปคลื่นและสเปกโตรแกรมเชิงเส้นนั้นใช้เพื่อสร้างเสียงรูปคลื่นแบบดิบขึ้นใหม่ และการอนุมานแบบแปรผันตามลำดับชั้นใช้เพื่อเชื่อมโยงการแสดงเสียงกับการแสดงทางภาษาแบบหลายเส้นทาง กรอบการทำงานยังใช้ เครื่องกำเนิดการปรับตัวแบบลำดับชั้น(HAG) เพื่อสร้างตัวอย่างความหมายต่อรูปคลื่น และการแสดงที่สร้างขึ้นที่ประกอบด้วยการแสดงรูปแบบ และการแสดงเสียงจะถูกป้อนไปยังแหล่งกำเนิดและเครื่องกำเนิดรูปคลื่น 

ข้อความถึงเวค

สำหรับการสังเคราะห์ข้อความเป็นคำพูด เฟรมเวิร์ก HierSpeech++ ใช้ข้อความไปยังโมเดล vec หรือ TTV ที่สร้างความถี่พื้นฐานและการแสดงความหมายจากลำดับข้อความ และใช้การค้นหาการจัดแนวแบบโมโนโทนิกควบคู่ไปกับตัวเข้ารหัสอัตโนมัติแบบแปรผันเพื่อจัดแนวคำพูดและข้อความภายใน จากนั้นเฟรมเวิร์ก HierSpeech++ จะแทนที่สเปกโตรแกรมเชิงเส้นด้วยการแสดงเชิงเส้นแบบมีผู้ดูแลด้วยตนเอง และสร้างการแสดงแบบเดียวกันขึ้นใหม่เพื่อใช้เป็นเอาต์พุตสำหรับ TTV 

นอกจากนี้ กรอบงาน HierSpeech++ ยังคาดการณ์ความถี่พื้นฐานด้วยความละเอียดที่ใหญ่กว่าสี่เท่าเมื่อเปรียบเทียบกับการแสดงคำพูดแบบควบคุมตนเอง และใช้การแสดงข้อความแบบมีเงื่อนไขเป็นข้อมูลก่อนหน้า จากผลลัพธ์ของข้อมูลความหมายของการแสดงเสียงพูดแบบควบคุมตนเอง กรอบงานจึงสามารถถ่ายโอนรูปแบบฉันทลักษณ์ในข้อความไปยังโมเดล vec และป้อนการแสดงค่าแฝงไปยังตัวเข้ารหัสฟอนิมเพื่อเพิ่มขีดความสามารถทางภาษาของการเป็นตัวแทน 

SpeechSR หรือ Speech Super Resolution

เฟรมเวิร์ก HierSpeech++ ฝึกชุดข้อมูลที่มีความละเอียดค่อนข้างต่ำในแง่ของประสิทธิภาพและความพร้อมใช้งานของข้อมูล และสุ่มตัวอย่างรูปคลื่นคำพูดที่มีความละเอียดต่ำไปเป็นรูปคลื่นคำพูดที่มีความละเอียดสูงตั้งแต่ 16 ถึง 48 kHz เฟรมเวิร์กยังแทนที่การโน้มน้าวใจแบบย้ายด้วยอัปแซมเปลอร์เพื่อนบ้านที่ใกล้ที่สุดซึ่งก่อนหน้านี้ทราบกันว่าสามารถบรรเทาสิ่งประดิษฐ์อันเป็นผลมาจากการโน้มน้าวใจแบบย้าย 

สถาปัตยกรรม

ตัวเข้ารหัสเนื้อหาของโมเดลข้อความเป็น vec ประกอบด้วยเลเยอร์ WaveNet ที่ไม่ใช่แบบไม่เป็นทางการ 16 เลเยอร์ โดยมีขนาดเคอร์เนล 5 และขนาดซ่อนอยู่ที่ 256 ในขณะที่ตัวถอดรหัสเนื้อหาประกอบด้วยเลเยอร์ WaveNet ที่ไม่ใช่แบบไม่เป็นทางการ 8 เลเยอร์ โดยมีขนาดเคอร์เนลเท่ากับ 5 และ ขนาดที่ซ่อนอยู่ 512 ส่วนประกอบตัวเข้ารหัสข้อความประกอบด้วยเครือข่าย Transformer แบบมีเงื่อนไขฉันทลักษณ์สามเครือข่าย และเครือข่าย Transformer แบบไม่มีเงื่อนไขสามเครือข่ายที่มีขนาดเคอร์เนล 9 ขนาดตัวกรอง 1024 และขนาดที่ซ่อนอยู่ 256 โดยมีตัวเข้ารหัสข้อความที่มีอัตราการออกกลางคันที่ 0.2 ในการเข้ารหัสข้อมูลที่อยู่ติดกัน และเพื่อปรับปรุงการปรับรูปแบบฉันทลักษณ์ เฟรมเวิร์กจะใช้ CNN ที่มีเคอร์เนลขนาด 5 ในบล็อก Transformer ในทางกลับกัน SpeechSR ประกอบด้วยบล็อก AMP เดียวที่มี 32 ช่องเริ่มต้นโดยไม่มีเลเยอร์อัปแซมปลิง กรอบงานใช้ตัวอัปแซมเปลอร์เพื่อนบ้านที่ใกล้ที่สุดเพื่อเพิ่มตัวอย่างการแสดงที่ซ่อนอยู่ และใช้ MPD เป็นตัวแบ่งแยกที่มีขนาดหน้าต่างที่แตกต่างกันหกขนาด และตัวแบ่งแยกแบนด์ย่อยสี่ตัว 

รูปด้านบนสาธิตไปป์ไลน์การอนุมานของเฟรมเวิร์ก HierSpeech++ ที่เริ่มต้นด้วยการแยกการแสดงความหมายจากเสียงที่ความถี่ 16 kHz และที่ความถี่พื้นฐานโดยใช้อัลกอริทึม YAPPT ก่อนที่จะป้อนความถี่พื้นฐานให้กับซินธิไซเซอร์แบบลำดับชั้นได้ ความถี่พื้นฐานจะถูกทำให้เป็นมาตรฐานโดยใช้ค่าเบี่ยงเบนมาตรฐานและค่าเบี่ยงเบนเฉลี่ยของเสียงต้นทาง จากนั้นความถี่พื้นฐานที่ทำให้เป็นมาตรฐานจะถูกลดค่าให้เป็นปกติโดยใช้ค่าเบี่ยงเบนมาตรฐานและค่าเบี่ยงเบนเฉลี่ยของเสียงเป้าหมาย สำหรับการแยกข้อความเป็นคำพูด กรอบงาน HierSpeech++ จะแยกข้อความแทนข้อความแทนคำพูด และใช้ข้อความเป็นโมเดล vec เพื่อสร้างการแสดงความหมายจากพรอมต์ฉันทลักษณ์ 

การทดลองและผลลัพธ์

เฟรมเวิร์กใช้ชุดข้อมูล LibriTTS ที่เปิดเผยต่อสาธารณะเพื่อฝึกส่วนประกอบซินธิไซเซอร์แบบลำดับชั้นด้วยขั้นตอนแรกคือการฝึกโมเดลด้วยชุดย่อย trainclean ของชุดข้อมูล และใช้ข้อมูลที่เหลือเพื่อเปิดใช้งานการถ่ายโอนรูปแบบเสียงที่ได้รับการปรับปรุง นอกจากนี้ เพื่อปรับปรุงความหลากหลายและความคงทน เฟรมเวิร์กจะอัปสเกลชุดข้อมูลเป็น 1 kHz ดังแสดงในรูปต่อไปนี้ 

การสร้างใหม่ งานการสังเคราะห์ใหม่และการแปลงเสียง

เพื่อประเมินประสิทธิภาพของกรอบงาน HierSpeech++ ในงานการสร้างใหม่และการสังเคราะห์ใหม่ นักพัฒนาได้ดำเนินการตัวชี้วัดวัตถุประสงค์เจ็ดประการ และผลลัพธ์จะแสดงในรูปต่อไปนี้สำหรับงานการสร้างใหม่และการสังเคราะห์ใหม่ตามลำดับ 

สำหรับงานการแปลงเสียง กรอบงานจะใช้ตัววัดเชิงอัตนัยสองตัวสำหรับการประเมิน ได้แก่ ความคล้ายคลึงกันของเสียง MOS หรือ sMOS และความเป็นธรรมชาติของคะแนนความคิดเห็นของ nMOS พร้อมด้วยตัววัดความเป็นธรรมชาติสามตัว และตัววัดวัตถุประสงค์ของความคล้ายคลึงสองตัว 

จุดประสงค์หลักของเฟรมเวิร์ก HierSpeech++ คือการเปิดใช้งานการสังเคราะห์คำพูดแบบ Zero-shot และเพื่อประเมินประสิทธิภาพการทำงานแบบ Zero-shot โดยเปรียบเทียบกับโมเดลพื้นฐานอื่นๆ เช่น AutoVC, VoiceMixer โมเดลที่มีพื้นฐานการแพร่กระจายและอีกมากมาย โดยผลลัพธ์จะแสดงในรูปต่อไปนี้ 

ตัวเลขต่อไปนี้แสดงให้เห็นถึง ข้อความเป็นคำพูดเป็นศูนย์ ผลลัพธ์ด้วยการแจ้งเตือนที่มีเสียงดัง และการแจ้งเตือนที่มีเสียงดังมากตามลำดับ 

ข้อคิด

ในบทความนี้ เราได้พูดคุยเกี่ยวกับโมเดล HierSpeech++ ซึ่งเป็นแนวทางใหม่ในการเปิดใช้งานการสังเคราะห์เสียงที่มีประสิทธิภาพและมีประสิทธิภาพในการตั้งค่าแบบ Zero-shot และเอาชนะข้อจำกัดที่เฟรมเวิร์กการสังเคราะห์เสียงในปัจจุบันต้องเผชิญ รวมถึงการพึ่งพาการฝึกอบรมจำนวนมากมากเกินไป ข้อมูล การพึ่งพาหน่วยเสียงพูดแยกหรือตัวแปลงสัญญาณเสียงประสาทที่ได้รับการฝึกอบรมล่วงหน้า และแนวโน้มในการสร้างเอาต์พุตเสียงอัตโนมัติซึ่งท้ายที่สุดแล้วทำให้เกิดการขาดความคงทนและความเร็วการรบกวนที่ช้า และส่งผลให้เกิดการออกเสียงผิด ข้าม หรือเล่นซ้ำ โมเดล HierSpeech++ เป็นเฟรมเวิร์กการสังเคราะห์เสียงพูดแบบลำดับชั้นที่สมบูรณ์แบบ แปลกใหม่ และขนานกันอย่างสมบูรณ์ โดยมีเป้าหมายเพื่อสังเคราะห์ตัวอย่างเสียงพูดในการตั้งค่าแบบ Zero-Shot และพยายามสนับสนุนสิ่งต่อไปนี้

  • การใช้กรอบงานการสังเคราะห์เสียงพูดแบบลำดับชั้นเพื่อควบคุมและถ่ายโอนรูปแบบเสียงและเสียงฉันทลักษณ์ 
  • เปิดใช้งานความสามารถในการปรับขนาดข้อมูลและการสังเคราะห์เสียงพูดที่มีความละเอียดสูงโดยการเพิ่มสุ่มตัวอย่างเสียงรูปคลื่นจาก 16 เป็น 48 kHz 
  • บรรลุความสามารถระดับมนุษย์ในการแปลงเสียงเป็นศูนย์และงานอ่านออกเสียงข้อความ 

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ