ต้นขั้ว นักวิจัยสร้างโมเดล AI ที่สามารถร้องเพลงได้ทั้งภาษาจีนและอังกฤษ - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

นักวิจัยสร้างโมเดล AI ที่สามารถร้องเพลงได้ทั้งภาษาจีนและอังกฤษ

mm
วันที่อัพเดท on

ทีมนักวิจัยจาก Microsoft และมหาวิทยาลัย Zhajiang ได้สร้างโมเดล AI ที่สามารถร้องเพลงได้หลายภาษา ตามที่ VentureBeat รายงานDeepSinger AI ที่พัฒนาโดยทีมงาน ได้รับการฝึกอบรมเกี่ยวกับ ข้อมูลจากเว็บไซต์เพลงต่างๆ โดยใช้อัลกอริทึมที่จับเสียงต่ำของนักร้อง

การสร้าง "เสียง" ของนักร้อง AI ต้องใช้อัลกอริทึมที่สามารถคาดเดาและควบคุมทั้งระดับเสียงและระยะเวลาของเสียงได้ เมื่อผู้คนร้องเพลง เสียงที่พวกเขาสร้างขึ้นจะมีจังหวะและรูปแบบที่ซับซ้อนกว่ามากเมื่อเทียบกับเสียงพูดธรรมดาๆ ปัญหาอีกประการหนึ่งสำหรับทีมที่ต้องแก้ไขคือ แม้ว่าจะมีข้อมูลการฝึกพูด/การฝึกพูดอยู่พอสมควร แต่ชุดข้อมูลการฝึกร้องเพลงก็ค่อนข้างหายาก รวมความท้าทายเหล่านี้เข้ากับข้อเท็จจริงที่ว่าเพลงต้องมีการวิเคราะห์ทั้งเสียงและเนื้อเพลง และปัญหาในการร้องเพลงก็ซับซ้อนอย่างไม่น่าเชื่อ

ระบบ DeepSinger ที่นักวิจัยสร้างขึ้นได้เอาชนะความท้าทายเหล่านี้ด้วยการพัฒนาท่อส่งข้อมูลที่ขุดและแปลงข้อมูลเสียง คลิปการร้องเพลงดึงมาจากเว็บไซต์เพลงต่างๆ จากนั้นการร้องเพลงจะถูกแยกออกจากเสียงที่เหลือและแบ่งออกเป็นประโยค ขั้นตอนต่อไปคือการกำหนดระยะเวลาของทุกหน่วยเสียงในเนื้อเพลง ส่งผลให้มีชุดตัวอย่างที่แสดงถึงหน่วยเสียงที่ไม่ซ้ำกันในเนื้อเพลง ทำความสะอาดข้อมูลเพื่อจัดการกับตัวอย่างการฝึกที่ผิดเพี้ยน หลังจากที่เนื้อเพลงและตัวอย่างเสียงประกอบได้รับการจัดเรียงตามคะแนนความเชื่อมั่น

วิธีการเดียวกันนี้ดูเหมือนจะใช้ได้กับหลายภาษา DeepSinger ได้รับการฝึกฝนเกี่ยวกับตัวอย่างเสียงภาษาจีน กวางตุ้ง และภาษาอังกฤษ ซึ่งประกอบด้วยนักร้อง 89 คนร้องเพลงนานกว่า 92 ชั่วโมง ผลการศึกษาพบว่าระบบ DeepSinger สามารถสร้างตัวอย่าง "การร้องเพลง" คุณภาพสูงที่เชื่อถือได้ตามเมตริกต่างๆ เช่น ความแม่นยำของระดับเสียง และการร้องเพลงที่เป็นธรรมชาติ นักวิจัยมีคน 20 คนให้คะแนนทั้งเพลงที่สร้างโดย DeepSinger และเพลงฝึกตามเมตริกเหล่านี้ และช่องว่างระหว่างคะแนนสำหรับตัวอย่างที่สร้างขึ้นและเสียงจริงนั้นค่อนข้างน้อย ผู้เข้าร่วมให้คะแนนความคิดเห็นเฉลี่ยแก่ DeepSinger ซึ่งเบี่ยงเบนไประหว่าง 0.34 ถึง 0.76

มองไปข้างหน้า นักวิจัยต้องการลองและปรับปรุงคุณภาพของเสียงที่สร้างขึ้นโดยร่วมกันฝึกโมเดลย่อยต่างๆ ที่ประกอบด้วย DeepSinger โดยใช้เทคโนโลยีพิเศษเช่น WaveNet ที่ออกแบบมาโดยเฉพาะสำหรับงานสร้างเสียงพูดที่เป็นธรรมชาติผ่านรูปคลื่นเสียง .

ระบบ DeepSinger สามารถใช้เพื่อช่วยให้นักร้องและศิลปินดนตรีอื่นๆ แก้ไขงานได้โดยไม่ต้องกลับเข้าไปในสตูดิโอเพื่อบันทึกเสียงอีกครั้ง ไอทียังสามารถนำมาใช้เพื่อสร้างเสียงที่ล้ำลึกได้ ทำให้ดูเหมือนศิลปินร้องเพลงที่พวกเขาไม่เคยทำจริงๆ แม้ว่าจะสามารถนำมาใช้เพื่อการล้อเลียนหรือเสียดสีได้ แต่ก็มีความถูกต้องตามกฎหมายที่น่าสงสัยเช่นกัน

DeepSinger เป็นเพียงคลื่นลูกใหม่ของระบบเพลงและเสียงที่ใช้ AI ซึ่งสามารถเปลี่ยนวิธีการโต้ตอบของเพลงและซอฟต์แวร์ได้ OpenAI เพิ่งเปิดตัวระบบ AI ของตัวเอง ขนานนามว่า JukeBoxที่สามารถสร้างแทร็กเพลงต้นฉบับในสไตล์ของแนวเพลงบางประเภทหรือแม้แต่ศิลปินคนใดคนหนึ่งโดยเฉพาะ เครื่องมือ AI ทางดนตรีอื่นๆ ได้แก่ สีม่วงแดงของ Google และ DeepComposer ของ Amazon. Magnets เป็นไลบรารีการปรับแต่งเสียง (และภาพ) แบบโอเพ่นซอร์สที่สามารถใช้สร้างทุกอย่างตั้งแต่การแบ็คอัพกลองอัตโนมัติไปจนถึงวิดีโอเกมที่ใช้เพลงอย่างง่าย ในขณะเดียวกัน DeepComposer ของ Amazon มีเป้าหมายที่ผู้ที่ต้องการฝึกฝนและปรับแต่งโมเดลการเรียนรู้เชิงลึกเกี่ยวกับดนตรีของตนเอง โดยอนุญาตให้ผู้ใช้นำโมเดลตัวอย่างที่ได้รับการฝึกฝนมาล่วงหน้าและปรับแต่งโมเดลตามความต้องการ

คุณสามารถฟังตัวอย่างเสียงบางส่วนที่สร้างโดย DeepSinger ที่ลิงค์นี้

บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม