الذكاء الاصطناعي

باحثون يخترعون نموذجًا ذكياً قادرًا على الغناء باللغتين الصينية والإنجليزية

Published July 17, 2020

Updated April 28, 2026

Daniel Nelson

قام فريق من الباحثين من.microsoft و Zhajiang University مؤخرًا بإنشاء نموذج ذكياً قادرًا على الغناء بعدة لغات. كما ذكرت VentureBeat ، تم تدريب نموذج DeepSinger الذي طوره الفريق على بيانات من مواقع موسيقية مختلفة ، باستخدام خوارزميات قامت بتقاط صوت المغني.

يتطلب إنشاء “صوت” لمغني ذكياً خوارزميات قادرة على التنبؤ والسيطرة على كل من النغمة والمدة الصوتية. عندما يغني الناس ، فإن الأصوات التي ينتجونها أكثر تعقيدًا من حيث الإيقاع والأنماط مقارنة بالكلام البسيط. كان أحد المشاكل التي واجهها الفريق هو أن هناك كمية معقولة من بيانات التدريب للكلام المتحدث ، ولكن مجموعات بيانات التدريب للغناء نادرة. جمع هذه التحديات مع حقيقة أن الأغاني تحتاج إلى تحليل الصوت والكلمات ، ومشكلة إنشاء الغناء معقدة للغاية.

تم克نت نظام DeepSinger الذي طوره الباحثون من التغلب على هذه التحديات من خلال إنشاء خط أنابيب بيانات قام بتعدين وتحويل البيانات الصوتية. تم استخراج مقاطع الغناء من مواقع موسيقية مختلفة ، ثم تم عزل الغناء من بقية الصوت وقسمته إلى جمل. كان الخطوة التالية هي تحديد مدة كل صوت في الكلمات ، مما أدى إلى سلسلة من العينات تمثل كل صوت فريد في الكلمات. يتم تنظيف البيانات للتعامل مع أي عينات تدريبية مشوهة بعد فرز الكلمات وعينات الصوت وفقًا لدرجة الثقة.

يبدو أن نفس الطرق تعمل للعديد من اللغات. تم تدريب DeepSinger على عينات صوتية صينية و كانتونية وإنجليزية تتكون من 89 مغنيًا يغنيون لمدة أكثر من 92 ساعة. وجدت نتائج الدراسة أن نظام DeepSinger كان قادرًا على توليد عينات غناء عالية الجودة بشكل موثوق به وفقًا لمقاييس مثل دقة النغمة ومدى صوتية الغناء. قام 20 شخصًا بتقديم تصنيفات لأغاني تم إنشاؤها بواسطة DeepSinger وأغاني التدريب وفقًا لهذه المقاييس ، وكان الفجوة بين التصنيفات للعينات المولدة والصوت الحقيقي صغيرة جدًا. قدم المشاركون درجات DeepSinger بمتوسط الرأي تباين بين 0.34 و 0.76.

في المستقبل ، يريد الباحثون محاولة تحسين جودة الأصوات المولدة من خلال تدريب النماذج الفرعية المكونة لـ DeepSinger بشكل مشترك ، مع مساعدة التكنولوجيا المتخصصة مثل WaveNet المصممة خصيصًا لمهمة توليد كلام طبيعي الصوت من خلال موجات الصوت.

يمكن استخدام نظام DeepSinger للمساعدة في تصحيح الأغاني والفنانين الموسيقيين الآخرين دون الحاجة إلى العودة إلى الاستوديو لتسجيل جلسة أخرى. يمكن استخدامه أيضًا لإنشاء أудиو ديبفيك ، مما يجعل من الممكن أن يبدو كما لو أن الفنان غنى أغنية لم يغنيها في الواقع. في حين يمكن استخدامه للفارسي أو السخرية ، فهو أيضًا من القانونية المشكوك فيها.

يعد نظام DeepSinger واحدًا من موجة جديدة من أنظمة الموسيقى والصوت القائمة على الذكاء الاصطناعي التي يمكن أن ت改变 كيفية تفاعل الموسيقى والبرمجيات. أصدرت OpenAI مؤخرًا نظامها الذكياً الخاص ، الذي أطلق عليه اسم JukeBox ، والذي يمكنه إنتاج مسارات موسيقية أصلية بنمط معين أو حتى فنان معين. تشمل أدوات الموسيقى الذكية الأخرى مكتبة Google Magenta و Amazon DeepComposer. مكتبة Magenta مفتوحة المصدر لتعديل الصوت (والصور) يمكن استخدامها لإنتاج كل شيء من دعم الطبول التلقائي إلى ألعاب فيديو موسيقية بسيطة. في حين أن Amazon DeepComposer يهدف إلى الأشخاص الذين يريدون تدريب وتخصيص نماذج التعلم العميق الموسيقية الخاصة بهم ، مما يسمح للمستخدم بتحويل نماذج العينة المسبقة التدريب وتعديلها وفقًا لاحتياجاتهم.

يمكنك الاستماع إلى بعض عينات الصوت التي تم إنشاؤها بواسطة DeepSinger في هذا الرابط.

Daniel Nelson

مدون وبرمجي متخصص في مواضيع Machine Learning و Deep Learning. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الخير الاجتماعي.

Unite.AI

باحثون يخترعون نموذجًا ذكياً قادرًا على الغناء باللغتين الصينية والإنجليزية

You may like