الذكاء الاصطناعي

ينشئ OpenAI برنامج AI جديدًا لإنشاء موسيقى بناءً على الأنواع

تحديث on 9 كانون الأول، 2022

أصدرت منظمة الأبحاث المستقلة OpenAI مؤخرًا شكلاً جديدًا من الذكاء الاصطناعي التوليدي مدبلج الموسيقي، سميت على هذا النحو بسبب قدرتها على توليد الموسيقى. يمكن لـ Jukebox AI إنشاء أصوات بناءً على سمات مثل الآلات وحتى كلمات الأغاني ، وقد أنشأ فريق بحث OpenAI AI من خلال تدريبه على مقاطع صوتية مضغوطة ومقتطفات متنوعة من كلمات الأغاني.

كما TechCrunch وذكرتقام باحثو OpenAI بتدريب النموذج باستخدام مقاطع صوتية خام ، مما يمنح النموذج القدرة على إنتاج الصوت. هذا على النقيض من الأساليب المستخدمة لإنشاء تطبيقات أخرى لتوليد الموسيقى ، والتي غالبًا ما تعتمد على "الموسيقى الرمزية" (مثل موسيقى MIDI) والتي هي معلومات حول الملاحظات والنغمات ولكن لا يوجد صوت حقيقي. استخدم فريق الباحثين الشبكات العصبية التلافيفية لتدريب النموذج وضغط الصوت وترميزه إلى تنسيق يمكن للشبكة العصبية تفسيره. بعد ذلك ، تم استخدام محول لتوليد صوت مضغوط ، والذي تم تكبيره من أجل تحويل البيانات إلى تنسيق صوتي.

عند إنشاء Jukebox ، كان على OpenAI إنشاء طريقة للتعامل مع الطبيعة المعقدة والكثيفة للصوت. تعامل الباحثون مع الطبيعة المستمرة للصوت من خلال تقسيمها إلى أقسام أكثر انفصالًا وقابلة للهضم ، وتقسيم الأغاني إلى أجزاء تبلغ 1/128 من الثانية. كان الهدف هو إنشاء نموذج ذكاء اصطناعي قادر على تقسيم الأغاني إلى أجزاء كبيرة بما يكفي بحيث لا تصبح المشكلة مستعصية على الحل ، ولكنها صغيرة ودقيقة بما يكفي لتتعلم النماذج نمط الأغنية وتعيد بناء هذا النمط.

تشترك التقنية التي تستخدمها أوبن إيه آي في بعض القواسم المشتركة مع جيل موسيقي أقدم أنتجته الشركة ، ويطلق عليه موسنت. تم تدريب MuseNet على ملفات MIDI وكان قادرًا على إنشاء موسيقى في حقيقة من الأساليب ، على الرغم من أنها ركزت على اللحن العام للأغنية ولم تستطع إنتاج كلمات. في المقابل ، Jukebox قادر على كتابة كلماته الخاصة لمرافقة الموسيقى. كلمات الأغاني "شارك في كتابتها" باحثو أوبن إيه آي ، لتوجيه النموذج نحو إنشاء كلمات بأساليب معينة. تم تدريب نظام Jukebox على كلمات مقتطعة من LyricWiki ، مع بيانات التدريب التي تتكون من نصوص وبيانات وصفية على 1.2 مليون أغنية.

عندما يتعلق الأمر بكلمات النموذج ، حاول الباحثون أولاً استخدام دليل بسيط يمتد إلى مدة الأغنية تقريبًا ، ويحللون النص الذي يتوافق مع جزء / مقطع معين من الأغنية. نجح هذا النهج البسيط بشكل جيد بشكل عام ، على الرغم من أن الباحثين وجدوا أنه عندما كانت الكلمات سريعة بشكل خاص ، فإنها تتعطل. من أجل التعامل مع هذه المشكلة ، تم استخراج الأغاني من الأغنية ومواءمتها مع النص الغنائي للحصول على محاذاة على مستوى الكلمات للكلمات. بعد ذلك ، تم استخدام طبقة ترميز للكلمات جنبًا إلى جنب مع طبقة الانتباه التي حددت أقسامًا من الموسيقى للكلمات باستخدام أزواج من المفاتيح والقيمة. كانت النتيجة أن كلمات الأغاني والغناء كان لها تطابق دقيق إلى حد ما.

واضعي الورقة لاحظ أيضًا أن هناك العديد من القيود التي يفرضها Jukebox ، وأن العمل المستقبلي سيهدف إلى تحسين قدرة الذكاء الاصطناعي. كما يكتب المؤلفون في بلوق وظيفة:

"بينما يمثل Jukebox خطوة إلى الأمام في الجودة الموسيقية والتماسك وطول عينة الصوت والقدرة على تكييف الفنان والنوع وكلمات الأغاني ، هناك فجوة كبيرة بين هذه الأجيال والموسيقى التي صنعها الإنسان. على سبيل المثال ، بينما تُظهر الأغاني التي تم إنشاؤها تماسكًا موسيقيًا محليًا ، وتتبع أنماط الوتر التقليدية ، ويمكنها أيضًا أن تتميز بمفردات فردية رائعة ، فإننا لا نسمع تركيبات موسيقية مألوفة مثل الجوقات التي تتكرر ".

في الوقت الحالي ، يمكن للنموذج إنتاج أغنية يمكن تمييزها بأسلوب نوع معين أو حتى فنان معين. على سبيل المثال ، يمكنها إنتاج أغانٍ بأسلوب Elvis Presley أو Katy Perry أو Rage Against the Machine. على الرغم من أن الأغاني يمكن التعرف عليها ضمن النوع أو موضوع حول أسلوب المغني ، إلا أنها أيضًا خشنة إلى حد ما ، وغالبًا ما تبدو وكأنها محاكاة ساخرة أو نسخة غلاف رديئة من أغنية. ومع ذلك ، فإن الإنجاز الفني مثير للإعجاب. اختار الباحثون المسؤولون عن إنشاء نظام توليد الذكاء الاصطناعي العمل على برنامج قادر على إنتاج الموسيقى على وجه التحديد لأن المهمة كانت صعبة ، ويخطط الباحثون لمواصلة تحسين تقنياتهم. يمكنك الاستماع إلى بعض الأغاني هنا.