الذكاء الاصطناعي
إنشاء OpenAI برنامجًا جديدًا لإنشاء الموسيقى بناءً على الأنواع

أصدرت المنظمة البحثية المستقلة OpenAI مؤخرًا شكلًا جديدًا من الذكاء الاصطناعي التوليدي يُدعى Jukebox، وسمي بهذا الاسم بسبب قدرته على توليد الموسيقى. يمكن لـ Jukebox توليد الأصوات بناءً على سمات مثل الآلات الموسيقية والكلمات، وقام فريق بحث OpenAI بإنشاء الذكاء الاصطناعي من خلال تدريبه على مقاطع صوتية مضغوطة وشرائح مختلفة من الكلمات.
كما ذكرت TechCrunch، قام باحثو OpenAI بتدريب النموذج باستخدام مقاطع صوتية خام، مما منح النموذج القدرة على إنتاج الصوت. هذا على عكس النهج المستخدمة لإنشاء تطبيقات توليد الموسيقى الأخرى، والتي غالبًا ما تعتمد على “الموسيقى الرمزية” (مثل موسيقى MIDI) والتي هي معلومات عن النوتات والأساليب ولكن لا يوجد صوت حقيقي. استخدم فريق البحث الشبكات العصبية التلافيفية لتدريب النموذج، وضغط الصوت، وتشفيره إلى تنسيق يمكن للشبكة العصبية تفسيره. بعد ذلك، تم استخدام محول لإنشاء صوت مضغوط، الذي تمت إعادة عينته لتحويل البيانات إلى تنسيق صوتي.
عند إنشاء Jukebox، كان على OpenAI إنشاء طريقة للتعامل مع الطبيعة المعقدة والكثيفة للصوت. تعامل الباحثون مع الطبيعة المستمرة للصوت من خلال تقسيمه إلى أقسام أكثر دقة، وقسموا الأغاني إلى قطع بطول 1/128 من الثانية. كان الهدف هو إنشاء نموذج ذكاء اصطناعي قادر على تقسيم الأغاني إلى قطع كبيرة بما يكفي بحيث لا يصبح المشكلة غير قابلة للتناول، ومع ذلك صغيرة ودقيقة بما يكفي حتى يتمكن النماذج من تعلم نمط الأغنية وإعادة بناء ذلك النمط.
تتقاسم التقنية المستخدمة من قبل OpenAI بعض القواسم المشتركة مع الذكاء الاصطناعي القديم لتوليد الموسيقى الذي أنتجته الشركة، يُدعى MuseNet. تم تدريب MuseNet على ملفات MIDI وتمكنت من توليد الموسيقى بأسلوب متنوع، على الرغم من أنها ركزت على النغمة العامة للأغنية ولم تتمكن من إنتاج كلمات. في المقابل، يمكن لـ Jukebox كتابة كلماته الخاصة لمرافقة الموسيقى. يتم “كتابة” الكلمات من قبل باحثي OpenAI، وتوجيه النموذج نحو إنشاء كلمات بأسلوب معين. تم تدريب نظام Jukebox على كلمات تم حصدتها من LyricWiki، وتمتثل بيانات التدريب من النص والبيانات الوصفية لما يزيد عن 1.2 مليون أغنية.
عندما يتعلق الأمر بكلمات النموذج، حاول الباحثون في البداية استخدام نهج بسيط يمدد الكلمات إلى مدة تقريبية للأغنية، وتحليل النص الذي يتوافق مع جزء معين من الأغنية. عمل هذا النهج البسيط جيدًا بشكل عام، على الرغم من أن الباحثين وجدوا أنه عندما كانت الكلمات سريعة بشكل خاص، انهار. من أجل التعامل مع هذه المشكلة، تم استخراج الأصوات الغنائية من الأغنية وترتيبها مع النص الغنائي للحصول على محاذاة على مستوى الكلمة للكلمات. بعد ذلك، تم استخدام طبقة ترميز للكلمات جنبًا إلى جنب مع طبقة انتباه خريطة أقسام الموسيقى إلى كلمات باستخدام أزواج القيمة الرئيسية. كان النتيجة هي أن الكلمات والأصوات الغنائية كانت مطابقة بشكل معقول.
يلاحظ مؤلفو الورقة أيضًا أنه توجد بعض القيود التي يمتلكها Jukebox، وأن العمل المستقبلي سيتعامل على تحسين قدرة الذكاء الاصطناعي. كما كتب المؤلفون في منشور على المدونة:
“في حين أن Jukebox يمثل خطوة إلى الأمام في الجودة الموسيقية والاتساق وطول عينة الصوت والقدرة على التكييف على الفنان والأسلوب والكلمات، هناك فجوة كبيرة بين هذه التوليدات والموسيقى التي أنتجها الإنسان. على سبيل المثال، بينما تظهر الأغاني المولدة اتساقًا موسيقيًا محليًا، وتتبع أنماط أكورد تقليدية، ويمكنها حتى تقديم سولوز رائعة، لا نسمع هياكل موسيقية أكبر مثل الكورس التي تتكرر.”
في الوقت الحالي، يمكن للنموذج إنتاج أغنية يمكن التعرف عليها على أنها بأسلوب نوع معين أو حتى فنان معين. على سبيل المثال، يمكنه إنتاج أغاني بأسلوب إلفيس بريسلي، كاتي بيري، أو ريج अगينست ذا ماشين. على الرغم من أن الأغاني يمكن التعرف عليها على أنها ضمن نوع أو موجهة حول أسلوب مغني معين، إلا أنها أيضًا خشنة، وتسمع غالبًا مثل محاكاة ساخرة أو نسخة رديئة من الأغنية. ومع ذلك، الإنجاز الفني مثير للإعجاب. اختار الباحثون المسؤولون عن إنشاء نظام التوليد الذكاء الاصطناعي العمل على برنامج قادر على توليد الموسيقى بشكل خاص لأن المهمة كانت صعبة، ويتعامل الباحثون على تحسين تقنياتهم. يمكنك الاستماع إلى بعض الأغاني هنا.












