الذكاء الاصطناعي

يتطلع مطورو الألعاب إلى Voice AI للحصول على فرص إبداعية جديدة

تحديث on 9 كانون الأول، 2022

أصبحت تقنية تركيب الصوت ، وخاصة تركيب الكلام ، أكثر تعقيدًا في السنوات الأخيرة. بينما كانت تقنية تحويل النص إلى كلام موجودة منذ عقود ، أصبحت التكنولوجيا أكثر طبيعية. يمكن أن تستغرق الخوارزميات الحديثة بضع ساعات فقط من الصوت وتقوم بتوليف عينات صوتية عالية الواقعية. مع تقدم التكنولوجيا ، يتم فتح المزيد من التطبيقات ، بما في ذلك الإمكانيات في الوسائط الإبداعية. حديثاً، كما ذكرت VentureBeat، بدأت شركات ألعاب الفيديو التحقيق في استخدام الذكاء الاصطناعي لتوليد الصوت لإنتاج حوار لألعاب الفيديو.

شركة واحدة، ألعاب ليفياثان، بدأ تطبيق الذكاء الاصطناعي الصوتي داخل الألعاب التي يطورونها حاليًا. أوضح وايث ريدجواي ، صاحب شركة Leviathan Games ، أن الذكاء الاصطناعي الصوتي يمكن أن يغير تصميم اللعبة بطرق مثيرة. أوضح ريدجواي أن استخدام الذكاء الاصطناعي الصوتي في تصميم الألعاب هو اتجاه ناشئ ، وقارنه بكيفية تحول برنامج الرسوم المتحركة ثلاثية الأبعاد على مدار العقد الماضي ، مع قيام شركات مثل Pixar بإنشاء برامج احتكارية تهدف إلى تسهيل الرسوم المتحركة والنمذجة.

تعمل الطرق التقليدية لتوليد الكلام من خلال إلحاق ملفات صوتية مسجلة مسبقًا معًا بشكل سريع ، وربط الجمل معًا من الكلمات والعبارات الموجودة سابقًا. تتطلب طريقة توليد الكلام هذه تسجيل مئات الساعات من الحوار ووضع العلامات اليدوية على المقاطع الصوتية. يبدو أيضًا غير طبيعي إلى حد ما حيث يميل الانعطاف والتركيز إلى التحول عبر الكلمات. وبالمقارنة ، فإن أحدث تقنيات الذكاء الاصطناعي تبدو طبيعية بشكل ملحوظ وتعمل بطريقة مختلفة.

يعتمد الذكاء الاصطناعي الصوتي على الشبكات العصبية العميقة. WaveNet كان أحد أوائل أنظمة الذكاء الاصطناعي التي يمكن أن تولد عينات صوتية مقنعة ذات صوت طبيعي. نظرًا لأن عينات الصوت يتم إنشاؤها من نقطة الصفر ، فلا داعي للتسجيل المسبق لمئات الساعات من الحوار ، طالما تتوفر بيانات تدريب كافية. يمكن لنماذج GAN و LSTM المحسّنة إنشاء صوت بعد التدريب على ساعات قليلة فقط من الصوت المسمى. يمكن أن تكون النتائج مقنعة بشكل غير عادي ، مثل تجربة Google Duplex دعا صالون الشعر لتحديد موعد.

نظرًا لأن هذه التقنيات أصبحت أكثر قوة وموحدة ويمكن الوصول إليها بسهولة من خلال الحوسبة السحابية ، فمن المحتمل أن يتجه المزيد من مطوري الألعاب إلى استخدام الذكاء الاصطناعي الصوتي لتقليل وقت الإنتاج وتكاليفه. تقوم بعض الشركات بالفعل بإنشاء نماذج يمكن لمطوري الألعاب استخدامها. استوديوهات المقلدة متخصص في تقنية الصوت AI ، ويمكن سماع بعض عينات الصوت الناتجة عن تقنيتهم على الروابط هنا و هنا.

من غير المحتمل أن يختار مطورو الألعاب التخلي عن استخدام الممثلين الصوتيين على الذكاء الاصطناعي. في الواقع ، يمكن أن يفتح الذكاء الاصطناعي الصوتي المزيد من الفرص لممثلي الصوت. في الوقت الحالي ، غالبًا ما تتخطى العديد من شركات تطوير الألعاب التحدث عن الحوار بسبب استثمار الوقت والتكاليف المرتبطة بإنشاء حوار صوتي. غالبًا ما يحتاج ممثلو الصوت إلى العودة لمزيد من جلسات التسجيل إذا كانت هناك تغييرات في النص أو إذا كان مديرو اللعبة يريدون نوعًا مختلفًا من الأداء. يمكن استخدام Voice AI للتجربة مع / نموذج أولي للحوار ، والتعرف على نوع التغييرات والمراجعات في البرنامج النصي التي يجب إجراؤها قبل استدعاء ممثل صوت محترف لتسجيل النص. وقد يؤدي ذلك إلى امتلاك المزيد من الشركات للموارد اللازمة للاستثمار في إنشاء حوار مسموع.

يمكن تدريب النماذج الصوتية للذكاء الاصطناعي على صوت ممثل صوتي محدد ، واستخدام الذكاء الاصطناعي لإنشاء مقاطع حوار تافهة ، طالما أن الممثل يتقاضى أجرًا مقابل استخدام صوته. كما ذكرت من قبل VentureBeat، ممثلو الصوت مثل Simon J. Smith ، متفائلون بشأن الاستخدام المتزايد لنماذج الذكاء الاصطناعي الصوتية وقدرتها على فتح فرص جديدة للتمثيل الصوتي.

بالإضافة إلى استخدام الذكاء الاصطناعي الصوتي لنماذج أولية للنصوص أو إنشاء خطوط صوتية لشخصيات ثانوية ، يمكن لمطوري الألعاب أيضًا استخدام الذكاء الاصطناعي الصوتي لمنح اللاعبين المزيد من خيارات التخصيص لألعاب الفيديو التي تلعب الأدوار. حاليًا ، حتى الألعاب التي تسمح للاعبين باختيار صوت لأفاتارهم عادةً ما تحتوي على عدد قليل من الخيارات. مع استخدام الذكاء الاصطناعي الصوتي ، يمكن أن تكون الخيارات غير محدودة وظيفيًا.