الذكاء الاصطناعي

OpenVoice: تقنية غنية لتعزيز التقليد الفوري للصوت

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

في تركيب النص إلى كلام (TTS)، يسمح التقليد الفوري للصوت (IVC) لنموذج TTS بتقليد صوت أي متحدث مرجعي باستخدام عينة صوتية قصيرة، دون الحاجة إلى تدريب إضافي للمتحدث المرجعي. يُعرف هذا الأسلوب أيضًا باسم تركيب النص إلى كلام بالشوط الواحد. يسمح подход التقليد الفوري للصوت بمرونة في تخصيص الصوت الناتج ويوضح قيمة كبيرة عبر مجموعة واسعة من الحالات الواقعية، بما في ذلك برامج الدردشة المخصصة وإنشاء المحتوى والتفاعلات بين البشر ونمذجة اللغة الكبيرة (LLMs).

على الرغم من أن إطارات التقليد الصوتي الحالية تقوم بعملهم جيدًا، إلا أنها تواجه بعض التحديات في المجال، بما في ذلك تحكم مرن في أسلوب الصوت، أي أن النماذج تفتقر إلى القدرة على تعديل أساليب الصوت بمرنة بعد تقليد الصوت. وتعتبر مشكلة أخرى كبيرة تواجهها إطارات التقليد الفوري الحالية هي تقليد الصوت العابر للغات في الشوط الواحد ، أي أن النماذج الحالية تتطلب الوصول إلى مجموعة بيانات متعددة اللغات كبيرة الحجم لتدريب الغرض، بغض النظر عن اللغة.

لمواجهة هذه التحديات، وساهم المطورون في تحسين نماذج التقليد الفوري للصوت، وقد عملوا على OpenVoice، وهي إطار تقليد صوتي مرن يقلد صوت أي مستخدم وينتج كلامًا في لغات متعددة باستخدام مقطع صوتي قصير من المتحدث المرجعي. يثبت إطار OpenVoice أن نماذج التقليد الفوري للصوت يمكنها تقليد لون الصوت للمتحدث المرجعي، وتحقيق سيطرة دقيقة على أساليب الصوت، بما في ذلك النبرة والإيقاع والتنغيم والفواصل، وحتى العواطف. وما هو أكثر إثارة للإعجاب هو أن إطار OpenVoice يثبت أيضًا قدرات ملحوظة في تحقيق تقليد صوت عابر للغات في الشوط الواحد للغات الخارجية لمجموعة بيانات MSML، مما يسمح لإطار OpenVoice بتقليد الأصوات إلى لغات جديدة دون الحاجة إلى تدريب مسبق مكثف لهذه اللغة. ينجح إطار OpenVoice في تقديم نتائج تقليد صوت فوري متفوقة مع كونها قابلة للتشغيل من حيث التكلفة، مع تقليل التكاليف التشغيلية بنسبة تصل إلى 10 مرات أقل من واجهات برمجة التطبيقات الحالية الأقل أداء.

في هذه المقالة، سنناقش إطار OpenVoice بعمق، وسنكشف عن هيكله الذي يسمح له بتقديم أداء متفوق عبر مهام تقليد الصوت الفوري. لذا دعونا نبدأ.

OpenVoice : تمكين التقليد الفوري للصوت المرن

كما ذكرنا سابقًا، يسمح التقليد الفوري للصوت، الذي يُعرف أيضًا باسم تركيب النص إلى كلام في الشوط الواحد، لنموذج TTS بتقليد صوت أي متحدث مرجعي باستخدام مقطع صوتي قصير، دون الحاجة إلى تدريب إضافي للمتحدث المرجعي. كان التقليد الفوري للصوت دائمًا موضوعًا ساخنًا في البحث، مع أعمال موجودة تشمل إطارات XTTS وVALLE التي تستخرج تمثيل المتحدث و/أو رموز صوتية من الصوت المرجعي الذي يخدم كشرط للنموذج التلقائي التراجعي. ثم ينتج النموذج التلقائي التراجعي رموز صوتية بشكل متتالي، ويفسّر هذه الرموز إلى موجة صوتية خام.

على الرغم من أن نماذج التقليد الفوري للصوت التلقائية التراجعية تقلد لون الصوت بشكل ملحوظ، إلا أنها تفتقر إلى القدرة على تعديل معلمات الأسلوب الأخرى، بما في ذلك النبرة وال情 والفواصل والإيقاع. بالإضافة إلى ذلك، تختبر نماذج التقليد الفوري للصوت التلقائية التراجعية سرعة استدلال منخفضة، وتكلفة تشغيلية عالية. تستخدم نماذج أخرى مثل إطار YourTTS نهجًا غير تلقائي تراجعي يثبت سرعة استدلال أسرع بكثير من نهج الإطارات التلقائية التراجعية، لكنها لا تزال غير قادرة على تقديم مستخدميها مع سيطرة مرنة على معلمات الأسلوب. بالإضافة إلى ذلك، تحتاج كلا النماذج التلقائية التراجعية والغير تلقائية التراجعية إلى الوصول إلى مجموعة بيانات متعددة اللغات كبيرة الحجم لتعديل الصوت العابر للغات.

لمواجهة التحديات التي تواجهها إطارات التقليد الفوري الحالية، عمل المطورون على OpenVoice، وهي مكتبة تقليد صوتي فوري مفتوحة المصدر تهدف إلى حل التحديات التالية التي تواجهها إطارات IVC الحالية.

التحدي الأول هو تمكين إطارات IVC من التحكم المرن في معلمات الأسلوب بالإضافة إلى لون الصوت، بما في ذلك النبرة والإيقاع والتنغيم والفواصل. تعتبر معلمات الأسلوب حاسمة لإنشاء محادثات طبيعية وواقعية بدلاً من سرد النص المدخل بطريقة مملة.
التحدي الثاني هو تمكين إطارات IVC من تقليد الأصوات العابرة للغات في إعداد الشوط الواحد.
التحدي النهائي هو تحقيق سرعات استدلال في الوقت الفعلي دون تدهور الجودة.

لمواجهة العوائق الأولى، تم تصميم هيكل إطار OpenVoice بطريقة تفصل المكونات في الصوت إلى أفضل ما يمكن. بالإضافة إلى ذلك، ينتج إطار OpenVoice لون الصوت واللغة وميزات الصوت الأخرى بشكل مستقل، مما يسمح للإطار بالتحكم المرن في أنواع اللغة الفردية وأساليب الصوت. يعالج إطار OpenVoice التحدي الثالث افتراضيًا، حيث يقلل الهيكل المنفصل من التعقيد الحسابي ومتطلبات حجم النموذج.

OpenVoice : المنهجية والهيكل

الإطار الفني لإطار OpenVoice فعال وبسيط التنفيذ. لا يخفى على أحد أن تقليد لون الصوت لأي متحدث، وإضافة لغة جديدة، والتحكم المرن في معلمات الصوت في نفس الوقت يمكن أن يكون تحديًا. ذلك لأن تنفيذ هذه المهمات الثلاث في نفس الوقت يتطلب معلمات محكومة لتتقاطع باستخدام جزء كبير من مجموعات البيانات التوليفية. بالإضافة إلى ذلك، في تركيب النص إلى كلام لصوت واحد عادي، حيث لا يتطلب المهام التحكم في الصوت، من السهل إضافة التحكم في معلمات الأسلوب الأخرى.

يهدف إطار OpenVoice إلى تفكيك مهام التقليد الفوري للصوت إلى مهام فرعية. يقترح النموذج استخدام نموذج TTS للمتحدث الأساسي للتحكم في اللغة ومعلمات الأسلوب، ويوظف محول لون الصوت لإضافة لون الصوت المرجعي إلى الصوت الناتج. يظهر الشكل التالي هيكل الإطار.

في جوهره، يعتمد إطار OpenVoice على مكونين: محول لون الصوت، ونموذج TTS للمتحدث الأساسي. نموذج TTS للمتحدث الأساسي هو نموذج متحدث واحد أو متعدد المتحدثين يسمح بالتحكم الدقيق في معلمات الأسلوب واللغة والنبرة. ينتج النموذج صوتًا يتم تمريره إلى محول لون الصوت، الذي يغير لون الصوت للمتحدث الأساسي إلى لون الصوت للمتحدث المرجعي.

يوفر إطار OpenVoice مرونة كبيرة عند استخدام نموذج TTS للمتحدث الأساسي، حيث يمكنه توظيف نموذج VITS مع تعديلات طفيفة يسمح له بقبول تضمين اللغة ومعلمات الأسلوب في معاود Duration ومشفر النص. يمكن للإطار أيضًا توظيف نماذج مثل Microsoft TTS التي هي رخيصة تجاريًا أو يمكنه نشر نماذج مثل InstructTTS التي يمكنها قبول توجيهات الأسلوب. حاليًا، يعتمد إطار OpenVoice على نموذج VITS، على الرغم من أن النماذج الأخرى هي خيارات قابلة للتطبيق.

إذا انتقلنا إلى المكون الثاني، فإن محول لون الصوت هو مكون معالجة-فك مع تدفق عادي قابل للعكس في الوسط. المكون المعالج في محول لون الصوت هو شبكة عصبونية ذات boyut واحد تقبل طيف فوري متغير للزمن لنموذج TTS للمتحدث الأساسي كمدخل، ويتم إنتاج خرائط ميزة كخرج. محول لون الصوت هو شبكة عصبونية ثنائية الأبعاد بسيطة تعمل على طيف ميل لصوت الإدخال، ويتم إنتاج متجه ميزة فردي كخرج يحتوي على معلومات لون الصوت. تقبل طبقات التدفق العادي قابل للعكس خرائط الميزة التي تم إنتاجها بواسطة المعالج كمدخل، ويتم إنتاج تمثيل ميزة يحافظ على جميع خصائص الأسلوب ولكنه يلغي معلومات لون الصوت. ثم يطبق إطار OpenVoice طبقات التدفق العادي في الاتجاه العكسي، ويتم إنتاج تمثيل الميزة كمدخل ويتم إخراج طبقات التدفق العادي. ثم يتم فك تشفير طبقات التدفق العادي إلى موجات خام باستخدام مكدس من التضخيمات ذات البعد الواحد.

يتميز هيكل إطار OpenVoice بكونها متقدمة بدون استخدام أي مكون تلقائي تراجعي. يتشابه مكون محول لون الصوت مع تحويل الصوت من حيث المفهوم، ولكنه يختلف فيما يتعلق بالوظيفة والغرض من التدريب والتحيز الاستقرائي في هيكل النموذج. تتشابه طبقات التدفق العادي مع نماذج النص إلى كلام القائمة على التدفق، ولكنها تختلف فيما يتعلق بالوظيفة والغرض من التدريب.

علاوة على ذلك، توجد نهج بديلة لاستخراج تمثيلات الميزة، ويتم تطبيق طريقة تنفيذ إطار OpenVoice لتحقيق جودة صوت أفضل. كما أنه من الجدير بالذكر أن إطار OpenVoice لا يهدف إلى اختراع المكونات في هيكل النموذج، بل يتم استيراد كلا المكونين الرئيسيين، وهما محول لون الصوت ونموذج TTS للمتحدث الأساسي، من الأعمال الحالية. الهدف الرئيسي لإطار OpenVoice هو تشكيل هيكل منفصل يفصل بين التحكم في اللغة وأسلوب الصوت من تقليد لون الصوت. على الرغم من بساطة النهج، إلا أنه فعال بشكل خاص في المهام التي تتحكم في الأساليب والنبرة أو مهام تعميم اللغة الجديدة. تحقيق نفس التحكم عند استخدام هيكل متصل يتطلب كمية كبيرة من الحوسبة والبيانات، ولا يgeneralize جيدًا للغات الجديدة.

في جوهره، يعتمد فلسفة إطار OpenVoice على فصل توليد اللغة وأساليب الصوت عن توليد لون الصوت. واحدة من نقاط القوة الرئيسية لإطار OpenVoice هي أن الصوت المقلد يمتاز بالأناقة ويعتبر من الجودة العالية طالما كان نموذج TTS للمتحدث الواحد يتحدث بطلاقة.

OpenVoice : التجربة والنتائج

تقييم مهام تقليد الصوت هو موضوع صعب بسبب العديد من الأسباب. أولاً، تعتمد الأعمال الحالية على مجموعات بيانات تدريب واختبار مختلفة، مما يجعل المقارنة بين هذه الأعمال غير عادلة بشكل nội. على الرغم من أنه يمكن استخدام التمويل الجماعي لتقييم معايير مثل درجة الرأي المتوسط، إلا أن صعوبة وتنوع بيانات الاختبار سيتأثر النتيجة بشكل كبير. ثانيًا، تختلف أساليب تقليد الصوت المختلفة في بيانات التدريب، ويتأثر النتائج بشكل كبير بتنوع ومدى هذه البيانات. أخيرًا، يختلف الهدف الرئيسي للأعمال الحالية عن بعضها البعض، لذلك تختلف في الوظيفة.

نظرًا للأسباب الثلاثة المذكورة أعلاه، من غير العادل مقارنة إطارات تقليد الصوت الحالية رقميًا. بدلاً من ذلك، من الأفضل مقارنة هذه الطرق بشكل kvalitativ.

تقليد دقيق للون الصوت

为了 تحليل أدائه، يتم بناء مجموعة اختبار مع أفراد مجهولين، وتشكل شخصيات الألعاب والمشاهير قاعدة المتحدثين المرجعية، ويتوزع الصوت على نطاق واسع بما في ذلك عينات محايدة وأصوات فريدة تعبيرية. يمكن لإطار OpenVoice تقليد لون الصوت المرجعي وإنشاء كلام في لغات متعددة ونبرات لجميع المتحدثين المرجعيين والمتحدثين الأساسيين الأربعة.

التحكم المرن في أساليب الصوت

أحد أهداف إطار OpenVoice هو التحكم في أساليب الصوت بمرنة باستخدام محول لون الصوت الذي يمكن تعديل لون الصوت مع الحفاظ على جميع ميزات الصوت الأخرى والخصائص.

تشير التجارب إلى أن النموذج يحافظ على أساليب الصوت بعد تحويلها إلى لون الصوت المرجعي. في بعض الحالات، قد يلغي النموذج العواطف قليلاً، وهو مشكلة يمكن حلها عن طريق تمرير معلومات أقل إلى طبقات التدفق حتى لا يتمكنوا من إزالة العواطف. يمكن لإطار OpenVoice الحفاظ على الأساليب من صوت الأساس بفضل استخدام محول لون الصوت. يسمح إطار OpenVoice بسهولة التحكم في نموذج TTS للمتحدث الأساسي لتحقيق التحكم المرن في أساليب الصوت.

تقليد الصوت العابر للغات

يتمكن إطار OpenVoice من تقليد الصوت العابر للغات دون الحاجة إلى بيانات متعددة اللغات كبيرة الحجم لتدريب الغرض. تتمثل قدرات تقليد الصوت العابر للغات لإطار OpenVoice فيما يلي:

يمكن للنموذج تقليد لون الصوت للمتحدث المرجعي بدقة عندما تكون لغة المتحدث المرجعي غير مرئية في مجموعة بيانات MSML.
علاوة على ذلك، في حالة عدم رؤية لغة المتحدث المرجعي، يمكن لإطار OpenVoice تقليد صوت المتحدث المرجعي وتحدث اللغة على شرط أن يدعم نموذج TTS للمتحدث الأساسي اللغة.

الخاتمة

في هذه المقالة، ناقشنا إطار OpenVoice، وهو إطار تقليد صوتي فوري مرن يقلد صوت أي مستخدم وينتج كلامًا في لغات متعددة باستخدام مقطع صوتي قصير من المتحدث المرجعي. الفكرة الأساسية وراء إطار OpenVoice هي أنه只要 لا يتعين على النموذج تقليد لون الصوت للمتحدث المرجعي، يمكن للإطار استخدام نموذج TTS للمتحدث الأساسي للتحكم في اللغة وأساليب الصوت.

يثبت إطار OpenVoice أن نماذج التقليد الفوري للصوت يمكنها تقليد لون الصوت للمتحدث المرجعي، وتحقيق التحكم الدقيق في أساليب الصوت، بما في ذلك النبرة والإيقاع والتنغيم والفواصل، وحتى العواطف. ينجح إطار OpenVoice في تقديم نتائج تقليد صوت فوري متفوقة مع كونها قابلة للتشغيل من حيث التكلفة، مع تقليل التكاليف التشغيلية بنسبة تصل إلى 10 مرات أقل من واجهات برمجة التطبيقات الحالية الأقل أداء.

Unite.AI