الذكاء الاصطناعي

StyleTTS 2: صوت بشري مع نماذج لغة كلام كبيرة

Published December 4, 2023

Updated April 4, 2026

Kunal Kejriwal

بفضل زيادة في نهج التركيب الصوتي الطبيعي والاصطناعي، واحدة من الإنجازات الرئيسية التي حققتها صناعة الذكاء الاصطناعي في السنوات القليلة الماضية هي تركيب إطارات نص-صوت بشكل فعال مع تطبيقات محتملة عبر مختلف الصناعات بما في ذلك الكتب الصوتية والمساعدين الافتراضيين وروايات الصوت وغيرها، مع بعض النماذج الحديثة التي تقدم أداءً على مستوى الإنسان والكفاءة عبر مجموعة واسعة من المهام المرتبطة بالكلام. ومع ذلك، على الرغم من أدائها القوي، لا يزال هناك مجال للتحسين للمهام بفضل الصوت التعبيري والمتنوع، ومتطلبات كمية كبيرة من البيانات التدريبية لتحسين إطارات نص-صوت من الصفر، والمتانة لنصوص OOD أو خارج التوزيع مما يؤدي المطورين إلى العمل على إطار نص-صوت أكثر متانة وسهولة الوصول.

في هذه المقالة، سنناقش StyleTTS-2، وهو إطار نص-صوت متين وابتكاري يبنى على أسس إطار StyleTTS، ويتطلع إلى تقديم الخطوة التالية نحو أنظمة نص-صوت على مستوى الدولة. يُodel إطار StyleTTS2 أنماط الصوت كمتغيرات عشوائية كامنة، ويتخدم نموذج انتشار احتمالي لتحصين هذه الأنماط أو المتغيرات العشوائية، مما يسمح لإطار StyleTTS2 بتركيب صوت واقعي بشكل فعال دون استخدام إدخالات صوتية مرجعية. بفضل هذا النهج، يُodel إطار StyleTTS2 نتائج أفضل ويُظهر كفاءة عالية عند مقارنته بإطارات نص-صوت الحالية على مستوى الدولة، ولكنه أيضًا يستفيد من التركيب الصوتي المتنوع الذي تقدمه إطارات النموذج الاختلافي.

StyleTTS2 لتركيب نص-صوت: مقدمة

StyleTTS2 هو نموذج تركيب نص-صوت مبتكر يأخذ الخطوة التالية نحو بناء إطارات نص-صوت على مستوى الإنسان، ويتبنى على StyleTTS، وهو نموذج توليد صوت على أساس الأنماط. يُodel إطار StyleTTS2 أنماط الصوت كمتغيرات عشوائية كامنة، ويتخدم نموذج انتشار احتمالي لتحصين هذه الأنماط أو المتغيرات العشوائية، مما يسمح لإطار StyleTTS2 بتركيب صوت واقعي بشكل فعال دون استخدام إدخالات صوتية مرجعية. نمذجة الأنماط كمتغيرات عشوائية كامنة هي ما يفصل إطار StyleTTS2 عن سابقه، إطار StyleTTS، ويتطلع إلى توليد نمط صوت مناسب nhất للنص الإدخالي دون الحاجة إلى إدخال صوتي مرجعي، ويمكنه تحقيق انتشار كامن فعال مع الاستفادة من القدرات الصوتية المتنوعة التي تقدمها نماذج الاختلاف.

StyleTTS2: الهيكل والمنهجية

في جوهره، يبنى StyleTTS2 على سابقه، إطار StyleTTS، وهو إطار نص-صوت غير تكراري يستخدم مشفر الأنماط لاستخلاص متجه نمط من الصوت المرجعي، مما يسمح بتركيب صوت طبيعي وتعبيري. يُodel متجه النمط المستخدم في إطار StyleTTS بشكل مباشر في المشفر والمدة والتنبؤات باستخدام تطبيع الحالة التكيفية، مما يسمح بنموذج StyleTTS بتركيب صوت خرجي مع نبرة ومدة ومشاعر مختلفة.

تدريب النموذج وتقييمه

يتدرب إطار StyleTTC2 ويتجرب على ثلاث مجموعات بيانات: VCTK وLibriTTS وLJSpeech. يتم تدريب المكون الفردي لإطار StyleTTS2 باستخدام مجموعة بيانات LJSpeech التي تحتوي على ما يقرب من 13,000+ نموذج صوتي مقسم إلى 12,500 نموذج تدريبي و100 نموذج التحقق و500 نموذج اختبار، مع وقت تشغيل إجمالي يبلغ حوالي 24 ساعة.

النتائج

منهجية ونهج إطار StyleTTS2 تظهر في أدائه حيث يتفوق النموذج على عدة إطارات نص-صوت على مستوى الدولة، خاصة على مجموعة بيانات NaturalSpeech، ويتطلع إلى وضع معيار جديد للمجموعة. بالإضافة إلى ذلك، يتفوق إطار StyleTTS2 على إطار VITS الحالي على مجموعة بيانات VCTK، والنتائج موضحة في الشكل التالي.

أفكار ختامية

في هذه المقالة، تحدثنا عن StyleTTS2، وهو إطار نص-صوت جديد ومتين وابتكاري يبنى على أسس إطار StyleTTS، ويتطلع إلى تقديم الخطوة التالية نحو أنظمة نص-صوت على مستوى الدولة. يُodel إطار StyleTTS2 أنماط الصوت كمتغيرات عشوائية كامنة، ويتخدم نموذج انتشار احتمالي لتحصين هذه الأنماط أو المتغيرات العشوائية، مما يسمح لإطار StyleTTS2 بتركيب صوت واقعي بشكل فعال دون استخدام إدخالات صوتية مرجعية.

Unite.AI