בינה מלאכותית

StyleTTS 2: ייצור דיבור מטקסט ברמה אנושית עם מודלי שפה גדולים

Published December 4, 2023

Updated April 4, 2026

Kunal Kejriwal

בזכות עלייה בגישות סינתזה של דיבור טבעי וסינתטי, אחד ההישגים העיקריים שתעשיית הבינה המלאכותית השיגה בשנים האחרונות הוא לסנתז יעיל מסגרות טקסט-לדיבור עם יישומים פוטנציאליים בתחומים שונים, כולל ספרים מוקלטים, עוזרים וירטואליים, קריינות ועוד, עם כמה מודלים מתקדמים המספקים ביצועים ברמה אנושית ויעילות במגוון רחב של משימות קשורות לדיבור. אולם, למרות ביצועיהם החזקים, עדיין קיים מקום לשיפור למשימות בזכות דיבור ביטויי ומגוון, דרישה לכמות גדולה של נתונים לאימון מסגרות טקסט-לדיבור מתקדמות, ועמידות לטקסטים מחוץ לתפוצה, מה שגורם למפתחים לעבוד על מסגרת טקסט-לדיבור יותר עמידה ונגישה.

במאמר זה, נדבר על StyleTTS-2, מסגרת טקסט-לדיבור עמידה וחדשנית שנבנית על יסודות מסגרת ה-StyleTTS, ומטרתה להציג את הצעד הבא לעבר מערכות טקסט-לדיבור מתקדמות. מסגרת ה-StyleTTS2 מודלת סגנונות דיבור כמשתנים אקראיים לטנטיים, ומשתמשת במודל דיפוזיה פרובביליסטי כדי לדגום את סגנונות הדיבור או המשתנים האקראיים, מה שמאפשר למסגרת StyleTTS2 לסנתז דיבור ריאליסטי ביעילות ללא שימוש בקלטי אודיו.

StyleTTS2 לסינתזה של טקסט-לדיבור: מבוא

StyleTTS2 היא מודל סינתזה של טקסט-לדיבור חדשני שלוקח את הצעד הבא לעבר בניית מסגרות TTS ברמה אנושית, והיא בנויה על בסיס StyleTTS, מודל גנרטיבי של טקסט-לדיבור המבוסס על סגנון.

Unite.AI

StyleTTS 2: ייצור דיבור מטקסט ברמה אנושית עם מודלי שפה גדולים

StyleTTS2 לסינתזה של טקסט-לדיבור: מבוא

You may like