Connect with us

HierSpeech++ : ื”ื™ืจืจื›ื™ื™ืช ืžื•ื“ืœ ื”ื™ืจืจื›ื™ ืœืกื™ื ืชื–ื” ืฉืœ ื“ื™ื‘ื•ืจ ื‘ืืคืก ืฉื•ื˜

ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช

HierSpeech++ : ื”ื™ืจืจื›ื™ื™ืช ืžื•ื“ืœ ื”ื™ืจืจื›ื™ ืœืกื™ื ืชื–ื” ืฉืœ ื“ื™ื‘ื•ืจ ื‘ืืคืก ืฉื•ื˜

mm

הפיתוחים האחרונים והקידום ביכולות של מודלי שפה גדולים מילאו תפקיד מרכזי בקידום המסגרות המבוססות LLM ליצירת אודיו וסינתזה של דיבור, במיוחד בהגדרת אפס שוט. מסגרות סינתזה של דיבור מסורתיות חוו התקדמויות משמעותיות כתוצאה משילוב מאפיינים נוספים כגון קודקים אודיו נוירונים לאודיו ברמת דיסקרט ויחידות דיבור. על אף שמסגרות אלו מספקות תוצאות מספקות, עדיין קיים מקום לשיפור, שכן המסגרות הנוכחיות המבוססות LLM לאודיו הן בעלות שלושה מגבלות עיקריות

  1. הן נוטות לייצר אוטומטית פלט אודיו שגורם לחוסר עמידות ומהירות הפרעה איטית, ותוצאה בשגיאות הגייה, השמטות או חזרות.
  2. הן נוטות להישען יתר על היחידות הדיבור הדיסקרטיות או קודק אודיו נוירוני מוקדם.
  3. הן דורשות כמות גדולה של נתוני אימון.

כדי לפתור את הבעיות הללו, ולשפר את היכולות של מודלי LLM לאודיו וסינתזה של דיבור, מפתחים הגיעו עם HierSpeech++, מסינתזר דיבור רובוסטי ויעיל לאפס שוט, להמרת קול וטקסט לדיבור או TTS. מסגרת HierSpeech++ בנויה על הידע של מסגרות סינתזה היררכית של דיבור, שלא רק משפרת את העמידות, אלא גם מוסיפה לביטוייות של פלט דיבור סינתטי, וכן משפרת את הטבעיות ודמיון הדובר של דיבור מלאכותי, אפילו בהגדרת אפס שוט.

… (the rest of the translation remains the same, following the exact structure and format as the original, without any modifications or additions)

"ืžื”ื ื“ืก ื‘ืžืงืฆื•ืข, ืกื•ืคืจ ื‘ืœื‘". ืงื•ื ืืœ ื”ื•ื ื›ื•ืชื‘ ื˜ื›ื ื™ ืขื ืื”ื‘ื” ืขืžื•ืงื” ื•ื”ื‘ื ื” ืฉืœ AI ื•-ML, ืžื•ืงื“ืฉ ืœืคืฉื˜ ืจืขื™ื•ื ื•ืช ืžื•ืจื›ื‘ื™ื ื‘ืชื—ื•ืžื™ื ืืœื” ื“ืจืš ืชื™ืขื•ื“ื• ื”ืžืขื ื™ื™ืŸ ื•ื”ืžื™ื“ืขื ื™.