בינה מלאכותית

OpenVoice: קלונינג קול מיידי רב-תכליתי

Published February 5, 2024

Updated April 4, 2026

Kunal Kejriwal

בסינתזת Text-to-Speech (TTS), Instant Voice Cloning (IVC) מאפשר למודל TTS לשכפל את קולו של כל דובר התייחסות באמצעות דגימת אודיו קצרה, ללא צורך באימון נוסף עבור הדובר ההתייחסות. טכניקה זו ידועה גם בשם Zero-Shot Text-to-Speech Synthesis. גישת Instant Voice Cloning מאפשרת התאמה גמישה של הקול המיוצר ומדגימה ערך משמעותי במגוון רחב של מצבים בעולם האמיתי, כולל צ’אטבוטים מותאמים, יצירת תוכן ואינטראקציות בין בני אדם ל- Large Language Models (LLMs).

על אף שארכיטקטורות קלונינג הקול הנוכחיות עושות את עבודתן היטב, הן מלאות במספר אתגרים בתחום, כולל בקרת סגנון קול גמישה, כלומר מודלים חסרים את היכולת להתמצא בסגנונות קול באופן גמיש לאחר שיבוט הקול. עוד אתגר עיקרי שנתקלים בו כיום מסגרות קלונינג מיידי הוא שיבוט קול צולב לשונית ב-Zero-Shot , כלומר לצורכי אימון, המודלים הנוכחיים דורשים גישה למאגר נתונים רב-דוברים רב-לשוני (MSML) נרחב, ללא קשר לשפה.

כדי לפתור את הבעיות הללו ולתרום לשיפור מודלים של שיבוט קול מיידי, מפתחים עבדו על OpenVoice, מסגרת שיבוט קול מיידי רב-תכליתית, המשתפלת את קולו של כל משתמש ומייצרת דיבור במספר שפות באמצעות קטע אודיו קצר מהדובר ההתייחסות. OpenVoice מדגימה כי מודלים של Instant Voice Cloning יכולים לשכפל את צבע הטון של הדובר ההתייחסות, ולהשיג שליטה גרנולרית על סגנונות קול, כולל מבטא, קצב, הטעמה, פסקאות ואפילו רגשות. מה שמרשים יותר הוא שמסגרת OpenVoice מדגימה יכולות רמרטיביות בהשגת שיבוט קול צולב-לשוני ב-Zero-Shot, המאפשרת ל-OpenVoice לשבט קולות לשפות חדשות ללא אימון נרחב לשפה ההיא. OpenVoice מצליחה לספק תוצאות שיבוט קול מיידי עליונות בעודה כדאית מבחינה חישובית, עם עלות הפעלה עד 10 פעמים פחות מאשר API נוכחיים עם ביצועים נחותים.

במאמר זה, נדבר על מסגרת OpenVoice בעומק, ונחשוף את הארכיטקטורה שלה, המאפשרת לה לספק ביצועים עליונים במשימות שיבוט קול מיידי. ולכן, בואו נתחיל.

OpenVoice : מאפשרת שיבוט קול מיידי רב-תכליתי

כפי שצוין קודם, Instant Voice Cloning, הידועה גם בשם Zero-Shot Text to Speech Synthesis, מאפשרת למודל TTS לשכפל את קולו של כל דובר התייחסות באמצעות דגימת אודיו קצרה, ללא צורך באימון נוסף עבור הדובר ההתייחסות. שיטת Instant Voice Cloning הייתה תמיד נושא מחקר פופולרי, עם עבודות קיימות, כולל XTTS ו-VALLE, המחלצות אימוץ דובר ו/או טוקנים אקוסטיים מהאודיו ההתייחסות, המשמשים כתנאי למודל האוטו-רגרסיבי. המודל האוטו-רגרסיבי אז מייצר טוקנים אקוסטיים ברצף, ואז מפענח את הטוקנים הללו לגל רווח אודיו.

על אף שמודלים אוטו-רגרסיביים של Instant Voice Cloning שובטים את צבע הטון באופן מרשים, הם נכשלים בהתמצאות בפרמטרים אחרים של סגנון, כולל מבטא, רגש, פסקאות וקצב. כמו כן, מודלים אוטו-רגרסיביים חווים מהירות היסטורית נמוכה, ועלויות הפעלתם גבוהות. גישות קיימות, כגון YourTTS, מנצלות גישה לא-אוטו-רגרסיבית, המדגימה מהירות היסטורית משמעותית יותר מאשר גישות אוטו-רגרסיביות, אך עדיין אינן מסוגלות לספק למשתמשים שליטה גמישה על פרמטרים של סגנון.

כדי לפתור את האתגרים הללו, מפתחים עבדו על OpenVoice, ספריית שיבוט קול מיידי פתוחה, המטרה לפתור את האתגרים הבאים הנתקלים במסגרות IVC נוכחיות.

האתגר הראשון הוא לאפשר למסגרות IVC להיות בעלות שליטה גמישה על פרמטרים של סגנון, בנוסף לצבע הטון, כולל מבטא, קצב, הטעמה ופסקאות. פרמטרים של סגנון הם חיוניים ליצירת שיחות טבעיות ודיבור, ולא רק לקריאת הטקסט הקלט באופן מונוטוני.
האתגר השני הוא לאפשר למסגרות IVC לשבט קולות צולב-לשוניים בהגדרת Zero-Shot.
האתגר האחרון הוא להשיג מהירויות היסטורית אמיתיות גבוהות, ללא פגיעה באיכות.

כדי לפתור את שני המכשולים הראשונים, הארכיטקטורה של מסגרת OpenVoice תוכננה באופן המאפשר לה להיפרד מרכיבים בקול, ככל האפשר. כמו כן, OpenVoice מייצרת צבע טון, שפה ומאפיינים אחרים של קול, באופן עצמאי, מה שמאפשר למסגרת להתמצא באופן גמיש בסוגים שונים של שפה וסגנונות קול. מסגרת OpenVoice פותרת את האתגר השלישי באופן אוטומטי, שכן המבנה המנותק מקטין את הסיבוכיות החישובית ואת דרישות הגודל של המודל.

OpenVoice : מתודולוגיה וארכיטקטורה

המסגרת הטכנית של OpenVoice היא יעילה ופשוטה ליישום. אין סוד בכך ששיבוט צבע הטון לכל דובר, הוספת שפה חדשה ואפשרות שליטה גמישה על פרמטרים של קול, בו-זמנית, יכול להיות אתגרי. זאת מכיוון שביצוע שלוש המשימות הללו בו-זמנית דורש מפרמטרים מבוקרים לחתוך באמצעות חלק גדול של מאגרי נתונים משולבים.

בליבה, מסגרת OpenVoice מנצלת שני רכיבים: ממיר צבע טון, ומודל TTS של דובר בסיס. מודל TTS של דובר בסיס הוא מודל יחיד-דובר או רב-דובר, המאפשר שליטה מדויקת על פרמטרים של סגנון, שפה ומבטא. המודל מייצר קול, אשר אז מועבר לממיר צבע הטון, המשנה את צבע הטון של הדובר הבסיס לצבע הטון של הדובר ההתייחסות.

מסגרת OpenVoice מציעה הרבה גמישות כאשר מדובר במודל TTS של דובר בסיס, שכן היא יכולה לנצל את מודל VITS עם שינויים קלים, המאפשרים לו לקבל אימוץ שפה ושליטה על סגנון במנבא המשך ובמקודד הטקסט. המסגרת יכולה גם לנצל מודלים כגון Microsoft TTS, הזולים מבחינה מסחרית, או לפרוס מודלים כגון InstructTTS, המסוגלים לקבל פרומפטים של סגנון. לעת עתה, מסגרת OpenVoice מנצלת את מודל VITS, אם כי המודלים האחרים הם אפשרות ברת-ביצוע.

באשר לרכיב השני, ממיר צבע הטון הוא רכיב מסוג encoder-decoder, המכיל זרימת normalizing הפיך במרכז. הרכיב המקודד בממיר צבע הטון הוא CNN חד-ממדי, המקבל את הספקטרום ה-Fourier הקצר-זמן של מודל TTS של דובר בסיס כקלט. המקודד אז מייצר מפות תכונות כפלט. ממיר צבע הטון הוא CNN פשוט בעל שני ממדים, הפועל על המל-ספקטרוגרם של קול הקלט, ומייצר וקטור תכונה יחיד, המקודד את מידע צבע הטון.

שכבות הזרימה המתוקנות מקבלות את מפות התכונות המיוצרות על ידי המקודד כקלט, ומייצרות ייצוג תכונות, השומר על כל תכונות הסגנון, אך מחסל את מידע צבע הטון. מסגרת OpenVoice אז מיישמת את שכבות הזרימה בכיוון ההפוך, ולוקחת את ייצוגי התכונות כקלט, ומייצרת פלט.

כל הארכיטקטורה של מסגרת OpenVoice היא feed-forward, ללא שימוש ברכיבים אוטו-רגרסיביים. רכיב ממיר צבע הטון דומה להמרת קול מבחינה קונספטואלית, אך שונה במונחים של תפקוד, יעדי אימון והטיה במבנה המודל.

כמו כן, קיימת גישה שונה לחלוץ ייצוגי תכונות, השיטה המיושמת על ידי מסגרת OpenVoice מספקת איכות אודיו טובה יותר. זה גם שווה לציין כי מסגרת OpenVoice אינה מתכוונת להמציא רכיבים בארכיטקטורת המודל, אלא שני הרכיבים העיקריים, כלומר ממיר צבע הטון ומודל TTS של דובר בסיס, הם שניהם מבוססים על עבודות קיימות. המטרה העיקרית של מסגרת OpenVoice היא ליצור מסגרת מנותקת, המפרידה בין שליטת השפה לשליטת הסגנון, מצבע הטון.

בליבה, הפילוסופיה העיקרית של מסגרת OpenVoice היא להפריד את ייצור השפה והסגנונות מייצור צבע הטון. אחת החוזקות העיקריות של מסגרת OpenVoice היא שהקול המשובט הוא שוטף ובאיכות גבוהה, כל עוד הדובר הבסיס TTS מדבר בשוטף.

OpenVoice : ניסוי ותוצאות

הערכת משימות שיבוט קול היא משימה קשה, בשל מספר סיבות. ראשית, עבודות קיימות מנצלות לעיתים קרובות נתוני אימון ובדיקה שונים, מה שהופך את ההשוואה ביניהן ללא הוגנת.

בגלל שלוש הסיבות הללו, אין צדק בהשוואה נומרית בין מסגרות שיבוט קול קיימות. במקום זאת, זה הרבה יותר הגיוני להשוות את השיטות הללו באופן איכותני.

שיבוט צבע טון מדויק

כדי לנתח את ביצועיה, מפתחים בנו סט בדיקה עם אנשים אנונימיים, דמויות משחק וידוענים, המהווים את בסיס הדוברים ההתייחסות, ומציגים הפצה רחבה של קול, כולל דוגמאות נייטרליות וקולות ביטוייים ייחודיים. מסגרת OpenVoice מסוגלת לשבט את צבע הטון של הדובר ההתייחסות, ולייצר דיבור במספר שפות ומבטאים, עבור כל אחד מהדוברים ההתייחסות ו-4 הדוברים הבסיסיים.

בקרה גמישה על סגנונות קול

אחד היעדים של מסגרת OpenVoice הוא לשלוט בסגנונות דיבור באופן גמיש, באמצעות ממיר צבע הטון, המסוגל לשנות את צבע הטון, תוך שמירה על כל תכונות הקול האחרות.

ניסויים מראים כי המודל שומר על סגנונות הקול לאחר המרת צבע הטון. במקרים מסוימים, המודל מנייטרל את הרגשות במעט, בעיה שניתן לפתור על ידי מעבר של פחות מידע לשכבות הזרימה, כך שהן לא יוכלו להיפטר מהרגש. מסגרת OpenVoice מסוגלת לשמור על הסגנונות מהקול הבסיס, הודות לשימוש בממיר צבע הטון.

שיבוט קול צולב-לשוני

מסגרת OpenVoice אינה כוללת נתונים רב-דוברים עבור שפה לא נראית, ועדיין מסוגלת להשיג שיבוט קול צולב-לשוני קרוב ל-Zero-Shot. יכולות השיבוט הצולב-לשוני של מסגרת OpenVoice הן כפולות:

המודל מסוגל לשבט את צבע הטון של הדובר ההתייחסות בדיוק, כאשר שפת הדובר ההתייחסות לא נראית במאגר הנתונים הרב-דוברים רב-לשוני (MSML).
בנוסף, באירוע שבו שפת הדובר ההתייחסות לא נראית, מסגרת OpenVoice מסוגלת לשבט את קולו של הדובר ההתייחסות, ולדבר בשפה, בתנאי שמודל TTS של דובר בסיס תומך בשפה.

מחשבות סופיות

במאמר זה, דנו על OpenVoice, מסגרת שיבוט קול מיידי רב-תכליתית, המשתפלת את קולו של כל משתמש ומייצרת דיבור במספר שפות, באמצעות קטע אודיו קצר מהדובר ההתייחסות. OpenVoice מדגימה כי מודלים של Instant Voice Cloning יכולים לשכפל את צבע הטון של הדובר ההתייחסות, ולהשיג שליטה גרנולרית על סגנונות קול, כולל מבטא, קצב, הטעמה, פסקאות ואפילו רגשות. OpenVoice מצליחה לספק תוצאות שיבוט קול מיידי עליונות, בעודה כדאית מבחינה חישובית, עם עלויות הפעלה עד 10 פעמים פחות מאשר API נוכחיים עם ביצועים נחותים.

Unite.AI