Rescale λ―ΈνŒ… μ˜ˆμ•½

StyleTTS 2: λŒ€κ·œλͺ¨ μŒμ„± μ–Έμ–΄ λͺ¨λΈμ„ μ‚¬μš©ν•œ 인간 μˆ˜μ€€μ˜ ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜

인곡지λŠ₯

StyleTTS 2: λŒ€κ·œλͺ¨ μŒμ„± μ–Έμ–΄ λͺ¨λΈμ„ μ‚¬μš©ν•œ 인간 μˆ˜μ€€μ˜ ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜

mm

μžμ—° 및 ν•©μ„± μŒμ„± ν•©μ„± μ ‘κ·Ό λ°©μ‹μ˜ μ¦κ°€λ‘œ 인해 AI 업계가 μ§€λ‚œ λͺ‡ λ…„ λ™μ•ˆ λ‹¬μ„±ν•œ μ£Όμš” μ„±κ³Ό 쀑 ν•˜λ‚˜λŠ” μ˜€λ””μ˜€λΆ, 가상 λΉ„μ„œ, μŒμ„± λ“± λ‹€μ–‘ν•œ μ‚°μ—… μ „λ°˜μ— 걸쳐 잠재적인 μ‘μš© ν”„λ‘œκ·Έλž¨μ„ μ‚¬μš©ν•˜μ—¬ ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜ ν”„λ ˆμž„μ›Œν¬λ₯Ό 효과적으둜 ν•©μ„±ν•œ κ²ƒμž…λ‹ˆλ‹€. -λ‚΄λ ˆμ΄μ…˜ λ“± λ‹€μ–‘ν•œ μŒμ„± κ΄€λ ¨ μž‘μ—…μ—μ„œ 인간 μˆ˜μ€€μ˜ μ„±λŠ₯κ³Ό νš¨μœ¨μ„±μ„ μ œκ³΅ν•˜λŠ” 일뢀 μ΅œμ²¨λ‹¨ λͺ¨λ“œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ κ°•λ ₯ν•œ μ„±λŠ₯에도 λΆˆκ΅¬ν•˜κ³  ν‘œν˜„λ ₯이 ν’λΆ€ν•˜κ³  λ‹€μ–‘ν•œ μŒμ„±, μ œλ‘œμƒ· ν…μŠ€νŠΈλ₯Ό μŒμ„± ν”„λ ˆμž„μ›Œν¬λ‘œ μ΅œμ ν™”ν•˜κΈ° μœ„ν•œ λŒ€λŸ‰μ˜ ν›ˆλ ¨ 데이터에 λŒ€ν•œ μš”κ΅¬ 사항, OOD λ˜λŠ” λ°°ν¬λ˜μ§€ μ•Šμ€ ν…μŠ€νŠΈμ— λŒ€ν•œ κ²¬κ³ μ„±μœΌλ‘œ 인해 μž‘μ—… κ°œμ„ μ˜ μ—¬μ§€κ°€ μ—¬μ „νžˆ 남아 μžˆμŠ΅λ‹ˆλ‹€. κ°œλ°œμžλŠ” λ”μš± κ°•λ ₯ν•˜κ³  μ ‘κ·Ό κ°€λŠ₯ν•œ ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜ ν”„λ ˆμž„μ›Œν¬λ₯Ό κ°œλ°œν•  수 μžˆμŠ΅λ‹ˆλ‹€. 

이 κΈ°μ‚¬μ—μ„œλŠ” StyleTTS ν”„λ ˆμž„μ›Œν¬λ₯Ό 기반으둜 κ΅¬μΆ•λœ κ°•λ ₯ν•˜κ³  ν˜μ‹ μ μΈ ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜ ν”„λ ˆμž„μ›Œν¬μΈ StyleTTS-2에 λŒ€ν•΄ μ„€λͺ…ν•˜κ³  μ΅œμ²¨λ‹¨ ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜ μ‹œμŠ€ν…œμ„ ν–₯ν•œ λ‹€μŒ 단계λ₯Ό μ œμ‹œν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” μŒμ„± μŠ€νƒ€μΌμ„ 잠재 λ¬΄μž‘μœ„ λ³€μˆ˜λ‘œ λͺ¨λΈλ§ν•˜κ³  ν™•λ₯ μ  ν™•μ‚° λͺ¨λΈμ„ μ‚¬μš©ν•˜μ—¬ μ΄λŸ¬ν•œ μŒμ„± μŠ€νƒ€μΌ λ˜λŠ” λ¬΄μž‘μœ„ λ³€μˆ˜λ₯Ό μƒ˜ν”Œλ§ν•˜λ―€λ‘œ StyleTTS2 ν”„λ ˆμž„μ›Œν¬κ°€ μ°Έμ‘° μ˜€λ””μ˜€ μž…λ ₯을 μ‚¬μš©ν•˜μ§€ μ•Šκ³ λ„ 사싀적인 μŒμ„±μ„ 효과적으둜 ν•©μ„±ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ ‘κ·Ό λ°©μ‹μœΌλ‘œ 인해 StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” ν˜„μž¬μ˜ ν…μŠ€νŠΈ λŒ€ μŒμ„± ν”„λ ˆμž„μ›Œν¬μ™€ 비ꡐ할 λ•Œ 더 λ‚˜μ€ κ²°κ³Όλ₯Ό μ œκ³΅ν•˜κ³  높은 νš¨μœ¨μ„±μ„ 보여쀄 뿐만 μ•„λ‹ˆλΌ ν™•μ‚° λͺ¨λΈ ν”„λ ˆμž„μ›Œν¬κ°€ μ œκ³΅ν•˜λŠ” λ‹€μ–‘ν•œ μŒμ„± 합성을 ν™œμš©ν•  μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€. μš°λ¦¬λŠ” StyleTTS2 ν”„λ ˆμž„μ›Œν¬μ— λŒ€ν•΄ 더 μžμ„Ένžˆ λ…Όμ˜ν•˜κ³  ν•΄λ‹Ή ν”„λ ˆμž„μ›Œν¬λ₯Ό 톡해 얻은 κ²°κ³Όλ₯Ό μ‚΄νŽ΄λ³΄λŠ” λ™μ‹œμ— μ•„ν‚€ν…μ²˜μ™€ 방법둠에 λŒ€ν•΄ 이야기할 κ²ƒμž…λ‹ˆλ‹€. 그럼 μ‹œμž‘ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. 

ν…μŠ€νŠΈ μŒμ„± 합성을 μœ„ν•œ StyleTTS2: μ†Œκ°œ

StyleTTS2λŠ” 인간 μˆ˜μ€€μ˜ TTS ν”„λ ˆμž„μ›Œν¬ ꡬ좕을 ν–₯ν•œ λ‹€μŒ 단계λ₯Ό μˆ˜ν–‰ν•˜λŠ” ν˜μ‹ μ μΈ ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜ ν•©μ„± λͺ¨λΈμ΄λ©° μŠ€νƒ€μΌ 기반 ν…μŠ€νŠΈμΈ StyleTTSλ₯Ό 기반으둜 κ΅¬μΆ•λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μŒμ„± 생성 λͺ¨λΈ. StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” μŒμ„± μŠ€νƒ€μΌμ„ 잠재 λ¬΄μž‘μœ„ λ³€μˆ˜λ‘œ λͺ¨λΈλ§ν•˜κ³  ν™•λ₯ μ  ν™•μ‚° λͺ¨λΈμ„ μ‚¬μš©ν•˜μ—¬ μ΄λŸ¬ν•œ μŒμ„± μŠ€νƒ€μΌ λ˜λŠ” λ¬΄μž‘μœ„ λ³€μˆ˜λ₯Ό μƒ˜ν”Œλ§ν•˜λ―€λ‘œ StyleTTS2 ν”„λ ˆμž„μ›Œν¬κ°€ μ°Έμ‘° μ˜€λ””μ˜€ μž…λ ₯을 μ‚¬μš©ν•˜μ§€ μ•Šκ³ λ„ 사싀적인 μŒμ„±μ„ 효과적으둜 ν•©μ„±ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μŠ€νƒ€μΌμ„ 잠재 ν™•λ₯  λ³€μˆ˜λ‘œ λͺ¨λΈλ§ν•˜λŠ” 것은 StyleTTS2 ν”„λ ˆμž„μ›Œν¬λ₯Ό 이전 StyleTTS ν”„λ ˆμž„μ›Œν¬μ™€ λΆ„λ¦¬ν•˜λŠ” 것이며, μ°Έμ‘° μ˜€λ””μ˜€ μž…λ ₯ 없이 μž…λ ₯ ν…μŠ€νŠΈμ— κ°€μž₯ μ ν•©ν•œ μŒμ„± μŠ€νƒ€μΌμ„ μƒμ„±ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•˜λ©°, κ°€μ Έμ˜€λŠ” λ™μ•ˆ 효과적인 잠재 확산을 달성할 수 μžˆμŠ΅λ‹ˆλ‹€. μ—μ„œ μ œκ³΅ν•˜λŠ” λ‹€μ–‘ν•œ μŒμ„± ν•©μ„± κΈ°λŠ₯의 μž₯점 ν™•μ‚° λͺ¨λΈ. λ˜ν•œ StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” 사전 ν›ˆλ ¨λœ λŒ€κ·œλͺ¨ SLM λ˜λŠ” μŒμ„± μ–Έμ–΄ λͺ¨λΈμ„ WavLM ν”„λ ˆμž„μ›Œν¬μ™€ 같은 νŒλ³„μžλ‘œ μ‚¬μš©ν•˜κ³  이λ₯Ό κ³ μœ ν•œ μƒˆλ‘œμš΄ μ°¨λ“± 지속 κΈ°κ°„ λͺ¨λΈλ§ μ ‘κ·Ό 방식과 κ²°ν•©ν•˜μ—¬ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ—”λ“œ 투 μ—”λ“œλ‘œ ν›ˆλ ¨ν•˜κ³  ꢁ극적으둜 μžμ—°μ„±μ΄ ν–₯μƒλœ μŒμ„±μ„ μƒμ„±ν•©λ‹ˆλ‹€. λ”°λ₯΄λŠ” μ ‘κ·Ό 방식 덕뢄에 StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” μŒμ„± 생성 μž‘μ—…μ„ μœ„ν•œ μ΅œμ‹  ν”„λ ˆμž„μ›Œν¬λ³΄λ‹€ μ„±λŠ₯이 λ›°μ–΄λ‚˜λ©° ν™”μž 적응 μž‘μ—…μ„ μœ„ν•œ μ œλ‘œμƒ· μ„€μ •μ—μ„œ λŒ€κ·œλͺ¨ μŒμ„± λͺ¨λΈμ„ 사전 ν›ˆλ ¨ν•˜λŠ” κ°€μž₯ 효율적인 ν”„λ ˆμž„μ›Œν¬ 쀑 ν•˜λ‚˜μž…λ‹ˆλ‹€. 

인간 μˆ˜μ€€μ˜ ν…μŠ€νŠΈλ₯Ό μŒμ„± ν•©μ„±μœΌλ‘œ μ „λ‹¬ν•˜κΈ° μœ„ν•΄ StyleTTs2 ν”„λ ˆμž„μ›Œν¬λŠ” μŒμ„± 합성을 μœ„ν•œ ν™•μ‚° λͺ¨λΈ 및 λŒ€κ·œλͺ¨ μŒμ„± μ–Έμ–΄ λͺ¨λΈμ„ ν¬ν•¨ν•œ κΈ°μ‘΄ μž‘μ—…μ˜ ν•™μŠ΅ λ‚΄μš©μ„ ν†΅ν•©ν•©λ‹ˆλ‹€. ν™•μ‚° λͺ¨λΈμ€ λ―Έμ„Έν•œ μŒμ„± μ œμ–΄ κΈ°λŠ₯κ³Ό λ‹€μ–‘ν•œ μŒμ„± μƒ˜ν”Œλ§ κΈ°λŠ₯ 덕뢄에 일반적으둜 μŒμ„± ν•©μ„± μž‘μ—…μ— μ‚¬μš©λ©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ ν™•μ‚° λͺ¨λΈμ€ GAN 기반 λΉ„λ°˜λ³΅ ν”„λ ˆμž„μ›Œν¬λ§ŒνΌ νš¨μœ¨μ μ΄μ§€ μ•ŠμœΌλ©° κ·Έ μ£Όμš” μ΄μœ λŠ” 잠재 ν‘œν˜„, νŒŒν˜• 및 멜 μŠ€νŽ™νŠΈλ‘œκ·Έλž¨μ„ μŒμ„±μ˜ λͺ©ν‘œ 지속 μ‹œκ°„κΉŒμ§€ 반볡적으둜 μƒ˜ν”Œλ§ν•΄μ•Ό ν•˜κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. 

반면, λŒ€κ·œλͺ¨ μŒμ„± μ–Έμ–΄ λͺ¨λΈμ— κ΄€ν•œ 졜근 μ—°κ΅¬μ—μ„œλŠ” μŒμ„± 생성 μž‘μ—…μ— λŒ€ν•œ ν…μŠ€νŠΈ ν’ˆμ§ˆμ„ ν–₯μƒμ‹œν‚€κ³  ν™”μžμ—κ²Œ 잘 μ μ‘ν•˜λŠ” λŠ₯λ ₯이 μžˆμŒμ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. λŒ€κ·œλͺ¨ μŒμ„± μ–Έμ–΄ λͺ¨λΈμ€ 일반적으둜 ν…μŠ€νŠΈ μž…λ ₯을 μŒμ„± μž¬κ΅¬μ„± μž‘μ—…μ„ μœ„ν•΄ 사전 ν›ˆλ ¨λœ μŒμ„± μ–Έμ–΄ ν”„λ ˆμž„μ›Œν¬μ—μ„œ νŒŒμƒλœ μ–‘μžν™” λ˜λŠ” 연속 ν‘œν˜„μœΌλ‘œ λ³€ν™˜ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ μ΄λŸ¬ν•œ μŒμ„± μ–Έμ–΄ λͺ¨λΈμ˜ κΈ°λŠ₯은 μŒμ„± 합성에 μ§μ ‘μ μœΌλ‘œ μ΅œμ ν™”λ˜μ–΄ μžˆμ§€ μ•ŠμŠ΅λ‹ˆλ‹€. 반면 StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” 잠재 곡간 맡을 μ‚¬μš©ν•˜μ§€ μ•Šκ³  μŒμ„± μ–Έμ–΄ λͺ¨λΈμ˜ κΈ°λŠ₯을 ν•©μ„±ν•˜κΈ° μœ„ν•΄ μ λŒ€μ  ν›ˆλ ¨μ„ μ‚¬μš©ν•˜λŠ” λŒ€κ·œλͺ¨ SLM ν”„λ ˆμž„μ›Œν¬μ—μ„œ 얻은 지식을 ν™œμš©ν•˜λ―€λ‘œ μŒμ„± ν•©μ„± μ΅œμ ν™” 잠재 곡간을 직접 ν•™μŠ΅ν•©λ‹ˆλ‹€.  

StyleTTS2: μ•„ν‚€ν…μ²˜ 및 방법둠

기본적으둜 StyleTTS2λŠ” μŠ€νƒ€μΌ 인코더λ₯Ό μ‚¬μš©ν•˜μ—¬ μ°Έμ‘° μ˜€λ””μ˜€μ—μ„œ μŠ€νƒ€μΌ 벑터λ₯Ό νŒŒμƒμ‹œμΌœ ν‘œν˜„λ ₯ 있고 μžμ—°μŠ€λŸ¬μš΄ μŒμ„± 생성을 ν—ˆμš©ν•˜λŠ” λΉ„μžλ™ νšŒκ·€ ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜ ν”„λ ˆμž„μ›Œν¬μΈ 이전 버전인 StyleTTS ν”„λ ˆμž„μ›Œν¬λ₯Ό 기반으둜 κ΅¬μΆ•λ˜μ—ˆμŠ΅λ‹ˆλ‹€. StyleTTS ν”„λ ˆμž„μ›Œν¬μ— μ‚¬μš©λ˜λŠ” μŠ€νƒ€μΌ λ²‘ν„°λŠ” AdaIN λ˜λŠ” μ μ‘ν˜• μΈμŠ€ν„΄μŠ€ μ •κ·œν™”λ₯Ό μ‚¬μš©ν•˜μ—¬ 인코더, 지속 μ‹œκ°„ 및 예츑 λ³€μˆ˜μ— 직접 ν†΅ν•©λ˜λ―€λ‘œ StyleTTS λͺ¨λΈμ΄ λ‹€μ–‘ν•œ 운율, 지속 μ‹œκ°„ 및 κ°μ •κΉŒμ§€ ν¬ν•¨ν•˜λŠ” μŒμ„± 좜λ ₯을 생성할 수 μžˆμŠ΅λ‹ˆλ‹€. StyleTTS ν”„λ ˆμž„μ›Œν¬λŠ” 총 8개 λͺ¨λΈλ‘œ κ΅¬μ„±λ˜λ©° μ„Έ κ°€μ§€ λ²”μ£Όλ‘œ κ΅¬λΆ„λ©λ‹ˆλ‹€.

  1. μŠ€νƒ€μΌ 인코더, ν…μŠ€νŠΈ 인코더 및 μŒμ„± 디코더λ₯Ό κ°–μΆ˜ 음ν–₯ λͺ¨λΈ λ˜λŠ” μŒμ„± 생성 μ‹œμŠ€ν…œ. 
  2. 운율 및 κΈ°κ°„ 예츑자λ₯Ό ν™œμš©ν•˜λŠ” ν…μŠ€νŠΈ μŒμ„± 예츑 μ‹œμŠ€ν…œ. 
  3. ν›ˆλ ¨ λͺ©μ μ„ μœ„ν•œ ν…μŠ€νŠΈ μ •λ ¬κΈ°, ν”ΌμΉ˜ μΆ”μΆœκΈ° 및 νŒλ³„κΈ°λ₯Ό ν¬ν•¨ν•˜λŠ” μœ ν‹Έλ¦¬ν‹° μ‹œμŠ€ν…œμž…λ‹ˆλ‹€. 

μ ‘κ·Ό 방식 덕뢄에 StyleTTS ν”„λ ˆμž„μ›Œν¬λŠ” μ œμ–΄ κ°€λŠ₯ν•˜κ³  λ‹€μ–‘ν•œ μŒμ„± ν•©μ„±κ³Ό κ΄€λ ¨λœ μ΅œμ²¨λ‹¨ μ„±λŠ₯을 μ œκ³΅ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 이 μ„±λŠ₯μ—λŠ” μƒ˜ν”Œ ν’ˆμ§ˆ μ €ν•˜, ν‘œν˜„ μ œν•œ, μ‹€μ‹œκ°„ μŒμ„± λ°©ν•΄ μ‘μš© ν”„λ‘œκ·Έλž¨μ— λŒ€ν•œ μ˜μ‘΄μ„± λ“±μ˜ 단점이 μžˆμŠ΅λ‹ˆλ‹€. 

StyleTTS ν”„λ ˆμž„μ›Œν¬λ₯Ό κ°œμ„ ν•œ StyleTTS2 λͺ¨λΈμ€ ν‘œν˜„λ ₯이 ν–₯μƒλ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ—°μ„€λ¬Έ ν–₯μƒλœ μœ ν†΅ μ„±λŠ₯κ³Ό 인간 μˆ˜μ€€μ˜ 높은 ν’ˆμ§ˆλ‘œ μž‘μ—…μ„ μˆ˜ν–‰ν•©λ‹ˆλ‹€. StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” μ λŒ€μ  ν›ˆλ ¨κ³Ό 직접적인 νŒŒν˜• 합성을 톡해 λ‹€μ–‘ν•œ κ΅¬μ„±μš”μ†Œλ₯Ό μ΅œμ ν™”ν•˜λŠ” μ—”λ“œνˆ¬μ—”λ“œ ν›ˆλ ¨ ν”„λ‘œμ„ΈμŠ€λ₯Ό ν™œμš©ν•©λ‹ˆλ‹€. StyleTTS ν”„λ ˆμž„μ›Œν¬μ™€ 달리 StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” μŒμ„± μŠ€νƒ€μΌμ„ 잠재 λ³€μˆ˜λ‘œ λͺ¨λΈλ§ν•˜κ³  이λ₯Ό ν™•μ‚° λͺ¨λΈμ„ 톡해 μƒ˜ν”Œλ§ν•˜μ—¬ μ°Έμ‘° μ˜€λ””μ˜€λ₯Ό μ‚¬μš©ν•˜μ§€ μ•Šκ³  λ‹€μ–‘ν•œ μŒμ„± μƒ˜ν”Œμ„ μƒμ„±ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ ꡬ성 μš”μ†Œλ₯Ό μžμ„Ένžˆ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€. 

간섭에 λŒ€ν•œ μ—”λ“œνˆ¬μ—”λ“œ ꡐ윑

StyleTTS2 ν”„λ ˆμž„μ›Œν¬μ—μ„œλŠ” κ³ μ • ꡬ성 μš”μ†Œμ— μ˜μ‘΄ν•˜μ§€ μ•Šκ³ λ„ λ‹€μ–‘ν•œ ν…μŠ€νŠΈ-μŒμ„± ꡬ성 μš”μ†Œλ₯Ό 간섭에 맞게 μ΅œμ ν™”ν•˜κΈ° μœ„ν•΄ 쒅단 κ°„ ꡐ윑 μ ‘κ·Ό 방식이 ν™œμš©λ©λ‹ˆλ‹€. StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” μŠ€νƒ€μΌ 벑터, ν”ΌμΉ˜ 및 μ—λ„ˆμ§€ 곑선, μ •λ ¬λœ ν‘œν˜„μ—μ„œ 직접 νŒŒν˜•μ„ μƒμ„±ν•˜λ„λ‘ 디코더λ₯Ό μˆ˜μ •ν•˜μ—¬ 이λ₯Ό λ‹¬μ„±ν•©λ‹ˆλ‹€. 그런 λ‹€μŒ ν”„λ ˆμž„μ›Œν¬λŠ” λ””μ½”λ”μ˜ λ§ˆμ§€λ§‰ ν”„λ‘œμ μ…˜ λ ˆμ΄μ–΄λ₯Ό μ œκ±°ν•˜κ³  이λ₯Ό νŒŒν˜• λ””μ½”λ”λ‘œ λŒ€μ²΄ν•©λ‹ˆλ‹€. StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” 두 개의 인코더λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. HifiGAN 기반 λ””μ½”λ”λŠ” νŒŒν˜•μ„ 직접 μƒμ„±ν•˜κ³ , iSTFT 기반 λ””μ½”λ”λŠ” 더 λΉ λ₯Έ κ°„μ„­ 및 ν›ˆλ ¨μ„ μœ„ν•΄ νŒŒν˜•μœΌλ‘œ λ³€ν™˜λ˜λŠ” μœ„μƒ 및 크기λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€. 

μœ„ 그림은 사전 ν›ˆλ ¨κ³Ό 곡동 ν›ˆλ ¨μ— μ‚¬μš©λ˜λŠ” 음ν–₯ λͺ¨λΈμ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€. ν›ˆλ ¨ μ‹œκ°„μ„ 쀄이기 μœ„ν•΄ λ¨Όμ € 사전 ν›ˆλ ¨ λ‹¨κ³„μ—μ„œ λͺ¨λ“ˆμ„ μ΅œμ ν™”ν•œ ν›„ 곡동 ν›ˆλ ¨ 쀑에 ν”ΌμΉ˜ μΆ”μΆœκΈ°λ₯Ό μ œμ™Έν•œ λͺ¨λ“  ꡬ성 μš”μ†Œλ₯Ό μ΅œμ ν™”ν•©λ‹ˆλ‹€. κ΄€μ ˆ ν›ˆλ ¨μ΄ ν”ΌμΉ˜ μΆ”μΆœκΈ°λ₯Ό μ΅œμ ν™”ν•˜μ§€ μ•ŠλŠ” μ΄μœ λŠ” ν”ΌμΉ˜ 곑선에 λŒ€ν•œ Ground Truthλ₯Ό μ œκ³΅ν•˜λŠ” 데 μ‚¬μš©λ˜κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. 

μœ„ 그림은 사전 ν›ˆλ ¨λ˜μ—ˆμ§€λ§Œ 사전 μ‘°μ •λ˜μ§€ μ•Šμ€ WavLM ν”„λ ˆμž„μ›Œν¬μ™€μ˜ μŒμ„± μ–Έμ–΄ λͺ¨λΈμ˜ μ λŒ€μ  ν›ˆλ ¨ 및 간섭을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€. 이 ν”„λ‘œμ„ΈμŠ€λŠ” λ‹€μ–‘ν•œ μž…λ ₯ ν…μŠ€νŠΈλ₯Ό μ‚¬μš©ν•  수 μžˆμ§€λ§Œ κ·ΈλΌλ°μ΄μ…˜μ„ λˆ„μ ν•˜μ—¬ 각 배치의 λ§€κ°œλ³€μˆ˜λ₯Ό μ—…λ°μ΄νŠΈν•œλ‹€λŠ” μ μ—μ„œ μœ„μ—μ„œ μ–ΈκΈ‰ν•œ ν”„λ‘œμ„ΈμŠ€μ™€ λ‹€λ¦…λ‹ˆλ‹€. 

μŠ€νƒ€μΌ ν™•μ‚°

StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” 쑰건뢀 뢄포λ₯Ό λ”°λ₯΄λŠ” 잠재 λ³€μˆ˜λ₯Ό 톡해 μŒμ„±μ„ 쑰건뢀 λΆ„ν¬λ‘œ λͺ¨λΈλ§ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•˜λ©°, 이 λ³€μˆ˜λ₯Ό μΌλ°˜ν™”λœ μŒμ„± μŠ€νƒ€μΌμ΄λΌκ³  ν•˜λ©° μ–΄νœ˜ κ°•μ„Έλ₯Ό ν¬ν•¨ν•œ λͺ¨λ“  μŒμ„± μ½˜ν…μΈ μ˜ λ²”μœ„λ₯Ό λ„˜μ–΄μ„œλŠ” μŒμ„± μƒ˜ν”Œμ˜ λͺ¨λ“  νŠΉμ„±μ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€. 운율, λ§ν•˜κΈ° 속도, 심지어 포먼트 μ „ν™˜κΉŒμ§€. 

μŒμ„± μ–Έμ–΄ λͺ¨λΈ νŒλ³„μž

μŒμ„± μ–Έμ–΄ λͺ¨λΈμ€ κ΄‘λ²”μœ„ν•œ 의미둠 및 음ν–₯ 츑면에 λŒ€ν•œ κ·€μ€‘ν•œ 정보λ₯Ό μΈμ½”λ”©ν•˜λŠ” 일반적인 λŠ₯λ ₯으둜 유λͺ…ν•˜λ©°, SLM ν‘œν˜„μ€ μ „ν†΅μ μœΌλ‘œ μƒμ„±λœ ν•©μ„± μŒμ„±μ˜ ν’ˆμ§ˆμ„ ν‰κ°€ν•˜κΈ° μœ„ν•΄ μΈκ°„μ˜ 인식을 λͺ¨λ°©ν•  수 μžˆμ—ˆμŠ΅λ‹ˆλ‹€. StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” 생성 μž‘μ—…μ„ μˆ˜ν–‰ν•˜κΈ° μœ„ν•΄ SLM μΈμ½”λ”μ˜ κΈ°λŠ₯을 ν™œμš©ν•˜κΈ° μœ„ν•΄ μ λŒ€μ  ν›ˆλ ¨ μ ‘κ·Ό 방식을 μ‚¬μš©ν•˜κ³ , νŒλ³„μžλ‘œ 12계측 WavLM ν”„λ ˆμž„μ›Œν¬λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. 이 μ ‘κ·Ό 방식을 μ‚¬μš©ν•˜λ©΄ ν”„λ ˆμž„μ›Œν¬μ—μ„œ μ„±λŠ₯ ν–₯상에 도움이 될 수 μžˆλŠ” OOD λ˜λŠ” λ°°ν¬λ˜μ§€ μ•Šμ€ ν…μŠ€νŠΈμ— λŒ€ν•œ κ΅μœ‘μ„ ν™œμ„±ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ 과적합 문제λ₯Ό λ°©μ§€ν•˜κΈ° μœ„ν•΄ ν”„λ ˆμž„μ›Œν¬λŠ” OOD ν…μŠ€νŠΈμ™€ 뢄포λ₯Ό λ™μΌν•œ ν™•λ₯ λ‘œ μƒ˜ν”Œλ§ν•©λ‹ˆλ‹€. 

λ―ΈλΆ„ κ°€λŠ₯ν•œ κΈ°κ°„ λͺ¨λΈλ§

μ „ν†΅μ μœΌλ‘œ κΈ°κ°„ μ˜ˆμΈ‘μžλŠ” μŒμ†Œ 기간을 μƒμ„±ν•˜λŠ” ν…μŠ€νŠΈ-μŒμ„± ν”„λ ˆμž„μ›Œν¬μ— μ‚¬μš©λ˜μ§€λ§Œ μ΄λŸ¬ν•œ κΈ°κ°„ μ˜ˆμΈ‘μžκ°€ μ‚¬μš©ν•˜λŠ” μ—…μƒ˜ν”Œλ§ 방법은 E2E ꡐ윑 ν”„λ‘œμ„ΈμŠ€ 쀑에 κ·ΈλΌλ°μ΄μ…˜ 흐름을 μ°¨λ‹¨ν•˜λŠ” κ²½μš°κ°€ 많으며 NaturalSpeech ν”„λ ˆμž„μ›Œν¬λŠ” 인간 μˆ˜μ€€μ— λŒ€ν•œ 주의 기반 μ—…μƒ˜ν”ŒλŸ¬λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. ν…μŠ€νŠΈλ₯Ό μŒμ„±μœΌλ‘œ λ³€ν™˜ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” 편차둜 μΈν•œ 길이 뢈일치둜 μΈν•œ μΆ”κ°€ ν•­μ˜ 손싀 없이 λ‹€μ–‘ν•œ μ λŒ€μ  ν›ˆλ ¨μœΌλ‘œ λ―ΈλΆ„ κ°€λŠ₯ν•œ μ—…μƒ˜ν”Œλ§μ„ μ‚¬μš©ν•˜μ—¬ ν›ˆλ ¨ν•˜κΈ° λ•Œλ¬Έμ— μ λŒ€μ  ν›ˆλ ¨ 쀑에 이 μ ‘κ·Ό 방식이 λΆˆμ•ˆμ •ν•˜λ‹€λŠ” 것을 λ°œκ²¬ν•©λ‹ˆλ‹€. μ†Œν”„νŠΈ 동적 μ‹œκ°„ μ™œκ³‘ μ ‘κ·Ό 방식을 μ‚¬μš©ν•˜λ©΄ μ΄λŸ¬ν•œ 뢈일치λ₯Ό μ™„ν™”ν•˜λŠ” 데 도움이 될 수 μžˆμ§€λ§Œ 이λ₯Ό μ‚¬μš©ν•˜λ©΄ 계산 λΉ„μš©μ΄ 많이 λ“€ 뿐만 μ•„λ‹ˆλΌ μ λŒ€μ  λͺ©ν‘œλ‚˜ 멜 μž¬κ΅¬μ„± μž‘μ—…μ„ μˆ˜ν–‰ν•  λ•Œ μ•ˆμ •μ„±λ„ λ¬Έμ œκ°€ λ©λ‹ˆλ‹€. λ”°λΌμ„œ μ λŒ€μ  ν›ˆλ ¨μœΌλ‘œ 인간 μˆ˜μ€€μ˜ μ„±λŠ₯을 λ‹¬μ„±ν•˜κ³  ν›ˆλ ¨ ν”„λ‘œμ„ΈμŠ€λ₯Ό μ•ˆμ •ν™”ν•˜κΈ° μœ„ν•΄ StyleTTC2 ν”„λ ˆμž„μ›Œν¬λŠ” λΉ„λͺ¨μˆ˜μ  μ—…μƒ˜ν”Œλ§ μ ‘κ·Ό 방식을 μ‚¬μš©ν•©λ‹ˆλ‹€. κ°€μš°μŠ€ μ—…μƒ˜ν”Œλ§μ€ 미리 κ²°μ •λœ κ°€μš°μŠ€ μ»€λ„μ˜ κ³ μ • 길이둜 인해 μ œν•œμ΄ μžˆμ§€λ§Œ 예츑 기간을 λ³€ν™˜ν•˜λŠ” 데 널리 μ‚¬μš©λ˜λŠ” λΉ„λͺ¨μˆ˜μ  μ—…μƒ˜ν”Œλ§ μ ‘κ·Ό λ°©μ‹μž…λ‹ˆλ‹€. κ°€μš°μŠ€ μ—…μƒ˜ν”Œλ§μ— λŒ€ν•œ μ΄λŸ¬ν•œ μ œν•œμœΌλ‘œ 인해 λ‹€μ–‘ν•œ 길이의 정렬을 μ •ν™•ν•˜κ²Œ λͺ¨λΈλ§ν•˜λŠ” κΈ°λŠ₯이 μ œν•œλ©λ‹ˆλ‹€. 

μ΄λŸ¬ν•œ μ œν•œμ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄ StyleTTC2 ν”„λ ˆμž„μ›Œν¬λŠ” μΆ”κ°€ ꡐ윑 없이 λ‹€μ–‘ν•œ μ •λ ¬ 길이λ₯Ό μ„€λͺ…ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ λΉ„λͺ¨μˆ˜μ  μ—…μƒ˜ν”Œλ§ μ ‘κ·Ό 방식을 μ‚¬μš©ν•  것을 μ œμ•ˆν•©λ‹ˆλ‹€. 각 μŒμ†Œμ— λŒ€ν•΄ StyleTTC2 ν”„λ ˆμž„μ›Œν¬λŠ” 정렬을 λ¬΄μž‘μœ„ λ³€μˆ˜λ‘œ λͺ¨λΈλ§ν•˜κ³  μŒμ†Œκ°€ μ •λ ¬λ˜λŠ” μŒμ„± ν”„λ ˆμž„μ˜ 인덱슀λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€. 

λͺ¨λΈ ꡐ윑 및 평가

StyleTTC2 ν”„λ ˆμž„μ›Œν¬λŠ” VCTK, LibriTTS 및 LJSpeech의 μ„Έ κ°€μ§€ 데이터 μ„ΈνŠΈμ—μ„œ ν›ˆλ ¨λ˜κ³  μ‹€ν—˜λ˜μ—ˆμŠ΅λ‹ˆλ‹€. StyleTTS2 ν”„λ ˆμž„μ›Œν¬μ˜ 단일 ν™”μž ꡬ성 μš”μ†ŒλŠ” μ•½ 13,000개 μ΄μƒμ˜ μ˜€λ””μ˜€ μƒ˜ν”Œμ΄ 12,500개의 ν›ˆλ ¨ μƒ˜ν”Œ, 100개의 검증 μƒ˜ν”Œ 및 거의 500개의 ν…ŒμŠ€νŠΈ μƒ˜ν”Œλ‘œ λΆ„ν• λ˜μ–΄ ν¬ν•¨λœ LJSpeech 데이터 μ„ΈνŠΈλ₯Ό μ‚¬μš©ν•˜μ—¬ ν›ˆλ ¨λ˜μ—ˆμœΌλ©°, 총 μ‹€ν–‰ μ‹œκ°„μ€ 거의 24μ‹œκ°„μ— λ‹¬ν•©λ‹ˆλ‹€. ν”„λ ˆμž„μ›Œν¬μ˜ 닀쀑 ν™”μž ꡬ성 μš”μ†ŒλŠ” λ‹€μ–‘ν•œ μ•…μ„ΌνŠΈλ₯Ό κ°€μ§„ 44,000λͺ… μ΄μƒμ˜ κ°œλ³„ 원어민이 ν¬ν•¨λœ 100개 μ΄μƒμ˜ μ˜€λ””μ˜€ 클립으둜 κ΅¬μ„±λœ VCTK 데이터 μ„ΈνŠΈμ—μ„œ ν›ˆλ ¨λ˜μ—ˆμœΌλ©° 43,500개의 ν›ˆλ ¨ μƒ˜ν”Œ, 100개의 검증 μƒ˜ν”Œ 및 거의 500개의 ν…ŒμŠ€νŠΈ μƒ˜ν”Œλ‘œ λΆ„ν• λ©λ‹ˆλ‹€. λ§ˆμ§€λ§‰μœΌλ‘œ, ν”„λ ˆμž„μ›Œν¬μ— μ œλ‘œμƒ· 적응 κΈ°λŠ₯을 κ°–μΆ”κΈ° μœ„ν•΄ ν”„λ ˆμž„μ›Œν¬λŠ” 250개 μ΄μƒμ˜ κ°œλ³„ ν™”μžμ™€ ν•¨κ»˜ 총 μ•½ 1,150μ‹œκ°„μ˜ μ˜€λ””μ˜€ 클립으둜 κ΅¬μ„±λœ κ²°ν•©λœ LibriTTS λ°μ΄ν„°μ„ΈνŠΈμ— λŒ€ν•΄ ν›ˆλ ¨λ©λ‹ˆλ‹€. μ„±λŠ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•΄ λͺ¨λΈμ€ 두 κ°€μ§€ μΈ‘μ •ν•­λͺ©μ„ μ‚¬μš©ν•©λ‹ˆλ‹€. λͺ¨μŠ€-N λ˜λŠ” μžμ—°μŠ€λŸ¬μ›€μ˜ 평균 의견 점수, 그리고 이끼 λ˜λŠ” μœ μ‚¬μ„±μ˜ 평균 의견 점수. 

κ²°κ³Ό

StyleTTS2 ν”„λ ˆμž„μ›Œν¬μ— μ‚¬μš©λœ μ ‘κ·Ό 방식과 방법둠은 λͺ¨λΈμ΄ 특히 NaturalSpeech 데이터 μ„ΈνŠΈ 및 도쀑에 μ—¬λŸ¬ μ΅œμ²¨λ‹¨ TTS ν”„λ ˆμž„μ›Œν¬λ₯Ό λŠ₯κ°€ν•˜μ—¬ 데이터 μ„ΈνŠΈμ— λŒ€ν•œ μƒˆλ‘œμš΄ ν‘œμ€€μ„ μ„€μ •ν•˜λ―€λ‘œ μ„±λŠ₯μ—μ„œ μž…μ¦λ©λ‹ˆλ‹€. λ˜ν•œ StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” VCTK 데이터 μ„ΈνŠΈμ—μ„œ μ΅œμ²¨λ‹¨ VITS ν”„λ ˆμž„μ›Œν¬λ³΄λ‹€ μ„±λŠ₯이 λ›°μ–΄λ‚˜λ©° κ·Έ κ²°κ³ΌλŠ” λ‹€μŒ 그림에 λ‚˜μ™€ μžˆμŠ΅λ‹ˆλ‹€. 

StyleTTS2 λͺ¨λΈμ€ λ˜ν•œ LJSpeech 데이터 μ„ΈνŠΈμ—μ„œ 이전 λͺ¨λΈλ³΄λ‹€ μ„±λŠ₯이 λ›°μ–΄λ‚˜λ©° λ™μΌν•œ μΈ‘μ •ν•­λͺ©μ— λŒ€ν•΄ 이전 ν”„λ ˆμž„μ›Œν¬μ—μ„œ ν‘œμ‹œν•œ κ²ƒμ²˜λŸΌ OOD λ˜λŠ” 배포 쀑단 ν…μŠ€νŠΈμ— λŒ€ν•œ ν’ˆμ§ˆ μ €ν•˜λ₯Ό ν‘œμ‹œν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. λ˜ν•œ, μ œλ‘œμƒ· μ„€μ •μ—μ„œ StyleTTC2 λͺ¨λΈμ€ μœ μ‚¬μ„± μΈ‘λ©΄μ—μ„œλŠ” λ’€λ–¨μ–΄μ§€μ§€λ§Œ μžμ—°μŠ€λŸ¬μ›€μ—μ„œλŠ” κΈ°μ‘΄ Vall-E ν”„λ ˆμž„μ›Œν¬λ₯Ό λŠ₯κ°€ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ Vall-E ν”„λ ˆμž„μ›Œν¬μ˜ 2μ‹œκ°„ μ΄μƒμ˜ ꡐ윑과 비ꡐ할 λ•Œ StyleTTS245 ν”„λ ˆμž„μ›Œν¬λŠ” 60μ‹œκ°„μ˜ μ˜€λ””μ˜€ μƒ˜ν”Œλ§ŒμœΌλ‘œ κ΅μœ‘μ—λ„ λΆˆκ΅¬ν•˜κ³  경쟁λ ₯ μžˆλŠ” μ„±λŠ₯을 달성할 수 μžˆμœΌλ―€λ‘œ StyleTTC2κ°€ 데이터 효율적인 λŒ€μ•ˆμž„μ„ μž…μ¦ν•œλ‹€λŠ” 점은 μ£Όλͺ©ν•  κ°€μΉ˜κ°€ μžˆμŠ΅λ‹ˆλ‹€. Vall-Eμ—μ„œ μ‚¬μš©λ˜λŠ” 기쑴의 λŒ€κ·œλͺ¨ 사전 ν›ˆλ ¨ 방법에 μ μš©λ©λ‹ˆλ‹€. 

감정 λ ˆμ΄λΈ”μ΄ μ§€μ •λœ μ˜€λ””μ˜€ ν…μŠ€νŠΈ 데이터가 λΆ€μ‘±ν•˜κΈ° λ•Œλ¬Έμ— StyleTTC2 ν”„λ ˆμž„μ›Œν¬λŠ” GPT-4 λͺ¨λΈμ„ μ‚¬μš©ν•˜μ—¬ ν”„λ ˆμž„μ›Œν¬κ°€ μƒμ„±ν•˜λŠ” μŠ€νƒ€μΌ λ²‘ν„°μ˜ μ‹œκ°ν™”λ₯Ό μœ„ν•΄ λ‹€μ–‘ν•œ 감정에 걸쳐 500개 μ΄μƒμ˜ μΈμŠ€ν„΄μŠ€λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€. 방솑 ν”„λ‘œμ„ΈμŠ€. 

첫 번째 κ·Έλ¦Όμ—μ„œλŠ” μž…λ ₯된 ν…μŠ€νŠΈ 감정에 λ°˜μ‘ν•˜λŠ” 감정 μŠ€νƒ€μΌμ΄ LJSpeech λͺ¨λΈμ˜ μŠ€νƒ€μΌ λ²‘ν„°λ‘œ μ„€λͺ…λ˜λ©° λ‹€μ–‘ν•œ κ°μ •μœΌλ‘œ ν‘œν˜„μ μΈ μŒμ„±μ„ ν•©μ„±ν•˜λŠ” StyleTTC2 ν”„λ ˆμž„μ›Œν¬μ˜ λŠ₯λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. 두 번째 그림은 1개의 κ°œλ³„ μŠ€ν”Όμ»€ 각각에 λŒ€ν•œ κ³ μœ ν•œ ν΄λŸ¬μŠ€ν„° ν˜•νƒœλ₯Ό 보여 μ£Όλ―€λ‘œ 단일 μ˜€λ””μ˜€ νŒŒμΌμ—μ„œ λ°œμƒν•˜λŠ” κ΄‘λ²”μœ„ν•œ 닀양성을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€. λ§ˆμ§€λ§‰ 그림은 ν™”μž 2의 λŠμŠ¨ν•œ 감정 ν΄λŸ¬μŠ€ν„°λ₯Ό 보여주며 일뢀 쀑볡에도 λΆˆκ΅¬ν•˜κ³  감정 기반 ν΄λŸ¬μŠ€ν„°κ°€ λ‘λ“œλŸ¬μ Έ μ°Έμ‘° μ˜€λ””μ˜€ μƒ˜ν”Œ 및 μž…λ ₯ 톀에 관계없이 ν™”μžμ˜ 감정 μ‘°μœ¨μ„ μ‘°μž‘ν•  κ°€λŠ₯성을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€. . ν™•μ‚° 기반 μ ‘κ·Ό 방식을 μ‚¬μš©ν•¨μ—λ„ λΆˆκ΅¬ν•˜κ³  StyleTTSXNUMX ν”„λ ˆμž„μ›Œν¬λŠ” VITS, ProDiff 및 FastDiffλ₯Ό ν¬ν•¨ν•œ 기쑴의 μ΅œμ²¨λ‹¨ ν”„λ ˆμž„μ›Œν¬λ³΄λ‹€ μ„±λŠ₯이 λ›°μ–΄λ‚©λ‹ˆλ‹€. 

μ΅œμ’… 생각

이 κΈ°μ‚¬μ—μ„œλŠ” StyleTTS ν”„λ ˆμž„μ›Œν¬λ₯Ό 기반으둜 κ΅¬μΆ•λœ μƒˆλ‘­κ³  κ°•λ ₯ν•˜λ©° ν˜μ‹ μ μΈ ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜ ν”„λ ˆμž„μ›Œν¬μΈ StyleTTS2에 λŒ€ν•΄ μ„€λͺ…ν–ˆμœΌλ©°, μ΅œμ²¨λ‹¨ ν…μŠ€νŠΈ μŒμ„± μ‹œμŠ€ν…œμ„ ν–₯ν•œ λ‹€μŒ 단계λ₯Ό μ œμ‹œν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” μŒμ„± μŠ€νƒ€μΌμ„ 잠재 λ¬΄μž‘μœ„ λ³€μˆ˜λ‘œ λͺ¨λΈλ§ν•˜κ³  ν™•λ₯ μ  ν™•μ‚° λͺ¨λΈμ„ μ‚¬μš©ν•˜μ—¬ μ΄λŸ¬ν•œ μŒμ„± μŠ€νƒ€μΌ λ˜λŠ” λ¬΄μž‘μœ„ λ³€μˆ˜λ₯Ό μƒ˜ν”Œλ§ν•˜λ―€λ‘œ StyleTTS2 ν”„λ ˆμž„μ›Œν¬κ°€ μ°Έμ‘° μ˜€λ””μ˜€ μž…λ ₯을 μ‚¬μš©ν•˜μ§€ μ•Šκ³ λ„ 사싀적인 μŒμ„±μ„ 효과적으둜 ν•©μ„±ν•  수 μžˆμŠ΅λ‹ˆλ‹€. StyleTTS2 ν”„λ ˆμž„μ›Œν¬λŠ” μŠ€νƒ€μΌ ν™•μ‚° 및 SLM νŒλ³„μžλ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜ μž‘μ—…μ—μ„œ 인간 μˆ˜μ€€μ˜ μ„±λŠ₯을 λ‹¬μ„±ν•˜κ³  λ‹€μ–‘ν•œ μŒμ„± μž‘μ—…μ—μ„œ 기쑴의 μ΅œμ²¨λ‹¨ ν”„λ ˆμž„μ›Œν¬λ³΄λ‹€ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ°œνœ˜ν•©λ‹ˆλ‹€. 

"직업은 μ—”μ§€λ‹ˆμ–΄, λ§ˆμŒμ€ μž‘κ°€". Kunal은 AI와 ML에 λŒ€ν•œ κΉŠμ€ μ• μ •κ³Ό 이해λ₯Ό κ°€μ§„ 기술 μž‘κ°€λ‘œ, λ§€λ ₯적이고 μœ μ΅ν•œ λ¬Έμ„œλ₯Ό 톡해 이 λΆ„μ•Όμ˜ λ³΅μž‘ν•œ κ°œλ…μ„ λ‹¨μˆœν™”ν•˜λŠ” 데 μ „λ…ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.