Rescale λ―ΈνŒ… μ˜ˆμ•½

μŒμ„± 및 제슀처 ν•©μ„± 톡합

인곡지λŠ₯

μŒμ„± 및 제슀처 ν•©μ„± 톡합

mm

λ‚΄κ°€ 남뢀 μ΄νƒˆλ¦¬μ•„μ—μ„œ λͺ‡ 년을 보낸 ν›„ 영ꡭ으둜 λŒμ•„μ™”μ„ λ•Œ, λ§ν•˜λŠ” λ™μ•ˆ λͺΈμ§“을 λ©ˆμΆ”λŠ” 데 κ½€ 였랜 μ‹œκ°„μ΄ κ±Έλ ΈμŠ΅λ‹ˆλ‹€. μ˜κ΅­μ—μ„œλŠ” λŒ€λ‹΄ν•œ μ†λ†€λ¦ΌμœΌλ‘œ 연섀을 λ’·λ°›μΉ¨ν•˜λ©΄ 카페인이 λ„ˆλ¬΄ λ§Žμ•„ 보일 λΏμž…λ‹ˆλ‹€. μ΄νƒˆλ¦¬μ•„μ—μ„œ μ–Έμ–΄λ₯Ό λ°°μš°λŠ” μ‚¬λžŒμœΌλ‘œμ„œ μ‹€μ œλ‘œ 도움이 λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ΄ν•΄ν•˜κΈ°μ§€κΈˆλ„, μ œκ°€ μ΄νƒˆλ¦¬μ•„μ–΄λ₯Ό ν•  λ•Œ μ•„μ£Ό λ“œλ¬Όκ²Œ '거친 손'이 λ‹€μ‹œ λ“±μž₯ν•©λ‹ˆλ‹€. 움직이지 μ•Šκ³  μ΄νƒˆλ¦¬μ•„μ–΄λ₯Ό λ§ν•˜λŠ” 건 거의 λΆˆκ°€λŠ₯ν•˜μ£ .

졜근 λͺ‡ λ…„ λ™μ•ˆ 제슀처 지원 톡신 μ΄νƒˆλ¦¬μ•„μ™€ μœ λŒ€ λ¬Έν™”μ—μ„œ Martin Scorsese와 초기 Woody Allen μ˜ν™”μ˜ μž‘ν’ˆμ—μ„œ λ‚˜μ˜¨ λΉ„μœ  μ΄μƒμœΌλ‘œ λŒ€μ€‘μ˜ μ£Όλͺ©μ„ λ°›μ•˜μŠ΅λ‹ˆλ‹€. 2013λ…„ λ‰΄μš• νƒ€μž„μ¦ˆλŠ” 짧은 λ™μ˜μƒ 기둝 μ΄νƒˆλ¦¬μ•„ 손 제슀처; ν•™κ³„λŠ” 이 주제λ₯Ό κ³ μ •κ΄€λ…μœΌλ‘œ μΉ˜λΆ€ν•˜κΈ°λ³΄λ‹€λŠ” μ†λ™μž‘μ— λŒ€ν•œ 인쒅적 μ„±ν–₯을 μ—°κ΅¬ν•˜κΈ° μ‹œμž‘ν–ˆμŠ΅λ‹ˆλ‹€. μœ λ‹ˆμ½”λ“œ μ»¨μ†Œμ‹œμ—„μ˜ μƒˆλ‘œμš΄ 이λͺ¨ν‹°μ½˜μ€ 제슀처 λΆ€μ‘± ν•΄μ†Œ μˆœμˆ˜ν•œ λ””μ§€ν„Έ ν…μŠ€νŠΈ 기반 톡신과 ν•¨κ»˜ μ œκ³΅λ©λ‹ˆλ‹€.

μŒμ„± 및 λͺΈμ§“에 λŒ€ν•œ 톡합 μ ‘κ·Ό 방식

μ§€κΈˆ, μƒˆλ‘œμš΄ 연ꡬ μŠ€μ›¨λ΄ KTH μ™•λ¦½κΈ°μˆ μ›μ˜ μ–Έμ–΄, μŒμ•…, μ²­κ°ν•™κ³Όμ—μ„œλŠ” μŒμ„±κ³Ό 제슀처 인식을 ν†΅ν•©ν•œ 닀쀑 λͺ¨λ‹¬ μ‹œμŠ€ν…œμ„ κ°œλ°œν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 신체 μ–Έμ–΄λ₯Ό μŒμ„±μ— ν†΅ν•©λœ 보쑰 λ„κ΅¬λ‘œ μ‚¬μš©ν•˜μ—¬ μŒμ„± 기반 μ˜μ‚¬μ†Œν†΅μ— λŒ€ν•œ 이해λ₯Ό 높일 수 μžˆλŠ” 잠재λ ₯을 κ°€μ§€κ³  있으며, ν‰ν–‰ν•œ 연ꡬ λΆ„μ•Όκ°€ μ•„λ‹™λ‹ˆλ‹€.

μŠ€μ›¨λ΄ μ–Έμ–΄/제슀처 ν”„λ‘œμ νŠΈμ˜ ν…ŒμŠ€νŠΈ νŽ˜μ΄μ§€μ—μ„œ κ°€μ Έμ˜¨ μ‹œκ°μ  κ°œμ²΄μž…λ‹ˆλ‹€. 좜처: https://swatsw.github.io/isg_icmi21/

μŠ€μ›¨λ΄ μ–Έμ–΄/제슀처 ν”„λ‘œμ νŠΈμ˜ ν…ŒμŠ€νŠΈ νŽ˜μ΄μ§€μ—μ„œ κ°€μ Έμ˜¨ μ‹œκ°μ  κ°œμ²΄μž…λ‹ˆλ‹€. 좜처: https://swatsw.github.io/isg_icmi21/

이 μ—°κ΅¬λŠ” ISG(Integrated Speech and Gesture) ν•©μ„±μ΄λΌλŠ” μƒˆλ‘œμš΄ λͺ¨λΈμ„ μ œμ•ˆν•˜κ³  μŒμ„± 및 제슀처 μ—°κ΅¬μ—μ„œ λ‚˜μ˜¨ μ—¬λŸ¬ μ΅œμ‹  μ‹ κ²½ λͺ¨λΈμ„ κ²°ν•©ν•©λ‹ˆλ‹€.

μƒˆλ‘œμš΄ μ ‘κ·Ό 방식은 μ„ ν˜•μ„ ν¬κΈ°ν•©λ‹ˆλ‹€. νŒŒμ΄ν”„λΌμΈ λͺ¨λΈ (제슀처 정보가 XNUMXμ°¨ 처리 λ‹¨κ³„λ‘œ μŒμ„±μ—μ„œ 순차적으둜 νŒŒμƒλ¨) μ΅œμ’… μ‚¬μš©μžμ— 따라 κΈ°μ‘΄ μ‹œμŠ€ν…œκ³Ό λ™λ“±ν•˜κ²Œ 등급을 λ§€κΈ°κ³  더 λΉ λ₯Έ ν•©μ„± μ‹œκ°„κ³Ό κ°μ†Œλœ λ§€κ°œλ³€μˆ˜ 수λ₯Ό λ‹¬μ„±ν•˜λŠ” 보닀 ν†΅ν•©λœ μ ‘κ·Ό 방식을 μœ„ν•œ κ²ƒμž…λ‹ˆλ‹€.

μ„ ν˜• λŒ€ 톡합 μ ‘κ·Ό 방식. 좜처: https://arxiv.org/pdf/2108.11436.pdf

μ„ ν˜• λŒ€ 톡합 μ ‘κ·Ό 방식. 좜처 : https://arxiv.org/pdf/2108.11436.pdf

μƒˆλ‘œμš΄ 닀쀑 λͺ¨λ“œ μ‹œμŠ€ν…œμ€ κΈ°μ‘΄ Trinity Speech Gestureμ—μ„œ ν›ˆλ ¨λœ 자발적인 ν…μŠ€νŠΈ μŒμ„± λ³€ν™˜ 합성기와 μ˜€λ””μ˜€ μŒμ„± 기반 제슀처 생성기λ₯Ό ν†΅ν•©ν•©λ‹ˆλ‹€. 데이터 μ„ΈνŠΈ. 이 데이터 μ„ΈνŠΈμ—λŠ” λ‹€μ–‘ν•œ μ£Όμ œμ— λŒ€ν•΄ μ΄μ•ΌκΈ°ν•˜κ³  자유둭게 λͺΈμ§“을 ν•˜λŠ” λ‚¨μžμ˜ 244λΆ„ λΆ„λŸ‰μ˜ μ˜€λ””μ˜€ 및 신체 μΊ‘μ²˜κ°€ ν¬ν•¨λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.

μž‘ν’ˆμ€ μ°Έμ‹ ν•˜κ³  접선적이닀. λ‘λ¦¬μ•ˆ λͺΈμ§“κ³Ό 말보닀 μ–Όκ΅΄ ν‘œμ •κ³Ό 말을 μƒμ„±ν•˜κ³  ν‘œμ • 인식과 ν•©μ„±μ˜ μ˜μ—­μ— 더 많이 λ“€μ–΄κ°€λŠ” ν”„λ‘œμ νŠΈ.

μ•„ν‚€ν…μ²˜

ν”„λ‘œμ νŠΈμ˜ μŒμ„± 및 μ‹œκ°μ (제슀처) ꡬ성 μš”μ†ŒλŠ” 데이터 μΈ‘λ©΄μ—μ„œ κ· ν˜•μ΄ λ§žμ§€ μ•ŠμŠ΅λ‹ˆλ‹€. ν…μŠ€νŠΈλŠ” ν¬λ°•ν•˜κ³  μ œμŠ€μ²˜λŠ” ν’λΆ€ν•˜κ³  데이터 μ§‘μ•½μ μž…λ‹ˆλ‹€. μ΄λŠ” λͺ©ν‘œ 및 λ©”νŠΈλ¦­μ„ μ •μ˜ν•˜λŠ” μΈ‘λ©΄μ—μ„œ μ–΄λ €μš΄ μΌμž…λ‹ˆλ‹€. λ”°λΌμ„œ μ—°κ΅¬μžλ“€μ€ 평균 제곱 였차(MSE)와 같은 보닀 λΆ„λͺ…ν•œ 기계둠적 μ ‘κ·Ό λ°©μ‹λ³΄λ‹€λŠ” 주둜 좜λ ₯에 λŒ€ν•œ μΈκ°„μ˜ λ°˜μ‘μœΌλ‘œ μ‹œμŠ€ν…œμ„ ν‰κ°€ν–ˆμŠ΅λ‹ˆλ‹€.

두 κ°€μ§€ μ£Όμš” ISG λͺ¨λΈμ€ 두 번째 반볡 Google의 2017λ…„ νƒ€μ½”νŠΈλ‘  쒅단 κ°„ μŒμ„± ν•©μ„± ν”„λ‘œμ νŠΈ, 그리고 ν•œκ΅­ κΈ€λ‘œμš°-TTS 2020년에 λ°œν‘œλœ μ΄λ‹ˆμ…”ν‹°λΈŒ. Tacotron은 μžλ™ νšŒκ·€ LSTM μ•„ν‚€ν…μ²˜λ₯Ό ν™œμš©ν•˜λŠ” 반면 Glow-TTSλŠ” μ»¨λ³Όλ£¨μ…˜ μ—°μ‚°μžλ₯Ό 톡해 λ³‘λ ¬λ‘œ μž‘λ™ν•˜λ©° GPU μ„±λŠ₯이 더 λΉ λ₯΄κ³  μžλ™ νšŒκ·€ λͺ¨λΈμ— 수반될 수 μžˆλŠ” μ•ˆμ •μ„± λ¬Έμ œκ°€ μ—†μŠ΅λ‹ˆλ‹€.

μ—°κ΅¬μžλ“€μ€ ν”„λ‘œμ νŠΈ κΈ°κ°„ λ™μ•ˆ μ„Έ κ°€μ§€ 효과적인 μŒμ„±/제슀처 μ‹œμŠ€ν…œμ„ ν…ŒμŠ€νŠΈν–ˆμŠ΅λ‹ˆλ‹€. 좜판 2021λ…„μ—λŠ” μƒˆ ν”„λ‘œμ νŠΈμ— λŒ€ν•œ λ™μΌν•œ 연ꡬ원 λ‹€μˆ˜μ— μ˜ν•΄; μ˜€ν”ˆ μ†ŒμŠ€ Tacotron 2의 μ „μš© 및 μˆ˜μ •λœ ISG 버전 Glow-TTS의 크게 λ³€κ²½λœ ISG 버전.

μ‹œμŠ€ν…œμ„ ν‰κ°€ν•˜κΈ° μœ„ν•΄ μ—°κ΅¬μžλ“€μ€ κ΄€μ ˆμ΄ μžˆλŠ” 3D μ‚¬λžŒμ΄ λ§ν•˜κ³  미리 μ •μ˜λœ ν…μŠ€νŠΈ μ„Έκ·Έλ¨ΌνŠΈλ‘œ μ΄λ™ν•˜λŠ” μ›Ή 기반 ν”Όλ“œλ°± ν™˜κ²½μ„ λ§Œλ“€μ—ˆμŠ΅λ‹ˆλ‹€(ν™˜κ²½μ˜ 일반적인 λͺ¨μŠ΅μ€ 곡개 ν”„λ‘œμ νŠΈ νŽ˜μ΄μ§€).

ν…ŒμŠ€νŠΈ ν™˜κ²½.

ν…ŒμŠ€νŠΈ ν™˜κ²½.

μ‹œν—˜ λŒ€μƒμžλŠ” 말과 λͺΈμ§“, 말만, λͺΈμ§“λ§Œ 기반으둜 μ‹œμŠ€ν…œ μ„±λŠ₯을 ν‰κ°€ν•˜λ„λ‘ μš”μ²­λ°›μ•˜μŠ΅λ‹ˆλ‹€. κ·Έ κ²°κ³Ό μƒˆ μ‹œμŠ€ν…œμ΄ 더 λΉ λ₯΄κ²Œ μž‘λ™ν•˜κ³  λ¦¬μ†ŒμŠ€κ°€ μ€„μ–΄λ“€μ—ˆμ§€λ§Œ 이전 νŒŒμ΄ν”„λΌμΈ 버전에 λΉ„ν•΄ μƒˆ ISG λ²„μ „μ—μ„œ μ•½κ°„ κ°œμ„ λœ κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

'μ œμŠ€μ²˜λŠ” μ–΄λ–»κ²Œ 인간적인가?'λΌλŠ” μ§ˆλ¬Έμ— μ™„μ „νžˆ ν†΅ν•©λœ ISG λͺ¨λΈμ€ 느린 νŒŒμ΄ν”„λΌμΈ λͺ¨λΈλ³΄λ‹€ μ•½κ°„ μ•žμ„œ μ™„λ£Œλ˜λ©° Tacotron 및 Glow 기반 λͺ¨λΈμ€ 더 λ’€μ²˜μ§‘λ‹ˆλ‹€.

'μ œμŠ€μ²˜κ°€ μ–Όλ§ˆλ‚˜ 인간적인가?'λΌλŠ” μ§ˆλ¬Έμ— μ™„μ „νžˆ ν†΅ν•©λœ ISG λͺ¨λΈμ€ 느린 νŒŒμ΄ν”„λΌμΈ λͺ¨λΈλ³΄λ‹€ μ•½κ°„ μ•žμ„œ λ‚˜κ°”κ³ , Tacotronκ³Ό Glow 기반 λͺ¨λΈμ€ 그보닀 더 λ’€μ²˜μ‘ŒμŠ΅λ‹ˆλ‹€.

μž„λ² λ””λ“œ 슈러그

μ„Έ κ°€μ§€ μ ‘κ·Ό 방식 쀑 κ°€μž₯ 성곡적인 Tacotron2-ISG λͺ¨λΈμ€ 'λͺ¨λ₯΄κ² μŠ΅λ‹ˆλ‹€'와 같이 데이터 μ„ΈνŠΈμ—μ„œ κ°€μž₯ ν”ν•œ 문ꡬ와 κ΄€λ ¨λœ 'λ¬΄μ˜μ‹μ ' ν•™μŠ΅ μˆ˜μ€€μ„ λ³΄μ—¬μ€λ‹ˆλ‹€. 이 문ꡬ와 ν•¨κ»˜ μ–΄κΉ¨λ₯Ό μœΌμ“±ν•˜λŠ” ν‘œμ •μ„ μƒμ„±ν•˜κ²Œ ν•˜λŠ” λͺ…ν™•ν•œ 데이터가 뢀쑱함에도 λΆˆκ΅¬ν•˜κ³ , μ—°κ΅¬μžλ“€μ€ 생성기가 μ‹€μ œλ‘œ μ–΄κΉ¨λ₯Ό μœΌμ“±ν•œλ‹€λŠ” 것을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.

연ꡬ진은 이 μƒˆλ‘œμš΄ ν”„λ‘œμ νŠΈμ˜ 맀우 νŠΉμˆ˜ν•œ νŠΉμ„±μœΌλ‘œ 인해 μŒμ„± 및 제슀처 데이터λ₯Ό μ΄λŸ¬ν•œ μ‹œμŠ€ν…œ ν•™μŠ΅μ— μ ν•©ν•œ λ°©μ‹μœΌλ‘œ ν†΅ν•©ν•˜λŠ” μ „μš© 데이터 μ„ΈνŠΈμ™€ 같은 일반 μžμ›μ˜ 뢀쑱을 λΆˆκ°€ν”Όν•˜κ²Œ μ΄ˆλž˜ν•œλ‹€κ³  μ§€μ ν•©λ‹ˆλ‹€. κ·ΈλŸΌμ—λ„ λΆˆκ΅¬ν•˜κ³ , 그리고 μ—°κ΅¬μ˜ 선ꡬ적인 성격에도 λΆˆκ΅¬ν•˜κ³ , 연ꡬ진은 이 연ꡬ가 μŒμ„±, μ–Έμ–΄ν•™ 및 제슀처 인식 λΆ„μ•Όμ—μ„œ μœ λ§ν•˜μ§€λ§Œ 아직 연ꡬ가 덜 μ§„ν–‰λœ 뢄야라고 μƒκ°ν•©λ‹ˆλ‹€.