인공지능

음성과 제스처 합성의 통일

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

영국에서 남이탈리아에서 몇 년을 보낸 후에 다시 영국으로 돌아왔을 때, 말할 때 제스처를 멈추는 데 khá 오랜 시간이 걸렸습니다. 영국에서는 대화 중에 손을 크게 움직이면 과도한 카페인 섭취로 보일 수 있지만, 이탈리아에서는 언어를 배우는 사람으로서 실제로 이해되도록 도움이 되었습니다. 이해되도록. 지금도 이탈리아어를 말하는 드문 경우에, ‘야생的手’가 다시 서비스에 복귀합니다. 이탈리아어를 말하면서 손을 움직이지 않는 것은 거의 불가능합니다.

최근 몇 년 동안, 이탈리아와 유대인 문화에서 제스처 지원 통신 이탈리아와 유대인 문화는 마틴 스코세스와 초기 우디 앨런 영화의 작품에서 단순한 트로프로 더 나아가 공중으로 주목을 받게 되었습니다. 2013년에 뉴욕 타임스는 이탈리아 손 제스처의 짧은 비디오 역사를 컴파일했습니다. 학계는 손 제스처에 대한 인종적 성향을 연구하기 시작했으며, 유니코드 컨소시엄의 새로운 이모티콘은 제스처 부족을 보완하여純한 디지털, 텍스트 기반 통신의 제한을 극복했습니다.

음성과 제스처의 통일된 접근

이제, 새로운 연구에서 스웨덴의 KTH 왕립 공과 대학의 음성, 음악 및 청각 부서에서 음성과 제스처 인식을 하나의 통일된, 다중 모달 시스템으로 결합하여 음성 기반 통신의 이해를 높일 수 있는 잠재적인 솔루션을 제시하고 있습니다. 이는 음성을 보완하는 제스처를 사용하여 음성 기반 통신의 이해를 높일 수 있습니다.

스웨덴 음성/제스처 프로젝트의 테스트 페이지에서 가져온 시각적 자료. 소스: https://swatsw.github.io/isg_icmi21/

연구에서는 새로운 모델인 통합 음성 및 제스처 (ISG) 합성을 제안하며, 음성 및 제스처 연구에서 최신의 여러 신경 모델을 결합합니다.

새로운 접근 방식은 선형 파이프라인 모델(제스처 정보가 음성에서 2차 처리 단계로 순차적으로 파생됨)을 포기하고, 기존 시스템과 동등한 평가를 받으며, 더 빠른 합성 시간과 감소된 매개 변수 수를 달성하는 더 통합된 접근 방식을 채택합니다.

선형 대 통합 접근 방식. 소스: https://arxiv.org/pdf/2108.11436.pdf

새로운 다중 모달 시스템은 기존 Trinity Speech Gesture 데이터셋에서 훈련된 자발적인 텍스트-음성 합성기와 오디오-음성-제스처 생성기를 포함합니다. 데이터셋에는 244분의 오디오 및 자유로운 제스처와 함께 말하는 남자의 신체 캡처가 포함되어 있습니다.

이 연구는 음성과 제스처를 생성하는 대신 얼굴 표정과 음성을 생성하는 DurIAN 프로젝트와 유사한 새로운 접근 방식입니다.

아키텍처

프로젝트의 음성 및 시각적(제스처) 구성 요소는 데이터 측면에서 불균형합니다. 텍스트는 희박하고 제스처는 풍부하며 데이터 집약적입니다. 따라서 연구자들은 더 명백한 기계적 접근 방식인 평균 제곱 오차(MSE)와 같은 메커니즘 대신 시스템의 출력에 대한 인간의 반응으로 시스템을 주로 평가했습니다.

두 개의 주요 ISG 모델은 2017년 Google의 Tacotron 엔드투엔드 음성 합성 프로젝트의 두 번째 버전과 2020년에 발표된 한국의 Glow-TTS 이니셔티브를 중심으로 개발되었습니다. Tacotron은 자율 회귀 LSTM 아키텍처를 사용하는 반면, Glow-TTS는 병렬로 작동하며, 더 빠른 GPU 성능을 제공하며, 자율 회귀 모델에서 발생할 수 있는 안정성 문제가 없습니다.

연구자들은 프로젝트 중에 세 가지 효과적인 음성/제스처 시스템을 테스트했습니다. 2021年に 일부 동일한 연구자들에 의해 발표된 다중 모달 음성 및 제스처 생성 버전의 수정된 버전; 수정된 ISG 버전의 오픈 소스 Tacotron 2; 및高度로 수정된 ISG 버전의 Glow-TTS.

시스템을 평가하기 위해 연구자들은 미리 정의된 텍스트 세그먼트로 말하고 움직이는 조작된 3D 사람들을 특징으로 하는 웹 기반 피드백 환경을 생성했습니다(일반적인 환경은 공개 프로젝트 페이지에서 볼 수 있음).

테스트 환경.

테스트 대상자들은 시스템 성능을 음성 및 제스처, 음성만, 제스처만으로 평가하도록 요청받았습니다. 결과는 새로운 ISG 버전이 이전 파이프라인 버전에 비해 약간 개선되었으며, 새로운 시스템은 더 빠르고 감소된 리소스로 작동합니다.

제스처가 얼마나 인간적인지?’라고 묻는 질문에, 완전히 통합된 ISG 모델은 더 느린 파이프라인 모델보다 약간 앞서고, Tacotron 및 Glow 기반 모델은 뒤처집니다.

내장된 쑥

Tacotron2-ISG 모델, 세 가지 접근 방식 중 가장 성공적인 모델,는 데이터셋에서 가장 일반적인 구절 중 일부와 관련된 ‘잠재적’ 학습을 보여줍니다. ‘나는 모른다’와 같은 구절 – 명시적인 데이터가 없지만, 연구자들은 생성기가 실제로 어깨를 으쓱거린다는 것을 발견했습니다.

연구자들은 이 새로운 프로젝트의 매우 특정한 성질이 결국 전용 데이터셋의 부족을 의미한다고 주장합니다. 이러한 시스템을 훈련하기에 적합한 음성 및 제스처 데이터를 포함하는 데이터셋은 희박합니다. 그러나 연구자들은 이러한 연구가 약속되고 거의 탐索되지 않은 음성, 언어학 및 제스처 인식 분야의 길이라고 생각합니다.

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

음성과 제스처 합성의 통일

음성과 제스처의 통일된 접근

아키텍처

내장된 쑥

You may like