stub Яриа, дохио зангаа нэгтгэх - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Яриа, дохио зангаа нэгтгэх

mm
шинэчлэгдсэн on

Би Өмнөд Италид хэдэн жил ирээд Их Британид буцаж ирэхэд ярьж байхдаа дохио өгөхөө болиход нэлээд хугацаа зарцуулагдсан. Их Британид таны яриаг зоригтой гар хөдөлгөөнөөр дэмжих нь таныг хэт их кофейнтэй харагдуулдаг; Италид хэл сурч байгаа хүний ​​хувьд энэ нь надад тусалсан ойлгогдох. Одоо ч гэсэн, би Итали хэлээр ярьдаг ховор тохиолдлуудад "зэрлэг гарууд" дахин үйлчилдэг. Хөдлөхгүйгээр итали хэлээр ярих нь бараг боломжгүй юм.

Сүүлийн жилүүдэд дохио зангаагаар дэмжигдсэн харилцаа холбоо Итали, Еврейн соёлд Мартин Скорсезегийн бүтээл болон Вуди Аллений анхны кинонуудын үлгэрээс илүү олон нийтийн анхаарлыг татсан. 2013 онд Нью Йорк Таймс сонин эмхэтгэсэн богино видео түүх Италийн гарын дохио зангаа; академи нь уг сэдвийг хэвшмэл ойлголт гэж үгүйсгэхийн оронд гараараа дохио зангаа хийх арьс өнгөний хандлагыг судалж эхэлжээ; болон Юникод консорциумын шинэ эможи байна дохионы дутагдлыг хаах Энэ нь зөвхөн дижитал, текстэд суурилсан харилцаа холбоогоор ирдэг.

Яриа, дохио зангаа хийх нэгдсэн хандлага

Одоо шинэ судалгаа Шведийн KTH Хааны Технологийн Институтын Хэл яриа, хөгжим, сонсголын тэнхимээс хэл яриа, дохио зангаа танихыг нэгтгэн, биеийн хэлийг нэгдмэл хэлээр ашиглан ярианд суурилсан харилцааны талаарх бидний ойлголтыг нэмэгдүүлэх боломжтой нэгдмэл, олон төрлийн системд оруулахыг зорьж байна. зэрэгцээ судалгааны талбар гэхээсээ илүү ярианы нэмэлт.

Шведийн яриа/дохио төслийн туршилтын хуудасны дүрслэл. Эх сурвалж: https://swatsw.github.io/isg_icmi21/

Шведийн яриа/дохио төслийн туршилтын хуудасны дүрслэл. Эх сурвалж: https://swatsw.github.io/isg_icmi21/

Энэхүү судалгаа нь нэгдсэн яриа, дохио зангаа (ISG) синтез хэмээх шинэ загварыг санал болгож байгаа бөгөөд яриа, дохио зангаа судлалын хэд хэдэн сүүлийн үеийн мэдрэлийн загваруудыг нэгтгэсэн болно.

Шинэ хандлага нь шугаман аргыг орхисон дамжуулах хоолойн загвар (Дохио дохионы мэдээллийг ярианаас хоёрдогч боловсруулалтын үе шат болгон дараалан гаргаж авдаг) эцсийн хэрэглэгчдийн дагуу одоо байгаа системүүдтэй ижил түвшинд үнэлэгддэг, синтез хийх хугацаа илүү хурдан, параметрийн тоо багасдаг илүү нэгдсэн аргад зориулагдсан.

Шугаман ба нэгдсэн арга барил. Эх сурвалж: https://arxiv.org/pdf/2108.11436.pdf

Шугаман ба нэгдсэн арга барил. Эх сурвалж: https://arxiv.org/pdf/2108.11436.pdf

Шинэ мультимодаль систем нь одоо байгаа Trinity Speech Gesture дээр сургагдсан аяндаа текстийг ярианы синтезатор болон аудио яриагаар удирддаг дохионы генераторыг багтаасан болно. мэдээллийн сан. Датасет нь 244 минутын турш янз бүрийн сэдвээр ярилцаж, дохио зангаагаа чөлөөтэй илэрхийлж буй эрэгтэй хүний ​​биеийн бичлэг, аудио бичлэгийг агуулдаг.

Энэхүү бүтээл нь роман бөгөөд шүргэгчтэй дүйцэхүйц юм Дурян дохио зангаа, яриа гэхээсээ илүү нүүрний илэрхийлэл, яриаг бий болгодог төсөл бөгөөд илэрхийлэлийг таних, нэгтгэх талбарт илүү ордог.

Архитектур

Төслийн яриа болон харааны (дохио) бүрэлдэхүүн хэсгүүд нь өгөгдлийн хувьд тэнцвэргүй байна; текст сийрэг, дохио зангаа нь баялаг бөгөөд өгөгдөл их шаарддаг нь зорилго, хэмжигдэхүүнийг тодорхойлоход бэрхшээлтэй байдаг. Тиймээс судлаачид системийг дундаж квадрат алдаа (MSE) гэх мэт илүү ойлгомжтой механик аргуудаас илүүтэйгээр хүний ​​гаралтад үзүүлэх хариу үйлдэлээр үнэлэв.

Хоёр үндсэн ISG загварыг эргэн тойронд боловсруулсан хоёр дахь давталт Google-ийн 2017 оны Такотрон төгсгөл хүртэлх ярианы синтезийн төсөл, Өмнөд Солонгосын Гэрэлт-TTS санаачлага 2020 онд хэвлэгдсэн. Такотрон нь авторегрессив LSTM архитектурыг ашигладаг бол Glow-TTS нь эргэлтийн операторуудаар зэрэгцэн ажиллаж, GPU-ийн гүйцэтгэлийг хурдасгаж, авторегресс загварт ажиллах тогтвортой байдлын асуудалгүйгээр ажилладаг.

Судлаачид төслийн явцад гурван үр дүнтэй яриа/дохио үйлдлийн системийг туршиж үзсэн: олон талт яриа, дохио зангаа үүсгэхийн өөрчилсөн хувилбар. нийтэлсэн 2021 онд хэд хэдэн ижил судлаачид шинэ төслийн талаар; нээлттэй эхийн Tacotron 2-ийн зориулалтын болон өөрчлөгдсөн ISG хувилбар; мөн Glow-TTS-ийн маш их өөрчлөгдсөн ISG хувилбар.

Системийг үнэлэхийн тулд судлаачид 3D хүмүүс ярьж, урьдчилан тодорхойлсон текстийн сегментүүд рүү шилждэг вэбд суурилсан санал хүсэлтийн орчинг бий болгосон (орчны ерөнхий дүр төрхийг дараах хэсгээс харж болно. олон нийтийн төслийн хуудас).

Туршилтын орчин.

Туршилтын орчин.

Туршилтын субъектуудаас яриа, дохио зангаа, зөвхөн яриа, дохио зангаагаар системийн гүйцэтгэлийг үнэлэхийг хүссэн. Үр дүн нь ISG-ийн шинэ хувилбар нь дамжуулах хоолойн хуучин хувилбараас бага зэрэг сайжирсан боловч шинэ систем нь илүү хурдан бөгөөд нөөц багатай ажилладаг.

"Дохио зангаа нь ямар хүний ​​шинж чанартай вэ?" гэж асуухад бүрэн нэгдсэн ISG загвар нь удаашралтай дамжуулах хоолойн загвараас бага зэрэг түрүүлж, Tacotron болон Glow-д суурилсан загварууд илүү хоцорч байна.

"Дохио зангаа нь ямар хүн бэ?" гэж асуухад бүрэн нэгдсэн ISG загвар нь удаан дамжуулах хоолойн загвараас бага зэрэг түрүүлж, Tacotron болон Glow-д суурилсан загварууд илүү хоцорч байна.

Embedded Shrug

Гурван аргын хамгийн амжилттай нь болох Tacotron2-ISG загвар нь тодорхой өгөгдөл дутмаг байсан ч өгөгдлийн багц дахь "би мэдэхгүй" гэх мэт хамгийн түгээмэл хэллэгүүдтэй холбоотой "сублиминал" суралцах түвшинг харуулж байна. Энэ нь энэ хэллэгийг дагаж мөрөө хавчихад хүргэдэг тул генератор үнэхээр мөрөө хавчиж байгааг судлаачид олж мэдсэн.

Энэхүү шинэ төслийн маш өвөрмөц шинж чанар нь яриа, дохио зангааг ийм системийг сургахад тохиромжтой байдлаар багтаасан тусгай мэдээллийн багц гэх мэт ерөнхий нөөц хомс байгааг илтгэж байгааг судлаачид тэмдэглэж байна. Гэсэн хэдий ч, судалгааны тэргүүлэх шинж чанарыг үл харгалзан тэд үүнийг яриа, хэл шинжлэл, дохио зангаа таних ирээдүйтэй, бага судлагдсан арга зам гэж үздэг.