stub AI судалгаа нь харилцан яриа, хөгжим, дууны эффектийн дууны түвшнийг тусад нь хянахаар төлөвлөж байна - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

AI судалгаа нь харилцан яриа, хөгжим, дууны эффектийн дууны хэмжээг тусад нь хянах боломжийг олгодог

mm
шинэчлэгдсэн on

Mitsubishi-ийн удирдсан шинэ судалгааны хамтын ажиллагаа нь анхны аудио эх сурвалжаас гурван тусдаа дууг гаргаж авах, аудио бичлэгийг яриа, хөгжим, дууны эффект (жишээ нь орчны дуу чимээ) болгон задлах боломжийг судалж байна.

Энэ нь пост-факто боловсруулалтын систем учраас хэрэглэгчийн төхөөрөмж зэрэг дараагийн үеийн мультимедиа үзэх платформуудад дууны түвшний гурван цэгийн хяналтыг санал болгож, хэрэглэгчдэд харилцах цонхны дууг нэмэгдүүлэх эсвэл дууны дууг багасгах боломжийг олгодог. .

Судалгааны дагалдах видеоны доорх богино клип дээр (бүтэн видеог нийтлэлийн төгсгөлд үзнэ үү) хэрэглэгч гурвалжин дээр удирдлагыг нэг буланд байгаа гурван аудио бүрэлдэхүүн хэсэг болгон чирэх үед дууны дууны өөр өөр талыг онцлон тэмдэглэж байгааг харж байна. :

Баримт бичгийг дагалдаж буй видео бичлэгээс богино хэмжээний клип (өгүүллийн төгсгөлд оруулахыг үзнэ үү). Хэрэглэгч курсорыг гурвалжин UI (баруун талд) дээр гаргаж авсан гурван талбарын аль нэг рүү чирэхэд аудио нь гурвалсан дууны тэр хэсгийг онцолж өгдөг. Хэдийгээр урт видео нь YouTube дээрх хэд хэдэн нэмэлт жишээг иш татсан ч одоогоор эдгээрийг ашиглах боломжгүй юм шиг санагдаж байна. Эх сурвалж: https://vimeo.com/634073402

The цаасан эрхтэй Коктейлийн сэрээний асуудал: Бодит ертөнцийн дууны гурван ишний аудио тусгаарлалт, мөн Кэмбриж дахь Мицубиши Электрик судалгааны лаборатори (MERL) болон Иллинойс мужийн Индианагийн их сургуулийн Ухаалаг системийн инженерчлэлийн тэнхимийн судлаачдаас ирсэн.

Дууны аяыг салгах

Судлаачид уг сорилтыг "Коктейлийн үдэшлэгийн асуудал" гэж нэрлэсэн бөгөөд учир нь энэ нь сэрээтэй төстэй замын зураглалыг бий болгодог дууны аяны нарийн ширийн элементүүдийг тусгаарлах явдал юм (доорх зургийг үзнэ үү). Практикт олон сувгийн (өөрөөр хэлбэл стерео ба түүнээс дээш) дууны дуунууд нь харилцан яриа, хөгжим, орчин гэх мэт өөр өөр төрлийн контенттой байж болно, ялангуяа харилцан яриа нь төв сувагт давамгайлах Dolby 5.1 холимог дээр. Гэсэн хэдий ч одоогийн байдлаар. Аудио салгах маш идэвхтэй судалгааны талбар нь одоогийн судалгааны нэгэн адил эдгээр утсыг дан, шатаасан дууны бичлэгээс авах тал дээр анхаарлаа төвлөрүүлж байна.

The Cocktail Fork – нийлсэн болон дан дуунаас гурван ялгаатай дууг гаргаж авсан. Эх сурвалж: https://arxiv.org/pdf/2110.09958.pdf

The Cocktail Fork – нийлсэн болон дан дуунаас гурван ялгаатай дууг гаргаж авсан. Эх сурвалж: https://arxiv.org/pdf/2110.09958.pdf

Сүүлийн үеийн судалгаанууд нь байгалийн хэл боловсруулах (NLP) системтэй дараа нь ажиллахын тулд ярианы дууг арилгах зорилгоор янз бүрийн орчинд яриаг задлахад гол анхаарлаа хандуулж байна. тусгаарлалт Архивын дуулах хоолойнууд, эсвэл жинхэнэ дууны синтетик хувилбаруудыг бий болгохбүр үхсэн) дуучид, эсвэл хөнгөвчлөх Караоке маягийн хөгжмийн тусгаарлалт.

Facet бүрийн мэдээллийн багц

Хэрэглэгчдэд дууны аяыг илүү хянах боломжийг олгохын тулд ийм төрлийн хиймэл оюун ухааны технологийг ашиглах талаар өнөөг хүртэл бага анхаарч байна. Тиймээс судлаачид уг асуудлыг албан ёсоор гаргаж, олон төрлийн дууны дууг тусгаарлах судалгаанд туслах шинэ өгөгдлийн багц үүсгэсэн бөгөөд үүнийг одоо байгаа янз бүрийн аудио салгах хүрээн дээр туршиж үзсэн.

Зохиогчдын боловсруулсан шинэ мэдээллийн багцыг нэрлэсэн Хуваах ба дахин тохируулах (DnR) бөгөөд өмнөх өгөгдлийн багцаас үүсэлтэй LibriSpeech, Хөгжмийн үнэгүй архив болон Freesound мэдээллийн багц 50к (FSD50K). DnR-тэй эхнээс нь ажиллахыг хүсч буй хүмүүсийн хувьд өгөгдлийн багцыг гурван эх сурвалжаас дахин бүтээх ёстой; Эс бөгөөс үүнийг удахгүй Zenodo дээр ашиглах боломжтой болно гэж зохиогчид мэдэгдэв. Гэсэн хэдий ч, бичиж байх үед өгсөн GitHub холбоос Эх сурвалж олборлох хэрэгслүүд одоогоор идэвхжээгүй байгаа тул сонирхсон хүмүүс хэсэг хугацаанд хүлээх хэрэгтэй.

Судлаачид CrossNet-ийн холимог (XUMX) XNUMX-р сард Sony-ийн санал болгосон архитектур нь DnR-тэй маш сайн ажилладаг.

Sony-ийн CrossNet архитектур.

Sony-ийн CrossNet архитектур.

Зохиогчид өөрсдийн машин сургалтын олборлох загварууд нь YouTube-ийн дууны бичлэгүүд дээр сайн ажилладаг гэж мэдэгдэж байгаа боловч нийтлэлд үзүүлсэн үнэлгээ нь синтетик өгөгдөл дээр үндэслэсэн бөгөөд нийлүүлсэн үндсэн туслах видео (доор суулгасан) одоогоор байгаа цорын ганц хувилбар юм.

Ашигласан гурван өгөгдлийн багц тус бүр нь дууны бичлэгээс салгах шаардлагатай гаралтын төрлийн цуглуулгаас бүрдэнэ: FSD50K нь дууны эффектүүдээр дүүрэн бөгөөд Google-ийн AudioSet онтологийн 50,000 төрлийн шошготой 44.1 200 кГц моно аудио клиптэй; Үнэгүй хөгжмийн архив нь 100,000 хөгжмийн төрлийг хамарсан 161 стерео дууг багтаасан боловч зохиогчид FSD25,000K-тэй тэнцэх үүднээс 50 дуу агуулсан дэд хэсгийг ашигласан; болон LibriSpeech нь DnR-д 100 цагийн аудио номын дээжийг 44.1кГц давтамжтай mp3 аудио файл болгон өгдөг.

Ирээдүйн ажил

Зохиогчид өгөгдлийн багц болон яриа таних болон дуу авианы ангиллын тогтолцооны нэмэлт судалгаанд зориулж боловсруулсан тусдаа загваруудын хослол дээр цаашид ажиллахаар төлөвлөж байгаа бөгөөд ярианы болон ярианы бус дууны автомат тайлбар үүсгэх боломжтой болно. Тэд мөн нэгдмэл аудио дууг бүрэлдэхүүн хэсгүүдэд нь хуваахад гол асуудал хэвээр байгаа, мэдрэхүйн олдворуудыг багасгах арга барилыг дахин холих боломжийг үнэлэхийг зорьж байна.

Энэ төрлийн тусгаарлалт нь ирээдүйд өндөр оновчтой дүгнэлтийн сүлжээг агуулсан ухаалаг ТВ-ийн хэрэглээний бүтээгдэхүүн болгон ашиглах боломжтой хэдий ч эрт хэрэгжүүлэхэд урьдчилсан боловсруулалтын хугацаа, хадгалах зай шаардагдах бололтой. Samsung аль хэдийн хэрэглээ орон нутгийн мэдрэлийн сүлжээг өргөтгөхөд зориулагдсан бол Sony-ийнх Танин мэдэхүйн процессор XR, компанийн Bravia төрөлд ашигладаг, шинжилгээ болон дахин тайлбарладаг Хөнгөн жингийн нэгдсэн хиймэл оюун ухаанаар дамжуулан дууны дууг шууд дамжуулна.

Дууны дууны найруулгад илүү их хяналт тавихыг уриалж байна үе үе давтагдана, мөн ихэнх нь шийдлүүдийг санал болгож байна Кино болон телевизийн салбарт одоогийн стандартын дагуу (мөн үзэгчдийн юу хүсч байгаа талаарх таамаглал) дууны дууг аль хэдийн буулгасан гэдгийг шийдэх хэрэгтэй.

Киноны дууны янз бүрийн элементүүдийн дууны түвшний гайхалтай зөрүүд бухимдсан нэг үзэгч цөхрөнгөө барсан. боловсруулах чадвартай техник хангамжид суурилсан дууны автомат тохируулагч эзлэхүүнийг тэнцүүлэх кино, телевизийн хувьд.

Хэдийгээр ухаалаг телевизорууд нь олон төрлийн аргууд Хөгжмийн дууны өндөр түвшний эсрэг харилцан ярианы дууг нэмэгдүүлэхийг оролдохын тулд тэд бүгд холих үед гаргасан шийдвэрүүдийн эсрэг тэмцэж байгаа бөгөөд үзэгчид өөрсдийн дууг яг тохируулсан шиг нь мэдрэхийг хүсдэг контент үйлдвэрлэгчдийн төсөөллийн эсрэг тэмцэж байна.

Агуулга үйлдвэрлэгчид "ремикс соёл"-ын энэхүү боломжит нэмэлтийг эсэргүүцэх бололтой, учир нь хэд хэдэн салбарын нэрт зүтгэлтнүүд ТВ-д суурилсан өгөгдмөл боловсруулалтын дараах алгоритмуудын эсрэг аль хэдийн дургүйцлээ илэрхийлж байсан. хөдөлгөөнийг жигдрүүлэх гэх мэт.