სტუბი ტუჩის კითხვა Visemes-ით და მანქანათმცოდნეობით - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

ტუჩის კითხვა Visemes-ით და მანქანათმცოდნეობით

mm
განახლებულია on
HAL კითხულობს ტუჩებს 2001 წელს: კოსმოსური ოდისეა (1968)

თეირანის კომპიუტერული ინჟინერიის სკოლის ახალი კვლევა გვთავაზობს გაუმჯობესებულ მიდგომას მანქანური სწავლების სისტემების შექმნის გამოწვევის მიმართ, რომლებსაც შეუძლიათ ტუჩების წაკითხვა.

ის ქაღალდიუფლება ტუჩის კითხვა Viseme დეკოდირების გამოყენებით, იუწყება, რომ ახალი სისტემა აღწევს 4%-ით გაუმჯობესებას სიტყვის შეცდომის სიხშირეში, წინა მსგავსი მოდელების საუკეთესოებთან შედარებით. სისტემა აგვარებს ამ სექტორში სასარგებლო ტრენინგის მონაცემების ზოგად ნაკლებობას რუქების მეშვეობით ვიზემეები ტექსტის შინაარსზე, რომელიც მიღებულია ნათარგმნი ფილმების სათაურების OpenSubtitles მონაცემთა ნაკრების ექვსი მილიონი ნიმუშიდან.

ვიზემე არის ფონემის ვიზუალური ეკვივალენტი, ფაქტობრივად, აუდიო>გამოსახულება რუკების რომელიც შეიძლება იყოს „მახასიათებელი“ მანქანური სწავლის მოდელში.

Visemes gif

Visemes მოქმედებაში. წყარო: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

მკვლევარებმა დაიწყეს ყველაზე დაბალი ცდომილების სიხშირის დადგენით ხელმისაწვდომ მონაცემთა ნაკრებებზე და შემუშავებული ვიზამების თანმიმდევრობები დადგენილი რუკების პროცედურებიდან. თანდათანობით, ეს პროცესი ავითარებს სიტყვების ვიზუალურ ლექსიკას - თუმცა აუცილებელია განისაზღვროს სიზუსტის ალბათობა სხვადასხვა სიტყვისთვის, რომლებიც იზიარებენ ვიზამას (როგორიცაა "გული" და "ხელოვნება").

გაშიფრული ვიზამები

ტექსტიდან ამოღებული ვიზემეები. წყარო: https://arxiv.org/pdf/2104.04784.pdf

სადაც ორი იდენტური სიტყვა მიიღწევა ერთსა და იმავე ვიზამზე, შეირჩევა ყველაზე ხშირად გავრცელებული სიტყვა.

მოდელი ეფუძნება ტრადიციულს თანმიმდევრობა-მიმდევრობა სწავლა ქვე-დამუშავების ეტაპის დამატებით, სადაც ვიზემები იწინასწარმეტყველებენ ტექსტიდან და მოდელირებულია სპეციალურ მილსადენში:

Viseme არქიტექტურის ტუჩის კითხვა

ზემოთ, ტრადიციული თანმიმდევრობა-მიმდევრობის მეთოდები პერსონაჟის მოდელში; ქვემოთ, თეირანის კვლევის მოდელში ვიზამის სიმბოლოების მოდელირების დამატება. წყარო: https://arxiv.org/pdf/2104.04784.pdf

მოდელი გამოყენებული იყო ვიზუალური კონტექსტის გარეშე LRS3-TED მონაცემთა ნაკრები, გაათავისუფლეს ოქსფორდის უნივერსიტეტიდან 2018 წელს, ყველაზე ცუდი სიტყვის შეცდომის კოეფიციენტით (WER) მიიღო სოლიდური 24.29%.

თეირანის კვლევა ასევე მოიცავს ა გრაფემა-ფონემამდე გადამყვანი

ტესტში 2017 წლის ოქსფორდის კვლევის წინააღმდეგ ტუჩის წასაკითხი წინადადებები ველურში (იხ. ქვემოთ), Video-To-Viseme მეთოდმა მიაღწია სიტყვის შეცდომის კოეფიციენტს 62.3%, ოქსფორდის მეთოდის 69.5%-თან შედარებით.

მკვლევარები ასკვნიან, რომ ტექსტური ინფორმაციის უფრო დიდი მოცულობის გამოყენება, გრაფემა-ფონემასა და ვიზემას რუქასთან ერთად, გვპირდება გაუმჯობესებას ტუჩის კითხვის აპარატების ავტომატურ სისტემებში, ამავდროულად აღიარებენ, რომ გამოყენებულ მეთოდებს შეუძლიათ წარმოქმნან კიდეც. უკეთესი შედეგი, როდესაც ჩართულია უფრო დახვეწილ მიმდინარე ჩარჩოებში.

მანქანით მიმართული ტუჩის კითხვა იყო კომპიუტერული ხედვისა და NLP კვლევის აქტიური და მუდმივი სფერო ბოლო ორი ათწლეულის განმავლობაში. სხვა მრავალ მაგალითსა და პროექტს შორის, 2006 წელს გამოიყენეს ტუჩის წაკითხვის ავტომატური პროგრამული უზრუნველყოფა გადაღებული სათაურები როდესაც გამოიყენება იმის ინტერპრეტაციაში, რასაც ადოლფ ჰიტლერი ამბობდა ზოგიერთ ცნობილ ჩუმ ფილმში, რომელიც გადაღებულია მის ბავარიულ თავშესაფარში, თუმცა აპლიკაცია, როგორც ჩანს, გაურკვევლობაში გაქრა მას შემდეგ (თორმეტი წლის შემდეგ, სერ პიტერ ჯექსონი მიმართა ადამიანის ტუჩის მკითხველებს აღადგინონ პირველი მსოფლიო ომის კადრების საუბრები აღდგენის პროექტში ისინი არ დაბერდებიან).

In 2017, ტუჩის წასაკითხი წინადადებები ველურში, ოქსფორდის უნივერსიტეტისა და Google-ის ხელოვნური ინტელექტის კვლევის განყოფილების თანამშრომლობამ წარმოქმნა ა ტუჩის წასაკითხი AI შეუძლია სწორად გამოიტანოს სიტყვის 48% ვიდეოში ხმის გარეშე, სადაც ადამიანის ტუჩის წამკითხველი იმავე მასალისგან მხოლოდ 12.4% სიზუსტეს აღწევს. მოდელი BBC-ის ტელევიზიის ათასობით საათიან კადრებზე ვარჯიშობდა.

ეს ნამუშევარი მოჰყვა ა ცალკე წინა წლის ოქსფორდის/გუგლის ინიციატივა, სახელწოდებით LipNet, ნერვული ქსელის არქიტექტურა, რომელიც ასახავს ცვლადი სიგრძის ვიდეოს თანმიმდევრობებს ტექსტის თანმიმდევრობებზე Gated Recurrent Network-ის (GRN) გამოყენებით, რომელიც ამატებს ფუნქციონალურობას მორეციდივე ნერვული ქსელის (RNN) საბაზისო არქიტექტურას. მოდელმა მიაღწია 4.1-ჯერ გაუმჯობესებულ შესრულებას ადამიანის ტუჩის წამკითხველებთან შედარებით.

რეალურ დროში ზუსტი ტრანსკრიპტის გამოტანის პრობლემის გარდა, ვიდეოდან მეტყველების ინტერპრეტაციის გამოწვევა უფრო ღრმავდება, როდესაც თქვენ ამოიღებთ სასარგებლო კონტექსტს, როგორიცაა აუდიო, კარგად განათებული კადრები და ენა/კულტურა, სადაც ფონემები/ ვიზემები შედარებით განსხვავებულია.

მიუხედავად იმისა, რომ ამჟამად არ არსებობს ემპირიული გაგება, თუ რომელი ენებია ყველაზე რთული ტუჩის წასაკითხი აუდიოს სრული არარსებობის პირობებში, იაპონური არის მთავარი კანდიდატი. იაპონელი ადგილობრივები (ისევე, როგორც სხვა დასავლეთ და აღმოსავლეთ აზიის მკვიდრნი) იყენებენ სახის გამონათქვამებს მათი მეტყველების შინაარსთან მიმართებაში, უკვე ხდის მათ უფრო დიდი გამოწვევა განწყობის ანალიზის სისტემებისთვის.

თუმცა, აღსანიშნავია, რომ ამ თემაზე სამეცნიერო ლიტერატურის დიდი ნაწილი ზოგადად არის წინდახედული, თუნდაც იმიტომ, რომ ამ სფეროში კარგად განზრახული ობიექტური კვლევაც კი რისკავს რასობრივ პროფილირებასა და არსებული სტერეოტიპების გავრცელებას.

ენები გუტურული კომპონენტების მაღალი პროპორციით, როგორიცაა ჩეჩენი მდე ჰოლანდიური, განსაკუთრებით პრობლემურია მეტყველების ამოღების ავტომატური ტექნიკისთვის, ხოლო კულტურები, სადაც მოსაუბრემ შეიძლება გამოხატოს ემოცია ან პატივისცემა შორს მზერით (ისევ, ზოგადად აზიურ კულტურებში) დაამატეთ კიდევ ერთი განზომილება, სადაც AI ტუჩის კითხვის მკვლევარებს დასჭირდებათ სხვა კონტექსტური მინიშნებებიდან „შევსების“ დამატებითი მეთოდების შემუშავება.