სტუბი ემოციების გამოხატვა ტიპოგრაფიის საშუალებით ხელოვნური ინტელექტის საშუალებით - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

ემოციების გამოხატვა ტიპოგრაფიის საშუალებით ხელოვნური ინტელექტის საშუალებით

mm
განახლებულია on

ტექსტურ კომუნიკაციებში მიმდინარე ტენდენციები და ინოვაციები (მათ შორის, ელექტრონული ფოსტის, შეტყობინებების და წარწერების სისტემების ჩათვლით) უნდა მოლაპარაკებას ასახავდეს ემოციურ უფსკრულს წერილობით და სალაპარაკო მეტყველებას შორის უხეში და მიახლოებითი გზებით.

მაგალითად, ბოლო რამდენიმე წელი მოიტანა ალტერნატიული ქუდები მოდაში შევიდა, როგორც პროვოკაციული მემი სოციალური მედიის ფლეიმის ომებში, ხოლო, მეტად საძულველი caps lock-ის გამოყენება (ისევე, როგორც გაბედული და შემაძრწუნებელი ტიპოგრაფიული ეფექტები, რომლებიც დაშვებულია ზოგიერთი კომენტარის პლატფორმით) განაგრძობს მოდერატორების ინტერვენციის პროვოცირებას. ეს არის ერთფეროვანი და მხოლოდ ფართოდ წარმომადგენლობითი მეთოდები წერილობითი სიტყვის ჩანაფიქრის გასარკვევად.

ამავდროულად, სმაილიკების და ემოციების, როგორც ჰიბრიდული ტექსტური/ვიზუალური გრძნობების გადამტანის პოპულარობის ზრდამ გამოიწვია. აქტიურად ჩართული ბუნებრივი ენების დამუშავების (NLP) კვლევის სექტორი ბოლო წლებში, ინტერესთან ერთად ანიმაციური GIF-ების მნიშვნელობა რომელსაც მომხმარებლები აქვეყნებენ კომენტარების თემებში.

დროთა განმავლობაში, წერილობითმა ენამ ჩამოაყალიბა ამ „დამატებითი“ ლინგვისტური მეთოდების ინოვაციური ფონდი, რომელიც ცდილობს ან ემოციის გამოხატვას ან მის გამოწვევას სალაპარაკო სიტყვის ტონალური ინფორმაციის არარსებობის შემთხვევაში.

თუმცა, როგორც წესი, ჩვენ გვჭირდება ემოციის გადმოცემა რაც შეიძლება კარგად წერილობითი სიტყვის კონტექსტიდან. განვიხილოთ, მაგალითად, ძახილის 'Ოჰ ოჰ ოჰ!', ლედი მაკბეტის შეშლილი ღამის სოლიკის დასასრულს, სავარაუდოდ, საქმის შესწავლა იმის შესახებ, თუ რამდენად შეუძლია ინტონაციას გავლენა მოახდინოს მნიშვნელობაზე.

უმეტეს ადაპტაციაში ეს მტკივნეული გოდება 2-6 წამს გრძელდება; ტრევორ ნანის 1976 წელს სამეფო შექსპირის კომპანიის წარმოებაში მაკბეტიჯუდი დენჩმა ამ სტრიქონის კითხვა მიიყვანა ალბათ დაუპირისპირებელ ჩანაწერამდე 24.45 წამში, როლის საეტაპო ინტერპრეტაციაში.

(YouTube-ის საკუთარი ავტომატური სუბტიტრების სისტემა ამ კლიპისთვის აღწერს დენჩის ულულაციას, როგორც [მუსიკა])

პროსოდიის თარგმნა ტიპოგრაფიაზე

ბრაზილიის ბოლო ნაშრომი გვთავაზობს მეტყველებით მოდულირებული ტიპოგრაფიის სისტემას, რომელიც პოტენციურად შეიძლება შეიცავდეს ასეთ პროზოდი, და სხვა პარალინგვისტური კომპონენტები, უშუალოდ წარწერის მეტყველებაში, ამატებენ ემოციის განზომილებას, რომელიც ცუდად არის აღბეჭდილი ზედსართავი სახელების წინასწარი შეყვანით, როგორიცაა [ყვირილი], ან სხვა „ბრტყელი“ ხრიკები, რომლებიც ხელმისაწვდომია დახურული სუბტიტრების კონვენციებისთვის.

ჩვენ ვთავაზობთ მეტყველებით მოდულირებული ტიპოგრაფიის ახალ მოდელს, სადაც მეტყველების აკუსტიკური მახასიათებლები გამოიყენება ტექსტის ვიზუალური იერსახის მოდულაციისთვის. ეს საშუალებას მისცემს მოცემული გამოთქმის ტრანსკრიფციას წარმოაჩინოს არა მხოლოდ ნათქვამი სიტყვები, არამედ მათი ნათქვამი.

"ამით ჩვენ ვიმედოვნებთ, რომ გამოვავლენთ ტიპოგრაფიულ პარამეტრებს, რომლებიც შეიძლება ზოგადად იყოს აღიარებული, როგორც ამპლიტუდის, სიმაღლისა და ხანგრძლივობის პროსოდიული მახასიათებლების ვიზუალური მაჩვენებლები."

სამუშაო პროცესი, რომელიც აქცევს პროსოდიას ტიპოგრაფიულ სტილში. მიზნად ისახავდნენ შექმნან ყველაზე მრავალმხრივი და ფართოდ განლაგებული სისტემა, ავტორები შემოიფარგლნენ საბაზისო ცვლილებით, კერნინგით და გამბედაობით, ეს უკანასკნელი უზრუნველყოფილია ღია ტიპის შრიფტის მრავალფუნქციურობით. წყარო: https://arxiv.org/pdf/2202.10631.pdf

სამუშაო პროცესი, რომელიც აქცევს პროსოდიას ტიპოგრაფიულ სტილში. მიზნად ისახავდნენ შექმნან ყველაზე მრავალმხრივი და ფართოდ განლაგებული სისტემა, ავტორები შემოიფარგლნენ საბაზისო ცვლილებით, კერნინგით და გამბედაობით, ეს უკანასკნელი უზრუნველყოფილია ღია ტიპის შრიფტის მრავალფუნქციურობით. წყარო: https://arxiv.org/pdf/2202.10631.pdf

ის ქაღალდი სახელდება ფარული ღრიალი, ჩურჩული და ყვირილი: შეიძლება თუ არა ტექსტის ჟღერადობა, ვიდრე უბრალოდ მისი სიტყვები?, და მოდის Calua de Lacerda Pataca-დან და Paula Dornhofer Paro Costa-დან, ორი მკვლევარი Universidade Estadual de Campinas-დან ბრაზილიაში.

თამამი სიტყვები

მიუხედავად იმისა, რომ პროექტის უფრო ფართო მიზანია ისეთი სისტემების შემუშავება, რომლებსაც შეუძლიათ წარწერებში პროსოდიისა და სხვა პარამეტრული ენის მახასიათებლების გადმოცემა, ავტორებს ასევე მიაჩნიათ, რომ ამ ბუნების სისტემას საბოლოოდ შეუძლია განავითაროს ფართო აუდიტორია სმენის სამყაროში.

ამ სივრცეში ბევრი წინა ინიციატივაა, მათ შორის ა 1983 პროექტი რომელმაც შესთავაზა წარწერების სისტემა, რომელიც შეიძლება შეიცავდეს "სპეციალური ეფექტები, ფერი და დიდი ასოები [ასახავს] მდიდარ ტონალურ ინფორმაციას, რომელიც უარყოფს ყრუ ბავშვებს[.]".

ამის საპირისპიროდ, ბრაზილიურ პროექტს შეუძლია ისარგებლოს როგორც ავტომატური ტრანსკრიფციით, ასევე ზემოქმედების ამოცნობის ახალი განვითარებით, რომლებიც გაერთიანდებიან სამუშაო პროცესზე, რომელსაც შეუძლია კომპონენტების იმპორტი და დახასიათება მეტყველების საუნდტრეკში.

პროსოდიური მახასიათებლების ამოღებისა და დამუშავების შემდეგ, ისინი აისახება მეტყველების სიტყვების დროის ნიშანზე, წარმოქმნის ნიშნებს, რომლებიც შეიძლება გამოყენებულ იქნას წარწერის ტიპოგრაფიის წესებზე დაფუძნებული მოდულაციის გამოსაყენებლად (იხ. სურათი ზემოთ).

ამ შედეგს შეუძლია ვიზუალურად წარმოადგინოს ის, თუ რამდენად გაჭიანურებული, ჩურჩული, ხაზგასმული ან სხვაგვარად შეინახება კონტექსტური ინფორმაცია, რომელიც დაიკარგება ნედლი ტრანსკრიფციის დროს.

პროექტის სატესტო ფაზიდან, გაითვალისწინეთ, როგორ გაფართოვდა კერინგი (სიტყვის ასოებს შორის სივრცე) გაჭიანურებული გამოთქმის ასახვაზე.

პროექტის სატესტო ფაზიდან, გაითვალისწინეთ, როგორ გაფართოვდა კერინგი (სიტყვის ასოებს შორის სივრცე) გაჭიანურებული გამოთქმის ასახვაზე.

ავტორები ცხადყოფენ, რომ მათი ნამუშევარი არ არის გამიზნული უშუალოდ წვლილი შეიტანოს ემოციების ამოცნობაში და გავლენა მოახდინოს ამოცნობის კვლევაზე, არამედ ცდილობს მეტყველების მახასიათებლების კლასიფიკაციას და მათ წარმოდგენას ახალი ვიზუალური კონვენციების მარტივი და შეზღუდული დიაპაზონით.

ყოველ შემთხვევაში, დამატებითი აქცენტი, რომელიც სისტემას იძლევა, არღვევს წინადადებებს, სადაც მოქმედების ობიექტი შეიძლება არ იყოს ნათელი იმ მაყურებლებისთვის, რომლებსაც არ ესმით ხმა (ან ინვალიდობის ან დაკვრის გარემოებების გამო, როგორიცაა ხმაურიანი გარემო).

2017 წლის ჩემი მაგალითის დასასესხებლად, რომელიც ასახავდა მანქანური სწავლების სისტემებს ასევე უჭირს იმის გაგებაში, თუ სად არის ობიექტი და მოქმედება წინადადებაში, ადვილია იმის დანახვა, თუ რამდენად შეუძლია ხაზგასმა რადიკალურად შეცვალოს თუნდაც მარტივი წინადადების მნიშვნელობა:

I ეს არ გამოპარვია. (ვიღაცამ მოიპარა)
I არა მოიპარე ეს, (მე უარვყოფ ბრალდებას, რომ მე მოვიპარე)
მე არა იპარავენ რომ. (მე მას ვფლობ, ქურდობა არ ვრცელდება)
არ მომიპარავს ეს. (მაგრამ მე სხვა რამე მოვიპარე)

პოტენციურად, მექანიკური პროსოდიის> ტიპოგრაფიის სამუშაო პროცესი, როგორიცაა ბრაზილიელი ავტორები ვარაუდობენ, ასევე შეიძლება სასარგებლო იყოს მონაცემთა ნაკრების შემუშავებაში ზემოქმედების გამოთვლითი კვლევისთვის, რადგან ის აადვილებს წმინდა ტექსტზე დაფუძნებული მონაცემების დამუშავებას, რომელიც, მიუხედავად ამისა, აერთიანებს წინასწარ დასკვნამდე მიღებულ პარალინგვისტიკას. ზომები.

გარდა ამისა, მკვლევარები აღნიშნავენ, რომ პროსოდიის შემცველი ტექსტის დამატებითი ლინგვისტური დატვირთვა შეიძლება სასარგებლო იყოს NLP-ზე დაფუძნებული ამოცანების სპექტრში, მათ შორის მომხმარებელთა კმაყოფილების შეფასების და დეპრესიის დასკვნისთვის ტექსტის შინაარსიდან.

ელასტიური ტიპოგრაფია

მკვლევარების მიერ შემუშავებული ჩარჩო გვთავაზობს ცვალებადობას საბაზისო ცვლაში, სადაც ასო შეიძლება იყოს უფრო მაღალი ან დაბალი იმ „საბაზისო ხაზთან“ მიმართებაში, რომელზეც ეყრდნობა წინადადება; კერნინგი, სადაც სიტყვის ასოებს შორის სივრცე შეიძლება შემცირდეს ან გაფართოვდეს; და შრიფტის წონა (გამბედაობა).

ეს სამი სტილი ასახავს მეტყველების ამოღებულ მახასიათებლებს, რომლებზეც პროექტი შემოიფარგლა: შესაბამისად, pitch, ხანგრძლივობადა მასშტაბები.

სტილის პროგრესირება წინადადებაზე. #1-ში ჩვენ ვხედავთ მარცვლების საზღვრებს, რომლებიც განისაზღვრა ამოღების პროცესში. #2-ში ჩვენ ვხედავთ თითოეული სამი მოდულაციის (მაგნიტუდა|წონა, კერნინგ|ხანგრძლივობა და სიმაღლე|საბაზისო ცვლა) წარმოდგენას, რომლებიც გამოიყენება ცალკე. #3-ში ჩვენ ვხედავთ კომბინირებულ ტიპოგრაფიულ მოდულაციას საბოლოო გამოსავალში, როგორც წარმოდგენილია სისტემის საცდელში 117 მონაწილეზე.

სტილის პროგრესირება წინადადებაზე. #1-ში ჩვენ ვხედავთ მარცვლების საზღვრებს, რომლებიც განისაზღვრა ამოღების პროცესში. #2-ში ჩვენ ვხედავთ თითოეული სამი მოდულაციის (მაგნიტუდა|წონა, კერნინგ|ხანგრძლივობა და სიმაღლე|საბაზისო ცვლა) წარმოდგენას, რომლებიც გამოიყენება ცალკე. #3-ში ჩვენ ვხედავთ კომბინირებულ ტიპოგრაფიულ მოდულაციას საბოლოო გამოსავალში, როგორც წარმოდგენილია სისტემის საცდელში 117 მონაწილეზე.

ვინაიდან ერთ შრიფტს შეიძლება დასჭირდეს დამატებითი და ცალკეული შრიფტი ისეთი ვარიაციებისთვის, როგორიცაა თამამი და დახრილი, მკვლევარებმა გამოიყენეს Google შესრულების OpenType შრიფტის ინტერ, რომელიც აერთიანებს წონის მარცვლოვან დიაპაზონს ერთ შრიფტში.

ნაშრომიდან მოცემულია დიაგრამა, რომელშიც დეტალურადაა აღწერილი, თუ რამდენად შეუძლია ინტერ შრიფტიდან OpenType გლიფს გამოხატოს თამამი აქცენტების სპექტრი მინიმალური საბაზისო სლაინის ჩონჩხის გასწვრივ.

ნაშრომიდან მოცემულია დიაგრამა, რომელშიც დეტალურადაა აღწერილი, თუ რამდენად შეუძლია ინტერ შრიფტიდან OpenType გლიფს გამოხატოს თამამი აქცენტების სპექტრი მინიმალური საბაზისო სლაინის ჩონჩხის გასწვრივ.

ტესტირება

კერნინგის გამოხატულება და საბაზისო ცვლა ჩართული იყო ბრაუზერის დანამატში, რამაც საშუალება მისცა 117 სმენით ჩართულ მონაწილეზე ჩატარებული ტესტები.

ტესტებისთვის მონაცემთა ნაკრები შეიქმნა სპეციალურად პროექტისთვის, მსახიობის დაქირავებით, რომელიც რამდენჯერმე წაიკითხავს ლექსების არჩევანს, თითოეულ ასპექტზე განსხვავებული აქცენტით, რაც შეესაბამება იმ სამ მახასიათებელს, რომელსაც პროექტი სწავლობს. პოეზია შეირჩა იმიტომ, რომ ის საშუალებას აძლევს ხაზგასმას (თუნდაც პოეტის განზრახვას მიღმა) ხელოვნურად ჟღერადობის გარეშე.

მონაწილეები დაიყო ორ ჯგუფად. პირველებს გადაეცათ მსახიობის მიერ სტროფის წაკითხვის 15 რაუნდი სინქრონიზებული, ანიმაციური და მოდულირებული ტექსტის თანხლებით, რომელიც აუდიო კლიპთან ერთად გავრცელდა.

მეორე ჯგუფმა მიიღო ზუსტად იგივე დავალებები, მაგრამ წარუდგინეს მოდულირებული ტექსტის სტატიკური გამოსახულებები, რომლებიც საერთოდ არ იცვლებოდა მსახიობის კითხვის დაკვრის დროს.

სწორი პასუხების საშუალო მაჩვენებელი იყო არა შემთხვევითი 67% სტატიკური სურათების ჯგუფისთვის და 63% ანიმაციური ტექსტის ჯგუფისთვის. მკვლევარების მიერ ცდების შემდეგ მოთხოვნილმა მონაწილეთა კომენტარებმა დაადასტურა მათი თეორია, რომ დინამიური ინტერპრეტაციის კოგნიტურმა დატვირთვამ შესაძლოა ხელი შეუწყო არასტატიკური ტესტების დაბალ ქულებს. თუმცა, სუბტიტრების და შეტყობინებების სისტემები, რომლებისთვისაც ასეთი ჩარჩო იქნება განკუთვნილი, ჩვეულებრივ, ნაგულისხმევად იძლევა თითოეულ დასრულებულ ტექსტს.

მონაწილეთა კომენტარებში ასევე მითითებულია, რომ არსებობს მკაცრი შეზღუდვები კერნინგის გამოყენებისას ხანგრძლივობის აღსანიშნავად, ერთ-ერთმა კომენტატორმა აღნიშნა, რომ როდესაც ასოები ერთმანეთისგან ძალიან შორს არის დაშორებული, რთული ხდება სიტყვის ინდივიდუალურობა.

მკვლევარები ასევე აღნიშნავენ:

„[ზოგი] მონაწილე ფიქრობს, რომ მოდელს უნდა შეეძლოს მეტყველების უფრო ნიუანსური და რთული წარმოდგენების განსახიერება, რაც მას უფრო მრავალფეროვანი და ექსპრესიული ვიზუალური ლექსიკის საშუალებით უნდა მოეხდინა. მიუხედავად იმისა, რომ ეს არ არის მარტივი ამოცანა, მაინც დამაიმედებელია იმის წარმოდგენა, თუ როგორ შეიძლება განვითარდეს მეტყველებით მოდულირებული ტიპოგრაფიის სხვადასხვა აპლიკაციები ამ ახალი სფეროს განვითარებასთან ერთად.'

 

 

პირველად გამოქვეყნდა 24 წლის 2022 თებერვალს.