სტუბი ხელოვნური ხელოვნური ინტელექტი ეხმარება ნერვულ მოსაუბრეებს „ოთახის წაკითხვაში“ ვიდეოკონფერენციების დროს - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

ხელოვნური ხელოვნური ინტელექტი ეხმარება ნერვულ მოსაუბრეებს „ოთახის წაკითხვაში“ ვიდეოკონფერენციების დროს

mm
განახლებულია on

2013 წელს საერთო ფობიებზე ჩატარებულმა გამოკითხვამ დაადგინა, რომ საჯარო გამოსვლის პერსპექტივა იყო სიკვდილის პერსპექტივაზე უარესი გამოკითხულთა უმრავლესობისთვის. სინდრომი ცნობილია როგორც გლოსოფობია.

COVID-ზე ორიენტირებული მიგრაცია „პირადი“ შეხვედრებიდან დაწყებული ონლაინ მასშტაბირების კონფერენციებით ისეთ პლატფორმებზე, როგორიცაა Zoom და Google Spaces, გასაკვირი არ არის, რომ სიტუაცია არ გააუმჯობესა. იქ, სადაც შეხვედრა შეიცავს მონაწილეთა დიდ რაოდენობას, ჩვენი ბუნებრივი საფრთხის შეფასების უნარები დაქვეითებულია მონაწილეთა დაბალი გარჩევადობის სტრიქონებისა და ხატების გამო და სახის გამომეტყველებისა და სხეულის ენის დახვეწილი ვიზუალური სიგნალების წაკითხვის სირთულე. მაგალითად, Skype აღმოჩნდა ცუდი პლატფორმა არავერბალური ნიშნების გადმოსაცემად.

ზეგავლენა საჯარო გამოსვლის შესრულებაზე აღქმული ინტერესი და რეაგირება არის კარგად დოკუმენტირებული ამ დროისთვის და ინტუიციურად აშკარაა უმეტესი ჩვენგანისთვის. აუდიტორიის გაუმჭვირვალე პასუხმა შეიძლება გამოიწვიოს მომხსენებლების ყოყმანი და უკან დაბრუნება შემავსებელი მეტყველება, არ იციან, ხვდება თუ არა მათი არგუმენტები თანხმობას, ზიზღს ან უინტერესობას, რაც ხშირად არასასიამოვნო გამოცდილებას ქმნის როგორც მოსაუბრესთვის, ასევე მათი მსმენელისთვის.

ონლაინ ვიდეოკონფერენციაზე მოულოდნელი გადასვლის ზეწოლის ქვეშ, რომელიც შთაგონებულია COVID-ის შეზღუდვებითა და სიფრთხილის ზომებით, პრობლემა, სავარაუდოდ, უარესდება და კომპიუტერულ ხედვაში შემოთავაზებულია აუდიტორიის გამოხმაურების არაერთი სამელიორაციო სქემა და გავლენას ახდენს კვლევით თემებზე ბოლო რამდენიმე წლის განმავლობაში.

აპარატურაზე ორიენტირებული გადაწყვეტილებები

თუმცა, მათგან უმეტესობა მოიცავს დამატებით აღჭურვილობას ან კომპლექსურ პროგრამულ უზრუნველყოფას, რამაც შეიძლება გამოიწვიოს კონფიდენციალურობის ან ლოჯისტიკის პრობლემები - შედარებით მაღალი ფასის ან სხვაგვარად რესურსებით შეზღუდული მიდგომის სტილები, რომლებიც პანდემიამდეა. 2001 წელს MIT-მა შესთავაზა გალვააქტივატორი, ხელნაკეთი მოწყობილობა, რომელიც განსაზღვრავს აუდიტორიის მონაწილის ემოციურ მდგომარეობას, ტესტირება ერთდღიანი სიმპოზიუმის დროს.

2001 წლიდან MIT-ის გალვააქტივატორი, რომელიც ზომავდა კანის გამტარობის რეაქციას აუდიტორიის განწყობისა და ჩართულობის გასაგებად. წყარო: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

2001 წლიდან MIT-ის გალვააქტივატორი, რომელიც ზომავდა კანის გამტარობის რეაქციას აუდიტორიის განწყობისა და ჩართულობის გასაგებად. წყარო: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

ასევე დიდი აკადემიური ენერგია დაეთმო შესაძლებელს "კლიკერების" განლაგება როგორც აუდიტორიის რეაგირების სისტემა (ARS), ღონისძიება აუდიტორიის აქტიური მონაწილეობის გასაზრდელად (რაც ავტომატურად ზრდის ჩართულობას, რადგან აიძულებს მნახველს აქტიური უკუკავშირის კვანძის როლში შევიდეს), მაგრამ ასევე განიხილება როგორც მომხსენებლის წახალისების საშუალება. .

მოიცავდა სპიკერისა და აუდიტორიის „დაკავშირების“ სხვა მცდელობებს გულისცემის მონიტორინგი, სხეულზე ნახმარი კომპლექსური აღჭურვილობის გამოყენება ელექტროენცეფალოგრაფიის გამოსაყენებლად, 'გახარების მეტრი'კომპიუტერულ ხედვაზე დაფუძნებული ემოციების ამოცნობა მაგიდაზე მიბმული მუშაკებისთვის და აუდიტორიის გაგზავნის გამოყენება სიცილაკები მომხსენებლის გამოსვლის დროს.

2017 წლიდან EngageMeter, ერთობლივი აკადემიური კვლევითი პროექტი LMU მიუნხენისა და შტუტგარტის უნივერსიტეტისგან. წყარო: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

2017 წლიდან EngageMeter, ერთობლივი აკადემიური კვლევითი პროექტი LMU მიუნხენისა და შტუტგარტის უნივერსიტეტისგან. წყარო: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

როგორც აუდიტორიის ანალიტიკის მომგებიანი სფეროს ქვე-დევნა, კერძო სექტორმა განსაკუთრებული ინტერესი გამოიჩინა მზერის შეფასებითა და თვალთვალით – სისტემები, სადაც აუდიტორიის თითოეულ წევრს (რომელიც თავის მხრივ შეიძლება საბოლოოდ მოუწიოს ლაპარაკი) ექვემდებარება. თვალის თვალთვალი როგორც ჩართულობისა და მოწონების მაჩვენებელი.

ყველა ეს მეთოდი საკმაოდ მაღალი ხახუნისაა. ბევრ მათგანს ესაჭიროება შეკვეთილი აპარატურა, ლაბორატორიული გარემო, სპეციალიზებული და მორგებული პროგრამული უზრუნველყოფის ჩარჩოები და ძვირადღირებული კომერციული API-ების ხელმოწერა – ან ამ შემზღუდველი ფაქტორების ნებისმიერი კომბინაცია.

ამიტომ მინიმალისტური სისტემების შემუშავება, რომელიც დაფუძნებულია ვიდეოკონფერენციის ჩვეულებრივ ინსტრუმენტებზე, საინტერესო გახდა ბოლო 18 თვის განმავლობაში.

აუდიტორიის მოწონების მოხსენება გონივრულად

ამ მიზნით, ტოკიოს უნივერსიტეტისა და კარნეგი მელონის უნივერსიტეტის ახალი კვლევითი თანამშრომლობა გვთავაზობს ახალ სისტემას, რომელსაც შეუძლია დაბრუნდეს სტანდარტული ვიდეოკონფერენციის ინსტრუმენტებზე (როგორიცაა Zoom) მხოლოდ ვებ კამერით ჩართული ვებსაიტის გამოყენებით, რომელზეც მსუბუქი მზერა და პოზაა. გაშვებულია შეფასების პროგრამული უზრუნველყოფა. ამ გზით თავიდან აიცილება ადგილობრივი ბრაუზერის დანამატების საჭიროებაც კი.

მომხმარებლის ქნევა და სავარაუდო თვალის ყურადღება გადაითარგმნება წარმომადგენლობით მონაცემებად, რომლებიც ვიზუალურად უბრუნდება მომხსენებელს, რაც საშუალებას იძლევა ჩატარდეს „ცოცხალი“ ლაკმუსის ტესტი იმისა, თუ რამდენად აინტერესებს კონტენტი აუდიტორიას – და ასევე პერიოდების გაურკვეველი მაჩვენებელი. დისკურსი, სადაც მომხსენებელმა შეიძლება დაკარგოს აუდიტორიის ინტერესი.

CalmResponses-ის საშუალებით მომხმარებლის ყურადღება და თავის დაქნევა ემატება აუდიტორიის გამოხმაურების ჯგუფს და ითარგმნება ვიზუალურ წარმომადგენლობაში, რომელიც სარგებელს მოუტანს მომხსენებელს. იხილეთ ჩაშენებული ვიდეო სტატიის ბოლოს მეტი დეტალებისა და მაგალითებისთვის. წყარო: https://www.youtube.com/watch?v=J_PhB4FCzk0

CalmResponses-ის საშუალებით მომხმარებლის ყურადღება და თავის დაქნევა ემატება აუდიტორიის გამოხმაურების ჯგუფს და ითარგმნება ვიზუალურ წარმოდგენაში, რომელიც სარგებელს მოუტანს მომხსენებელს. იხილეთ ჩაშენებული ვიდეო სტატიის ბოლოს მეტი დეტალებისა და მაგალითებისთვის. წყარო: https://www.youtube.com/watch?v=J_PhB4FCzk0

ბევრ აკადემიურ სიტუაციაში, როგორიცაა ონლაინ ლექციები, სტუდენტები შეიძლება სრულიად შეუმჩნეველი აღმოჩნდნენ სპიკერისთვის, რადგან მათ არ ჩართოთ კამერები თავიანთი წარმოშობის ან მიმდინარე გარეგნობის შესახებ თვითშეგნების გამო. CalmResponses-ს შეუძლია გადაჭრას ეს სხვაგვარად ეკლიანი დაბრკოლება სპიკერის გამოხმაურებაში, მოხსენებით, თუ რა იცის, თუ როგორ უყურებს სპიკერი შინაარსს და თუ ისინი თავს აქნევს, მაყურებლის მიერ კამერის გააქტიურების საჭიროების გარეშე.

ის ქაღალდი სახელდება CalmResponses: კოლექტიური აუდიტორიის რეაქციების ჩვენება დისტანციურ კომუნიკაციაში, და არის ერთობლივი ნამუშევარი ორ მკვლევარს შორის UoT-დან და ერთი კარნეგი მელონიდან.

ავტორები გვთავაზობენ ცოცხალ ვებ დემო ვერსიას და გამოუშვეს წყაროს კოდი GitHub-ზე.

CalmResponses ჩარჩო

CalmResponses-ის ინტერესი თავის დაქნევის მიმართ, განსხვავებით თავის სხვა შესაძლო განწყობებისგან, ემყარება კვლევას (ზოგიერთი მათგანი მიესალმება უკან დარვინის ეპოქაში) რაც მიუთითებს, რომ მსმენელთა 80%-ზე მეტი თავის მოძრაობებს შედგება ქნევისგან (მაშინაც კი, როცა არიან უთანხმოების გამოხატვა). ამავდროულად, ნაჩვენებია თვალის მზერის მოძრაობები მეტი მრავალრიცხოვანი სწავლა იყოს ინტერესის ან ჩართულობის სანდო მაჩვენებელი.

CalmResponses დანერგილია HTML, CSS და JavaScript-ით და მოიცავს სამ ქვესისტემას: აუდიტორიის კლიენტს, სპიკერის კლიენტს და სერვერს. აუდიტორიის კლიენტები გადასცემს თვალის მზერის ან თავის მოძრაობის მონაცემებს მომხმარებლის ვებკამერიდან WebSockets-ის მეშვეობით ღრუბლოვანი აპლიკაციის პლატფორმაზე Heroku.

აუდიტორიის ქნევა ვიზუალურია მარჯვნივ ანიმაციურ მოძრაობაში CalmResponses-ის ქვეშ. ამ შემთხვევაში მოძრაობის ვიზუალიზაცია ხელმისაწვდომია არა მხოლოდ სპიკერისთვის, არამედ მთელი აუდიტორიისთვის.

აუდიტორიის ქნევა ვიზუალურია მარჯვნივ ანიმაციურ მოძრაობაში CalmResponses-ის ქვეშ. ამ შემთხვევაში მოძრაობის ვიზუალიზაცია ხელმისაწვდომია არა მხოლოდ სპიკერისთვის, არამედ მთელი აუდიტორიისთვის. წყარო: https://arxiv.org/pdf/2204.02308.pdf

პროექტის თვალთვალის მონაკვეთისთვის მკვლევარებმა გამოიყენეს WebGazer, მსუბუქი, JavaScript-ზე დაფუძნებული ბრაუზერზე დაფუძნებული თვალის თვალთვალის ჩარჩო, რომელიც შეიძლება იმუშაოს დაბალი შეყოვნებით პირდაპირ ვებსაიტიდან (იხილეთ ბმული ზემოთ მკვლევარების ვებზე დაფუძნებული განხორციელებისთვის).

ვინაიდან მარტივი განხორციელებისა და უხეში პასუხის ამოცნობის აუცილებლობა აღემატება მზერისა და პოზის შეფასების მაღალი სიზუსტის საჭიროებას, შეყვანილი პოზის მონაცემები გათლილი ხდება საშუალო მნიშვნელობების მიხედვით, სანამ განიხილება პასუხის საერთო შეფასებისთვის.

ქნევის ქმედება ფასდება JavaScript ბიბლიოთეკის მეშვეობით clmtrackr, რომელიც ერგება სახის მოდელებს სურათებში ან ვიდეოებში აღმოჩენილ სახეებს მოწესრიგებული საეტაპო საშუალო ცვლა. ეკონომიურობისა და დაბალი ლატენტურობის მიზნებისთვის, ავტორების განხორციელებისას აქტიურად აკვირდება მხოლოდ ცხვირის გამოვლენილ ღირშესანიშნაობას, რადგან ეს საკმარისია ქნევის მოქმედებების თვალყურის დევნებისთვის.

მომხმარებლის ცხვირის წვერის პოზიციის მოძრაობა ქმნის ბილიკს, რომელიც ხელს უწყობს აუდიტორიის რეაგირების აუზს, რომელიც დაკავშირებულია თავის დაქნევასთან, ვიზუალურად ვიზუალურად ყველა მონაწილისთვის.

მომხმარებლის ცხვირის წვერის პოზიციის მოძრაობა ქმნის ბილიკს, რომელიც ხელს უწყობს აუდიტორიის რეაგირების აუზს, რომელიც დაკავშირებულია თავის დაქნევასთან, ვიზუალურად ვიზუალურად ყველა მონაწილისთვის.

სითბოს რუკა

მიუხედავად იმისა, რომ ქნევის აქტივობა წარმოდგენილია დინამიური მოძრავი წერტილებით (იხილეთ სურათები ზემოთ და ვიდეო ბოლოს), ვიზუალური ყურადღება მოხსენებულია სითბოს რუკის თვალსაზრისით, რომელიც აჩვენებს სპიკერსა და აუდიტორიას, სადაც ყურადღების ზოგადი ადგილია ფოკუსირებული საზიარო პრეზენტაციის ეკრანზე ან ვიდეოკონფერენციის გარემო.

ყველა მონაწილეს შეუძლია დაინახოს, სად არის ფოკუსირებული მომხმარებლის ზოგადი ყურადღება. ნაშრომში არ არის ნახსენები, არის თუ არა ეს ფუნქცია ხელმისაწვდომი, როდესაც მომხმარებელს შეუძლია ნახოს სხვა მონაწილეთა „გალერეა“, რამაც შეიძლება გამოავლინოს განსაკუთრებული ყურადღება ერთ კონკრეტულ მონაწილეზე, სხვადასხვა მიზეზის გამო.

ყველა მონაწილეს შეუძლია დაინახოს, სად არის ფოკუსირებული მომხმარებლის ზოგადი ყურადღება. ნაშრომში არ არის ნახსენები, არის თუ არა ეს ფუნქცია ხელმისაწვდომი, როდესაც მომხმარებელს შეუძლია ნახოს სხვა მონაწილეთა „გალერეა“, რამაც შეიძლება გამოავლინოს განსაკუთრებული ყურადღება ერთ კონკრეტულ მონაწილეზე, სხვადასხვა მიზეზის გამო.

ტესტები

ორი სატესტო გარემო ჩამოყალიბდა CalmResponses-ისთვის ჩუმად აბლაციის კვლევის სახით, სამი განსხვავებული გარემოებების გამოყენებით: „პირობა B“-ში (საწყისი ხაზი), ავტორებმა გაიმეორეს ტიპიური ონლაინ სტუდენტური ლექცია, სადაც სტუდენტების უმრავლესობა ინახავს ვებკამერებს ჩართული. გამორთულია და მომხსენებელს არ აქვს აუდიტორიის სახეების დანახვის უნარი; 'Condition CR-E', სპიკერს შეეძლო დაენახა მზერის გამოხმაურება (სითბოს რუქები); 'C Condition CR-N'-ში, მომხსენებელს შეეძლო ენახა აუდიტორიისგან როგორც თავი დახარა, ისე მზერის აქტივობა.

პირველი ექსპერიმენტული სცენარი მოიცავდა B პირობას და პირობას CR-E; მეორე მოიცავდა მდგომარეობას B და პირობას CR-N. გამოხმაურება მიიღეს როგორც მომხსენებლებისგან, ასევე აუდიტორიისგან.

თითოეულ ექსპერიმენტში შეფასდა სამი ფაქტორი: პრეზენტაციის ობიექტური და სუბიექტური შეფასება (მათ შორის, მომხსენებლის მიერ მოხსენებული კითხვარი იმის შესახებ, თუ როგორ განვითარდა პრეზენტაცია); „შემავსებელი“ მეტყველების მოვლენების რაოდენობა, რაც მიანიშნებს მომენტალურ დაუცველობასა და გაურკვევლობაზე; და თვისებრივი კომენტარები. ეს კრიტერიუმებია საერთო შემფასებლები მეტყველების ხარისხისა და მეტყველების შფოთვის შესახებ.

სატესტო აუზი შედგებოდა 38-19 წლის 44 ადამიანისგან, მათ შორის 29 მამაკაცი და ცხრა ქალი საშუალო ასაკის 24.7, ყველა იაპონური ან ჩინური და ყველა თავისუფლად ფლობდა იაპონურს. ისინი შემთხვევით დაყვეს 6-7 მონაწილიან ხუთ ჯგუფად და არც ერთი სუბიექტი არ იცნობდა ერთმანეთს პირადად.

ტესტები ჩატარდა Zoom-ზე, სადაც ხუთმა მომხსენებელმა წარადგინა პრეზენტაციები პირველ ექსპერიმენტში, ხოლო ექვსი მეორეში.

შემავსებლის პირობები მონიშნულია როგორც ნარინჯისფერი ყუთები. ზოგადად, შემავსებლის შემცველობა გონივრული პროპორციით დაეცა სისტემის მხრიდან აუდიტორიის გამოხმაურების გაზრდასთან.

შემავსებლის პირობები მონიშნულია როგორც ნარინჯისფერი ყუთები. ზოგადად, შემავსებლის შემცველობა გონივრული პროპორციით დაეცა სისტემის მხრიდან აუდიტორიის გამოხმაურების გაზრდასთან.

მკვლევარები აღნიშნავენ, რომ ერთი სპიკერის შემავსებლები შესამჩნევად შემცირდა და რომ „Condition CR-N“ სპიკერი იშვიათად წარმოთქვამს შემავსებლის ფრაზებს. იხილეთ ნაშრომი მოხსენებული ძალიან დეტალური და მარცვლოვანი შედეგებისთვის; თუმცა, ყველაზე შესამჩნევი შედეგები იყო სუბიექტური შეფასება მომხსენებლებისა და აუდიტორიის მონაწილეებისგან.

აუდიტორიის კომენტარები მოიცავდა:

„ვგრძნობდი, რომ ჩართული ვიყავი პრეზენტაციებში“ [AN2], „არ ვიყავი დარწმუნებული, რომ მომხსენებლების გამოსვლები გაუმჯობესებული იყო, მაგრამ მე ვიგრძენი ერთიანობის გრძნობა სხვების თავის მოძრაობების ვიზუალიზაციის შედეგად.“ [AN6]

"არ ვიცოდი, რომ მომხსენებლების გამოსვლები გაუმჯობესებული იყო, მაგრამ მე ვიგრძენი ერთიანობის გრძნობა სხვების თავის მოძრაობების ვიზუალიზაციისგან."

მკვლევარები აღნიშნავენ, რომ სისტემა შემოაქვს ახალი სახის ხელოვნურ პაუზას მომხსენებლის პრეზენტაციაში, რადგან მომხსენებელი მიდრეკილია მიმართოს ვიზუალურ სისტემას, რათა შეაფასოს აუდიტორიის გამოხმაურება შემდგომი გაგრძელებამდე.

ისინი ასევე აღნიშნავენ ერთგვარ „თეთრი საფარის ეფექტს“, რომლის თავიდან აცილება ძნელია ექსპერიმენტულ გარემოებებში, სადაც ზოგიერთი მონაწილე თავს შეზღუდულად გრძნობდა ბიომეტრიული მონაცემების მონიტორინგის უსაფრთხოების შესაძლო შედეგებით.

დასკვნა

ასეთი სისტემის ერთ-ერთი შესამჩნევი უპირატესობა არის ყველა არასტანდარტული დამხმარე ტექნოლოგია, რომელიც საჭიროა ასეთი მიდგომისთვის, მათი გამოყენების დასრულების შემდეგ მთლიანად ქრება. არ არსებობს ნარჩენი ბრაუზერის დანამატები, რომლებიც უნდა წაიშალოს, ან მონაწილეთა გონებაში ეჭვი შეიტანოს თუ არა ისინი შესაბამის სისტემებზე; და არ არის საჭირო მომხმარებლის წარმართვა ინსტალაციის პროცესში (თუმცა ვებზე დაფუძნებული ჩარჩო მოითხოვს მომხმარებლის მიერ თავდაპირველ კალიბრაციას ერთ-ორ წუთს), ან იმის შესაძლებლობას, რომ მომხმარებლებს არ ჰქონდეთ ადგილობრივი პროგრამული უზრუნველყოფის ინსტალაციის ადეკვატური ნებართვა, მათ შორის ბრაუზერზე დაფუძნებული დანამატები და გაფართოებები.

მიუხედავად იმისა, რომ სახის და თვალის შეფასებული მოძრაობები არ არის ისეთი ზუსტი, როგორც ეს შეიძლება იყოს იმ გარემოებებში, როდესაც შეიძლება გამოყენებული იქნას ადგილობრივი მანქანათმცოდნეობის ჩარჩოები (როგორიცაა YOLO სერია), აუდიტორიის შეფასების ეს თითქმის ხახუნის მიდგომა უზრუნველყოფს ადექვატურ სიზუსტეს ფართო განწყობისა და პოზიციის ანალიზისთვის. ტიპიური ვიდეოკონფერენციის სცენარებში. რაც მთავარია, ძალიან იაფია.

შეამოწმეთ დაკავშირებული პროექტის ვიდეო ქვემოთ დამატებითი დეტალებისა და მაგალითებისთვის.

CalmResponses: კოლექტიური აუდიტორიის რეაქციების ჩვენება დისტანციურ კომუნიკაციაში

 

პირველად გამოქვეყნდა 11 წლის 2022 აპრილს.