Штучний інтелект

AI допомагає нервовим ораторам «читати аудиторію» під час відеоконференцій

Published April 11, 2022

Updated April 28, 2026

Martin Anderson

У 2013 році опитування щодо поширених фобій показало, що перспектива публічних виступів була гіршою, ніж перспектива смерті для більшості респондентів. Ця синдром називається глософобією.

COVID-індукована міграція з «фейс-ту-фейс» зустрічей до онлайн-зум-конференцій на платформах, таких як Zoom і Google Spaces, несподівано не покращила ситуацію. Коли на зустрічі присутня велика кількість учасників, наші природні можливості оцінки загрози порушуються низькою роздільною здатністю рядів і ікон учасників, а також складнощі у читанні тонких візуальних сигналів обличчя та мови тіла. Наприклад, Skype виявився поганою платформою для передачі невербальних сигналів.

Ефекти публічних виступів на сприйняту зацікавленість і реакцію добре задокументовані на сьогодні, і інтуїтивно очевидні для більшості з нас. Непрозора реакція аудиторії може змусити ораторів коливатися і повернутися до заповнювальної мови, не знаючи, чи їхні аргументи зустрічаються з згодою, зневагою чи байдужістю, часто роблячи досвід незручним як для оратора, так і для слухачів.

Під тиском несподіваної зміни до онлайн-відеоконференцій, викликаних обмеженнями та заходами COVID, проблема, ймовірно, погіршується, і за останні два роки в галузі комп’ютерного бачення та досліджень афекту було запропоновано ряд схем зворотного зв’язку аудиторії.

Апаратуно-орієнтовані рішення

Більшість із них, однак, включають додаткове обладнання або складне програмне забезпечення, яке може створити проблеми із конфіденційністю або логістикою – відносно високі витрати або інші обмежені стилі підходу, які передували пандемії. У 2001 році MIT запропонував Galvactivator, пристрій, який носиться на руці, який витягує емоційний стан учасника аудиторії, протестований під час одноденного симпозіуму.

[підпис до зображення id=”attachment_181039″ align=”alignnone” width=”432″] У 2001 році MIT's Galvactivator, який вимірював реакцію шкіри на провідність у спробі зрозуміти настрій і залученість аудиторії. Джерело: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf У 2001 році MIT’s Galvactivator, який вимірював реакцію шкіри на провідність у спробі зрозуміти настрій і залученість аудиторії. Джерело: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf[/підпис до зображення]

Була витрачена велика кількість академічної енергії на можливе розгортання «клікерів» як системи зворотного зв’язку аудиторії (ARS), заходу для збільшення активної участі аудиторії (що автоматично збільшує залученість, оскільки змушує глядача до ролі активного вузла зворотного зв’язку), але яке також було задумано як засіб заохочення ораторів.

Інші спроби «з’єднати» оратора та аудиторію включали моніторинг частоти серцевих скорочень, використання складного обладнання, яке носиться на тілі, для використання електроенцефалографії, «метри чіру», комп’ютерно-зорієнтоване визнання емоцій для працівників, які сидять за столом, і використання емодзі, надісланих аудиторією під час промови оратора.

[підпис до зображення id=”attachment_181035″ align=”alignnone” width=”747″] У 2017 році EngageMeter, спільний академічний дослідницький проєкт LMU Мюнхена та Університету Штутгарта. Джерело: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf У 2017 році EngageMeter, спільний академічний дослідницький проєкт LMU Мюнхена та Університету Штутгарта. Джерело: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf[/підпис до зображення]

Як підпursuit прибуткової області аналітики аудиторії, приватний сектор проявив особливий інтерес до оцінки погляду та відстеження – систем, де кожен учасник аудиторії (який може в свою чергу виступати), піддається окулярному відстежуванню як індексу залученості та схвалення.

Всі ці методи досить високофрикційні. Багато з них вимагають спеціального обладнання, лабораторних умов, спеціалізованих та виготовлених програмних фреймворків, а також підписку на дорогі комерційні API – або будь-яку комбінацію цих обмежувальних факторів.

Отже, розвиток мінімалістських систем, заснованих на мало чого більше, ніж звичайних інструментів для відеоконференцій, став цікавим за останні 18 місяців.

Показ зворотного зв’язку аудиторії дискретно

Для цього нове дослідницьке співробітництво між Університетом Токіо та Університетом Карнегі-Меллон пропонує нову систему, яка може використовувати стандартні інструменти відеоконференцій (наприклад, Zoom) за допомогою веб-сайту, який дозволяє використовувати легке оцінювання погляду та пози, що працює. Таким чином навіть необхідність локальних плагінів браузера виключається.

Ноди користувача та оцінювана увага ока перекладаються в представницькі дані, які візуалізуються назад до оратора, дозволяючи проводити «живий» тест на ступінь, до якого вміст залучає аудиторію – і принаймні приблизний індикатор періодів дискурсу, де оратор може втрачати інтерес аудиторії.

[підпис до зображення id=”attachment_181036″ align=”alignnone” width=”780″] З CalmResponses, увага користувача та кивання додаються до пула зворотного зв’язку аудиторії та перекладаються у візуальне представлення, яке може бути корисним для оратора. Дивіться вкладений відеоролик у кінці статті для більш докладної інформації та прикладів. Джерело: https://www.youtube.com/watch?v=J_PhB4FCzk0[/підпис до зображення]

У багатьох академічних ситуаціях, таких як онлайн-лекції, студенти можуть бути зовсім невидимими для оратора, оскільки вони не ввімкнули свої веб-камери через самосвідомість щодо свого фону або поточного вигляду. CalmResponses можуть подолати цю іншу колючу перешкоду до зворотного зв’язку оратора, повідомляючи про те, як оратор дивиться на вміст, і чи киває, без жодної необхідності увімкнення веб-камери глядачем.

Документ називається документ, і це спільна робота двох дослідників з UoT та одного з Carnegie Mellon.

Автори пропонують живий веб-демонстраційний варіант, і випустили вихідний код на GitHub.

Фреймворк CalmResponses

Зацікавленість CalmResponses у киванні, на відміну від інших можливих диспозицій голови, заснована на дослідженнях (частково датованих епохою Дарвіна), які свідчать про те, що понад 80% усіх рухів голови слухачів складаються з кивання (навіть тоді, коли вони виражають незгоду). Водночас рухи очей були показані численними дослідженнями як надійний індекс інтересу чи залученості.

CalmResponses реалізовані за допомогою HTML, CSS та JavaScript, і складаються з трьох підсистем: клієнта аудиторії, клієнта оратора та сервера. Клієнт аудиторії передає дані про рух очей або голови користувача з веб-камери через WebSockets над хмарною платформою застосунків Heroku.

[підпис до зображення id=”attachment_181037″ align=”alignnone” width=”527″] Кивання аудиторії візуалізовано праворуч у вигляді анімованого руху під CalmResponses. У цьому випадку візуалізація руху доступна не тільки оратору, але й всій аудиторії. Кивання аудиторії візуалізовано праворуч у вигляді анімованого руху під CalmResponses. У цьому випадку візуалізація руху доступна не тільки оратору, але й всій аудиторії. Джерело: https://arxiv.org/pdf/2204.02308.pdf[/підпис до зображення]

Для розділу відстеження очей проекту дослідники використали WebGazer, легкий, заснований на JavaScript фреймворк відстеження очей, який може працювати з низькою затримкою безпосередньо з веб-сайту (див. посилання вище для власної веб-реалізації дослідників).

Оскільки необхідність простої реалізації та грубого, агрегованого визнання реакції переважає необхідність високої точності у оцінюванні погляду та пози, вхідні дані пози гладшуються згідно з середніми значеннями перед тим, як вони будуть враховані для загальної оцінки реакції.

Дія кивання оцінюється через бібліотеку JavaScript clmtrackr, яка підгоняє моделі обличчя до виявлених облич у зображеннях або відео через регуляризовану зміну орієнтації. Для цілей економії та низької затримки тільки виявлений орієнтаційний знак для носа активно відстежується у реалізації авторів, оскільки цього достатньо для відстеження дій кивання.

[підпис до зображення id=”attachment_181040″ align=”alignnone” width=”786″] Рух положення кінчика носа користувача створює слід, який додається до пула реакції аудиторії, пов’язаної з киванням, візуалізованої у агрегованому вигляді для всіх учасників.[/підпис до зображення]

Теплова карта

Хоча дія кивання представлена динамічними рухливими крапками (див. зображення вище та відео в кінці), увага звітується у вигляді теплової карти, яка показує оратору та аудиторії, де загальний фокус уваги зосереджений на спільному екрані презентації або середовищі відеоконференції.

[підпис до зображення id=”attachment_181041″ align=”alignnone” width=”472″] Всі учасники можуть бачити, де загальна увага користувача зосереджена. У документі не згадується, чи ця функціональність доступна, коли користувач може бачити «галерею» інших учасників, що може розкрити помилкову увагу на одному учаснику з різних причин. Всі учасники можуть бачити, де загальна увага користувача зосереджена. У документі не згадується, чи ця функціональність доступна, коли користувач може бачити «галерею» інших учасників, що може розкрити помилкову увагу на одному учаснику з різних причин.[/підпис до зображення]

Тести

Два тестових середовища були сформульовані для CalmResponses у вигляді неявного дослідження абляції, за допомогою трьох різноманітних наборів обставин: у «Умові B» (базовій), автори відтворили типову онлайн-лекцію студентів, де більшість студентів тримали свої веб-камери вимкненими, і оратор не мав можливості бачити обличчя аудиторії; у «Умові CR-E», оратор міг бачити зворотний зв’язок погляду (теплову карту); у «Умові CR-N», оратор міг бачити як кивання, так і діяльність погляду аудиторії.

Перший експериментальний сценарій складався з умов B та CR-E; другий складався з умов B та CR-N. Зворотний зв’язок був отриманий як від ораторів, так і від аудиторії.

У кожному експерименті оцінювалися три фактори: об’єктивна та суб’єктивна оцінка презентації (включаючи самоопитування оратора щодо його почуттів про те, як пройшла презентація); кількість подій «заповнювальної» мови, що свідчить про моментальну невпевненість і коливання; і якісні коментарі. Ці критерії є загальними оцінювачами якості мови та тривоги оратора.

Тестовий басейн складався з 38 осіб у віці від 19 до 44 років, що складаються з 29 чоловіків і дев’яти жінок із середнім віком 24,7 роки, усіх японців або китайців, і всіх, хто вільно володіє японською мовою. Вони були рандомно розділені на п’ять груп по 6-7 учасників, і жоден з суб’єктів не знав один одного особисто.

Тести проводилися на Zoom, з п’ятьма ораторами, які читали презентації у першому експерименті, і шістьма у другому.

[підпис до зображення id=”attachment_181042″ align=”alignnone” width=”602″] Умови заповнювальної мови позначені оранжевими коробками. Загалом, вміст заповнювальної мови зменшувався у розумній пропорції до збільшення зворотного зв'язку аудиторії від системи. Умови заповнювальної мови позначені оранжевими коробками. Загалом, вміст заповнювальної мови зменшувався у розумній пропорції до збільшення зворотного зв’язку аудиторії від системи.[/підпис до зображення]

Дослідники відзначають, що одна зі спікерів значно зменшила кількість заповнювальної мови, і що у «Умові CR-N» оратор рідко вимовляв фрази заповнювальної мови. Дивіться документ для дуже докладних і детальних результатів; однак, найбільш виразні результати були у суб’єктивній оцінці ораторів та учасників аудиторії.

Коментарі аудиторії включали:

‘Я відчував, що беру участь у презентаціях” [AN2], “Я не був впевнений, що виступи ораторів покращились, але я відчував відчуття єдності від візуалізації руху голови інших.’ [AN6]

‘Я не був впевнений, що виступи ораторів покращились, але я відчував відчуття єдності від візуалізації руху голови інших.’

Дослідники відзначають, що система вводить новий вид штучної паузи у презентації оратора, оскільки оратор схильний звертатися до візуальної системи для оцінки зворотного зв’язку аудиторії перед продовженням далі.

Вони також відзначають певний «ефект білої куртки», який важко уникнути в експериментальних обставинах, де деякі учасники відчували себе обмеженими можливими безпековими наслідками моніторингу біометричних даних.

Висновок

Одна з помітних переваг у системі, подібній до цієї, полягає в тому, що всі нестандартні допоміжні технології, необхідні для такого підходу, повністю зникають після закінчення їхнього використання. Не залишається жодних залишкових плагінів браузера для видалення, або щоб викликати сумніви в учасників щодо того, чи повинні вони залишатися на своїх відповідних системах; і немає необхідності спрямовувати користувачів через процес установки (хоча веб-фреймворк вимагає хвилини або двох початкової калібрування користувачем), або щоб орієнтуватися у можливості користувачів, які не мають достатніх дозволів для встановлення локального програмного забезпечення, включаючи плагіни браузера та розширення.

Хоча оцінювані рухи обличчя та очей не такі точні, як вони могли б бути в обставинах, де використовуються спеціальні локальні фреймворки машинного навчання (наприклад, серія YOLO), цей майже безтерічний підхід до оцінки аудиторії забезпечує достатню точність для широкого аналізу настрою та позиції в типових сценаріях відеоконференцій. Найважливіше – це дуже дешево.

Перегляньте пов’язане відео проєкту нижче для подальшої інформації та прикладів.

Перша публікація 11 квітня 2022 року.