Искусственный интеллект

AI Помогает Нервным Ораторам ‘Читать Комнату’ Во Время Видеоконференций

Published April 11, 2022

Updated April 28, 2026

Martin Anderson

В 2013 году был проведен опрос на тему распространенных фобий, который показал, что перспектива публичных выступлений была хуже, чем перспектива смерти для большинства респондентов. Этот синдром известен как глоссофобия.

COVID-индуцированный переход от личных встреч к онлайн-видеоконференциям на платформах such as Zoom и Google Spaces не улучшил ситуацию. Когда встреча включает большое количество участников, наши природные способности оценки угрозы нарушаются из-за низкокачественных рядов и иконок участников, а также трудности в чтении тонких визуальных сигналов лицевых выражений и языка тела. Skype, например, был признан плохой платформой для передачи невербальных сигналов.

Эффекты публичных выступлений на восприятие интереса и реакции хорошо задокументированы и интуитивно очевидны для большинства из нас. Неясная реакция аудитории может заставить ораторов колебаться и прибегать к заполнению речи, не зная, встречаются ли их аргументы с согласием, презрением или безразличием, что часто делает опыт неудобным как для оратора, так и для его слушателей.

Под давлением неожиданного перехода к онлайн-видеоконференциям, вызванного ограничениями и мерами предосторожности COVID, проблема, по мнению многих, становится хуже, и за последние пару лет в сообществах компьютерного зрения и исследований эмоций было предложено несколько схем обратной связи аудитории.

Решения, Ориентированные на Аппаратуру

Большинство из них, однако, включают дополнительное оборудование или сложное программное обеспечение, которое может вызвать проблемы с конфиденциальностью или логистикой – относительно дорогое или иным образом ограниченное подход, предшествующее пандемии. В 2001 году MIT предложил Galvactivator, носимое устройство, которое выводит эмоциональное состояние участника аудитории, протестированное во время однодневного симпозиума.

Из 2001 года, MIT’s Galvactivator, который измерял кожно-гальваническую реакцию в попытке понять настроение и вовлеченность аудитории. Source: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Большая часть академической энергии также была посвящена возможному развертыванию ‘кликеров’ в качестве Системы Отклика Аудитории (ARS), меры для увеличения активного участия аудитории (что автоматически увеличивает вовлеченность, поскольку заставляет зрителя принять роль активного узла обратной связи), но которая также была задумана как средство поощрения ораторов.

Другие попытки ‘соединить’ оратора и аудиторию включали мониторинг частоты сердечных сокращений, использование сложного носимого оборудования для использования электроэнцефалографии, ‘метры аплодисментов’, компьютерно-зрительную распознавание эмоций для рабочих, сидящих за столом, и использование эмодзи, отправленных аудиторией во время выступления оратора.

Из 2017 года, EngageMeter, совместный академический исследовательский проект LMU Мюнхена и Университета Штутгарта. Source: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Как подпроект прибыльной области аналитики аудитории, частный сектор проявил особый интерес к оценке взгляда и отслеживанию – системам, где каждый член аудитории (который может в свою очередь в конечном итоге иметь возможность выступать), подвергается окулярному отслеживанию в качестве индекса вовлеченности и одобрения.

Все эти методы довольно высокофрикционные. Многие из них требуют дополнительного оборудования, лабораторных условий, специализированных и самодельных программных фреймворков, а также подписки на дорогие коммерческие API – или любую комбинацию этих ограничительных факторов.

Поэтому разработка минималистских систем, основанных на простых инструментах для видеоконференций, стала интересной за последние 18 месяцев.

Отчет Об Одобрении Аудитории

С этой целью новое исследовательское сотрудничество между Университетом Токио и Университетом Карнеги-Меллона предлагает новую систему, которая может использовать стандартные инструменты видеоконференций (такие как Zoom) с помощью веб-сайта, оснащенного веб-камерой, на котором запускается легкое программное обеспечение для оценки взгляда и позы. Таким образом, даже необходимость в локальных плагинах браузера исключается.

Наклоны и оцененные движения глаз пользователя переводятся в представительную информацию, которая визуализируется обратно оратору, позволяя провести ‘живой’ тест на степень, в которой содержание вовлекает аудиторию – и также, по крайней мере, некоторый указатель периодов дискурса, где оратор может терять интерес аудитории.

С CalmResponses, внимание и кивание пользователя добавляются в пул обратной связи аудитории и переводятся в визуальное представление, которое может принести пользу оратору. Смотрите встроенное видео в конце статьи для более подробной информации и примеров. Source: https://www.youtube.com/watch?v=J_PhB4FCzk0

Во многих академических ситуациях, таких как онлайн-лекции, студенты могут быть совершенно незаметны для оратора, поскольку они не включили свои веб-камеры из-за самосознания о своем фоне или текущем виде. CalmResponses может решить эту проблему, сообщая о том, как оратор смотрит на содержание, и если они кивают, без необходимости для зрителя активировать свою камеру.

Статья называется CalmResponses: Отображение Коллективных Реакций Аудитории в Удаленной Коммуникации, и является совместной работой двух исследователей из Университета Токио и одного из Университета Карнеги-Меллона.

Авторы предлагают живой веб-демо и опубликовали исходный код на GitHub.

Фреймворк CalmResponses

Интерес CalmResponses к киванию, а не к другим возможным положениям головы, основан на исследованиях (некоторых из которых восходит к эпохе Дарвина), которые показывают, что более 80% всех движений головы слушателей состоят из киваний (даже когда они выражают несогласие). В то же время движения глаз были признаны многими исследованиями надежным индексом интереса или вовлеченности.

CalmResponses реализован с помощью HTML, CSS и JavaScript и состоит из трех подсистем: клиента аудитории, клиента оратора и сервера. Клиент аудитории передает данные о взгляде или движении головы пользователя из веб-камеры через WebSockets на облачную платформу Heroku.

Кивание аудитории визуализируется справа в анимированном движении под CalmResponses. В данном случае визуализация движения доступна не только оратору, но и всей аудитории. Source: https://arxiv.org/pdf/2204.02308.pdf

Для раздела отслеживания взгляда проекта исследователи использовали WebGazer, легкое, основанное на JavaScript, браузерное отслеживание взгляда, которое может работать с низкой задержкой直接 с веб-сайта (см. ссылку выше для реализации исследователей).

Поскольку необходимость простой реализации и грубого, агрегированного распознавания реакции превосходит необходимость высокой точности в оценке взгляда и позы, входные данные позы сглаживаются в соответствии со средними значениями перед рассмотрением для общей оценки реакции.

Действие кивания оценивается через библиотеку JavaScript clmtrackr, которая подгоняет лицевые модели к обнаруженным лицам в изображениях или видео через регуляризированный сдвиг среднего значения. Для целей экономии и низкой задержки только обнаруженный ориентир для носа активно отслеживается в реализации авторов, поскольку это достаточно для отслеживания действий кивания.

Движение кончика носа пользователя создает след, который вносит вклад в пул реакции аудитории, связанной с киванием, визуализируемой в агрегированном виде для всех участников.

Тепловая Карта

Хотя активность кивания представлена динамическими движущимися точками (см. изображения выше и видео в конце), визуальное внимание отражается в терминах тепловой карты, которая показывает оратору и аудитории, где общий фокус внимания сосредоточен на общем экране презентации или видеоконференции.

Все участники могут видеть, где общее внимание пользователя сосредоточено. В статье не упоминается, доступна ли эта функциональность, когда пользователь может видеть ‘галерею’ других участников, что могло бы раскрыть ложное внимание на одного участника по разным причинам.

Тесты

Для CalmResponses были сформулированы два тестовых окружения в виде неявного исследования удаления, с использованием трех различных наборов обстоятельств: в ‘Условии B’ (базовом), авторы воспроизвели типичную онлайн-лекцию для студентов, где большинство студентов держали свои веб-камеры выключенными, и оратор не имел возможности видеть лица аудитории; в ‘Условии CR-E’, оратор мог видеть обратную связь взгляда (тепловые карты); в ‘Условии CR-N’, оратор мог видеть как кивание, так и активность взгляда аудитории.

Первый экспериментальный сценарий включал условие B и условие CR-E; второй включал условие B и условие CR-N. Обратная связь была получена как от ораторов, так и от аудитории.

В каждом эксперименте оценивались три фактора: объективная и субъективная оценка презентации (включая самоотчетный опросник оратора о его чувствах о том, как прошла презентация); количество событий ‘заполнения’ речи, указывающих на моментальную неуверенность и колебания; и качественные комментарии. Эти критерии являются общепринятыми оценками качества речи и тревоги оратора.

Тестовый пул состоял из 38 человек в возрасте от 19 до 44 лет, включая 29 мужчин и 9 женщин со средним возрастом 24,7 года, все японцы или китайцы, и все свободно говорящие на японском языке. Они были случайно разделены на пять групп по 6-7 участников, и ни один из субъектов не знал друг друга лично.

Тесты проводились на Zoom, с пятью ораторами, выступающими в первом эксперименте и шестью во втором.

Условия заполнения, отмеченные оранжевыми коробками. В целом, содержание заполнения уменьшалось в разумной пропорции к увеличению обратной связи аудитории от системы.

Исследователи отмечают, что у одного оратора количество заполнителей значительно уменьшилось, и что в ‘Условии CR-N’ оратор редко произносил фразы заполнения. Смотрите статью для очень подробных и детальных результатов; однако, наиболее заметные результаты были в субъективной оценке ораторов и участников аудитории.

Комментарии аудитории включали:

‘Я чувствовал, что я участвовал в презентациях” [AN2], “Я не был уверен, что речи ораторов были улучшены, но я чувствовал чувство единства от визуализации движений головы других.’ [AN6]

‘Я не был уверен, что речи ораторов были улучшены, но я чувствовал чувство единства от визуализации движений головы других.’

Исследователи отмечают, что система вводит новый вид искусственной паузы в презентацию оратора, поскольку оратор склонен обращаться к визуальной системе для оценки обратной связи аудитории перед продолжением.

Они также отмечают вид ‘эффекта белого халата’, трудно избежать в экспериментальных обстоятельствах, где некоторые участники чувствовали себя ограниченными возможными безопасными последствиями мониторинга биометрических данных.

Заключение

Одним из заметных преимуществ системы, подобной этой, является то, что все нестандартные вспомогательные технологии, необходимые для такого подхода, полностью исчезают после их использования. Нет остаточных плагинов браузера, которые необходимо удалить, или которые могут вызвать сомнения в умах участников относительно того, должны ли они остаться на своих системах; и нет необходимости направлять пользователей через процесс установки (хотя веб-фреймворк требует минуты или двух первоначальной калибровки пользователя), или ориентироваться в возможности того, что пользователи не имеют достаточных разрешений для установки локального программного обеспечения, включая плагины и расширения браузера.

Хотя оцененные движения лица и глаз не так точны, как они могли бы быть в обстоятельствах, где используются специальные локальные фреймворки машинного обучения (например, серия YOLO), этот почти безтреневой подход к оценке аудитории обеспечивает достаточную точность для широкого анализа настроений и позиции в типичных сценариях видеоконференций. Прежде всего, это очень дешево.

Смотрите связанное видео проекта ниже для более подробной информации и примеров.

Опубликовано впервые 11 апреля 2022 года.

Related Topics:education facial expressions research video surveillance