заглушки ИИ помогает нервным спикерам «читать комнату» во время видеоконференций - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

ИИ помогает нервным спикерам «читать комнату» во время видеоконференций

mm
обновленный on

В 2013 году опрос о распространенных фобиях показал, что перспектива публичных выступлений была хуже, чем перспектива смерти для большинства респондентов. Синдром известен как страдают от глоссофобии .

COVID-управляемый миграция от «личных» встреч до онлайн-конференций Zoom на таких платформах, как Zoom и Google Spaces, на удивление, не улучшили ситуацию. Если на совещании присутствует большое количество участников, наши естественные способности оценки угроз ухудшаются из-за строк и значков участников с низким разрешением, а также из-за сложности чтения тонких визуальных сигналов выражения лица и языка тела. Skype, например, оказался плохой платформой для передачи невербальных сигналов.

Воздействие воспринимаемого интереса и отзывчивости на публичное выступление хорошо документированы к настоящему времени и интуитивно очевидны для большинства из нас. Непрозрачная реакция аудитории может заставить говорящих колебаться и возвращаться к вспомогательная речь, не зная, встречают ли их аргументы согласие, пренебрежение или незаинтересованность, что часто создает дискомфорт как для говорящего, так и для его слушателей.

Под давлением неожиданного перехода к онлайн-видеоконференциям, вызванного ограничениями и мерами предосторожности, связанными с COVID, проблема, возможно, усугубляется, и за последние пару лет в области компьютерного зрения был предложен ряд схем улучшения обратной связи с аудиторией, которые влияют на исследовательские сообщества.

Аппаратные решения

Однако большинство из них связаны с дополнительным оборудованием или сложным программным обеспечением, которое может вызвать проблемы с конфиденциальностью или логистикой — относительно дорогостоящие или иным образом ограниченные в ресурсах стили подхода, существовавшие до пандемии. В 2001 году Массачусетский технологический институт предложил Гальвактиватор, носимое вручную устройство, определяющее эмоциональное состояние участника из аудитории, протестированное в ходе однодневного симпозиума.

С 2001 года Galvactivator Массачусетского технологического института измерял реакцию проводимости кожи в попытке понять настроения и вовлеченность аудитории. Источник: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf.

С 2001 года Galvactivator Массачусетского технологического института измерял реакцию проводимости кожи в попытке понять настроения и вовлеченность аудитории. Источник: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf.

Много академической энергии было также посвящено возможному развертывание «кликеров» как система реагирования аудитории (ARS), мера для увеличения активного участия аудитории (которая автоматически увеличивает вовлеченность, поскольку заставляет зрителя играть роль активного узла обратной связи), но которая также была предусмотрена как средство поощрения выступающего. .

Другие попытки «соединить» оратора и аудиторию включали мониторинг сердечного ритма, использование сложного нательного оборудования для усиления электроэнцефалографии, «метры приветствия», компьютерное зрение распознавание эмоций для работающих за рабочим столом, а также использование рассылаемых аудиторией смайликов во время выступления оратора.

С 2017 года EngageMeter, совместный академический исследовательский проект LMU Munich и Штутгартского университета. Источник: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

С 2017 года EngageMeter, совместный академический исследовательский проект LMU Munich и Штутгартского университета. Источник: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

В качестве дополнительного направления прибыльной области анализа аудитории частный сектор проявляет особый интерес к оценке и отслеживанию взгляда — системам, в которых каждый член аудитории (который, в свою очередь, может в конечном итоге должен говорить) подвергается окулярное отслеживание как показатель вовлеченности и одобрения.

Все эти методы довольно сложны. Многие из них требуют индивидуального оборудования, лабораторных сред, специализированных и специально разработанных программных сред и подписки на дорогостоящие коммерческие API — или любую комбинацию этих ограничивающих факторов.

Поэтому за последние 18 месяцев интерес к разработке минималистских систем, основанных на немного большем, чем обычные инструменты для видеоконференцсвязи, вызывает интерес.

Незаметно сообщайте об одобрении аудитории

С этой целью новое исследовательское сотрудничество между Токийским университетом и Университетом Карнеги-Меллона предлагает новую систему, которая может использоваться совместно со стандартными инструментами видеоконференцсвязи (такими как Zoom), используя только веб-сайт с поддержкой веб-камеры, на котором легко смотреть и позировать. программное обеспечение для оценки работает. Таким образом, даже отпадает необходимость в локальных плагинах для браузера.

Кивки пользователя и предполагаемое внимание переводятся в репрезентативные данные, которые визуализируются обратно говорящему, что позволяет провести «живую» лакмусовую бумажку того, насколько контент привлекает аудиторию, а также, по крайней мере, расплывчатый индикатор периодов. дискурса, когда говорящий может потерять интерес аудитории.

С помощью CalmResponses внимание пользователя и кивки добавляются к отзывам аудитории и преобразуются в визуальное представление, которое может принести пользу выступающему. См. встроенное видео в конце статьи для более подробной информации и примеров. Источник: https://www.youtube.com/watch?v=J_PhB4FCzk0

С помощью CalmResponses внимание пользователя и кивки добавляются к отзывам аудитории и преобразуются в визуальное представление, которое может принести пользу выступающему. См. встроенное видео в конце статьи для более подробной информации и примеров. Источник: https://www.youtube.com/watch?v=J_PhB4FCzk0

Во многих академических ситуациях, таких как онлайн-лекции, говорящий может совершенно не видеть студентов, поскольку они не включили свои камеры из-за застенчивости по поводу своего прошлого или текущей внешности. CalmResponses может устранить это сложное препятствие для обратной связи спикера, сообщив, что он знает о том, как говорящий смотрит на контент, и если он кивает, без необходимости для зрителя активировать свою камеру.

Ассоциация статье называется CalmResponses: Отображение коллективной реакции аудитории в удаленном общении, и это совместная работа двух исследователей из UoT и одного из Карнеги-Меллона.

Авторы предлагают живую демо-версию в Интернете и выпустили исходный код на GitHub.

Фреймворк CalmResponses

Интерес CalmResponses к кивку, в отличие от других возможных положений головы, основан на исследованиях (некоторые из которых вернуться в эпоху Дарвина), что указывает на то, что более 80% всех движений головы слушателей состоят из кивания (даже когда они выражение несогласия). В то же время показаны движения взгляда. за многочисленный исследования быть надежным индикатором интереса или вовлеченности.

CalmResponses реализован с помощью HTML, CSS и JavaScript и состоит из трех подсистем: клиента аудитории, клиента докладчика и сервера. Клиенты аудитории передают данные о взгляде или движении головы с веб-камеры пользователя через веб-сокеты через платформу облачных приложений Heroku.

Аудитория кивает справа в анимированном движении под CalmResponses. В этом случае визуализация движения доступна не только выступающему, но и всей аудитории.

Аудитория кивает справа в анимированном движении под CalmResponses. В этом случае визуализация движения доступна не только выступающему, но и всей аудитории. Источник: https://arxiv.org/pdf/2204.02308.pdf

Для секции отслеживания взгляда исследователи использовали ВебГазер, облегченную браузерную платформу отслеживания взгляда на основе JavaScript, которая может работать с малой задержкой непосредственно с веб-сайта (см. ссылку выше для собственной веб-реализации исследователей).

Поскольку потребность в простой реализации и грубом совокупном распознавании ответов перевешивает потребность в высокой точности оценки взгляда и позы, входные данные о позе сглаживаются в соответствии со средними значениями, прежде чем они будут рассмотрены для общей оценки ответа.

Действие кивания оценивается с помощью библиотеки JavaScript. clmtrackr, который сопоставляет модели лиц с обнаруженными лицами на изображениях или видео с помощью регуляризованный ориентир среднего смещения. В целях экономии и малой задержки в авторской реализации активно отслеживается только обнаруженный ориентир для носа, так как этого достаточно для отслеживания кивающих действий.

Движение положения кончика носа пользователя создает след, который вносит свой вклад в пул реакции аудитории, связанной с киванием, визуализируемой в совокупности для всех участников.

Движение положения кончика носа пользователя создает след, который вносит свой вклад в пул реакции аудитории, связанной с киванием, визуализируемой в совокупности для всех участников.

Тепловая карта

В то время как кивание представлено динамическими движущимися точками (см. изображения выше и видео в конце), визуальное внимание сообщается с помощью тепловой карты, которая показывает выступающего и аудиторию, где общий локус внимания сосредоточен на общем экране презентации или среда видеоконференцсвязи.

Все участники могут видеть, на чем сосредоточено внимание обычных пользователей. В документе не упоминается, доступна ли эта функция, когда пользователь может видеть «галерею» других участников, что по разным причинам может указывать на явное внимание к одному конкретному участнику.

Все участники могут видеть, на чем сосредоточено внимание обычных пользователей. В документе не упоминается, доступна ли эта функция, когда пользователь может видеть «галерею» других участников, что по разным причинам может указывать на явное внимание к одному конкретному участнику.

Tests

Две тестовые среды были сформулированы для CalmResponses в форме исследования скрытой абляции с использованием трех различных наборов обстоятельств: в «Условии B» (базовый уровень) авторы воспроизвели типичную студенческую онлайн-лекцию, когда большинство студентов держат свои веб-камеры включенными. выключено, и спикер не имеет возможности видеть лица аудитории; в «Условии CR-E» говорящий мог видеть обратную связь взгляда (тепловые карты); в «Состоянии CR-N» говорящий мог видеть как кивание, так и взгляды аудитории.

Первый экспериментальный сценарий включал условия B и условия CR-E; второй включал состояние B и состояние CR-N. Обратная связь была получена как от спикеров, так и от аудитории.

В каждом эксперименте оценивались три фактора: объективная и субъективная оценка презентации (включая анкету, которую спикер самостоятельно заполнил относительно своих чувств по поводу того, как прошла презентация); количество случаев «вспомогательной» речи, свидетельствующей о сиюминутной неуверенности и уклончивости; и качественные комментарии. Эти критерии общий оценщики качества речи и беспокойства говорящего.

Тестовый пул состоял из 38 человек в возрасте от 19 до 44 лет, включая 29 мужчин и девять женщин со средним возрастом 24.7 года, все японцы или китайцы, свободно владеющие японским языком. Их случайным образом разделили на пять групп по 6-7 человек, и ни один из испытуемых не знал друг друга лично.

Тесты проводились в Zoom, пять спикеров выступали с презентациями в первом эксперименте и шесть — во втором.

Условия наполнителя отмечены оранжевыми прямоугольниками. В целом, содержание наполнителей уменьшилось в разумной пропорции к увеличению отзывов аудитории от системы.

Условия наполнителя отмечены оранжевыми прямоугольниками. В целом, содержание наполнителей уменьшилось в разумной пропорции к увеличению отзывов аудитории от системы.

Исследователи отмечают, что количество наполнителей у одного говорящего заметно уменьшилось, и что в «состоянии CR-N» говорящий редко произносил фразы-наполнители. См. документ для получения очень подробных и детализированных результатов; однако наиболее заметные результаты были в субъективной оценке докладчиков и участников аудитории.

Комментарии от аудитории включали:

«Я чувствовал, что участвовал в презентациях» [AN2], «Я не был уверен, что речи спикеров улучшились, но я почувствовал чувство единства от визуализации движений головы других». [АН6]

«Я не был уверен, что речь ораторов улучшилась, но я почувствовал чувство единства от визуализации движений головы других».

Исследователи отмечают, что система вводит новый вид искусственной паузы в презентацию говорящего, поскольку говорящий склонен обращаться к зрительной системе, чтобы оценить реакцию аудитории, прежде чем продолжить.

Они также отмечают своего рода «эффект белого халата», которого трудно избежать в экспериментальных условиях, когда некоторые участники чувствовали себя ограниченными возможными последствиями для безопасности, связанными с отслеживанием биометрических данных.

Заключение

Заметным преимуществом такой системы является то, что все нестандартные вспомогательные технологии, необходимые для такого подхода, полностью исчезают после окончания их использования. Нет остаточных подключаемых модулей браузера, которые нужно удалить или вызвать у участников сомнения относительно того, должны ли они оставаться в своих соответствующих системах; и нет необходимости направлять пользователей в процессе установки (хотя веб-платформа действительно требует минуты или двух для первоначальной калибровки пользователем) или учитывать вероятность того, что пользователи не имеют достаточных разрешений для установки локального программного обеспечения, включая надстройки и расширения для браузера.

Хотя оцениваемые движения лица и глаз не так точны, как могли бы быть в обстоятельствах, когда могут использоваться специальные локальные системы машинного обучения (такие как серия YOLO), этот практически простой подход к оценке аудитории обеспечивает достаточную точность для широкого анализа настроений и позиций. в типичных сценариях видеоконференций. Прежде всего, это очень дешево.

Посмотрите соответствующее видео проекта ниже для получения дополнительной информации и примеров.

CalmResponses: Отображение коллективной реакции аудитории в удаленном общении

 

Впервые опубликовано 11 апреля 2022 г.