toco IA ajuda palestrantes nervosos a 'ler a sala' durante videoconferências - Unite.AI
Entre em contato

Inteligência artificial

IA ajuda palestrantes nervosos a 'ler a sala' durante videoconferências

mm
Atualização do on

Em 2013, uma pesquisa sobre fobias comuns determinou que a perspectiva de falar em público era pior do que a perspectiva da morte para a maioria dos entrevistados. A síndrome é conhecida como glossofobia.

O impulsionado pelo COVID migração de reuniões 'pessoais' a conferências de zoom online em plataformas como Zoom e Google Spaces, surpreendentemente, não melhorou a situação. Onde a reunião contém um grande número de participantes, nossas habilidades naturais de avaliação de ameaças são prejudicadas pelas linhas e ícones de baixa resolução dos participantes e pela dificuldade em ler sinais visuais sutis de expressão facial e linguagem corporal. O Skype, por exemplo, foi considerado uma plataforma ruim para transmitir sinais não-verbais.

Os efeitos sobre o desempenho de falar em público de interesse percebido e capacidade de resposta são bem documentado até agora, e intuitivamente óbvio para a maioria de nós. A resposta opaca do público pode fazer com que os oradores hesitem e voltem a discurso de enchimento, sem saber se seus argumentos estão encontrando acordo, desdém ou desinteresse, muitas vezes tornando uma experiência desconfortável tanto para quem fala quanto para seus ouvintes.

Sob a pressão da mudança inesperada para a videoconferência online inspirada pelas restrições e precauções da COVID, o problema está indiscutivelmente a piorar, e uma série de esquemas de feedback melhorativo do público foram sugeridos na visão computacional e afectam as comunidades de investigação ao longo dos últimos anos.

Soluções focadas em hardware

A maioria deles, no entanto, envolve equipamento adicional ou software complexo que pode levantar questões de privacidade ou logística – estilos de abordagem de custo relativamente alto ou com recursos limitados que antecedem a pandemia. Em 2001, o MIT propôs a Galvaativador, um dispositivo portátil que infere o estado emocional do participante da audiência, testado durante um dia de simpósio.

A partir de 2001, o Galvactivator do MIT, que mediu a resposta de condutividade da pele em uma tentativa de entender o sentimento e o envolvimento do público. Fonte: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

A partir de 2001, o Galvactivator do MIT, que mediu a resposta de condutividade da pele em uma tentativa de entender o sentimento e o envolvimento do público. Fonte: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Uma grande quantidade de energia acadêmica também tem sido dedicada à possível implantação de 'clickers' como Audience Response System (ARS), uma medida para aumentar a participação ativa das audiências (o que aumenta automaticamente o envolvimento, uma vez que obriga o espectador a assumir o papel de um nó de feedback ativo), mas que também tem sido encarado como um meio de encorajamento do orador .

Outras tentativas de 'conectar' orador e audiência incluíram monitoramento da frequência cardíaca, o uso de equipamento corporal complexo para alavancar a eletroencefalografia, 'metros de torcida', baseado em visão computacional reconhecimento de emoção para funcionários de escritório e o uso de mensagens enviadas pelo público Emoticons durante a oração do orador.

A partir de 2017, o EngageMeter, um projeto de pesquisa acadêmica conjunto da LMU Munich e da University of Stuttgart. Fonte: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

A partir de 2017, o EngageMeter, um projeto de pesquisa acadêmica conjunto da LMU Munich e da University of Stuttgart. Fonte: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Como uma sub-busca da lucrativa área de análise de audiência, o setor privado tem um interesse particular na estimativa e rastreamento do olhar – sistemas em que cada membro da audiência (que por sua vez pode eventualmente ter que falar) está sujeito a rastreamento ocular como um índice de engajamento e aprovação.

Todos esses métodos são de alto atrito. Muitos deles exigem hardware sob medida, ambientes de laboratório, estruturas de software especializadas e personalizadas e assinatura de APIs comerciais caras – ou qualquer combinação desses fatores restritivos.

Portanto, o desenvolvimento de sistemas minimalistas baseados em pouco mais do que ferramentas comuns para videoconferência tornou-se de interesse nos últimos 18 meses.

Relatar a aprovação do público discretamente

Para este fim, uma nova colaboração de pesquisa entre a Universidade de Tóquio e a Universidade Carnegie Mellon oferece um novo sistema que pode pegar carona em ferramentas de videoconferência padrão (como o Zoom) usando apenas um site habilitado para webcam em que olhar e pose leves software de estimativa está em execução. Dessa forma, até mesmo a necessidade de plug-ins de navegador local é evitada.

Os acenos do usuário e a atenção visual estimada são traduzidos em dados representativos que são visualizados de volta ao locutor, permitindo um teste decisivo 'ao vivo' da extensão em que o conteúdo está envolvendo o público - e também, pelo menos, um vago indicador de períodos de discurso onde o orador pode estar perdendo o interesse do público.

Com o CalmResponses, a atenção e o aceno do usuário são adicionados a um conjunto de comentários do público e traduzidos em uma representação visual que pode beneficiar o palestrante. Veja o vídeo incorporado no final do artigo para mais detalhes e exemplos. Fonte: https://www.youtube.com/watch?v=J_PhB4FCzk0

Com o CalmResponses, a atenção e o aceno do usuário são adicionados a um conjunto de comentários do público e traduzidos em uma representação visual que pode beneficiar o palestrante. Veja o vídeo incorporado no final do artigo para mais detalhes e exemplos. Fonte: https://www.youtube.com/watch?v=J_PhB4FCzk0

Em muitas situações acadêmicas, como palestras on-line, os alunos podem passar totalmente despercebidos pelo palestrante, uma vez que não ligaram suas câmeras devido à autoconsciência sobre seu passado ou aparência atual. O CalmResponses pode abordar esse obstáculo espinhoso ao feedback do locutor relatando o que sabe sobre como o locutor está olhando para o conteúdo e se ele está concordando, sem a necessidade de o visualizador ativar sua câmera.

A papel é intitulado CalmResponses: exibindo reações do público coletivo em comunicação remota, e é um trabalho conjunto entre dois pesquisadores da UoT e um da Carnegie Mellon.

Os autores oferecem uma demonstração ao vivo baseada na Web e lançaram o código-fonte no GitHub.

A estrutura CalmResponses

O interesse da CalmResponses em acenar com a cabeça, em oposição a outras possíveis disposições da cabeça, é baseado em pesquisas (algumas delas de volta à era de Darwin) que indica que mais de 80% dos movimentos de cabeça de todos os ouvintes são compostos de aceno de cabeça (mesmo quando estão expressando desacordo). Ao mesmo tempo, os movimentos do olhar foram mostrados Acima de numeroso caso para ser um índice confiável de interesse ou engajamento.

O CalmResponses é implementado com HTML, CSS e JavaScript e compreende três subsistemas: um cliente de público, um cliente de palestrante e um servidor. Os clientes da audiência passam dados de olhar ou movimento da cabeça da webcam do usuário via WebSockets sobre a plataforma de aplicativos em nuvem Heroku.

Assentindo do público visualizado à direita em um movimento animado sob CalmResponses. Nesse caso, a visualização do movimento está disponível não apenas para o palestrante, mas para todo o público.

Assentindo do público visualizado à direita em um movimento animado sob CalmResponses. Nesse caso, a visualização do movimento está disponível não apenas para o palestrante, mas para todo o público. Fonte: https://arxiv.org/pdf/2204.02308.pdf

Para a seção de rastreamento ocular do projeto, os pesquisadores usaram WebGazerGenericName, uma estrutura leve de rastreamento ocular baseada em navegador baseada em JavaScript que pode ser executada com baixa latência diretamente de um site (consulte o link acima para a implementação baseada na Web dos próprios pesquisadores).

Uma vez que a necessidade de implementação simples e reconhecimento de resposta aproximado e agregado supera a necessidade de alta precisão na estimativa de olhar e pose, os dados de pose de entrada são suavizados de acordo com os valores médios antes de serem considerados para a estimativa de resposta geral.

A ação de aceno é avaliada por meio da biblioteca JavaScript clmtrackr, que ajusta modelos faciais a rostos detectados em imagens ou vídeos por meio de mudança média de referência regularizada. Para fins de economia e baixa latência, apenas o marco detectado para o nariz é monitorado ativamente na implementação dos autores, pois isso é suficiente para rastrear ações de nodding.

O movimento da posição da ponta do nariz do usuário cria uma trilha que contribui para o pool de respostas do público relacionadas ao aceno de cabeça, visualizado de forma agregada a todos os participantes.

O movimento da posição da ponta do nariz do usuário cria uma trilha que contribui para o pool de respostas do público relacionadas ao aceno de cabeça, visualizado de forma agregada a todos os participantes.

Mapa de calor

Enquanto a atividade de aceno é representada por pontos dinâmicos em movimento (veja as imagens acima e o vídeo no final), a atenção visual é relatada em termos de um mapa de calor que mostra ao palestrante e ao público onde o locus geral de atenção está focado na tela de apresentação compartilhada ou ambiente de videoconferência.

Todos os participantes podem ver onde a atenção geral do usuário está focada. O documento não menciona se essa funcionalidade está disponível quando o usuário pode ver uma 'galeria' de outros participantes, o que pode revelar um foco ilusório em um participante específico, por vários motivos.

Todos os participantes podem ver onde a atenção geral do usuário está focada. O documento não menciona se essa funcionalidade está disponível quando o usuário pode ver uma 'galeria' de outros participantes, o que pode revelar um foco ilusório em um participante específico, por vários motivos.

Testes

Dois ambientes de teste foram formulados para o CalmResponses na forma de um estudo de ablação tácita, usando três conjuntos variados de circunstâncias: na 'Condição B' (linha de base), os autores replicaram uma aula típica de um aluno on-line, em que a maioria dos alunos mantém suas webcams ligadas desligado, e o orador não consegue ver os rostos do público; na 'Condição CR-E', o falante pode ver o feedback do olhar (mapas de calor); na 'Condição CR-N', o orador pode ver tanto o aceno de cabeça quanto a atividade do olhar da platéia.

O primeiro cenário experimental compreendeu a condição B e a condição CR-E; a segunda compreendia a condição B e a condição CR-N. O feedback foi obtido tanto dos palestrantes quanto do público.

Em cada experimento, três fatores foram avaliados: avaliação objetiva e subjetiva da apresentação (incluindo um questionário autorreferido pelo palestrante sobre seus sentimentos sobre como foi a apresentação); o número de eventos de fala 'preenchimento', indicativo de insegurança momentânea e prevaricação; e comentários qualitativos. Esses critérios são comum estimadores qualidade da fala e ansiedade do locutor.

O pool de teste consistia em 38 pessoas com idades entre 19 e 44 anos, compreendendo 29 homens e nove mulheres com idade média de 24.7 anos, todos japoneses ou chineses e todos fluentes em japonês. Eles foram divididos aleatoriamente em cinco grupos de 6-7 participantes, e nenhum dos sujeitos se conhecia pessoalmente.

Os testes foram realizados no Zoom, com cinco palestrantes fazendo apresentações no primeiro experimento e seis no segundo.

Condições de preenchimento marcadas como caixas laranja. Em geral, o conteúdo de preenchimento caiu em proporção razoável ao aumento do feedback do público do sistema.

Condições de preenchimento marcadas como caixas laranja. Em geral, o conteúdo de preenchimento caiu em proporção razoável ao aumento do feedback do público do sistema.

Os pesquisadores observaram que os preenchimentos de um falante reduziram notavelmente e que, na 'Condição CR-N', o falante raramente pronunciava frases de preenchimento. Consulte o documento para obter os resultados muito detalhados e granulares relatados; no entanto, os resultados mais marcantes foram na avaliação subjetiva dos palestrantes e participantes da audiência.

Comentários do público incluíram:

'Senti que estava envolvido nas apresentações' [AN2], 'Não tinha certeza se os discursos dos palestrantes melhoraram, mas senti uma sensação de unidade na visualização dos movimentos da cabeça dos outros.' [AN6]

'Eu não tinha certeza se os discursos dos palestrantes melhoraram, mas senti uma sensação de unidade com a visualização dos movimentos da cabeça dos outros.'

Os pesquisadores observam que o sistema introduz um novo tipo de pausa artificial na apresentação do palestrante, uma vez que o palestrante tende a consultar o sistema visual para avaliar o feedback do público antes de prosseguir.

Eles também observaram uma espécie de “efeito do jaleco branco”, difícil de evitar em circunstâncias experimentais, em que alguns participantes se sentiram constrangidos pelas possíveis implicações de segurança de serem monitorados por dados biométricos.

Conclusão

Uma vantagem notável em um sistema como esse é que todas as tecnologias adjuntas não padronizadas necessárias para tal abordagem desaparecem completamente após o término de seu uso. Não há plugins residuais de navegadores a serem desinstalados ou que coloquem dúvidas nos participantes se devem permanecer em seus respectivos sistemas; e não há necessidade de orientar os usuários durante o processo de instalação (embora a estrutura baseada na Web exija um ou dois minutos de calibração inicial pelo usuário) ou navegar pela possibilidade de usuários não terem permissões adequadas para instalar o software local, incluindo complementos e extensões baseados em navegador.

Embora os movimentos faciais e oculares avaliados não sejam tão precisos quanto poderiam ser em circunstâncias em que estruturas locais dedicadas de aprendizado de máquina (como a série YOLO) possam ser usadas, esta abordagem quase sem atrito para avaliação do público fornece precisão adequada para ampla análise de sentimento e postura em cenários típicos de videoconferência. Acima de tudo, é muito barato.

Confira o vídeo do projeto associado abaixo para mais detalhes e exemplos.

CalmResponses: exibindo reações do público coletivo em comunicação remota

 

Publicado pela primeira vez em 11 de abril de 2022.