부본 AI는 화상 회의 중 신경질적인 화자가 '방을 읽을 수 있도록' 도와줍니다. - Unite.AI
Rescale 미팅 예약

인공 지능

AI는 화상 회의 중에 신경질적인 화자가 '방을 읽을 수 있도록' 도와줍니다.

mm
업데이트 on

2013년 일반적인 공포증에 대한 여론 조사에서 대중 연설의 전망이 죽음의 전망보다 더 나쁜 대부분의 응답자에게. 증후군은 다음과 같이 알려져 있습니다. 광택지.

COVID 기반 이주 '대면' 회의에서 Zoom 및 Google Spaces와 같은 플랫폼의 온라인 줌 회의에 이르기까지 놀랍게도 상황이 개선되지 않았습니다. 회의에 많은 수의 참가자가 포함된 경우 참가자의 저해상도 행과 아이콘, 얼굴 표정과 신체 언어의 미묘한 시각적 신호를 읽기가 어려워 자연 위협 평가 능력이 저하됩니다. 예를 들어 스카이프는 비언어적 단서를 전달하기에는 부적합한 플랫폼인 것으로 밝혀졌습니다.

인지된 관심과 반응성이 대중 연설 수행에 미치는 영향은 다음과 같습니다. 잘 기록 된 지금쯤이면 대부분의 사람들에게 직관적으로 명백합니다. 불투명한 청중의 반응으로 인해 연사는 주저하고 뒤로 물러날 수 있습니다. 필러 연설, 그들의 주장이 동의, 경멸 또는 무관심과 만나는지 알지 못하여 종종 말하는 사람과 듣는 사람 모두에게 불편한 경험을 만듭니다.

코로나19 제한 및 예방조치에 영감을 받아 예상치 못한 온라인 화상회의 전환으로 인한 압력으로 인해 문제는 더욱 악화되고 있으며, 지난 몇 년 동안 컴퓨터 비전에서 여러 가지 개선된 청중 피드백 체계가 제안되어 연구 커뮤니티에 영향을 미쳤습니다.

하드웨어 중심 솔루션

그러나 이들 중 대부분은 개인 정보 보호 또는 물류 문제를 일으킬 수 있는 추가 장비 또는 복잡한 소프트웨어를 포함합니다. 상대적으로 비용이 많이 들거나 리소스가 제한된 방식으로 팬데믹 이전에 사용되었습니다. 2001년에 MIT는 다음을 제안했습니다. 전기활성화제, 청중 참여자의 감정 상태를 추론하는 손에 착용하는 장치는 하루 종일 심포지엄에서 테스트되었습니다.

2001년부터 청중의 감정과 참여를 이해하기 위해 피부 전도도 반응을 측정한 MIT의 Galvactivator. 출처: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

2001년부터 청중의 감정과 참여를 이해하기 위해 피부 전도도 반응을 측정한 MIT의 Galvactivator. 출처: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

또한 가능한 많은 학문적 에너지가 투입되었습니다. '클릭커' 전개 ARS(청중 응답 시스템)로서 청중의 적극적인 참여를 늘리는 수단(시청자가 적극적인 피드백 노드의 역할을 하게 되므로 참여가 자동으로 증가함)이지만 연사를 격려하는 수단으로도 여겨져 왔습니다. .

연사와 청중을 '연결'하려는 다른 시도에는 다음이 포함됩니다. 심박수 모니터링, 뇌파 검사를 활용하기 위한 복잡한 신체 착용 장비의 사용, '치어 미터', 컴퓨터 비전 기반 감정 인식 책상에 얽매인 근로자를 위해, 청중이 보낸 이모티콘 연사의 연설 중에.

2017년부터 LMU 뮌헨과 슈투트가르트 대학교의 공동 학술 연구 프로젝트인 EngageMeter가 도입되었습니다. 출처: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

2017년부터 LMU 뮌헨과 슈투트가르트 대학교의 공동 학술 연구 프로젝트인 EngageMeter가 도입되었습니다. 출처: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

청중 분석의 수익성 있는 영역의 하위 추구로서 민간 부문은 시선 추정 및 추적에 특별한 관심을 가져왔습니다. 안구 추적 참여 및 승인의 지표로.

이러한 모든 방법은 마찰이 상당히 높습니다. 이들 중 다수는 맞춤형 하드웨어, 연구실 환경, 특수 및 맞춤형 소프트웨어 프레임워크, 값비싼 상용 API 구독 또는 이러한 제한 요소의 조합을 필요로 합니다.

따라서 지난 18개월 동안 화상 회의를 위한 일반적인 도구에 기반한 미니멀리스트 시스템의 개발이 관심을 끌었습니다.

신중하게 청중 승인 보고

이를 위해 도쿄 대학과 카네기 멜론 대학 사이의 새로운 연구 협력은 가벼운 시선과 포즈가 있는 웹캠 지원 웹사이트만 사용하여 표준 화상 회의 도구(예: Zoom)에 피기백할 수 있는 새로운 시스템을 제공합니다. 추정 소프트웨어가 실행 중입니다. 이러한 방식으로 로컬 브라우저 플러그인이 필요하지 않습니다.

사용자의 끄덕임과 추정된 시선은 화자에게 다시 시각화되는 대표적인 데이터로 변환되어 콘텐츠가 청중을 끌어들이는 정도에 대한 '라이브' 리트머스 테스트를 허용합니다. 발표자가 청중의 관심을 잃을 수 있는 담화의

CalmResponses를 사용하면 사용자의 관심과 끄덕임이 청중 피드백 풀에 추가되고 발표자에게 도움이 될 수 있는 시각적 표현으로 변환됩니다. 자세한 내용과 예제는 기사 끝에 포함된 비디오를 참조하십시오. 출처: https://www.youtube.com/watch?v=J_PhB4FCzk0

CalmResponses를 사용하면 사용자의 관심과 끄덕임이 청중 피드백 풀에 추가되고 발표자에게 도움이 될 수 있는 시각적 표현으로 변환됩니다. 자세한 내용과 예제는 기사 끝에 포함된 비디오를 참조하십시오. 출처: https://www.youtube.com/watch?v=J_PhB4FCzk0

온라인 강의와 같은 많은 학업 상황에서 학생들은 자신의 배경이나 현재 외모에 대한 자의식 때문에 카메라를 켜지 않았기 때문에 연사에게 완전히 보이지 않을 수 있습니다. CalmResponses는 시청자가 카메라를 활성화할 필요 없이 화자가 콘텐츠를 어떻게 보고 있는지, 고개를 끄덕이고 있는지에 대해 알고 있는 내용을 보고함으로써 화자 피드백에 대한 이 까다로운 장애물을 해결할 수 있습니다.

XNUMXD덴탈의 종이 제목이 CalmResponses: 원격 통신에서 집단 청중 반응 표시, UoT의 두 연구원과 Carnegie Mellon의 한 연구원 간의 공동 작업입니다.

저자는 라이브 웹 기반 데모를 제공하고 GitHub의 소스 코드.

CalmResponses 프레임워크

머리의 다른 가능한 배치와 달리 끄덕임에 대한 CalmResponses의 관심은 연구를 기반으로 합니다. 다시 다윈 시대로) 전체 청취자의 머리 움직임의 80% 이상이 끄덕임으로 구성되어 있습니다 (그들이 있을 때에도 의견 불일치 표현). 동시에 눈을 응시하는 움직임도 보였다. 위에 다수의 연구 신뢰할 수 있는 관심 또는 참여 지표입니다.

CalmResponses는 HTML, CSS 및 JavaScript로 구현되며 청중 클라이언트, 스피커 클라이언트 및 서버의 세 가지 하위 시스템으로 구성됩니다. 청중 클라이언트는 클라우드 애플리케이션 플랫폼 Heroku를 통해 WebSocket을 통해 사용자의 웹캠에서 시선 또는 머리 움직임 데이터를 전달합니다.

CalmResponses 아래의 애니메이션 움직임에서 오른쪽에 시각화된 청중 끄덕임. 이 경우 움직임 시각화는 연사뿐만 아니라 전체 청중이 사용할 수 있습니다.

CalmResponses 아래의 애니메이션 움직임에서 오른쪽에 시각화된 청중 끄덕임. 이 경우 움직임 시각화는 연사뿐만 아니라 전체 청중이 사용할 수 있습니다. 출처 : https://arxiv.org/pdf/2204.02308.pdf

프로젝트의 시선 추적 섹션을 위해 연구원들은 다음을 사용했습니다. 웹게이저, 가벼운 JavaScript 기반 브라우저 기반 시선 추적 프레임워크로 웹사이트에서 직접 낮은 대기 시간으로 실행할 수 있습니다(연구원 자체 웹 기반 구현에 대해서는 위의 링크 참조).

간단한 구현과 대략적인 집계 응답 인식의 필요성이 시선 및 포즈 추정의 높은 정확도에 대한 필요성보다 중요하므로 입력 포즈 데이터는 전체 응답 추정을 위해 고려되기 전에 평균값에 따라 평활화됩니다.

고개를 끄덕이는 동작은 JavaScript 라이브러리를 통해 평가됩니다. clmtrackr를 통해 이미지 또는 비디오에서 감지된 얼굴에 얼굴 모델을 피팅합니다. 정규화된 랜드마크 평균 이동. 절약 및 짧은 대기 시간을 위해, 끄덕이는 행동을 추적하기에 충분하기 때문에 코에 대해 감지된 랜드마크만 작성자의 구현에서 능동적으로 모니터링됩니다.

사용자의 코끝 위치의 움직임은 모든 참가자에게 집계 방식으로 시각화된 끄덕임과 관련된 청중 반응 풀에 기여하는 흔적을 생성합니다.

사용자의 코끝 위치의 움직임은 모든 참가자에게 집계 방식으로 시각화된 끄덕임과 관련된 청중 반응 풀에 기여하는 흔적을 생성합니다.

히트 맵

고개를 끄덕이는 활동은 동적으로 움직이는 점으로 표시되지만(위의 이미지와 마지막 비디오 참조) 시각적 관심은 발표자와 청중이 공유 프레젠테이션 화면 또는 화상회의 환경.

모든 참가자는 일반 사용자의 관심이 어디에 집중되어 있는지 확인할 수 있습니다. 이 문서는 사용자가 다양한 이유로 한 특정 참가자에 대한 그럴듯한 초점을 드러낼 수 있는 다른 참가자의 '갤러리'를 볼 수 있을 때 이 기능을 사용할 수 있는지 여부에 대해서는 언급하지 않습니다.

모든 참가자는 일반 사용자의 관심이 어디에 집중되어 있는지 확인할 수 있습니다. 이 문서는 사용자가 다양한 이유로 한 특정 참가자에 대한 그럴듯한 초점을 드러낼 수 있는 다른 참가자의 '갤러리'를 볼 수 있을 때 이 기능을 사용할 수 있는지 여부에 대해서는 언급하지 않습니다.

테스트

세 가지 다양한 상황 세트를 사용하여 암묵적 제거 연구의 형태로 CalmResponses에 대해 두 가지 테스트 환경을 공식화했습니다. '조건 B'(기준선)에서 작성자는 대부분의 학생이 웹캠을 켜둔 상태로 유지하는 일반적인 온라인 학생 강의를 복제했습니다. 꺼지고 연사는 청중의 얼굴을 볼 수 없습니다. 'Condition CR-E'에서 화자는 시선 피드백(히트 맵)을 볼 수 있습니다. 'Condition CR-N'에서 발표자는 청중의 끄덕임과 시선 활동을 모두 볼 수 있었습니다.

첫 번째 실험 시나리오는 조건 B와 조건 CR-E로 구성되었습니다. 두 번째는 조건 B와 조건 CR-N으로 구성됩니다. 발표자와 청중 모두로부터 피드백을 받았습니다.

각 실험에서 세 가지 요소를 평가했습니다. 프레젠테이션에 대한 객관적 및 주관적 평가(프레젠테이션이 어떻게 진행되었는지에 대한 발표자의 느낌에 대한 자체 보고 설문지 포함); 순간적인 불안과 변태를 나타내는 '필러' 연설의 사건 수; 및 질적 의견. 이러한 기준은 공통의 추정기 음성 품질 및 화자 불안.

테스트 풀은 38세에서 19세 사이의 44명으로 구성되었으며 평균 연령 29세의 남성 24.7명과 여성 6명으로 모두 일본어 또는 중국어에 능통했습니다. 그들은 무작위로 7-XNUMX명의 참가자로 구성된 XNUMX개 그룹으로 나뉘었고, 서로 개인적으로 아는 사람은 아무도 없었습니다.

테스트는 Zoom에서 진행되었으며 첫 번째 실험에서는 XNUMX명의 발표자가, 두 번째 실험에서는 XNUMX명의 발표자가 발표했습니다.

주황색 상자로 표시된 충전 조건. 일반적으로 필러 콘텐츠는 시스템의 청중 피드백 증가에 합당한 비율로 떨어졌습니다.

주황색 상자로 표시된 충전 조건. 일반적으로 필러 콘텐츠는 시스템의 청중 피드백 증가에 합당한 비율로 떨어졌습니다.

연구원들은 한 화자의 필러가 눈에 띄게 감소했으며 'Condition CR-N'에서 화자가 필러 프레이즈를 거의 말하지 않았다는 점에 주목했습니다. 보고된 매우 상세하고 세분화된 결과에 대해서는 논문을 참조하십시오. 그러나 가장 눈에 띄는 결과는 연사와 청중 참가자의 주관적인 평가였습니다.

청중의 의견은 다음과 같습니다.

'발표에 참여하는 느낌이 들었다'[AN2], “발표자의 스피치가 개선되었는지는 모르겠지만 다른 사람의 머리 움직임 시각화에서 일체감을 느꼈습니다.' [AN6]

'화자의 스피치가 개선되었는지는 모르겠지만 다른 사람의 머리 움직임 시각화에서 일체감을 느꼈습니다.'

연구원들은 발표자가 더 진행하기 전에 청중 피드백을 평가하기 위해 시각 시스템을 참조하는 경향이 있기 때문에 시스템이 발표자의 프레젠테이션에 새로운 종류의 인공적인 일시 중지를 도입한다고 지적합니다.

그들은 또한 실험 환경에서 피하기 어려운 일종의 '백의 효과'에 주목합니다. 일부 참가자는 생체 인식 데이터에 대한 모니터링의 가능한 보안 영향으로 인해 제약을 느꼈습니다.

결론

이와 같은 시스템에서 주목할만한 이점 중 하나는 이러한 접근 방식에 필요한 모든 비표준 보조 기술이 사용이 끝나면 완전히 사라진다는 것입니다. 제거해야 할 잔여 브라우저 플러그인이 없거나 각 시스템에 남아 있어야 하는지 여부에 대해 참가자의 마음에 의심을 던질 수 없습니다. 설치 프로세스를 통해 사용자를 안내하거나(웹 기반 프레임워크는 사용자가 XNUMX~XNUMX분의 초기 조정을 필요로 함) 로컬 소프트웨어를 설치할 적절한 권한이 없는 사용자의 가능성을 탐색할 필요가 없습니다. 브라우저 기반 애드온 및 확장 프로그램을 포함합니다.

평가된 얼굴 및 안구 움직임은 전용 로컬 기계 학습 프레임워크(예: YOLO 시리즈)가 사용될 수 있는 상황에서만큼 정확하지는 않지만 청중 평가에 대한 이 거의 마찰이 없는 접근 방식은 광범위한 정서 및 자세 분석에 대한 적절한 정확성을 제공합니다. 일반적인 화상 회의 시나리오에서. 무엇보다 가격이 매우 저렴합니다.

자세한 내용과 예제는 아래 관련 프로젝트 비디오를 확인하십시오.

CalmResponses: 원격 통신에서 집단 청중 반응 표시

 

11년 2022월 XNUMX일에 처음 게시되었습니다.