Umělá inteligence
AI pomáhá nervózním mluvčím ‘číst místnost’ během videokonferencí

V roce 2013 určila anketa o běžných fobiích, že perspektiva veřejného projevu byla horší než perspektiva smrti pro většinu respondentů. Tento syndrom je znám jako glossophobia.
COVID-poháněná migrace z ‘osobních’ setkání na online konference na platformách, jako je Zoom a Google Spaces, překvapivě nezlepšila situaci. Pokud setkání obsahuje velký počet účastníků, naše přirozené schopnosti hodnocení hrozeb jsou oslabeny nízko-rozlišovacími řadami a ikonami účastníků a obtížemi při čtení jemných vizuálních signálů mimiky a neverbální komunikace. Skype, například, se ukázal jako špatná platforma pro přenos neverbálních signálů.
Efekty veřejného projevu na výkon mluvčího v souvislosti s vnímaným zájmem a odezvou jsou dobře zdokumentovány a intuitivně zřejmé většině z nás. Neprůhledná odezva publika může způsobit, že mluvčí váhají a uchylují se k naplnění projevu, nevědou, zda jejich argumenty jsou setkávány s souhlasem, opovržením nebo nezájmem, což často vede k nepříjemnému zážitku pro mluvčího i posluchače.
Pod tlakem neočekávaného posunu směrem k online videokonferencím inspirovanému omezeními a opatřeními COVID, se problém zřejmě zhoršuje, a několik schémat zpětné vazby publika bylo navrženo v komunitách počítačového vidění a afektivního výzkumu v posledních dvou letech.
Hardware-Focused Solutions
Většina z nich však vyžaduje další vybavení nebo komplexní software, který může vyvolat problémy s ochranou soukromí nebo logistikou – relativně nákladný nebo jinak omezený přístup, který předchází pandemii. V roce 2001 navrhl MIT Galvactivator, zařízení nošené na ruce, které odvozuje emocionální stav účastníka publika, testované během celodenního symposia.

Z roku 2001, MIT’s Galvactivator, který měřil kožní vodivost jako pokus o pochopení postoje a zapojení publika. Source: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf
Velká část akademické energie byla také věnována možnému nasazení ‘klikacích zařízení’ jako Systém odezvy publika (ARS), opatření ke zvýšení aktivní účasti publika (což automaticky zvyšuje zapojení, protože donutí diváka do role aktivního uzlu zpětné vazby), ale které bylo také představeno jako prostředek k povzbuzení mluvčího.
Další pokusy ‘spojit’ mluvčího a publikum zahrnovaly monitorování srdeční frekvence, použití komplexního vybavení nošeného na těle k využití elektroencefalografie, ‘cheer metry’, počítačové-vizuální rozpoznání emocí pro zaměstnance u stolů, a použití emotikonů odeslaných publikem během projevu mluvčího.

Z roku 2017, EngageMeter, společný akademický výzkumný projekt z LMU Mnichov a Univerzity ve Stuttgartu. Source: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf
Jako pod-pursuit lukrativního oblasti analýzy publika, sektor soukromých firem projevil zvláštní zájem o odhad a sledování pohledu – systémy, kde je každý člen publika (který může být později nucen mluvit), podroben okulárnímu sledování jako indexu zapojení a schválení.
Všechny tyto metody jsou poměrně vysoce tření. Mnoho z nich vyžaduje speciální vybavení, laboratorní prostředí, specializované a na míru vyrobené softwarové rámce a předplatné drahých komerčních API – nebo jakoukoli kombinaci těchto omezujících faktorů.
Proto se vývoj minimalistických systémů založených na málo více než běžných nástrojích pro videokonferenci stal zajímavým v posledních 18 měsících.
Reportování schválení publika diskrétně
K tomuto účelu, nová výzkumná spolupráce mezi Univerzitou v Tokiu a Univerzitou Carnegie Mellon nabízí nový systém, který může využívat standardní nástroje pro videokonferenci (jako Zoom) pomocí pouze webové stránky s povoleným webkamerou, na které běží lehký software pro odhad pohledu a postoje. Tímto způsobem je dokonce i potřeba lokálních prohlížečových pluginů vyhnuta.
Uživatelova kivání a odhadovaná pozornost jsou přeloženy do reprezentativních dat, která jsou vizualizována zpět mluvčímu, umožňující ‘živý’ test rozsahu, v jakém je obsah zapojující publikum – a také alespoň vágní indikátor období diskuse, kde mluvčí může ztrácet zájem publika.

S CalmResponses, pozornost uživatele a kivání jsou přidány do fondu zpětné vazby publika a přeloženy do vizuální reprezentace, která může prospěť mluvčímu. Viz vložené video na konci článku pro více detailů a příkladů. Source: https://www.youtube.com/watch?v=J_PhB4FCzk0
Ve mnoha akademických situacích, jako jsou online přednášky, studenti mohou být zcela neviditelní pro mluvčího, protože nemají zapnuté své webové kamery kvůli sebekonzímu o svém pozadí nebo aktuální podobě. CalmResponses může řešit tuto jinak trnitou překážku zpětné vazby mluvčího tím, že hlásí, co ví o tom, jak mluvčí vypadá na obsah, a zda kývají, bez potřeby, aby divák aktivoval svou kameru.
Článek článku se jmenuje CalmResponses: Zobrazení kolektivní reakce publika vzdálené komunikace, a je společnou prací dvou výzkumníků z UoT a jednoho z Carnegie Mellon.
Autoři nabízejí živou webovou demonstraci a zveřejnili zdrojový kód na GitHubu.
Rámec CalmResponses
Zájem CalmResponses o kivání, na rozdíl od jiných možných dispozic hlavy, je založen na výzkumu (některém z nich sahajícím zpět do éry Darwina), který ukazuje, že více než 80% všech pohybů hlavy posluchačů se skládá z kivání (i když vyjadřují nesouhlas).
V同nou dobu, pohyby očí byly prokázány v mnoha studích jako spolehlivý index zájmu nebo zapojení.
CalmResponses je implementován pomocí HTML, CSS a JavaScriptu, a skládá se ze tří subsystémů: klienta publika, klienta mluvčího a serveru. Klient publika předává data o pohledu očí nebo pohybu hlavy uživatele z webové kamery přes WebSockets přes cloudovou aplikaci Heroku.

Kivání publika je vizualizováno na pravé straně v animovaném pohybu pod CalmResponses. V tomto případě je vizualizace pohybu dostupná nejen mluvčímu, ale celému publiku. Source: https://arxiv.org/pdf/2204.02308.pdf
Pro část projektu související s sledováním očí, výzkumníci použili WebGazer, lehký, JavaScriptový framework pro sledování očí založený na prohlížeči, který může běžet s nízkou latencí přímo z webové stránky (viz odkaz výše pro implementaci výzkumníků).
Pоскольку potřeba jednoduché implementace a hrubé, agregované rozpoznání reakce převyšuje potřebu vysoké přesnosti v odhadu pohledu a postoje, vstupní data o poloze jsou vyhlazena podle průměrných hodnot předtím, než jsou považována za celkovou reakci.
Akce kivání je hodnocena prostřednictvím JavaScriptové knihovny clmtrackr, která přizpůsobuje facální modely detekovaným obličejům v obrazech nebo videích prostřednictvím regularizovaného landmark mean-shift. Pro účely ekonomie a nízké latence je pouze detekovaný landmark pro nos aktivně monitorován v implementaci autorů, protože to stačí k sledování kivání.

Pohyb nosu uživatele vytváří stopu, která přispívá k fondu reakce publika související s kiváním, vizualizované v agregované podobě pro všechny účastníky.
Heat Map
Zatímco aktivita kivání je reprezentována dynamickými pohyblivými body (viz obrázky výše a video na konci), vizuální pozornost je hlášena formou heat mapy, která ukazuje mluvčímu a publiku, kde je obecné místo pozornosti soustředěno na sdílenou prezentaci nebo videokonferenční prostředí.

Všichni účastníci mohou vidět, kde je obecná pozornost uživatele soustředěna. Článek nezmiňuje, zda je tato funkčnost dostupná, když uživatel může vidět ‘galerii’ ostatních účastníků, což by mohlo odhalit falešnou pozornost k jednomu účastníkovi z různých důvodů.
Testy
Dva testovací prostředí byly vytvořeny pro CalmResponses ve formě implicitní studie, pomocí tří různých sad okolností: v ‘Podmínkách B’ (základní), autoři replikovali typickou online studentskou přednášku, kde většina studentů má vypnuté své webové kamery, a mluvčí nemá možnost vidět tváře publika; v ‘Podmínkách CR-E’, mluvčí mohl vidět zpětnou vazbu pohledu (heat mapy); v ‘Podmínkách CR-N’, mluvčí mohl vidět jak kivání, tak aktivitu pohledu od publika.
První experimentální scénář zahrnoval podmínky B a CR-E; druhý zahrnoval podmínky B a CR-N. Zpětná vazba byla získána od mluvčího i publika.
Ve každé experimentální scénáři byly hodnoceny tři faktory: objektivní a subjektivní hodnocení prezentace (včetně samoohlášené ankety od mluvčího týkající se jeho pocitů o tom, jak prezentace proběhla); počet událostí ‘naplnění’ projevu, indikativních momentální nejistoty a váhání; a kvalitativní komentáře. Tyto kritéria jsou běžné odhadovače kvality projevu a úzkosti mluvčího.
Testovací skupina se skládala z 38 lidí ve věku 19-44 let, tvořené 29 muži a devíti ženami s průměrným věkem 24,7, všichni japonští nebo čínští, a všichni mluvící japonštinou. Byli náhodně rozděleni do pěti skupin po 6-7 účastnících, a žádný z účastníků se osobně neznal.
Testy byly provedeny na Zoom, se пять mluvčími, kteří přednesli prezentace v prvním experimentu a šest v druhém.

Podmínky naplnění jsou označeny oranžovými rámečky. Obecně, obsah naplnění klesl v rozumném poměru ke zvýšené zpětné vazbě ze systému.
Výzkumníci poznamenali, že jeden mluvčího naplnění výrazně kleslo, a že v ‘Podmínkách CR-N’, mluvčí zřídka vyslovil naplnění fráze. Viz článek pro velmi podrobné a granulované výsledky; nicméně, nejvýraznější výsledky byly v subjektivním hodnocení mluvčího a účastníků publika.
Komentáře od publika zahrnovaly:
‘Cítil jsem, že jsem byl zapojen do prezentací” [AN2], “Cítil jsem, že mluvčího projevy nebyly zlepšeny, ale cítil jsem pocit jednoty z vizualizace pohybů hlavy ostatních.’ [AN6]
‘Cítil jsem, že mluvčího projevy nebyly zlepšeny, ale cítil jsem pocit jednoty z vizualizace pohybů hlavy ostatních.’
Výzkumníci poznamenali, že systém zavádí nový druh umělé pauzy do projevu mluvčího, protože mluvčí je nakloněn odkázat se na vizuální systém, aby zhodnotil zpětnou vazbu publika, než pokračuje dále.
Také poznamenali jistý ‘efekt bílého pláště’, který je obtížné vyhnout se v experimentálních okolnostech, kde někteří účastníci cítili omezení možnými bezpečnostními důsledky monitorování biometrických dat.
Závěr
Jednou z výhod systému, jako je tento, je, že všechny netypické pomocné technologie potřebné pro takový přístup zcela zmizí po jejich použití. Není třeba odinstalovat žádné prohlížečové pluginy, nebo vyvolat pochybnosti v myslích účastníků, zda by měly zůstat na svých systémech; a není třeba vést uživatele procesem instalace (ačkoli webový framework vyžaduje minutu nebo dvě počáteční kalibrace uživatelem), nebo navigovat možnost, že uživatelé nemají dostatečná oprávnění k instalaci místního softwaru, včetně prohlížečových pluginů a rozšíření.
Ačkoli hodnocené faciální a oční pohyby nejsou tak přesné, jako by mohly být v okolnostech, kde by se používaly specializované místní rámce strojového učení (jako série YOLO), tento téměř beztřecí přístup k hodnocení publika poskytuje dostatečnou přesnost pro širokou analýzu postoje a nálad v typických scénářích videokonference. Především je to velmi levné.
Viz přidružené projektové video níže pro další podrobnosti a příklady.
Poprvé publikováno 11. dubna 2022.












