Tekoäly

Älyavustus auttaa hermostuneita puhujia ‘lukemaan huonetta’ videoneuvotteluissa

Published April 11, 2022

Updated April 28, 2026

Martin Anderson

Vuonna 2013 tehdyn kyselyn yleisistä fobioista selvisi, että julkisen puhumisen pelko oli useimpien vastaajien mielestä pahempi kuin kuoleman pelko. Tämä oireyhtymä tunnetaan glossofobiaksi.

COVID-19 -pandemian aiheuttama siirtymä kasvokkain -kokouksista verkkoneuvotteluihin alustoilla kuten Zoom ja Google Spaces ei ole yllättäen parantanut tilannetta. Jos kokouksessa on suuri määrä osallistujia, luonnolliset uhka-arviomme heikentyvät matalaresoluutioisista osallistujien rivistä ja ikoneista sekä hienojen visuaalisten merkkien, kuten kasvojen ilmeet ja kehonkieli, tulkitsemisen vaikeudesta. Esimerkiksi Skype on osoittautunut huonoksi alustaksi nonverbaalisten vihjeiden välittämiseen.

Julkisen puhumisen suorituskyvyn vaikutuksia havaitusta kiinnostuksesta ja reagoinnista on jo hyvin dokumentoitu, ja se on intuitiivisesti selvää useimmille meistä. Epäselvä yleisövaste voi aiheuttaa puhujien epäröintiä ja paluun täytteisiin puheisiin, tietämättä, kohtaavatko heidän argumenttinsa hyväksynnän, halveksunnan tai kiinnostuksen puutteen, usein aiheuttaen epämukavan kokemuksen sekä puhujalle että kuulijalle.

Pandemian aiheuttaman odottamattoman paineen alla verkkoneuvotteluiden käyttöön, ongelma on väittävästi pahentunut, ja useita yleisöpalautejärjestelmiä on ehdotettu tietokonegrafiikan ja vaikutustutkimuksen yhteisöissä viimeisen kahden vuoden aikana.

Laitteistopohjaiset ratkaisut

Näistä suurin osa kuitenkin vaatii lisälaitteita tai monimutkaisia ohjelmistoja, jotka voivat aiheuttaa yksityisyyden tai logistiikkaongelmia – suhteellisen kalliita tai muuten resursseja rajoittavia lähestymistapoja, jotka edeltävät pandemiaa. Vuonna 2001 MIT ehdotti Galvactivatoria, käsiin asetettavaa laitetta, joka arvioi yleisön tunteita, testattuna yhden päivän mittaisessa symposiumissa.

Vuonna 2001 MIT:n Galvactivator, joka mitasi ihon sähkönjohtavuusvastetta yritti ymmärtää yleisön mielipidettä ja sitoutumista. Lähde: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Akateemiseen energiaan on myös panostettu mahdolliseen “klikkereiden” käyttöön Yleisövastausjärjestelmänä (ARS), jossa pyritään lisäämään yleisön aktiivista osallistumista (joka automaattisesti lisää sitoutumista, koska se pakottaa katsojan aktiivisen palautteen rooliin), mutta jota on myös nähty keinojen puhujan rohkaistamiseen.

Muita yrityksiä “yhdistää” puhuja ja yleisö ovat sisänsä sisältäneet sydämen sykkeen seuraamisen, monimutkaisen kehon sisään asetetun laitteiston käytön elektroenkefalografiassa, “hurratutkimukset”, tietokonegrafiikkaan perustuvat tunneiden tunnistamiset pöytätyöntekijöille ja yleisön lähettämien emotikonien käyttö puhujan puheen aikana.

Vuonna 2017 EngageMeter, yhteinen akateeminen tutkimushanke LMU Munichista ja Stuttgartin yliopistosta. Lähde: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Yleisöanalytiikan tuottoisalla alalla yksityinen sektori on osoittanut erityistä kiinnostusta silmänliikkeen arvioimiseen ja seuraamiseen – järjestelmissä, joissa kunkin yleisön jäsen (joka voi puolestaan puhua), on altis silmänliikkeen seuraamiselle approbation ja sitoutumisen indeksinä.

Nämä kaikki menetelmät ovat melko kitkaisia. Monet niistä vaativat erillistä laitteistoa, laboratoriöympäristöjä, erityisiä ohjelmistokehyksiä ja kallista kaupallista API:ia – tai näiden rajoittavien tekijöiden yhdistelmää.

Siksi yksinkertaisten järjestelmien kehittäminen, jotka perustuvat vain yleisiin videoconferencing-työkaluihin, on tullut kiinnostavaksi viimeisen 18 kuukauden aikana.

Yleisön hyväksymisen raportointi häikäilemättömästi

Tähän tarkoitukseen uusi tutkimusyhteistyö Tokion yliopiston ja Carnegie Mellon -yliopiston välillä tarjoaa uuden järjestelmän, joka voi hyödyntää standardivideoconferencing-työkaluja (kuten Zoom) käyttämällä vain web-kameran käyttöä mahdollistavaa verkkosivua, jolla kevyt silmänliikkeen ja asennon arviointiohjelmisto on käynnissä. Tällä tavoin jopa paikallisten selaimen laajennusten tarve voidaan välttää.

Käyttäjän nyökkäykset ja arvioidun silmän huomion kiinnittymisen käännöksiä edustavat tiedot visualisoidaan puhujalle, mahdollistaen “live”-litmus-testin siitä, kuinka paljon sisältö kiinnittää yleisön – ja myös ainakin epämääräisenä osoituksena niistä puheen jaksoista, joissa puhuja saattaa menettää yleisön kiinnostuksen.

CalmResponsesissa käyttäjän huomio ja nyökkäys lisätään yleisöpalautejärjestelmään ja käännetään visuaaliseksi edustukseksi, josta puhuja voi hyötyä. Katso upotettu video artikkelin lopussa lisätietoja ja esimerkkejä. Lähde: https://www.youtube.com/watch?v=J_PhB4FCzk0

Monissa akateemisissa tilanteissa, kuten verkkoluennoilla, opiskelijat saattavat olla kokonaan näkymättömiä puhujalle, koska he eivät ole kääntäneet kameransa päälle itseään vastaan tunteiden vuoksi taustansa tai nykyisen ulkonäkönsä vuoksi. CalmResponses voi ratkaista tämän muuten vaikean esteen puhujan palautteen saamiselle ilmoittamalla, mitä se tietää puhujan katseesta ja siitä, onko hän nyökkää, ilman että katsojan on tarve aktivoida kamera.

Tutkimuksen artikkeli on otsikoitu CalmResponses: Displaying Collective Audience Reactions in Remote Communication, ja se on yhteistyö kahden tutkijan välillä UoT:sta ja yhden Carnegie Mellonista.

Tekijät tarjoavat live-verkkodemot ja ovat julkaisseet lähdekoodin GitHubissa.

CalmResponses-kehys

CalmResponsesin kiinnostus nyökkäämiseen, verrattuna muihin mahdollisiin pään asentoihin, perustuu tutkimukseen (jotkut niistä ovat peräisin Darwinin ajoilta), joka osoittaa, että yli 80 % kaikkien kuulijoiden pään liikkeistä koostuu nyökkäämisestä (jopa silloin, kun he ovat ilmaisseet erimielisyyttä). Samalla silmänliikkeen liikkeet on osoittautunut luotettavaksi kiinnostuksen tai sitoutumisen indeksiksi useissa tutkimuksissa.

CalmResponses on toteutettu HTML:llä, CSS:llä ja JavaScriptillä, ja se koostuu kolmesta alijärjestelmästä: yleisöasiakkaasta, puhuja-asiakkaasta ja palvelimesta. Yleisöasiakas välittää silmänliikkeen tai pään liikkeen tiedot käyttäjän web-kameran kautta WebSocketsin kautta pilvi-sovelluspalveluun Herokuun.

Yleisön nyökkäys visualisoidaan oikealla animoidussa liikkeessä CalmResponsesissa. Tässä tapauksessa liikkeen visualisointi on käytettävissä sekä puhujalle että koko yleisölle. Lähde: https://arxiv.org/pdf/2204.02308.pdf

Silmänseurausosiossa tutkijat käyttivät WebGazeria, kevyttä, JavaScript-pohjaista selainpohjaista silmänseurauskehyksiä, joka voi toimia matalalla viiveellä suoraan verkkosivulta (ks. yllä oleva linkki tutkijoiden omasta web-pohjaisesta toteutuksesta).

Koska yksinkertaisen, aggregoivan vastausmerkin tunnistamisen tarve ylittää tarpeen korkean tarkkuuden silmän- ja asennon arvioinnissa, syötteen asentoaineisto sileätään keskiarvojen mukaan ennen kuin se otetaan huomioon kokoelman vastausarvioinnissa.

Nyökkäys-toiminto arvioidaan JavaScript-kirjastolla clmtrackr, joka sovittaa kasvojen malleja havaittuihin kasvoihin kuvissa tai videoissa säänneltyjen merkintöjen keskiarvon kautta. Taloudellisuuden ja matalan viiveen vuoksi vain nenän havaittu merkintä seurataan aktiivisesti tutkijoiden toteutuksessa, koska se riittää nyökkäys-toiminnan seuraamiseen.

Käyttäjän nenän kärjen liike luo jäljen, joka vaikuttaa yleisön vastausjärjestelmään, joka liittyy nyökkäämiseen, visualisoitu aggregoivasti kaikille osallistujille.

Lämpökartta

Kun taas nyökkäys-toiminta edustetaan dynaamisilla liikkuvilla pisteillä (ks. yllä olevat kuvat ja video artikkelin lopussa), visuaalinen huomio ilmoitetaan lämpökartan kautta, joka osoittaa puhujalle ja yleisölle, missä yleinen huomion kiinnittymiskohta on jaettu esitysruudulla tai videoconferencing-ympäristössä.

Kaikki osallistujat voivat nähdä, missä yleinen käyttäjän huomio on kohdistettu. Artikkelissa ei mainita, onko tämä toiminto käytettävissä, kun käyttäjä voi nähdä muiden osallistujien “gallerian”, mikä voisi paljastaa epäilyttävän keskittymisen yhteen tiettyyn osallistujaan monista syistä.

Testit

Kaksi testiympäristöä muodostettiin CalmResponsesille muodossa, jossa tehtiin kolme erilaista tilannetta: “Ehdot B” (perusviite), tutkijat toistivat tyypillisen verkkoluennon, jossa useimmat opiskelijat pitivät web-kameroitaan pois päältä, eikä puhuja voinut nähdä yleisön kasvoja; “Ehdot CR-E”:ssa puhuja voi nähdä silmänliikkeen palautteen (lämpökartat); “Ehdot CR-N”: ssä puhuja voi nähdä sekä nyökkäys- että silmänliikkeen toiminnan yleisöltä.

Ensimmäinen kokeellinen skenaario käsitti ehdot B ja CR-E; toinen käsitti ehdot B ja CR-N. Palautetta kerättiin sekä puhujilta että yleisöltä.

Kussakin kokeessa arvioitiin kolmea tekijää: esityksen objektiivinen ja subjektiivinen arviointi (mukaan lukien puhujan itsensä raportoima kysely esityksen menestyksestä); “täyteläisten” puhujien määrä, joka osoittaa hetkellistä epävarmuutta ja epäröintiä; ja laadulliset kommentit. Nämä kriteerit ovat yleisiä puhujan äänen laadun ja puhujan ahdistuksen arvioita.

Koekunta koostui 38 henkilöstä, jotka olivat 19-44-vuotiaita, 29 miestä ja yhdeksän naista, keski-ikä 24,7, kaikki japanilaisia tai kiinalaisia ja kaikki sujuvasti japania puhuvia. Heidät jaettiin satunnaisesti viiteen ryhmään, joissa oli 6-7 osallistujaa, eikä kukaan tutkittavista tuntenut toisiaan henkilökohtaisesti.

Kokeet suoritettiin Zoomissa, jossa viisi puhujaa piti esityksiä ensimmäisessä kokeessa ja kuusi toisessa.

Täyteläiset ehdot on merkitty oransseilla laatikoilla. Yleisesti ottaen täyteläinen sisältö väheni kohtuullisesti järjestelmän yleisöpalautekasvun myötä.

Tutkijat huomauttavat, että yhden puhujan täyteläiset vähenivät merkittävästi, ja “Ehdot CR-N”: ssä puhuja harvoin lausui täyteläisiä lauseita. Katso artikkeli yksityiskohtaisista ja yksityiskohtaisista tuloksista; kuitenkin merkittävimmät tulokset olivat puhujien ja yleisön subjektiivisissa arvioissa.

Yleisön kommentit sisälsivät:

‘Tunsin, että olin mukana esityksissä” [AN2], “En ollut varma, paransivatko puhujien puheet, mutta tunsin ykseyden tunteen muiden päänliikkeiden visualisoinnista.’ [AN6]

‘En ollut varma, paransivatko puhujien puheet, mutta tunsin ykseyden tunteen muiden päänliikkeiden visualisoinnista.’

Tutkijat huomauttavat, että järjestelmä tuo uudenlaisen keinotekoisen tauon puhujan esitykseen, koska puhuja taipuu viittaamaan visuaaliseen järjestelmään arvioimaan yleisön palautetta ennen kuin jatkaa eteenpäin.

He myös huomauttavat tietynlaisesta “valkoinen takki -vaikutuksesta”, jota on vaikea välttää kokeellisissa olosuhteissa, jossa jotkut osallistujat tunsivat itsensä rajoitetuksi biometrisen datan mahdollisten turvallisuusvaikutusten vuoksi.

Johtopäätös

Yksi merkittävä etu järjestelmässä kuten tässä on, että kaikki epätavalliset apulaitteet häviävät kokonaan käytön jälkeen. Ei ole jäljellä selaimen laajennuksia, joita pitäisi poistaa, eikä epäilyksiä osallistujien mielessä siitä, pitäisikö niitä jättää järjestelmille; ja ei ole tarve opastaa käyttäjiä asennusprosessin kautta (vaikka web-pohjainen kehys vaatii vain minuutin tai kaksi alkuvaiheen kalibrointia käyttäjältä), eikä tarve navigoida mahdollisuutta, etteivät käyttäjät ole riittävän valtuutettuja asentamaan paikallista ohjelmistoa, mukaan lukien selainpohjaiset lisäosat ja laajennukset.

Vaikka arvioidut kasvojen ja silmien liikkeet eivät ole yhtä tarkkoja kuin ne voivat olla olosuhteissa, joissa käytetään omia paikallisia koneoppimiskehyskkeitä (kuten YOLO-sarja), tämä melkein kitkaton lähestymistapa yleisön arviointiin tarjoaa riittävän tarkan yleisen mielipiteen ja asenteen analyysin tyypillisissä videoconferencing-tilanteissa. Kaiken kaikkiaan se on erittäin halpaa.

Katso liittyvä projekti video alla lisätietoja ja esimerkkejä.

Julkaistu ensimmäisen kerran 11. huhtikuuta 2022.

Related Topics:education facial expressions research video surveillance