Stumm AI hëlleft nervös Spriecher de Raum ze liesen wärend Videokonferenzen - Unite.AI
Connect mat eis

Kënschtlech Intelligenz

AI hëlleft nervös Spriecher de Raum ze liesen wärend Videokonferenzen

mm
aktualiséiert on

Am Joer 2013 huet eng Ëmfro iwwer allgemeng Phobien festgestallt datt d'Perspektiv vum ëffentleche Spriecher war méi schlëmm wéi d'Perspektiv vum Doud fir d'Majoritéit vun de Befroten. De Syndrom ass bekannt als Glossophobie.

De COVID-gedriwwen Migratioun Vun 'perséinleche' Reuniounen bis online Zoomkonferenzen op Plattformen wéi Zoom a Google Spaces huet, iwwerraschend, d'Situatioun net verbessert. Wou d'Versammlung eng grouss Zuel vu Participanten enthält, sinn eis natierlech Bedrohungsbewäertungsfäegkeeten behënnert duerch déi niddereg Opléisung Reihen an Ikonen vun de Participanten, an d'Schwieregkeet fir subtile visuelle Signaler vu Gesiichtsausdrock a Kierpersprooch ze liesen. Skype, zum Beispill, gouf als eng schlecht Plattform fonnt fir net-verbal Hiweiser ze vermëttelen.

D'Effekter op d'Performance vun der ëffentlecher Ried vum erkannten Interesse a Reaktiounsfäegkeet sinn gutt dokumentéiert bis elo, an intuitiv offensichtlech fir déi meescht vun eis. Opaque Publikumsreaktioun kann d'Spriecher verursaachen ze zécken an zréck ze falen filler Ried, net bewosst ob hir Argumenter mat Accord, Veruechtung oder Desintressi treffen, wat dacks eng onwuel Erfahrung fir de Spriecher an hir Nolauschterer mécht.

Ënnert Drock vun der onerwaarter Verréckelung Richtung Online Videokonferenzen inspiréiert vun COVID Restriktiounen a Virsiichtsmoossname gëtt de Problem wuel verschlechtert, an eng Zuel vu verbesserte Publikumsfeedback Schemae goufen an der Computervisioun proposéiert an beaflossen Fuerschungsgemeinschaften an de leschte Joren.

Hardware-konzentréiert Léisungen

Déi meescht vun dësen involvéieren awer zousätzlech Ausrüstung oder komplex Software déi Privatsphär oder Logistikprobleemer kënne erhéijen - relativ héich Käschte oder soss Ressource-beschränkt Approche Stiler déi d'Pandemie virdru sinn. Am Joer 2001 huet de MIT den Galvactivator, e handgedroenen Apparat, deen den emotionalen Zoustand vum Publikumsparticipant ofleeft, während engem Dag laange Symposium getest.

Vun 2001, MIT's Galvactivator, deen d'Hautkonduktivitéitsreaktioun gemooss huet an engem Versuch d'Publikumsentiment an d'Engagement ze verstoen. Source: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Vun 2001, MIT's Galvactivator, deen d'Hautkonduktivitéitsreaktioun gemooss huet an engem Versuch d'Publikumsentiment an d'Engagement ze verstoen. Source: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Vill akademesch Energie gouf och fir dat méiglech gewidmet Deployment vun 'Klicker' als Audience Response System (ARS), eng Moossnam fir d'aktiv Participatioun vum Publikum z'erhéijen (wat automatesch d'Engagement erhéicht, well et den Zuschauer an d'Roll vun engem aktive Feedback Node forcéiert), awer déi och als Mëttel fir d'Speaker Encouragement virgesinn ass. .

Aner Versuche fir de Spriecher an d'Publikum ze verbannen hunn abegraff Häerzfrequenz Iwwerwaachung, d'Benotzung vu komplexe Kierpergedroen Ausrüstung fir Elektroencephalographie ze profitéieren, 'Cher Meter', Computer-Visioun-baséiert Emotiounen Unerkennung fir Desk-gebonnen Aarbechter, an d'Benotzung vun Publikum geschéckt Comment während der Ried vum Riedner.

Vun 2017 un ass den EngageMeter, e gemeinsame akademesche Fuerschungsprojet vun der LMU München an der Universitéit Stuttgart. Source: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Vun 2017 un ass den EngageMeter, e gemeinsame akademesche Fuerschungsprojet vun der LMU München an der Universitéit Stuttgart. Source: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Als Ënner-Verfollegung vum lukrativen Gebitt vun der Publikumsanalyse huet de Privatsecteur e besonneschen Interessi un d'Bléckschätzung an d'Verfolgung geholl - Systemer wou all Publikumsmember (deen eventuell an hirem Tour schlussendlech muss schwätzen), ënnerleien ass okular Tracking als Index vun Engagement an Zoustëmmung.

All dës Methoden sinn zimlech héich Reibung. Vill vun hinnen erfuerderen speziell Hardware, Laborëmfeld, spezialiséiert a personaliséiert Software Kaderen, an Abonnement op deier kommerziell APIen - oder all Kombinatioun vun dëse restriktiv Faktoren.

Dofir ass d'Entwécklung vu minimalistesche Systemer baséiert op wéineg méi wéi allgemeng Tools fir Videokonferenzen an de leschten 18 Méint interessant ginn.

Berichterstattung vum Publikum Diskret

Zu dësem Zweck bitt eng nei Fuerschungszesummenaarbecht tëscht der University of Tokyo an der Carnegie Mellon University en neie System deen op Standard Videokonferenz Tools (wéi Zoom) ka piggy-back op Standard Videokonferenz Tools (wéi Zoom) mat nëmmen eng Web-Cam-aktivéiert Websäit op där e liichte Bléck a Pose Schätzungssoftware leeft. Op dës Manéier gëtt souguer de Besoin fir lokal Browser Plugins vermeit.

D'Notzen vum Benotzer an d'geschätzte Aenopmierksamkeet ginn a representativ Donnéeën iwwersat, déi dem Redner visualiséiert ginn, wat e "live" Lackmustest erlaabt, wéi wäit den Inhalt de Publikum engagéiert - an och op d'mannst e vague Indikator vu Perioden vum Discours wou de Spriecher d'Interesse vum Publikum verléiert.

Mat CalmResponses gëtt d'Opmierksamkeet vun de Benotzer an d'Nodding zu engem Pool vu Publikumsfeedback bäigefüügt an an eng visuell Representatioun iwwersat, déi de Spriecher profitéiere kann. Kuckt de Embedded Video um Enn vum Artikel fir méi Detailer a Beispiller. Source: https://www.youtube.com/watch?v=J_PhB4FCzk0

Mat CalmResponses gëtt d'Opmierksamkeet vun de Benotzer an d'Nodding zu engem Pool vu Publikumsfeedback bäigefüügt an an eng visuell Representatioun iwwersat, déi de Spriecher profitéiere kann. Kuckt de Embedded Video um Enn vum Artikel fir méi Detailer a Beispiller. Source: https://www.youtube.com/watch?v=J_PhB4FCzk0

A ville akademesche Situatiounen, wéi zum Beispill Online Virliesungen, kënnen d'Studente vum Spriecher ganz onsiichtbar sinn, well se hir Kameraen net ageschalt hunn wéinst Selbstbewosstsinn iwwer hiren Hannergrond oder aktuellen Erscheinungsbild. CalmResponses kënnen dëst soss thorny Hindernis fir Speaker Feedback adresséieren andeems se bericht wat et weess wéi de Spriecher den Inhalt kuckt, a wa se wénken, ouni datt de Betrachter seng Kamera muss aktivéieren.

d' Pabeier heescht CalmResponses: Kollektiv Audienzreaktiounen an der Fernkommunikatioun weisen, an ass eng gemeinsam Aarbecht tëscht zwee Fuerscher vun UoT an engem vun Carnegie Mellon.

D'Auteuren bidden eng liewen Web-baséiert Demo, an hunn verëffentlecht der Quellcode bei GitHub.

De CalmResponses Framework

Den Interesse vum CalmResponses fir ze wénken, am Géigesaz zu anere méiglechen Dispositioune vum Kapp, baséiert op Fuerschung (e puer dovunner zréck an d'Ära vum Darwin) dat weist datt méi wéi 80% vun alle Kappbewegungen vun den Nolauschterer besteet aus Knuewelek (och wann se sinn Meenungsverschiddenheet auszedrécken). Zur selwechter Zäit sinn d'Ae Bléckbeweegunge gewisen iwwer vill Studien fir en zouverléissege Index vun Interessi oder Engagement ze sinn.

CalmResponses gëtt mat HTML, CSS, a JavaScript implementéiert, a besteet aus dräi Subsystemer: e Publikumsclient, e Lautsprecherclient an e Server. D'Publikum Cliente passéiert Aenbléck oder Kappbewegungsdaten vun der Webcam vum Benotzer iwwer WebSockets iwwer d'Cloud Uwendungsplattform Heroku.

Publikum noding visualiséiert op der rietser an enger animéierter Bewegung ënner CalmResponses. An dësem Fall ass d'Bewegungsvisualiséierung net nëmme fir de Spriecher verfügbar, mee fir de ganze Publikum.

Publikum noding visualiséiert op der rietser an enger animéierter Bewegung ënner CalmResponses. An dësem Fall ass d'Bewegungsvisualiséierung net nëmme fir de Spriecher verfügbar, mee fir de ganze Publikum. Source: https://arxiv.org/pdf/2204.02308.pdf

Fir d'Ae-Tracking Sektioun vum Projet hunn d'Fuerscher benotzt Web Gazer, e liicht, JavaScript-baséiert Browser-baséiert Auge-Tracking-Framework, dee mat gerénger latency direkt vun enger Websäit lafen kann (kuckt de Link uewendriwwer fir d'Fuerscher hir eege Web-baséiert Implementatioun).

Zënter datt d'Noutwendegkeet vun enger einfacher Implementatioun a rau, aggregéierter Äntwerterkennung méi héich ass wéi d'Bedierfnes fir héich Genauegkeet am Bléck- a Poseschätzung, ginn d'Input Posedaten no mëttlere Wäerter ausgeglach ier se fir d'Gesamtreaktiounsschätzung berücksichtegt ginn.

D'Noddingaktioun gëtt iwwer d'JavaScript-Bibliothéik bewäert clmtrackr, déi passt Gesiichtsmodeller op detektéiert Gesiichter a Biller oder Videoen duerch Regulariséiert Landmark Moyenne Verréckelung. Fir Zwecker vun der Wirtschaft a Low-latency ass nëmmen de festgestallte Landmark fir d'Nues aktiv an der Ëmsetzung vun den Auteuren iwwerwaacht, well dëst genuch ass fir d'Noddingaktiounen ze verfolgen.

D'Bewegung vun der Nues Tipp Positioun vum Benotzer erstellt en Trail deen zum Pool vun der Publikumsreaktioun am Zesummenhang mam Nodding bäidréit, visualiséiert op eng aggregéiert Manéier fir all Participanten.

D'Bewegung vun der Nues Tipp Positioun vum Benotzer erstellt en Trail deen zum Pool vun der Publikumsreaktioun am Zesummenhang mam Nodding bäidréit, visualiséiert op eng aggregéiert Manéier fir all Participanten.

Hëtzt Map

Wärend d'Kickaktivitéit duerch dynamesch bewegende Punkte vertruede gëtt (kuckt d'Biller uewen a Video um Enn), gëtt visuell Opmierksamkeet a punkto enger Hëtztkaart gemellt, déi de Spriecher an d'Publikum weist, wou den allgemenge Locus vun der Opmierksamkeet op de gemeinsame Presentatiounsbildschierm fokusséiert ass oder Videokonferenz Ëmfeld.

All Participanten kënne gesinn wou allgemeng Benotzer Opmierksamkeet konzentréiert ass. D'Zeitung ernimmt net ob dës Funktionalitéit verfügbar ass wann de Benotzer eng 'Galerie' vun anere Participanten ka gesinn, déi aus verschiddene Grënn e spezifesche Fokus op ee bestëmmte Participant kéint weisen.

All Participanten kënne gesinn wou allgemeng Benotzer Opmierksamkeet konzentréiert ass. D'Zeitung ernimmt net ob dës Funktionalitéit verfügbar ass wann de Benotzer eng 'Galerie' vun anere Participanten ka gesinn, déi aus verschiddene Grënn e spezifesche Fokus op ee bestëmmte Participant kéint weisen.

Tester

Zwee Testëmfeld goufe formuléiert fir CalmResponses a Form vun enger taciter Ablatiounsstudie, mat dräi variéierte Sets vun Ëmstänn: an 'Conditioun B' (Baseline), hunn d'Auteuren eng typesch Online Studentevirtrag replizéiert, wou d'Majoritéit vun de Studenten hir Webcams gedréint hunn. aus, an de Spriecher huet keng Fäegkeet d'Gesiichter vum Publikum ze gesinn; am 'Conditioun CR-E' konnt de Spriecher Bléck Feedback gesinn (Hëtztkaarten); am 'Conditioun CR-N' konnt de Spriecher souwuel d'Nocken wéi och d'Aktivitéit vum Publikum gesinn.

Déi éischt experimentell Szenario ëmfaasst Conditioun B an Conditioun CR-E; déi zweet ëmfaasst Conditioun B an Conditioun CR-N. Feedback gouf souwuel vun de Spriecher wéi och vum Publikum kritt.

An all Experiment goufen dräi Faktoren evaluéiert: objektiv a subjektiv Evaluatioun vun der Presentatioun (och e selbstrapportéierte Questionnaire vum Spriecher iwwer hir Gefiller iwwer wéi d'Presentatioun gaangen ass); d'Zuel vun den Eventer vun der "filler" Ried, wat fir momentaner Onsécherheet a Prevaricatioun weist; a qualitativ Kommentaren. Dës Critèren sinn verbreet Schätzunge vun Ried Qualitéit a Spriecher Besuergnëss.

Den Testpool bestoung aus 38 Leit am Alter vun 19-44, aus 29 Männercher an néng Weibercher mat engem Duerchschnëttsalter vu 24.7, all Japanesch oder Chinesesch, an all fléissend Japanesch. Si goufen zoufälleg a fënnef Gruppe vu 6-7 Participanten opgedeelt, a kee vun de Sujete kannt sech perséinlech.

D'Tester goufen op Zoom duerchgefouert, mat fënnef Spriecher déi Präsentatiounen am éischten Experiment a sechs am zweeten.

Füllkonditioune markéiert als orange Këschte. Am Allgemengen ass de Fillerinhalt a vernünfteg Undeel gefall zum verstäerkte Publikumsfeedback vum System.

Füllkonditioune markéiert als orange Këschte. Am Allgemengen ass de Fillerinhalt a vernünfteg Undeel gefall zum verstäerkte Publikumsfeedback vum System.

D'Fuerscher bemierken datt d'Filler vun engem Spriecher bemierkenswäert reduzéiert ginn, an datt am 'Condition CR-N', de Spriecher selten Fëller Sätze geäussert huet. Kuckt de Pabeier fir déi ganz detailléiert a granulär Resultater gemellt; awer, déi markéiert Resultater waren an subjektiv Evaluatioun vun de Spriecher an Publikum Participanten.

Kommentare vum Publikum abegraff:

'Ech hu gefillt datt ech an de Presentatiounen involvéiert war' [AN2], "Ech war net sécher datt d'Rieden vun de Spriecher verbessert goufen, awer ech hunn e Gefill vun Eenheet duerch d'Visualiséierung vun anere Kappbewegungen gefillt." [AN 6]

"Ech war net sécher datt d'Rieden vun de Spriecher verbessert goufen, awer ech hunn e Gefill vun Eenheet vun der Visualiséierung vun anere Kappbewegungen gefillt."

D'Fuerscher bemierken datt de System eng nei Aart vu kënschtlecher Paus an der Presentatioun vum Spriecher virstellt, well de Spriecher geneigt ass op de visuelle System ze referenzéieren fir d'Publikum Feedback ze bewäerten ier Dir weider geet.

Si bemierken och eng Aart "Wäiss Manteleffekt", schwéier ze vermeiden an experimentellen Ëmstänn, wou e puer Participanten sech ageschränkt gefillt hunn duerch déi méiglech Sécherheetsimplikatioune fir iwwer biometresch Donnéeën iwwerwaacht ze ginn.

Konklusioun

Ee bemierkenswäerte Virdeel an engem System wéi dësen ass all déi net-Standard Zousaztechnologien déi néideg sinn fir sou eng Approche komplett verschwannen nodeems hir Notzung eriwwer ass. Et gi keng Rescht Browser Plugins ze deinstalléieren, oder Zweifel am Kapp vun Participanten ze werfen ob se op hir jeeweileg Systemer bleiwen soll; an et ass net néideg d'Benotzer duerch den Installatiounsprozess ze guidéieren (obwuel de webbaséierte Kader eng oder zwou Minutte vun der initialer Kalibrierung vum Benotzer erfuerdert), oder d'Méiglechkeet ze navigéieren datt d'Benotzer net adäquat Permissiounen hunn fir lokal Software z'installéieren, inklusiv Browser-baséiert Add-ons an Extensiounen.

Och wann déi bewäertte Gesiichts- an Okulärbeweegunge net sou präzis sinn wéi se an Ëmstänn kéinte sinn, wou engagéiert lokal Maschinnléiere Kaderen (wéi d'YOLO Serie) kënne benotzt ginn, bitt dës bal friktiounslos Approche fir d'Publikumevaluatioun adäquat Genauegkeet fir eng breet Gefill a Haltungsanalyse. an typesch Videokonferenz Szenarie. Virun allem ass et ganz bëlleg.

Kuckt den assoziéierten Projektvideo hei ënnen fir weider Detailer a Beispiller.

CalmResponses: Kollektiv Audienzreaktiounen an der Fernkommunikatioun weisen

 

Éischt publizéiert 11. Abrëll 2022.