Connect with us

AI pomaga nerwowym mówcom “czytać salę” podczas wideokonferencji

Sztuczna inteligencja

AI pomaga nerwowym mówcom “czytać salę” podczas wideokonferencji

mm

W 2013 roku przeprowadzono ankietę na temat powszechnych fobii, która wykazała, że perspektywa publicznych wystąpień była gorsza niż perspektywa śmierci dla większości respondentów. Zespół ten jest znany jako glossophobia.

COVID-19 spowodował migrację z “osobistych” spotkań na wideokonferencje online na platformach takich jak Zoom i Google Spaces, co nie poprawiło sytuacji. Gdy spotkanie zawiera dużą liczbę uczestników, nasze naturalne zdolności do oceny zagrożeń są upośledzone przez niską rozdzielczość wierszy i ikon uczestników oraz trudności w odczytywaniu subtelnych wizualnych sygnałów wyrażenia twarzy i języka ciała. Na przykład Skype okazał się być słabą platformą do przekazywania niewerbalnych sygnałów.

Skutki wystąpień publicznych na poziomie percepcyjnym zainteresowania i reakcji są dobrze udokumentowane i intuicyjnie oczywiste dla większości z nas. Niewidoczna reakcja publiczności może powodować, że mówcy wahają się i powracają do wypełniających słów, nieświadomi, czy ich argumenty spotykają się z zgodą, lekceważeniem czy obojętnością, co często powoduje niekomfortową sytuację zarówno dla mówcy, jak i słuchaczy.

Pod presją nieoczekiwanego przesunięcia w kierunku wideokonferencji online, zainspirowanego ograniczeniami i środkami ostrożności związanymi z COVID-19, problem ten jest prawdopodobnie coraz gorszy, a w ciągu ostatnich dwóch lat w społecznościach badawczych w dziedzinie komputerowego widzenia i afektu zaproponowano szereg systemów sprzyjających poprawie zwrotnej informacji zwrotnej od publiczności.

Rozwiązania ukierunkowane na sprzęt

Większość z nich wymaga jednak dodatkowego sprzętu lub złożonego oprogramowania, co może powodować problemy z prywatnością lub logistyką – stosunkowo drogie lub w inny sposób ograniczone style podejścia, które poprzedzają pandemię. W 2001 roku MIT zaproponował Galvactivator, urządzenie noszone na ręku, które wnioskuje o stanie emocjonalnym uczestnika publiczności, przetestowane podczas całodniowego sympozjum.

Z 2001 roku, Galvactivator MIT, który mierzył reakcję przewodzenia skóry w celu zrozumienia sentymentu i zaangażowania publiczności. Źródło: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Z 2001 roku, Galvactivator MIT, który mierzył reakcję przewodzenia skóry w celu zrozumienia sentymentu i zaangażowania publiczności. Źródło: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Dużo akademickiej energii poświęcono również możliwemu wdrożeniu “kliknięć” jako Systemu Reakcji Publiczności (ARS), środka, który zwiększa aktywny udział publiczności (co automatycznie zwiększa zaangażowanie, ponieważ zmusza widza do roli aktywnego węzła zwrotnej informacji), ale który został również wyobrażony jako środek do zachęcania mówców.

Inne próby “połączenia” mówcy i publiczności obejmowały monitorowanie częstotliwości serca, użycie złożonego sprzętu noszonego na ciele w celu wykorzystania elektroencefalografii, “mierników oklasków”, komputerowo-wizualne rozpoznawanie emocji dla pracowników przy biurku, oraz użycie emotikonów wysyłanych przez publiczność podczas przemówienia mówcy.

Z 2017 roku, EngageMeter, wspólny projekt badawczy LMU Monachium i Uniwersytetu w Stuttgarcie. Źródło: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Z 2017 roku, EngageMeter, wspólny projekt badawczy LMU Monachium i Uniwersytetu w Stuttgarcie. Źródło: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Jako podążanie za lukratywnym obszarem analizy publiczności, sektor prywatny zainteresował się szczególnie szacowaniem i śledzeniem spojrzenia – systemami, w których każdy członek publiczności (który może z kolei w końcu musieć mówić), podlega śledzeniu oczu jako wskaźnik zaangażowania i aprobaty.

Wszystkie te metody są dość wysoko tarcia. Większość z nich wymaga specjalistycznego sprzętu, środowisk laboratoryjnych, specjalistycznego oprogramowania i subskrypcji drogich API komercyjnych – lub jakąś kombinację tych ograniczających czynników.

Dlatego rozwój minimalistycznych systemów opartych na niewiele więcej niż powszechnych narzędziach do wideokonferencji stał się interesujący w ciągu ostatnich 18 miesięcy.

Przedstawianie aprobaty publiczności w sposób dyskretny

W tym celu nowe badanie współpracy między Uniwersytetem Tokijskim a Uniwersytetem Carnegie Mellon oferuje nowy system, który może być wykorzystywany w standardowych narzędziach do wideokonferencji (takich jak Zoom) przy użyciu tylko strony internetowej z włączoną kamerą internetową, na której uruchomiono lekkie oprogramowanie do estymacji spojrzenia i pozy. W ten sposób unika się nawet potrzeby lokalnych wtyczek przeglądarki.

Kiwanie i oszacowane spojrzenie użytkownika są tłumaczone na reprezentatywne dane, które są wizualizowane z powrotem do mówcy, umożliwiając “na żywo” test na temat stopnia, w jakim treść angażuje publiczność – oraz co najmniej mglisty wskaźnik okresów dyskursu, w których mówca może tracić zainteresowanie publiczności.

Z CalmResponses, uwaga i kiwanie użytkownika są dodawane do puli informacji zwrotnej od publiczności i tłumaczone na wizualną reprezentację, która może przynieść korzyści mówcy. Zobacz dołączony film na końcu artykułu, aby uzyskać więcej szczegółów i przykładów. Źródło: https://www.youtube.com/watch?v=J_PhB4FCzk0

Z CalmResponses, uwaga i kiwanie użytkownika są dodawane do puli informacji zwrotnej od publiczności i tłumaczone na wizualną reprezentację, która może przynieść korzyści mówcy. Zobacz dołączony film na końcu artykułu, aby uzyskać więcej szczegółów i przykładów. Źródło: https://www.youtube.com/watch?v=J_PhB4FCzk0

W wielu sytuacjach akademickich, takich jak online’owe wykłady, studenci mogą być całkowicie niewidoczni dla mówcy, ponieważ nie włączyli swoich kamer z powodu samoświadomości tła lub bieżącego wyglądu. CalmResponses może rozwiązać ten inny problem zwrotnej informacji zwrotnej od mówcy, raportując to, co wie o tym, jak mówca spogląda na treść, i czy kiwa głową, bez potrzeby aktywowania kamery przez widza.

Artykuł artykuł nosi tytuł CalmResponses: Wyświetlanie zbiorowych reakcji publiczności w komunikacji na odległość i jest wspólną pracą dwóch badaczy z UoT i jednego z Carnegie Mellon.

Autorzy oferują demo na żywo w sieci i udostępnili kod źródłowy na GitHub.

Ramy CalmResponses

Zainteresowanie CalmResponses kiwaniem, a nie innymi możliwymi dyspozycjami głowy, opiera się na badaniach (niektóre z nich sięgają ery Darwinowskiej), które wskazują, że ponad 80% wszystkich ruchów głowy słuchaczy składa się z kiwania (nawet gdy wyrażają niezgodę). Jednocześnie ruchy gałek ocznych zostały pokazane w wielu badaniach jako niezawodny wskaźnik zainteresowania lub zaangażowania.

CalmResponses jest wdrożony w HTML, CSS i JavaScript i składa się z trzech podsystemów: klienta publiczności, klienta mówcy i serwera. Klient publiczności przekazuje dane o spojrzeniu gałek ocznych lub ruchu głowy od użytkownika za pośrednictwem WebSockets przez platformę aplikacji w chmurze Heroku.

Kiwanie publiczności wizualizowane po prawej stronie w animowanym ruchu pod CalmResponses. W tym przypadku wizualizacja ruchu jest dostępna nie tylko dla mówcy, ale także dla całej publiczności.

Kiwanie publiczności wizualizowane po prawej stronie w animowanym ruchu pod CalmResponses. W tym przypadku wizualizacja ruchu jest dostępna nie tylko dla mówcy, ale także dla całej publiczności. Źródło: https://arxiv.org/pdf/2204.02308.pdf

Dla sekcji śledzenia gałek ocznych w projekcie badacze użyli WebGazer, lekkiego, opartego na JavaScript frameworku śledzenia gałek ocznych, który może działać z niską latencją bezpośrednio ze strony internetowej (zobacz link powyżej dla własnej implementacji badaczy).

Ponieważ potrzeba prostej implementacji i szacunku reakcji zbiorowej przewyższa potrzebę wysokiej dokładności w estymacji spojrzenia i pozy, dane wejściowe są wygładzane według wartości średnich przed rozpatrzeniem ich w ramach ogólnej estymacji reakcji.

Akcja kiwania jest oceniana za pomocą biblioteki JavaScript clmtrackr, która dopasowuje modele twarzy do wykrytych twarzy w obrazach lub filmach za pomocą regularizowanego przesunięcia średniego. W celu oszczędności i niskiej latencji tylko wykryty punkt odniesienia dla nosa jest aktywnie monitorowany w implementacji autorów, ponieważ jest to wystarczające do śledzenia akcji kiwania.

Ruch czubka nosa tworzy ślad, który przyczynia się do puli reakcji publiczności związanej z kiwaniem, wizualizowanej w sposób agregowany dla wszystkich uczestników.

Ruch czubka nosa tworzy ślad, który przyczynia się do puli reakcji publiczności związanej z kiwaniem, wizualizowanej w sposób agregowany dla wszystkich uczestników.

Mapa cieplna

Podczas gdy aktywność kiwania jest reprezentowana przez dynamiczne poruszające się kropki (zobacz obrazy powyżej i film na końcu), uwaga wizualna jest raportowana w postaci mapy cieplnej, która pokazuje mówcy i publiczności, gdzie znajduje się ogólny locus uwagi na wspólnej stronie prezentacji lub środowisku wideokonferencji.

Wszyscy uczestnicy mogą zobaczyć, gdzie znajduje się ogólna uwaga użytkownika. Artykuł nie wspomina, czy ta funkcjonalność jest dostępna, gdy użytkownik może zobaczyć “galerię” innych uczestników, co mogłoby ujawnić fałszywą koncentrację na jednym uczestniku z różnych powodów.

Testy

Dla CalmResponses sformułowano dwa środowiska testowe w postaci niejawnej studium ablacjacji, przy użyciu trzech różnych zestawów okoliczności: w “Warunkach B” (bazowych), autorzy odtworzyli typowy online wykład studencki, gdzie większość studentów trzyma swoje kamery wyłączone, a mówca nie ma możliwości zobaczenia twarzy publiczności; w “Warunkach CR-E”, mówca mógł zobaczyć informację zwrotną o spojrzeniu (mapy cieplne); w “Warunkach CR-N”, mówca mógł zobaczyć zarówno kiwanie, jak i aktywność spojrzenia od publiczności.

Pierwszy scenariusz eksperymentalny składał się z warunku B i warunku CR-E; drugi składał się z warunku B i warunku CR-N. Uzyskano informację zwrotną od mówców i publiczności.

W każdym eksperymencie oceniono trzy czynniki: obiektywną i subiektywną ocenę prezentacji (w tym samoopisowy kwestionariusz mówcy dotyczący jego uczuć na temat przebiegu prezentacji); liczbę zdarzeń “wypełniających” mowę, wskazujących na chwilową niepewność i wahanie; oraz komentarze jakościowe. Te kryteria są powszechnie estymatorami jakości mowy i lęku mówcy.

Pula testowa składała się z 38 osób w wieku od 19 do 44 lat, składających się z 29 mężczyzn i dziewięciu kobiet o średnim wieku 24,7, wszystkich Japończyków lub Chińczyków i wszystkich biegle mówiących po japońsku. Zostały one losowo podzielone na pięć grup po 6-7 uczestników, a żaden z przedmiotów nie znał się osobiście.

Testy przeprowadzono na platformie Zoom, z pięcioma mówcami, którzy wygłosili prezentacje w pierwszym eksperymencie i sześcioma w drugim.

Warunki wypełniające oznaczone jako pomarańczowe pola. Ogólnie, zawartość wypełniająca spadła w rozsądnym stosunku do zwiększonej informacji zwrotnej od systemu.

Warunki wypełniające oznaczone jako pomarańczowe pola. Ogólnie, zawartość wypełniająca spadła w rozsądnym stosunku do zwiększonej informacji zwrotnej od systemu.

Badacze zauważają, że jeden z mówców znacznie zmniejszył liczbę wypełniających słów, i że w “Warunkach CR-N” mówca rzadko wypowiadał wypełniające frazy. Zobacz artykuł, aby uzyskać bardzo szczegółowe i drobne wyniki; jednak najbardziej wyraźne wyniki były w subiektywnej ocenie mówców i uczestników publiczności.

Komentarze publiczności obejmowały:

‘Czułem, że jestem zaangażowany w prezentacjach” [AN2], “Nie byłem pewien, czy przemówienia mówców były poprawione, ale czułem poczucie jedności z powodu wizualizacji ruchów głowy innych.’

‘Nie byłem pewien, czy przemówienia mówców były poprawione, ale czułem poczucie jedności z powodu wizualizacji ruchów głowy innych.’

Badacze zauważają, że system wprowadza nowy rodzaj sztucznego przerwy w prezentacji mówcy, ponieważ mówca jest skłonny odnosić się do systemu wizualnego, aby ocenić informację zwrotną od publiczności przed kontynuowaniem dalej.

Zauważają również rodzaj “efektu białego kitla”, trudnego do uniknięcia w okolicznościach eksperymentalnych, gdzie niektórzy uczestnicy czuli się ograniczeni przez możliwe implikacje bezpieczeństwa związane z monitorowaniem danych biometrycznych.

Wnioski

Jedną z najbardziej godnych uwagi zalet systemu takiego jak ten jest to, że wszystkie niestandardowe technologie dodatkowe potrzebne do tego podejścia całkowicie znikają po zakończeniu ich użycia. Nie ma pozostałych wtyczek przeglądarki do odinstalowania, ani powodów do wątpliwości w umysłach uczestników, czy powinny one pozostać w swoich systemach; i nie ma potrzeby prowadzenia użytkowników przez proces instalacji (chociaż framework oparty na sieci wymaga kilku minut wstępnej kalibracji przez użytkownika), ani nawigowania możliwości, że użytkownicy nie mają odpowiednich uprawnień do instalowania oprogramowania lokalnego, w tym wtyczek przeglądarki i rozszerzeń.

Chociaż oceniane ruchy twarzy i gałek ocznych nie są tak precyzyjne, jak mogłyby być w okolicznościach, w których używane są dedykowane ramy frameworkowe maszynowego uczenia (takie jak seria YOLO), to prawie bezproblemowe podejście do oceny publiczności zapewnia wystarczającą dokładność do ogólnej analizy nastroju i postawy w typowych scenariuszach wideokonferencji. Przede wszystkim jest to bardzo tanie.

Zobacz powiązany film projektu poniżej, aby uzyskać więcej szczegółów i przykładów.

 

Pierwotnie opublikowane 11 kwietnia 2022 r.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.