saplama Yapay Zeka, Gergin Konuşmacıların Video Konferanslar Sırasında "Odayı Okumasına" Yardımcı Olur - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

AI, Sinirli Konuşmacıların Video Konferanslar Sırasında 'Odayı Okumasına' Yardımcı Olur

mm
Güncellenmiş on

2013 yılında, ortak fobiler üzerine yapılan bir anket, topluluk önünde konuşma olasılığının düşük olduğunu belirledi. ölüm beklentisinden daha kötü yanıtlayanların çoğunluğu için. Sendrom olarak bilinir glossofobi.

COVID kaynaklı göç Zoom ve Google Spaces gibi platformlarda 'yüz yüze' toplantılardan çevrimiçi yakınlaştırma konferanslarına kadar, şaşırtıcı bir şekilde durumu iyileştirmedi. Toplantının çok sayıda katılımcı içerdiği durumlarda, doğal tehdit değerlendirme becerilerimiz, katılımcıların düşük çözünürlüklü satırları ve simgeleri ile yüz ifadesi ve vücut dilinin ince görsel sinyallerini okumanın zorluğu nedeniyle olumsuz etkilenir. Örneğin, Skype'ın sözlü olmayan ipuçlarını iletmek için zayıf bir platform olduğu bulunmuştur.

Algılanan ilgi ve yanıt verebilirliğin topluluk önünde konuşma performansı üzerindeki etkileri şunlardır: iyi belgelenmiş şimdiye kadar ve çoğumuz için sezgisel olarak açık. Opak dinleyici tepkisi, konuşmacıların tereddüt etmesine ve geri dönmesine neden olabilir. doldurucu konuşmaArgümanlarının anlaşma, küçümseme veya ilgisizlikle karşılanıp karşılanmadığının farkında olmadan, genellikle hem konuşmacı hem de dinleyiciler için rahatsız edici bir deneyime yol açar.

COVID kısıtlamaları ve önlemlerinden ilham alan çevrimiçi video konferansa beklenmedik geçişin baskısı altında, sorun tartışmalı olarak daha da kötüleşiyor ve bilgisayar görüşünde bir dizi iyileştirici izleyici geri bildirim planı önerildi ve son birkaç yılda araştırma topluluklarını etkiledi.

Donanım Odaklı Çözümler

Bununla birlikte, bunların çoğu, gizlilik veya lojistik sorunlarına yol açabilecek ek ekipman veya karmaşık yazılımlar içerir - pandemiden önce gelen nispeten yüksek maliyetli veya başka şekilde kaynakları kısıtlı yaklaşım stilleri. 2001 yılında MIT, Galvaktivatör, gün boyu süren bir sempozyumda test edilen, dinleyici katılımcının duygusal durumunu anlayan elde taşınan bir cihaz.

2001'den itibaren, MIT'nin izleyici duyarlılığını ve katılımını anlamak amacıyla cilt iletkenliği tepkisini ölçen Galvactivator. Kaynak: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

2001'den itibaren, MIT'nin izleyici duyarlılığını ve katılımını anlamak amacıyla cilt iletkenliği tepkisini ölçen Galvactivator. Kaynak: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Büyük bir akademik enerji de mümkün olana ayrılmıştır. "tıklayıcıların" konuşlandırılması İzleyicilerin aktif katılımını artırmaya yönelik bir ölçü olan (izleyiciyi aktif bir geri bildirim düğümü rolüne zorladığı için katılımı otomatik olarak artıran) bir İzleyici Yanıt Sistemi (ARS) olarak, ancak aynı zamanda konuşmacıyı teşvik etmenin bir yolu olarak tasavvur edilmiştir. .

Konuşmacı ve izleyiciyi 'bağlamaya' yönelik diğer girişimler şunları içerir: kalp atış hızı izleme, elektroensefalografiden yararlanmak için vücuda takılan karmaşık ekipmanların kullanılması, "tezahürat metre", bilgisayarla görme tabanlı duygu tanıma masaya bağlı çalışanlar için ve hedef kitle tarafından gönderilen ifadeleri konuşmacının konuşması sırasında.

2017'den itibaren, LMU Münih ve Stuttgart Üniversitesi'nden ortak bir akademik araştırma projesi olan EngageMeter. Kaynak: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

2017'den itibaren, LMU Münih ve Stuttgart Üniversitesi'nden ortak bir akademik araştırma projesi olan EngageMeter. Kaynak: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Kârlı izleyici analitiği alanının bir alt arayışı olarak, özel sektör, bakış tahmini ve takibine özel bir ilgi duymuştur - her izleyici üyesinin (sonunda kendi sırası geldiğinde konuşmak zorunda kalabilecek olan) oküler izleme katılım ve onaylama indeksi olarak.

Bu yöntemlerin tümü oldukça yüksek sürtünmelidir. Birçoğu ısmarlama donanım, laboratuvar ortamları, özel ve özel yapım yazılım çerçeveleri ve pahalı ticari API'lere abonelik veya bu kısıtlayıcı faktörlerin herhangi bir kombinasyonunu gerektirir.

Bu nedenle, video konferans için yaygın araçlardan biraz daha fazlasını temel alan minimalist sistemlerin geliştirilmesi son 18 ayda ilgi görmeye başladı.

İzleyici Onayını Gizli Şekilde Bildirme

Bu amaçla, Tokyo Üniversitesi ve Carnegie Mellon Üniversitesi arasındaki yeni bir araştırma işbirliği, yalnızca web kamerası özellikli bir web sitesi kullanarak standart video konferans araçlarına (Zoom gibi) bindirilebilen yeni bir sistem sunuyor. tahmin yazılımı çalışıyor. Bu şekilde, yerel tarayıcı eklentilerine olan ihtiyaçtan bile kaçınılır.

Kullanıcının başını sallaması ve tahmini göz dikkati, konuşmacıya geri görselleştirilen temsili verilere dönüştürülerek, içeriğin izleyiciyi ne ölçüde meşgul ettiğinin 'canlı' bir turnusol testi yapılmasına ve ayrıca en azından dönemlerin belirsiz bir göstergesine olanak tanır. Konuşmacının dinleyicilerin ilgisini kaybediyor olabileceği söylem.

CalmResponses ile, kullanıcının dikkati ve başını sallama, izleyicilerden oluşan bir geri bildirim havuzuna eklenir ve konuşmacının yararlanabileceği görsel bir sunuma dönüştürülür. Daha fazla ayrıntı ve örnekler için makalenin sonundaki gömülü videoya bakın. Kaynak: https://www.youtube.com/watch?v=J_PhB4FCzk0

CalmResponses ile, kullanıcının dikkati ve başını sallama, izleyicilerden oluşan bir geri bildirim havuzuna eklenir ve konuşmacının yararlanabileceği görsel bir sunuma dönüştürülür. Daha fazla ayrıntı ve örnekler için makalenin sonundaki gömülü videoya bakın. Kaynak: https://www.youtube.com/watch?v=J_PhB4FCzk0

Çevrimiçi dersler gibi birçok akademik durumda, öğrenciler geçmişleri veya o anki görünümleri hakkında özbilinçleri nedeniyle kameralarını açmadıkları için konuşmacı tarafından tamamen görülmeyebilirler. CalmResponses, izleyicinin kamerasını etkinleştirmesine gerek kalmadan, konuşmacının içeriğe nasıl baktığı ve başını sallayıp sallamadığı hakkında bildiklerini bildirerek, konuşmacı geri bildiriminin önündeki bu dikenli engeli giderebilir.

The kâğıt başlıklı CalmResponses: Uzaktan İletişimde Toplu İzleyici Tepkilerini Görüntülemeve UoT'den iki araştırmacı ile Carnegie Mellon'dan bir araştırmacının ortak çalışmasıdır.

Yazarlar canlı bir web tabanlı demo sunuyor ve GitHub'da kaynak kodu.

CalmResponses Çerçevesi

CalmResponses'ın başın diğer olası eğilimlerinin aksine başını sallamaya olan ilgisi araştırmaya dayalıdır (bazıları Darwin dönemine dönüş) bu, tüm dinleyicilerin kafa hareketlerinin %80'inden fazlasının sallamaktan ibarettir (oldukları zaman bile anlaşmazlığı ifade etmek). Aynı zamanda göz bakış hareketleri gösterilmiştir. tekrar sayısız çalışmalar güvenilir bir ilgi veya bağlılık endeksi olması.

CalmResponses, HTML, CSS ve JavaScript ile uygulanır ve üç alt sistemden oluşur: bir dinleyici istemcisi, bir konuşmacı istemcisi ve bir sunucu. İzleyici istemciler, bulut uygulama platformu Heroku üzerinden WebSockets aracılığıyla kullanıcının web kamerasından gelen göz bakışı veya baş hareketi verilerini iletir.

Seyircinin başını sallaması CalmResponses altında animasyonlu bir hareketle sağda görselleştirildi. Bu durumda, hareket görselleştirmesi yalnızca konuşmacının değil, tüm dinleyicilerin kullanımına açıktır.

Seyircinin başını sallaması CalmResponses altında animasyonlu bir hareketle sağda görselleştirildi. Bu durumda, hareket görselleştirmesi yalnızca konuşmacının değil, tüm dinleyicilerin kullanımına açıktır. Kaynak: https://arxiv.org/pdf/2204.02308.pdf

Araştırmacılar, projenin göz izleme bölümü için WebGazer, doğrudan bir web sitesinden düşük gecikmeyle çalışabilen, hafif, JavaScript tabanlı, tarayıcı tabanlı bir göz izleme çerçevesi (araştırmacıların kendi web tabanlı uygulamaları için yukarıdaki bağlantıya bakın).

Basit uygulama ve kaba, toplu yanıt tanıma ihtiyacı, bakış ve poz tahmininde yüksek doğruluk ihtiyacına ağır bastığından, giriş poz verileri, genel yanıt tahmini için dikkate alınmadan önce ortalama değerlere göre düzeltilir.

Baş sallama eylemi, JavaScript kitaplığı aracılığıyla değerlendirilir clmtrackeraracılığıyla görüntülerde veya videolarda algılanan yüzlere yüz modellerini uyduran düzenli dönüm noktası ortalama kayması. Ekonomi ve düşük gecikme süresi amacıyla, yazarların uygulamasında yalnızca burun için tespit edilen dönüm noktası aktif olarak izlenir, çünkü bu, baş sallama eylemlerini izlemek için yeterlidir.

Kullanıcının burun ucu pozisyonunun hareketi, tüm katılımcılar için toplu bir şekilde görselleştirilen, baş sallamayla ilgili izleyici yanıtı havuzuna katkıda bulunan bir iz oluşturur.

Kullanıcının burun ucu pozisyonunun hareketi, tüm katılımcılar için toplu bir şekilde görselleştirilen, baş sallamayla ilgili izleyici yanıtı havuzuna katkıda bulunan bir iz oluşturur.

Sıcaklık haritası

Baş sallama etkinliği, dinamik hareketli noktalarla temsil edilirken (yukarıdaki resimlere ve sondaki videoya bakın), görsel dikkat, genel dikkat odağının paylaşılan sunum ekranına veya video konferans ortamı.

Tüm katılımcılar, genel kullanıcı dikkatinin nereye odaklandığını görebilir. Makale, kullanıcı diğer katılımcıların bir 'galerisini' görebildiğinde, çeşitli nedenlerle belirli bir katılımcıya yanıltıcı bir şekilde odaklanıldığını ortaya çıkarabilecek durumdayken, bu işlevin kullanılabilir olup olmadığından bahsetmiyor.

Tüm katılımcılar, genel kullanıcı dikkatinin nereye odaklandığını görebilir. Makale, kullanıcı diğer katılımcıların bir 'galerisini' görebildiğinde, çeşitli nedenlerle belirli bir katılımcıya yanıltıcı bir şekilde odaklanıldığını ortaya çıkarabilecek durumdayken, bu işlevin kullanılabilir olup olmadığından bahsetmiyor.

Testler

CalmResponses için, zımni bir ablasyon çalışması biçiminde, üç farklı koşul grubu kullanılarak iki test ortamı formüle edildi: 'Koşul B'de (temel), yazarlar, öğrencilerin çoğunluğunun web kameralarını açık tuttuğu tipik bir çevrimiçi öğrenci dersini tekrarladılar. kapalı ve konuşmacının seyircilerin yüzlerini görme yeteneği yok; "CR-E Koşulu"nda, konuşmacı bakış geri bildirimini (ısı haritaları) görebilir; "CR-N Koşulu"nda konuşmacı, dinleyicilerin hem başını sallama hem de bakış hareketlerini görebiliyordu.

İlk deneysel senaryo, koşul B ve koşul CR-E'den oluşuyordu; ikincisi B koşulunu ve CR-N koşulunu içeriyordu. Hem konuşmacılardan hem de dinleyicilerden geri bildirim alındı.

Her deneyde, üç faktör değerlendirildi: sunumun nesnel ve öznel değerlendirmesi (konuşmacının sunumun nasıl geçtiğine ilişkin duygularına ilişkin kendi kendine bildirdiği bir anket dahil); anlık güvensizlik ve önyargının göstergesi olan 'doldurucu' konuşma olaylarının sayısı; ve niteliksel yorumlar. Bu kriterler ortak tahminciler konuşma kalitesi ve konuşmacı kaygısı.

Test havuzu, yaş ortalaması 38 olan 19 erkek ve dokuz kadından oluşan, tümü Japon veya Çinli ve tümü akıcı Japonca bilen 44-29 yaş arası 24.7 kişiden oluşuyordu. Rastgele 6-7 katılımcıdan oluşan beş gruba ayrıldılar ve deneklerin hiçbiri birbirini kişisel olarak tanımıyordu.

Testler, ilk deneyde beş, ikinci deneyde altı konuşmacının sunum yaptığı Zoom üzerinden gerçekleştirildi.

Doldurucu koşulları turuncu kutularla işaretlenmiştir. Genel olarak, dolgu içeriği, sistemden artan izleyici geri bildirimiyle makul oranda düştü.

Doldurucu koşulları turuncu kutularla işaretlenmiştir. Genel olarak, dolgu içeriği, sistemden artan izleyici geri bildirimiyle makul oranda düştü.

Araştırmacılar, bir konuşmacının doldurucularının önemli ölçüde azaldığını ve 'CR-N Koşulu'nda konuşmacının nadiren dolgu cümleleri söylediğini belirtiyor. Bildirilen çok ayrıntılı ve ayrıntılı sonuçlar için makaleye bakın; ancak, en belirgin sonuçlar konuşmacılar ve dinleyici katılımcılar tarafından yapılan öznel değerlendirmelerdi.

İzleyicilerden gelen yorumlar şunları içeriyordu:

'Sunumlara dahil olduğumu hissettim' [AN2], 'Konuşmacıların konuşmalarının geliştiğinden emin değildim ama diğerlerinin kafa hareketlerini görselleştirmesinden bir bütünlük duygusu hissettim.' [AN6]

"Konuşmacıların konuşmalarının geliştiğinden emin değildim ama diğerlerinin kafa hareketlerini görselleştirmesinden bir bütünlük duygusu hissettim."

Araştırmacılar, sistemin konuşmacının sunumuna yeni bir tür yapay duraklama getirdiğini, çünkü konuşmacının daha fazla ilerlemeden önce izleyicilerin geri bildirimlerini değerlendirmek için görsel sisteme başvurma eğiliminde olduğunu belirtiyorlar.

Ayrıca, bazı katılımcıların biyometrik veriler için izlenmenin olası güvenlik sonuçları nedeniyle kısıtlanmış hissettikleri deneysel koşullarda kaçınılması zor olan bir tür "beyaz önlük etkisi"ne dikkat çekiyorlar.

Sonuç

Bunun gibi bir sistemde dikkate değer bir avantaj, böyle bir yaklaşım için gerekli olan tüm standart dışı ek teknolojilerin kullanımları sona erdikten sonra tamamen ortadan kalkmasıdır. Kaldırılması gereken veya katılımcıların zihinlerinde kendi sistemlerinde kalmaları gerekip gerekmediği konusunda şüphe uyandıracak artık tarayıcı eklentisi yoktur; ve kurulum sürecinde kullanıcılara rehberlik etmeye (web tabanlı çerçeve kullanıcı tarafından bir veya iki dakikalık ilk kalibrasyon gerektirse de) veya kullanıcıların yerel yazılımı yüklemek için yeterli izinlere sahip olmama olasılığını yönlendirmeye gerek yoktur, tarayıcı tabanlı eklentiler ve uzantılar dahil.

Değerlendirilen yüz ve göz hareketleri, özel yerel makine öğrenimi çerçevelerinin (YOLO serisi gibi) kullanılabileceği durumlarda olabileceği kadar kesin olmasa da, izleyici değerlendirmesine yönelik bu neredeyse sürtünmesiz yaklaşım, geniş duygu ve duruş analizi için yeterli doğruluğu sağlar. tipik video konferans senaryolarında. Her şeyden önce çok ucuz.

Daha fazla ayrıntı ve örnek için aşağıdaki ilgili proje videosuna göz atın.

CalmResponses: Uzaktan İletişimde Toplu İzleyici Tepkilerini Görüntüleme

 

İlk olarak 11 Nisan 2022'de yayınlandı.