Yapay Zekâ

AI, Nervous Konuşmacıların Video Konferansları Sırasında ‘Odada Okumalarına’ Yardım Ediyor

Published April 11, 2022

Updated April 28, 2026

Martin Anderson

2013 yılında ortak korkular üzerine yapılan bir anket, halk önünde konuşma olasılığının çoğunlukla katılımcılar için ölüm olasılığından daha kötü olduğunu belirledi. Bu sendrom glossophobia olarak bilinir.

COVID-19’un ‘kişiden kişiye’ toplantıları Zoom ve Google Spaces gibi platformlardaki çevrimiçi toplantılara kaydırması, beklenmedik bir şekilde durumu iyileştirmedi. Katılımcı sayısı fazla olan toplantılarda, düşük çözünürlüklü katılımcı sıraları ve simgeleri ve yüz ifadeleri ve vücut dilinin ince görsel sinyallerini okumadaki zorluk nedeniyle doğal tehdit değerlendirmemizi engelliyor. Örneğin, Skype, sözsüz ipuçlarını iletmek için kötü bir platform olduğu tespit edilmiştir.

Halk önünde konuşma performansındaki algılanan ilgi ve tepkinin etkileri şimdiye kadar iyi belgelenmiştir ve çoğumuz için sezgisel olarak açıktır. Bulanık bir izleyici tepkisi, konuşmacıların tereddüt etmesine ve doldurma konuşmasına neden olabilir, argümanlarının anlaşma, nefret veya ilgisizlikle karşılanıp karşılanmadığını bilmeden, genellikle hem konuşmacı hem de dinleyiciler için rahatsız edici bir deneyim yaratır.

COVID-19 kısıtlamaları ve önlemlerinin beklenmedik bir şekilde çevrimiçi video konferanslara kaydırmasıyla, problem argüman olarak daha da kötüleşiyor ve son iki yıl içinde bilgisayar vizyonu ve affect araştırmaları topluluklarında bir dizi iyileştirici izleyici geri bildirim şeması önerildi.

Donanım Odaklı Çözümler

Bunların çoğu, jedoch, ek ekipman veya karmaşık yazılıma ihtiyaç duyar ve bu da gizlilik veya lojistik sorunları gündeme getirebilir – nispeten yüksek maliyetli veya başka şekilde kaynak kısıtlı yaklaşım stilleri, salgından önce ortaya çıktı. 2001 yılında MIT, Galvactivator adlı, izleyici katılımcısının duygusal durumunu çıkarlayan, eldivenli bir cihazı önerdi ve bu, bir günlük sempozyum sırasında test edildi.

2001’den beri MIT’nin Galvactivator’u, izleyici sentimenti ve katılımını anlamak için cilt conducitivite yanıtını ölçtü. Kaynak: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Akademik enerji, ayrıca, ‘tıklatıcılar’ın olası dağıtımına da harcanmıştır, bu, bir İzleyici Yanıt Sistemi (ARS) olarak, izleyiciler tarafından aktif katılımı artırmak için bir önlem olarak ve ayrıca konuşmacı teşviki için bir araç olarak tasarlandı.

Konuşmacı ve izleyiciyi ‘bağlamak’ için yapılan diğer girişimler arasında kalp atış hızının izlenmesi, kompleks vücut giyilen ekipman kullanarak elektroensefalografiyi kullanmak, ‘tebrik ölçerleri’, masa başında çalışanlar için bilgisayar vizyonu tabanlı duygu tanıma ve konuşmacının hitabatı sırasında izleyici tarafından gönderilen emoticonlar yer aldı.

2017’den beri LMU Münih ve Stuttgart Üniversitesi’nden ortak bir akademik araştırma projesi olan EngageMeter. Kaynak: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

İzleyici analitiği alanının kârlı bir bölümü olarak, özel sektör, gaze tahmini ve izleme – her bir izleyici üyesinin (ki daha sonra konuşmak zorunda kalabilir) göz hareketi izleme yoluyla katılım ve onay göstergesi olarak değerlendirildiği sistemlere özel ilgi gösterdi.

Tüm bu yöntemler nispeten yüksek sürtünme içermektedir. Birçoğu ek ekipmana, laboratuvar ortamlarına, özel yazılımlara veya pahalı ticari API’lere ihtiyaç duyar – veya bu kısıtlayıcı faktörlerin herhangi bir kombinasyonu.

Bu nedenle, son 18 ay içinde, video konferans için ortak araçlardan daha fazlasına ihtiyaç duymayan minimalist sistemlerin geliştirilmesi ilgi çekmiştir.

İzleyici Onayını Gizlice Raporlama

Bu amaçla, Tokyo Üniversitesi ve Carnegie Mellon Üniversitesi arasındaki yeni bir araştırma işbirliği, standart video konferans araçlarına (örneğin Zoom) yalnızca bir web kamerası etkinleştirilmiş bir web sitesinde çalışan hafif gaze ve poz tahmini yazılımları kullanarak taksi yapabilen bir sistem sunar. Bu şekilde, yerel tarayıcı eklentilerine bile gerek kalmaz.

Kullanıcının baş sallama ve tahmini göz dikkati, konuşmacıya geri bildirilen temsil veri olarak çevrilir, böylece içerik izleyiciyi ne kadar ilgilendirdiğinin ‘canlı’ bir asit testi sağlar – ve ayrıca konuşmacının izleyici ilgisini kaybedebileceği konuşma dönemlerinde en azından belirsiz bir gösterge sağlar.

CalmResponses ile kullanıcı dikkati ve baş sallama, izleyici geri bildirimi havuzuna eklenir ve görsel bir temsil olarak çevrilir, böylece konuşmacıya fayda sağlar. Makale sonunda daha fazla ayrıntı ve örnek için gömülü videoyu görün. Kaynak: https://www.youtube.com/watch?v=J_PhB4FCzk0

Birçok akademik durumda, chẳng hạn online konferanslar, öğrenciler konuşmacı tarafından tamamen görünmez olabilir, çünkü arka planları veya mevcut görünüşleri hakkında kendilerini bilinçli hissetmeleri nedeniyle kameralarını açmazlar. CalmResponses, konuşmacıya içerikte nasıl baktıklarını ve baş sallayıp sallamadıklarını bildirmeden, izleyici geri bildirimi hakkında bildiklerini raporlayarak bu engeli çözebilir.

Makale makale olarak adlandırılır CalmResponses: Uzaktan İletişimde Toplu İzleyici Tepkilerini Gösterme ve Tokyo Üniversitesi’nden iki araştırmacı ve Carnegie Mellon Üniversitesi’nden bir araştırmacı arasındaki ortak bir çalışmadır.

Yazarlar, canlı bir web tabanlı demo sunar ve kaynak kodunu GitHub’da yayınladılar.

CalmResponses Çerçevesi

CalmResponses’in, diğer olası baş duruşlarına karşı, baş sallama ile ilgisi, dinleyicilerin %80’den fazlasının baş hareketlerinin baş sallama olduğunu gösteren araştırmalara (bazıları Darwin dönemine kadar uzanan) dayalıdır (hatta anlaşmazlık ifade etseler bile). Aynı zamanda, göz hareketleri, birçok çalışma göstermiştir ki ilgi veya katılım için güvenilir bir göstergedir.

CalmResponses, HTML, CSS ve JavaScript ile uygulanır ve üç alt sistemden oluşur: izleyici istemcisi, konuşmacı istemcisi ve sunucu. İzleyici istemcisi, kullanıcıların web kamerasından göz hareketi veya baş hareketi verilerini WebSockets aracılığıyla bulut uygulaması platformu Heroku’ya geçirir.

İzleyici baş sallama hareketi CalmResponses altında sağda animasyonlu bir hareket olarak görselleştirilir. Bu durumda hareket görselleştirilmesi yalnızca konuşmacıya değil, tüm izleyiciye de उपलबidir. Kaynak: https://arxiv.org/pdf/2204.02308.pdf

Göz izleme bölümü için araştırmacılar, WebGazer adlı, hafif, JavaScript tabanlı bir tarayıcı tabanlı göz izleme çerçevesini kullandılar, bu, düşük gecikme ile doğrudan bir web sitesinden çalışabilirdi (yukarıdaki bağlantıya bakın).

Giriş poz verisi, genel yanıt tahmini için dikkate alınmadan önce ortalama değerlere göre düzeltilir, çünkü basit uygulama ve kaba, toplu tepki tanımı, gaze ve poz tahmininde yüksek doğruluk ihtiyacından daha önemlidir.

Baş sallama eylemi, clmtrackr adlı JavaScript kütüphanesi aracılığıyla değerlendirilir, bu, algılanan yüzlerde yüz modellerini düzenlileştirilmiş landmark mean-shift aracılığıyla görüntüler veya videolara uyarlar. Ekonomi ve düşük gecikme amacıyla, yalnızca burun için algılanan landmark aktif olarak izlenmektedir, çünkü bu, baş sallama eylemlerini izlemek için yeterlidir.

Kullanıcının burnunun hareketi, izleyici tepkisi havuzuna katkıda bulunan bir iz oluşturur ve tüm katılımcılara agreg bir şekilde görselleştirilir.

Isı Haritası

Baş sallama aktivitesi, dinamik hareketli noktalarla temsil edilirken (yukarıdaki resim ve makale sonunda videoya bakın), görsel dikkat, paylaşılan sunum ekranı veya video konferans ortamında genel dikkat odağının nerede olduğu gösterilen bir ısı haritası olarak raporlanır.

Tüm katılımcılar, genel kullanıcı ilgisinin nerede odaklandığını görebilir. Makale, bu işlevin, katılımcıların bir galerisini görebildikleri durumlarda, çeşitli nedenlerle bir katılımcıya sahte odaklanma ortaya çıkarması durumunda mevcut olup olmadığını belirtmez.

Testler

CalmResponses için iki test ortamı formüle edildi, üç farklı durum kümesi kullanılarak: ‘Koşul B’ (başlangıç), yazarlar tipik bir online öğrenci konferansını yeniden yarattı, burada çoğu öğrenci kameralarını açmaz, konuşmacı izleyici yüzlerini göremez; ‘Koşul CR-E’, konuşmacı gaze geri bildirimi (ısı haritaları) görebilirdi; ‘Koşul CR-N’, konuşmacı hem gaze hem de baş sallama aktivitesini izleyebilirdi.

İlk deneysel senaryo, koşul B ve koşul CR-E’yi içeriyordu; ikinci koşul B ve koşul CR-N’yi içeriyordu. Geri bildirim, hem konuşmacıdan hem de izleyiciden alındı.

Her deneyde, üç faktör değerlendirildi: sunumun nesnel ve öznel değerlendirmesi (konuşmacının sunumun nasıl geçtiği hakkında kendi kendine raporladığı anket dahil); ‘doldurma’ konuşmasının olayları, anlık güvensizlik ve tereddütü gösteren; ve nitel yorumlar. Bu kriterler, ortak tahmin edicilerdir konuşma kalitesi ve konuşmacı kaygısı için.

Test havuzu, 19-44 yaş arasındaki 38 kişiden oluşuyordu, 29 erkek ve 9 kadın, ortalama yaş 24.7, tümü Japon veya Çinli ve tümü Japonca bilen. Rastgele beş gruba, 6-7 katılımcıya bölündüler ve hiçbir konu birbirini şahsen tanımıyordu.

Testler, beş konuşmacının ilk deneyde ve altı konuşmacının ikinci deneyde sunum yaptığı Zoom’da gerçekleştirildi.

Doldurma koşulları turuncu kutular olarak işaretlenmiştir. Genel olarak, doldurma içeriği, sistemden artan izleyici geri bildirimi oranında düştü.

Araştırmacılar, bir konuşmacının doldurma sözlerinin önemli ölçüde azaldığını ve ‘Koşul CR-N’de konuşmacının nadiren doldurma cümleleri söylediğini belirtirler. Ayrıntılı ve granül sonuçlar için makaleye bakın; ancak en belirgin sonuçlar, konuşmacılar ve izleyiciler tarafından öznel değerlendirme idi.

İzleyiciden gelen yorumlar arasında şunlar yer aldı:

‘Söylediklerimin içinde olduğumu hissettim” [AN2], “Konuşmacıların konuşmalarının iyileştirildiğinden emin değilim, ancak diğerlerinin baş hareketi görselleştirmesinden bir birlik hissi hissettim.’ [AN6]

‘Konuşmacıların konuşmalarının iyileştirildiğinden emin değilim, ancak diğerlerinin baş hareketi görselleştirmesinden bir birlik hissi hissettim.’

Araştırmacılar, sistem konuşmacının sunumuna yeni bir tür yapay duraklama getirir, çünkü konuşmacı izleyici geri bildirimi değerlendirmek için görsel sistemi kontrol etmeye eğilimlidir.

Araştırmacılar, ayrıca, bazı katılımcıların biyometrik veri izlenmesiyle ilgili güvenlik endişeleri nedeniyle kısıtlanmış hissettiklerini belirten ‘beyaz önlük etkisi’nden bahsederler, bu durum, deneysel koşullarda kaçınılması zor bir durumdur.

Sonuç

Bu gibi bir sistemin önemli bir avantajı, tüm non-standart yardımcı teknolojilerin, kullanımları bittikten sonra tamamen ortadan kalkmasıdır. Kalan tarayıcı eklentileri kalmaz, kullanıcıların bunları sistemlerinde tutup tutmamaları konusunda tereddütte kalmasına neden olmaz ve yerel yazılımların yüklenmesi veya kullanıcıların yeterli izinlere sahip olup olmadığı konusunda endişe duyulmasına gerek kalmaz (web tabanlı çerçevesi, kullanıcı tarafından yalnızca bir dakika veya iki dakika süren ilk kalibrasyona ihtiyaç duyar).

Değerlendirilen yüz ve göz hareketleri, adanmış yerel makine öğrenimi çerçevelerinin (YOLO serisi gibi) kullanılabileceği koşullarda olduğu kadar kesin olmayabilir, ancak bu neredeyse sürtünmesiz yaklaşım, tipik video konferans senaryolarında geniş sentiment ve duruş analizi için yeterli doğruluk sağlar. Her şeyden önce, çok ucuz.

Aşağıdaki projeye ait videoyu izleyerek daha fazla ayrıntı ve örnek için bakın.

İlk olarak 11 Nisan 2022’de yayımlandı.