Bizimle iletişime geçin

Yapay Zeka

AI ile Tipografi Yoluyla Duyguları İfade Etme

mm

Metin iletişimindeki (e-posta, mesajlaşma ve altyazı sistemleri dahil) mevcut eğilimler ve yenilikler, yazılı ve sözlü konuşma arasındaki duygusal uçurumu kaba ve yaklaşık yollarla müzakere etmelidir.

Örneğin, son birkaç yıl getirdi değişen büyük harfler sosyal medyada alev savaşlarında kışkırtıcı bir meme olarak moda olurken, çok nefret edilen büyük harf kullanımı (bazı yorum platformlarının izin verdiği cesur ve sarsıcı tipografik efektlerin yanı sıra) moderatörlerin müdahalesine neden olmaya devam ediyor. Bunlar tekdüze ve yazılı kelimenin amacını açıklığa kavuşturmak için yalnızca geniş ölçüde temsili yöntemlerdir.

Aynı zamanda, hibrit bir metinsel/görsel duygu aktarıcısı olarak ifadelerin ve emojilerin popülaritesinin artması, aktif olarak meşgul Son yıllarda Doğal Dil İşleme (NLP) araştırma sektörüne olan ilginin yanı sıra animasyonlu GIF'lerin anlamı kullanıcıların yorum dizilerinde yayınladıkları.

Zamanla yazılı dil, konuşulan sözcükteki tonal bilginin yokluğunda duyguyu temsil etmeye veya onu uyandırmaya çalışan bu 'eklemeli' dilbilimsel yöntemlerden oluşan yenilikçi bir fon geliştirdi.

Bununla birlikte, genellikle, duyguyu yazılı kelimenin bağlamından mümkün olan en iyi şekilde aktarmamız gerekir. Örneğin, ünlem 'Ah, Ah, Ah!'Lady Macbeth'in çılgın gece monologunun sonunda, tonlamanın anlamı ne ölçüde etkileyebileceğinin bir örnek çalışması olduğu söylenebilir.

Çoğu uyarlamada bu acı dolu ağıt 2-6 saniye sürer; Trevor Nunn'ın 1976 Royal Shakespeare Company prodüksiyonunda Macbeth, Judi Dench bu satırın okumasını belki de tartışılmaz bir rekora götürdü. 24.45 saniye, rolün dönüm noktası niteliğindeki bir yorumunda.

Macbeth - Ian McKellen - Judi Dench - William Shakespeare - Çoklu Altyazılar - Restore Edilmiş - 4K

(YouTube'un bu klip için kendi otomatik altyazı sistemi Dench'in ulumasını şöyle tanımlıyor: [MÜZİK])

Prozodiyi Tipografiye Çevirmek

Brezilya'dan yakın tarihli bir makale, potansiyel olarak bu tür şeyleri içerebilecek konuşma modülasyonlu bir tipografi sistemi önermektedir. vezinve diğer dil dışı bileşenler, doğrudan altyazılı konuşmaya eklenerek, sıfatların eklenmesiyle yeterince yakalanamayan bir duygu boyutu ekleniyor. [Bağırarak], veya kapalı altyazı kurallarına uygun diğer 'düz' hileler.

Metnin görsel görünümünü modüle etmek için konuşmadan gelen akustik özelliklerin kullanıldığı yeni bir Konuşma Modülasyonlu Tipografi modeli öneriyoruz. Bu, belirli bir ifadenin transkripsiyonunun yalnızca söylenen kelimeleri değil, aynı zamanda nasıl söylendiğini de temsil etmesine izin verebilir.

'Bununla birlikte, genlik, perde ve süre gibi prozodik özelliklerin görsel temsilcileri olarak genel olarak tanınabilecek tipografik parametreleri ortaya çıkarmayı umuyoruz.'

Prozodiyi tipografik stile çeviren iş akışı. Mümkün olan en çok yönlü ve yaygın olarak konuşlandırılabilir sistemi üretmeyi hedefleyen yazarlar, kendilerini taban çizgisi kaydırma, karakter aralığı ve koyulukla sınırladılar; ikincisi, açık tip bir yazı tipinin çok yönlülüğü tarafından sağlandı. Kaynak: https://arxiv.org/pdf/2202.10631.pdf

Prozodiyi tipografik stile dönüştüren iş akışı. Mümkün olan en çok yönlü ve geniş çapta konuşlandırılabilir sistemi üretmeyi hedefleyen yazarlar, kendilerini taban çizgisi kaydırma, karakter aralığı ve koyulukla sınırladılar; ikincisi, açık tip bir yazı tipinin çok yönlülüğü tarafından sağlandı. Kaynak: https://arxiv.org/pdf/2202.10631.pdf

MKS kâğıt başlıklı Gizli haykırışlar, fısıltılar ve havlamalar: Metnin yalnızca sözcüklerden daha fazla ses çıkarması sağlanabilir mi?ve Brezilya'daki Universidade Estadual de Campinas'ta iki araştırmacı olan Calua de Lacerda Pataca ve Paula Dornhofer Paro Costa'dan geliyor.

Cesur sözler

Projenin daha geniş amacı, altyazıda prozodi ve diğer parametrik dil özelliklerini iletebilen sistemler geliştirmek olsa da, yazarlar ayrıca bu tür bir sistemin sonunda işitme dünyasında daha geniş bir izleyici kitlesi geliştirebileceğine inanıyor.

Bu alanda önceden yapılmış birçok girişim vardır. 1983 projesi içerebilecek bir altyazı sistemi önerdi. "özel efektler, renk ve büyük harfler [temsil etmek için] sağır çocuklar tarafından reddedilen zengin tonal bilgileri [.]".

Buna karşılık, Brezilya projesi, bir konuşma ses kaydındaki bileşenleri içe aktarabilen ve karakterize edebilen bir iş akışını mümkün kılmak için bir araya gelen, hem otomatik transkripsiyondan hem de etki tanımadaki yeni gelişmelerden yararlanabiliyor.

Prozodik özellikler ayıklanıp işlendikten sonra, konuşmadaki kelimelerin zaman damgalarıyla eşlenir ve daha sonra altyazı tipografisinin kural tabanlı modülasyonunu uygulamak için kullanılabilecek belirteçler üretilir (yukarıdaki resme bakın).

Bu sonuç, belirli bir hecenin ne kadar uzatılabileceğini, fısıldanabileceğini, vurgulanabileceğini veya ham bir transkripsiyonda kaybolacak bağlamsal bilgileri başka şekilde tutabileceğini görsel olarak temsil edebilir.

Projenin test aşamasında, karakter aralığının (bir kelimedeki harfler arasındaki boşluk) uzatılmış bir telaffuzu yansıtacak şekilde genişletildiğine dikkat edin.

Projenin test aşamasında, karakter aralığının (bir kelimedeki harfler arasındaki boşluk) uzatılmış bir telaffuzu yansıtacak şekilde genişletildiğine dikkat edin.

Yazarlar, çalışmalarının doğrudan duygu tanımaya ve etki tanıma araştırmalarına katkıda bulunmayı amaçlamadığını, bunun yerine konuşmanın özelliklerini sınıflandırmayı ve bunları basit ve sınırlı bir dizi yeni görsel gelenekle temsil etmeyi amaçladığını açıkça belirtiyorlar.

En azından, sistemin sağladığı ek vurgu, eylem nesnesinin sesi duyamayan izleyiciler için net olmayabileceği durumlarda (engellilik veya gürültülü ortamlar gibi oynatma koşulları nedeniyle) cümleleri netleştirir.

2017'den kendi örneğimi ödünç alırsam, makine öğrenimi sistemlerinin nasıl çalışabileceğini inceledim. ayrıca zorluk çekmek Bir cümlede nesnenin ve eylemin nerede yer aldığını anladığımızda, vurgunun basit bir cümlenin anlamını bile ne kadar kökten değiştirebileceğini görmek kolaydır:

I Bunu çalmadı. (Başkası çaldı.)
I olmadı şunu çal, (Çaldığım iddiasını reddediyorum)
Ben yapmadım çalmak O. (Sahibi bana aittir, hırsızlık geçerli değildir)
Ben çalmadım o. (Ama başka bir şey çaldım)

Potansiyel olarak, Brezilyalı yazarların öne sürdüğü gibi mekanik bir prozodi>tipografi iş akışı, yine de önceden çıkarsanan bazı paralinguistik unsurları içeren tamamen metin tabanlı verilerin işlenmesini kolaylaştırdığından, etki hesaplama araştırması için veri kümelerinin geliştirilmesinde yardımcı olarak yararlı olabilir. boyutlar.

Buna ek olarak, araştırmacılar, prozodiye duyarlı metnin ekstra dilsel yükünün, müşteri memnuniyeti değerlendirmesi ve metin içeriğinden depresyon çıkarımı da dahil olmak üzere bir dizi NLP tabanlı görevde yararlı olabileceğini belirtiyor.

Elastik Tipografi

Araştırmacılar tarafından geliştirilen çerçeve, cümlenin dayandığı 'temel çizgiye' göre bir harfin daha yüksek veya daha alçak olabileceği temel çizgi kaymasında; bir kelimenin harfleri arasındaki boşluğun daraltılabileceği veya genişletilebileceği çekirdek değerinde; ve yazı tipi ağırlığında (kalınlık) çeşitlilik sunmaktadır.

Bu üç stil, projenin kendisini kısıtladığı konuşmanın çıkarılmış özelliklerine eşlenir: sırasıyla, zift, süre, ve kadir.

Bir cümlede stilin ilerlemesi. 1 numarada, çıkarma işleminde tanımlanan hece sınırlarını görüyoruz. #2'de, tek tek uygulanan üç modülasyonun (büyüklük|ağırlık, karakter aralığı|süre ve perde|taban çizgisi kayması) her birinin bir temsilini görüyoruz. #3'te, sistem denemesinde 117 katılımcıya sunulduğu şekliyle nihai çıktıda birleştirilmiş tipografik modülasyonları görüyoruz.

Bir cümlede stilin ilerlemesi. 1 numarada, çıkarma işleminde tanımlanan hece sınırlarını görüyoruz. #2'de, tek tek uygulanan üç modülasyonun (büyüklük|ağırlık, karakter aralığı|süre ve perde|taban çizgisi kayması) her birinin bir temsilini görüyoruz. #3'te, sistem denemesinde 117 katılımcıya sunulduğu şekliyle nihai çıktıda birleştirilmiş tipografik modülasyonları görüyoruz.

Tek bir yazı tipi, kalın ve italik gibi varyasyonlar için ek ve ayrı bir yazı tipi gerektirebileceğinden, araştırmacılar bir Google uygulama OpenType yazı tipinin Interayrıntılı bir ağırlık aralığını tek bir yazı tipine entegre eden.

Kağıttan, Inter yazı tipinden bir OpenType glifinin minimal temel spline iskeleti boyunca bir dizi kalın vurguyu ne ölçüde ifade edebileceğini detaylandıran bir grafik.

Kağıttan, Inter yazı tipinden bir OpenType glifinin minimal temel spline iskeleti boyunca bir dizi kalın vurguyu ne ölçüde ifade edebileceğini detaylandıran bir grafik.

Test yapmak

Karakter aralığı ve taban çizgisi kayması ifadesi, 117 işitme engelli katılımcı üzerinde yürütülen testlere olanak tanıyan bir tarayıcı eklentisine dahil edildi.

Testler için veri seti, proje için özel olarak oluşturuldu ve her çekimde projede incelenen üç özelliğe karşılık gelen farklı vurgularla bir dizi şiiri birkaç kez okuyan bir aktör görevlendirildi. Şiir, yapay bir nitelik taşımadan (şairin niyetinin ötesinde bile) çeşitli vurgulara olanak tanıdığı için seçildi.

Katılımcılar iki gruba ayrıldı. İlk gruba, aktörün senkronize, canlandırılmış ve modüle edilmiş metin eşliğinde bir kıtayı ses kaydıyla eşzamanlı olarak okuması için 15 tur verildi.

İkinci gruba ise aynı görevler verildi, ancak aktörün okumaları oynatılırken hiçbir şekilde değişmeyen, modüle edilmiş metnin statik görüntüleri gösterildi.

Ortalama doğru cevap oranı rastgele olmayan statik görüntü grubu için %67 ve animasyonlu metin grubu için %63 idi. Denemelerden sonra araştırmacılar tarafından talep edilen katılımcı yorumları, dinamik yorumlamanın bilişsel yükünün statik olmayan testler için daha düşük puanlara katkıda bulunmuş olabileceğine dair teorilerini doğruladı. Bununla birlikte, böyle bir çerçevenin amaçlanacağı türden altyazı ve mesaj sistemleri, tipik olarak, varsayılan olarak tamamlanmış başına metin sağlar.

Katılımcı yorumları ayrıca, süreyi belirtmek için karakter aralığı kullanımının katı sınırları olduğunu belirtti; bir yorumcu, harfler birbirinden çok uzak olduğunda, bir kelimeyi bireyselleştirmenin zorlaştığına dikkat çekti.

Araştırmacılar ayrıca şunları not eder:

'[Bazı] katılımcılar, modelin daha çeşitli ve etkileyici bir görsel sözcük dağarcığıyla, daha ayrıntılı ve karmaşık konuşma temsillerini somutlaştırabilmesi gerektiğini düşündü. Bu basit bir görev olmasa da, konuşma modülasyonlu tipografinin farklı uygulamalarının bu yeni alan geliştikçe nasıl çeşitlenebileceğini hayal etmek yine de cesaret verici.'

 

 

İlk olarak 24 Şubat 2022'de yayınlandı.

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai