Connect with us

Ses AI Patlıyor – Ancak Etki Yapmak için Gerçekçi mi?

Düşünce Liderleri

Ses AI Patlıyor – Ancak Etki Yapmak için Gerçekçi mi?

mm

AI ses ajanları için küresel pazar patlıyor, tahmin edildiği üzere 2024’te 3,14 milyar dolardan 2034’te 47,5 milyar dolara büyüyecek. Artık bir niş teknoloji değil, çoğu büyük teknoloji şirketi (Google, Amazon, Apple, Meta ve Microsoft dahil) artık ses ürünleri sunuyor, start-up’lar pazarlara yenilikler sunuyor ve teknoloji itself açık kaynaklı modellerle giderek daha erişilebilir hale geliyor. Her gün kullanılan sanal asistanlar gibi Siri ve Alexa’dan film ve TV’deki bölgesel dublajlara kadar, ses AI benimsemesi için hiç olmadığı kadar verimli bir fırsat olmadı.

Ancak ses AI’ye erişim giderek yaygınlaştıkça, deneyimler derinlemesine eşitsiz kalıyor. Bunun nedeni, ses AI’nin en zor kısmı, sesin sesini üretmek değil, günlük etkileşimlerde inandırıcı bir ses üretmektir. Geniş erişilebilirlik, bu AI seslerinin kurumsal ihtiyaçlar veya uzun vadeli kullanıcı benimsemesi için yeterli olduğu anlamına gelmez. Gerçek rekabetçi manzara, insanlara dinamik, duygusal olarak farkında ve gerçek dünya durumlarında insanlarla konuşmaktan ayırt edilemeyecek deneyimler sunan şirketler tarafından fethedilecek.

Tuhaf Vadisi: “Yeterince İyi” Yetmez

Endüstri içinde büyüyen bir varsayım, makul derecede insan benzeri bir AI sesi elde etmenin “yeterince iyi” olacağı ve böylece yarışın sona ereceği yönündedir. Kullanıcılar, eksikliklerine rağmen faydayı aşan bir fayda nedeniyle hafif doğallık eksikliğini tolere edecektir.

Gerçekte, bu varsayım, insanların konuşma, duygu ve otantiklik algısını yanlış anlamaktadır. Neredeyse insan benzeri sesler, özellikle müşteri desteği, sağlık etkileşimleri veya seyahat planlamasında duygular yüksek olduğunda ve anlaşıldığını hissetmek önemli olduğunda, kullanıcıları rahatsız eden bir “tuhaftır vadisi” etkisi yaratmaya eğilimlidir. AI seslerine maruz kalma arttıkça, ortalama veya doğal olmayan etkileşimler için tolerans düşüyor ve kullanıcılar hızla ilgisini kaybedecekler.

Aslında, araştırma insan-makine etkileşimi konusunda tutarlı bir şekilde, bir ses neredeyse insan benzeri ancak duygusal veya ritmik hizalamadan yoksun olduğunda, kullanıcılar içgüdüsel olarak bir şeyin yanlış olduğunu hisseder. Örneğin, bazı şirketlerin AI resepsiyonistleri, kullanıcıların etkileşimleri “ürpertici” veya “rahatsız edici” olarak tanımladıklarını belirtirler, çünkü sesin hafif ritmik veya duygusal zamanlama tutarsızlıkları vardır ve bunlar просто doğru hissetmez. Müşteri karşı karşıya gelen ortamlarda, küçük sürtüşme veya rahatsızlık anları hızla gerçek memnuniyetsizliğe ve sonunda terk edilmeye dönüşebilir.

Bu “yeterince iyi” modundan kurtulmak, iş hedefleri için giderek daha önemli hale geliyor. AI, 2027 yılına kadar müşteri hizmetleri vakalarının yaklaşık %50’sini işleyecek, ancak otomatik etkileşimlerin olumsuz olması marka algısını doğrudan etkileyebilir. Kötü bir sohbet botu etkileşimi, eşit derecede kötü veya doğal olmayan bir ses deneyimiyle takip edilecek ve muhtemelen gerçek yardıma güvenilir bir yol olmadığına dair derin bir his bırakacaktır.

Kullanıcılar AI sesleriyle etkileşime girdikçe, robotik veya garip etkileşimlere tolerans azalıyor ve kullanıcılar hızla ilgisini kaybedecekler, AI araçlarına bağımlı şirketler için ciddi iş sonuçları doğuracaklar.

Gerçekçi Gerçeklik

Ses AI’de insan düzeyinde gerçeklik, yalnızca telaffuz doğruluğundan veya robotik sesli alt tonları kaldırmaktan daha fazlasını içerir. Ayrıca duygular, bağlam, kültürel nüanslar, zamanlama ve daha ince faktörlerin çok boyutlu bir kombinasyonunu gerektirir. Gerçek zorluk, o halde, insan iletişimini şekillendiren katmanları deşifre etmek, anlamak ve sonunda taklit etmektir, örneğin:

Duygusal aralık ve otantiklik

İnsan seslerinin güzelliği, sıcaklık, ivedilik, mizah, hayal kırıklığı, heyecan ve sayısız başka duyguyu kelimelerle birlikte iletebilme yeteneklerinde yatmaktadır. Bu duygusal nüans, bir kullanıcının anlaşıldığını hissetmesi veya reddedilmesiyle doğrudan ilgilidir.

Örneğin, bir AI destek ajanı, bir rahatsız müşteri ile ilgileniyor. Bot, “Bu kadar sinir bozucu olmalı, bunu nasıl çözebiliriz” diyebilir. Bu kelimeleri söyleyen ses empatik ise, bir çağrının stresini düşürebilir ve gerçek çatışma çözümünü sinyal edebilir. Aynı kelimeler düz veya doğal olmayan bir sesle söylendiğinde tam tersi tepkiyi tetikleyebilir.

Baglamsal zeka

İnsanlar, içgüdüsel olarak konuşmalarını duruma göre, dinleyicinin algılanan duygusal durumuna, bilgilendirme karmaşıklığına ve sosyal bağlama göre ayarlarlar. Bugünün AI sesleri, konuşmayı uniform bir şekilde sunma eğilimindedir ve konuşmanın duyarlı ve mevcut hissetmesini sağlayan bağlamsal ipuçlarını kaçırır. Gerçekçi konuşma, sadece kelimelerin değil, neden söylendiği ve bunları ifade edenlerin zihniyetini de anlamayı gerektirir.

Ses mikro ifadeleri

Doğal konuşma, nefesler, duraklamalar, tereddüt işaretleri ve düzensiz tempo gibi ince kusurları içerir. Bu, kusursuz, kesintisiz AI konuşmasının neden daha az insan gibi hissettirdiğinin ana nedenlerinden biridir. Ne yazık ki, bu ipuçlarını inandırıcı bir şekilde taklit etmek teknik olarak zor olmaya devam etmektedir.

Kültürel ve dilbilimsel nüans

Vurgu yeniden üretimine ek olarak, gerçek bölgesel iletişim, farklı kültürlerin tempo, tonlama, deyimler, resmiyet seviyeleri ve iletişim stillerinin farkında olmayı gerektirir. Örneğin, bir kültürde dostluk ve heyecanı gösteren bir yükselen tonlama modeli, başka bir kültürde belirsizlik veya soru olarak yorumlanabilir ve kullanıcıların niyet veya duygu algısını değiştirebilir.

Bu ses nüansları AI modellerine entegre edilmezse, teknik olarak doğru olan sesler bile farklı kültürel arka planlardan kullanıcılar için uygunsuz veya karıştırıcı hissedebilir. Gerçekçi gerçeklik, herhangi bir kullanıcı beklentisine göre ton ve stil adapte etme yeteneğini gerektirir.

Tüm bu ince, ancak önemli faktörleri hesaba katarak, AI seslerinin sadece insan gibi ses çıkarmakla kalmayıp, aynı zamanda gerçek zamanlı olarak insan gibi tepki vermesi gerektiği anlaşılıyor. Bu nedenle, gecikme, bir AI sesinin ne kadar insan gibi hissettirdiğini değerlendirmek için kritik bir unsurdur. Doğal konuşmada, insanlar ortalama 250 milisaniyelik aralıklarla konuşma turu alırlar. Daha uzun sürebilir ve etkileşim gecikmiş, dikkatsiz veya karıştırılmış gibi hissedebilir. Düşünce dolu bir duraklama ile teknik bir gecikme arasındaki küçük fark, doğal konuşma illüzyonunu bozmak ve sesi daha az dikkat çekici hale getirmek için yeterli olabilir.

Neden Bu Önemli

İleriye doğru, pazar gerçekçi ve gerçek zamanlı yanıt veren şirketleri tercih edecektir.

AI ajanları ve asistanları için, kullanıcı benimsemesi ve sürdürülen etkileşim, insanların bu teknolojiyle ilk olarak etkileşime girmek isteyip istemediğine bağlıdır. Bir aracı denemek için kullanılan araç ile her gün kullanılan araç arasındaki fark, konuşma deneyiminin kalitesidir.

Eğlence endüstrisinde, izleyici kilitlenmesi ve tutulması, bir içeriğin ne kadar inandırıcı olduğuyla bağlantılıdır ve doğal olmayan bir cümle, izleyici katılımını bozabilir. Dublaj veya karakter performansı için kullanılan AI sesleri, duygusal etkiye sahip olmak için hikayeye tam olarak entegre olmalıdır.

Müşteri desteğinde, güven ve empati en önemli unsurlardır, özellikle müşteri etkileşimlerinin çoğu sinir veya karışıklık anlarında gerçekleştiğinde. Rigid veya duygusal olarak bağlantısız bir ses, durumu çözme yerine artırabilir. Kullanıcılar, sadece betimlenmiş yanıtları sunmakla kalmayıp, endişe, sabır veya teselli duygularını yansıtabilen sesler bekliyorlar.

Ne Gelir

Ses AI yarışını kazanan şirketler, duygusal nüansı, kültürel ve bağlamsal varyasyonu anlayan, anında ve akıcı bir şekilde yanıt veren ve insanlarla konuşmaktan ayırt edilemeyecek deneyimler sunan şirketler olacaktır.

Herhangi bir AI sesi üretebileceği bir pazarda, kullanıcı beklentileri de buna göre evrilir, “yeterince iyi” hızla yeterli olmayacak. Rekabetçi kalmanın tek yolu, insanların kolayca AI olduklarını unutabileceği AI sesleri üretmektir.

Oz Krakowski, İnovasyon ve İş Geliştirme Başkanı, Deepdub'ın iş geliştirme ve stratejik satışlarını yönetmekte ve Deepdub'ın yenilikçi AI destekli lokalizasyon platformu kullanarak yüzlerce saatlik senaryolu ve senaryosuz içeriğin çoklu dillere lokalizasyonunu denetlemektedir. Tiyatro gösterilerinden, ödüllü bağımsız filmlerden, Hulu'da ("Vanda") ilk kez dublajlı senaryolu drama olan içeriğe, gerçeklik şovu "Hardcore Pawn" ve belgesel-suç "Forensic Files" gibi senaryosuz içeriğe kadar, Oz, dünya çapındaki stüdyolar ve içerik sahipleriyle işbirlikleri ve ortaklıklar geliştirmiştir, ayrıca DEG Ödülleri Planlama Komitesi üyesidir. Oz, bir seri girişimcidir ve Deepdub'a katılmadan önce sağlık pazarındaki bir startup'ın kurucu ortağıydı.