Röportajlar
Dan O’Connell, Dialpad’da Chief Strategy Officer – Röportaj Serisi

Dan, Dialpad‘da Chief Revenue Officer’dır. Önceden, Mayıs 2018’de Dialpad tarafından satın alınan TalkIQ’da CEO olarak görev yaptı. TalkIQ’dan önce, AdRoll ve Google’da çeşitli satış liderliği pozisyonlarında bulundu.
Dialpad, ekibinizle bağlanmak ve işbirliği yapmak için daha kolay ve daha verimli bir şekilde iletişim kurmanızı sağlayan bir AI destekli bulut iletişim platformudur.
Önceden TalkIQ’nın CEO’su olarak, gerçek zamanlı konuşma tanıma ve doğal dil işleme start-up’ını Dialpad’ın Mayıs 2018’de satın almasını sağlayan konuşma tanıma teknolojisindeki başarıların arkasındaki sır nedir?
Bu, birden fazla şeyin birleşmesinden kaynaklandı: zaman, insanlar ve odak. Otomatik konuşma tanıma (ASR) teknolojisi yeni değil, insanların düşündüğünden çok daha uzun süredir var. Bu süre zarfında (ve son beş yıl içinde daha da fazla) ASR teknolojisi artan hesaplama gücü, bulut, veri setlerinin kullanılabilirliği ve tüketici pazarlarında akıllı hoparlörlerin kitlesel benimsenmesinden faydalandı. Tüm bu şeyler transkriptlerin doğruluğunun artmasına neden oldu.
Bu trendlerin üzerine, uzmanları (örneğin dilbilimciler) hızlı bir şekilde ürünlerin piyasaya sürülmesini sağlayan mühendislerle (yani hacker’lar) birleştirdik. Ve hacker’lar derken, sorunları hızlı bir şekilde çözen ve ürünlerin piyasaya sürülmesini sağlayan mühendisleri kastediyorum. Bu çözümler her zaman en elegan olmayabilir, ancak genellikle en hızlı olanlardır ve bu, pazarlama ve satış açısından bir yenilikçi olarak görülmenize olanak tanır. Bu hikaye, start-up’inizi kurmaya çalışırken ve para toplamaya çalışırken iyi bir şekilde işler.
Uzmanlara, doğal pazar trendlerine, girişimdeki teknolojinin uygulanması için devasa bir mavi okyanusa ve yenilikçi teknolojileri piyasaya sürme konusunda kanıtlanmış bir geçmişe sahip bir ekibe sahiptik.
Son olarak, sorunu çözmek için farklı bir yaklaşım izledik. Geleneksel transkript motorları, bir teyp kaydı gibi çalışırlardı. Bir aramayı kaydeder, ses dosyasını kaydeder, transkript motorundan geçirir ve bir süre sonra çıktı alırdınız. Başlangıçta, 30 dakikalık bir arama 30 dakika sürecekti, bu nedenle gerçek bir gecikmeyle karşı karşıya kalırdınız.
Bu sorunu çözmek ve ses dosyasına ihtiyaç duymayan bir akış veya gerçek zamanlı transkript motoru oluşturmak istedik. Bu, yıllar önce biraz yeni gibi gelebilir, ancak o zamanlar gerçek zamanlı uzun form 8khz (yani poor quality audio, yani stereo kalitesinin aksine 44khz) sesi işleyebilen bir akış motoru yoktu. Bir teyp kaydı oluşturmak istemiyorduk.
Gerçek zamanlı bir motor oluşturmak ve konuşmaları analiz etmek istedik. Bunu yapabilirsek, fırsatlar sınırsız olacaktı, çünkü o zaman iş akışlarını otomatikleştirebilir ve daha önce yapılmamış birçok harika şeyi yapabilirsiniz. Jim Palmer, Etienne Manderscheid, Kevin James, Noah Gaspar ve diğer birçok kişiye bu tür bir gerçek zamanlı motoru ilk olarak inşa ettikleri için büyük takdirler.
Mayıs 2018’de Dialpad’ın TalkIQ’ı satın alması后的 geçiş dönemini tartışabilir misiniz?
Satın alma aşaması aslında süper sorunsuz geçti. Dialpad, bir TalkIQ ortağıydı ve ürün ekiplerimiz zaten haftalık olarak Dialpad’da bulunuyordu. Ayrıca, Google’da Craig Walker ve Brian Peterson ile birlikte çalıştım ve onlarla birlikte çalışmaktan heyecanlandım.
Hepimiz geleceği aynı şekilde gördük, bu teknolojilerin (ASR/NLP) bir iletişim/işbirliği platformuna entegre edilmesinin piyasaya yıkıcı ve işletmeler için oyun değiştirici olabileceğini düşündük. Bu, neden hemen satın alma işleminden sonra 50M$’lık bir turda ICONIQ liderliğinde yatırım aldığımızı açıkladığımız nedenlerden biridir. Yatırımcılar, teknolojilerin gelecekteki uygulamasında ve bu sorunları çözen ekibin fırsatını gördü.
TalkIQ’da, temel olarak aynı anda üç farklı start-up olmaya çalışıyorduk: Kendi telekomünikasyon yığınımızı, konuşma tanıma motorumuzu ve dahili NLP teknolojisimizi inşa ediyorduk. Bunlar, çözülmesi zor üç sorun. Dialpad, telekomünikasyon yönünü zaten erfolgreich bir şekilde çözmüştü, bu nedenle satın alma teklifi geldiğinde, kolay bir karar oldu. Dialpad’ı sektördeki en yenilikçi iş iletişimi platformu olarak görüyorduk ve gelecekteki iş iletişimi vizyonumuz gerçekten iyi bir şekilde uyuyordu.
Dialpad’da kullanılan farklı makine öğrenimi teknolojileri nelerdir?
Yerel Voice Intelligence (Vi™) motorumuz, AI ve ML’yi kullanarak işletmelerin satışlarını artırmasına, rekabetçi içgörüler kazanmasına, müşteri hizmetlerini yükseltmesine ve daha verimli online toplantılar düzenlemesine yardımcı olur.
TalkIQ’dan ASR ve NLP teknolojileri, ses ve video görüşmelerinden gelen konuşmaları gerçek zamanlı olarak alır. Aynı zamanda, özel teknolojimiz gelen konuşma verilerini işleyerek ve endüstri lideri doğrulukla kolay okunabilir bir formata dönüştürerek yakalar.
Dahili ML, Vi’nin zamanla iyileşmesine yardımcı olur. Vi’yi ne kadar çok kullanırsanız, o kadar çok öğrenir ve konuşmaları işleme konusunda o kadar iyi olur. Zamanla, arama transkriptlerinin doğruluğu artacak ve Vi, konuşmaların daha ince nüanslarını işleyebilecek.
Dialpad, bir milyar dakikadan fazla ses analizi之后, benchmark testleri Dialpad’in transkript modelinin Google’ın gelişmiş telefoni modeli de dahil olmak üzere önemli rakiplerini aştığını gösterdi. Bu sonuçları量ify etmek için hangi testler yapıldı?
Test kümemiz, ses ve eşlik eden transkript olan ground truth olarak kabul edilen bir koleksiyondur. Aynı sesi her rakibe gönderir ve transkripti geri alırız, ardından ground truth ile karşılaştırırız. Hataların sayısını hesaplayarak bir doğruluk yüzdesi hesaplarız. TalkIQ satın alma işleminden bu yana, yani Nisan 2018’den beri kendimizi Google ile karşılaştırıyoruz ve her zaman daha düşük bir doğruluk yüzdesine sahiptik, şimdiye kadar.
Dialpad’ın özel Voice Intelligence (Vi™) motoru ile rakip motorlar arasındaki temel farklılıklar nelerdir?
En büyük farklılıklardan biri, bunu daha uzun süredir yapıyor olmamız, yani teknolojinin daha doğru olması için daha fazla veri analiz ediyor olmamız. Bir milyar dakikadan fazla ses iletişimini analiz ettik ve her ay yaklaşık 90 milyon dakika Vi motorumuzla işliyoruz. Bu anlamda, rakiplerimizden yıllar öndeyiz.
Diğer bir farklılıklı, dil modellerimize yönelik özelleştirilmiş ve ölçeklenebilir yaklaşımımızdır. Her müşteri için, şirketin özel anahtar kelimelerini içeren bir veritabanı oluştururuz, böylece anahtar kelime güçlendirerek doğruluğu artırabiliriz. Örneğin, adı “Kathryn” olan ve “Skribbl” adlı bir şirkette çalışan bir kullanıcı için, sistem adlarını doğru şekilde yazacak, diğer modeller ise onları nasıl telaffuz edildiğine göre yazacaktır (örneğin “Katherine” ve “scribble”).
Doğal dil işlemenin geleceği hakkında kişisel görüşünüz nedir? AI’nin %100 veya neredeyse %100 doğruluğa ulaşması ne kadar zaman alacak?
Mükemmel doğruluk neredeyse elde edilemez. Belki bir gün şaşırtılacağım (umarım!). Çok, çok yakın olacağız, ancak mükemmel olmayacağız. Sebep, otomatik konuşma tanıma (ve dolayısıyla NLP) sorunlarını çözmek için neredeyse sınırsız sorunlar var: aksanlar, mikrofonlara olan yakınlık, arka plan gürültüsü, bağlantı sorunları, farklı mikrofon türleri, birinin konuşma hızı, telaffuz, bağlam (Sara vs Sarah vs Serra), kısaltmalar, argo ve benzeri. İdeal olarak %100’e ulaşacağımızı söylemek isterim, ancak son mil, yani %1-2’lik doğruluk payı zor olacak.
Bununla birlikte, okunabilirlik konusunda bazı ilginç gelişmeler olacağını düşünüyorum. Bugün, bir konuşma transkriptini incelediğinizde, bir düşünce akışı gibi okuyabilir. Doğal olarak, akıcı bir şekilde konuşuruz, cümleleri birleştirmek, kelimeleri tekrarlamak, cümleleri yeniden başlatmak – yazılı forma yapmayacağımız birçok şeyi yaparız. Bir transkriptin daha okunabilir bir sürümüne sahip olma fırsatları var, bu, tekrar edenleri kaldıran, noktalama işaretlerini tahmin eden veya iyileştiren ve transkripti daha okunabilir hale getiren bir sürümdür.
Aklımda iki sürüm var: kelimesi kelimesine sürüm, yani bir konuşmanın %100’üne mümkün olduğunca yakın bir sürüm (yanlışlar ve tümü ile) ve daha sonra bir sürüm var, bu, daha kolay okunabilen bir sürümdür, çünkü noktalama ve optimizasyonlar vardır.
Ve bu, bizi bir konuşmanın en anlamlı kısımlarına sentezlenebilir miyiz sorusuna götürür? Tam bir transkripte ihtiyacınız var mı, yoksa okunabilir bir形式de doğru bir özete ihtiyacınız var mı?
Elbette, kullanım durumunuza bağlı, ancak bu, bu alanın ilginç ve heyecan verici olanı. Olası olanın sadece üçüncü safhasındayız ve henüz NLP’nin daha “bağlam bilgisi” olacak şekilde yenilikçi akışları görmedik, yani önceki konuşmalardan öğrenerek ve sürekli olarak bağlamı uyarlayarak ML’yi daha akıllı hale getireceğiz.
Modellerin öğrenmek için daha spesifik bir bağlamı olmalıdır, o zaman daha iyi olur. Aynı bağlamı birden fazla konuşma arasında paylaşmak ve ML’nin daha akıllı hale gelmesi için sürekli olarak bağlamı uyarlamak gibi bir şeyi düşünün.
Bağlamsal teknoloji, insanların iletişimindeki farklılıklar nedeniyle doğruluğu artırmak için de önemlidir. İnsanlara göre küçük gibi görünen dilbilimsel farklılıklar, bir ML modelini taklit etmek için çok zordur.
Dialpad şu anda müşterilerine hangi hizmetleri sunuyor?
Dialpad, daha akıllı çalışmanın bir yolu. Bugün modern, hibrit işgücünün ihtiyaç duyduğu platformu inşa ettik – insanların ve ekiplerin dünyanın her yerinden daha verimli, daha etkili ve daha fazla katılım sağlamasına olanak tanır. İşletme iletişimi için birleşik, bulut tabanlı bir platform olarak, arama, sohbet, video konferans ve çağrı merkezleri sunar ve bunlar eşsiz bir kalite, güvenlik ve güvenilirlik sunar. Dialpad, bu deneyimi ekonomik, basit bir şekilde dağıtabilir ve yönetilebilir bir platform olarak sunar.
Dialpad hakkında paylaşmak istediğiniz başka bir şey var mı?
2020, şirket için gerçekten muhteşem bir yıl oldu, bu, dünyanın (ve devam eden) deneyimlediği şey düşünülürse gerçekten şaşırtıcı. Çalışan sayımızı ikiye katladık, 100M$’lık yatırım aldık, bir şirket satın aldık ve müşteri tabanımız üssel bir şekilde büyüdü.
Uzaktan çalışma kalıcı olacak, bu nedenle bu büyümenin devam etmesini bekliyoruz ve önümüzdeki yıl için heyecanlanıyoruz. Çalışanların daha akıllı çalışmasına yardımcı olacak yenilikçi teknolojilere olan ihtiyacın artacağına inanıyoruz. Şirketler, verimliliği artırmak, monoton görevleri ortadan kaldırmak ve çalışanların daha büyük önceliklere odaklanmasına olanak tanıyan AI’ye dönecek. Dialpad, bu ihtiyaçları karşılamak için iyi bir konumda.
Harika bir röportaj için teşekkür ederiz, daha fazla bilgi edinmek isteyen okuyucular Dialpad ziyaret edebilir.












