Connect with us

Matt Hocking, WellSaid Labs’ın Kurucu Ortağı – Röportaj Serisi

Röportajlar

Matt Hocking, WellSaid Labs’ın Kurucu Ortağı – Röportaj Serisi

mm

Matt Hocking, WellSaid Labs‘in kurucu ortağıdır, bir lider işletme sınıfı AI Ses Jeneratörü. 15 yıldan fazla bir süredir büyük ölçekli teknoloji çözümleri sunan ve ekiplere liderlik eden bir geçmişe sahiptir.

Girişimci geçmişiniz oldukça güçlü, AI ile nasıl ilk olarak ilgilenmeye başladınız?

Sanırım kendimi her zaman assez girişimci olarak düşündüm. Üniversiteden mezun olduktan sonra ilk işimi kurdum ve ürün tasarımı alanında bir geçmişe sahip olmam, beni erken aşamadaki fikirlerle insanlara yardımcı olmaya yöneltti. Kariyerim boyunca, bazı start-up’ların oldukça başarılı olmasına tanıklık ettim ve bu deneyimler, beni kendi fikirimi geliştirmeye yöneltti. AI, AI2’ye katıldığımda benim için oldukça yeni bir alandı; ancak bu deneyim, benim ürün ve start-up perspektifimi gerçekten harika araştırmalara uygulamama ve bu yeni gelişmelerin gelecekte birçok insana nasıl yardımcı olabileceğini hayal etmeme olanak tanıdı. Başından beri gerçek işletmeler için gerçek insanlar geliştirmek istememin amacı, AI’nin geleceğimizde birçok heyecan verici fırsat ve verimliliği düşünceli bir şekilde uygulandığında yaratabileceğine inanıyorum.

WellSaid Labs fikrinin, The Allen Institute for AI’de girişimci olarak nasıl ortaya çıktığını paylaşabilir misiniz?

2018’de The Allen Institute for Artificial Intelligence (AI2)’ye Girişimci olarak katıldım. Dünyanın en yenilikçi kuluçka merkezlerinden biri olan AI2, AI’de en parlak zihinleri barındırır ve bugün mümkün olanın sınırlarından somut ürünlerin geliştirilmesine yönelik çözümler sunar. Tasarım ve teknoloji alanındaki geçmişim, yaratıcı alanlara karşı uzun süredir devam eden bir ilgiyi besledi ve bugün tanık olduğumuz AI patlamasıyla, bu iki alanı birleştirme yolunu keşfetmek istedim. Michael Petrochuk (WellSaid Labs’in kurucu ortağı ve CTO’su) ile, bir sağlık uygulaması geliştirirken tanıştım; bu uygulamada hasta, çeşitli duyarlı senaryolara rehberlik eden bir avatar tarafından yönlendiriliyordu. İçerik geliştirme sürecinde, ekibimle birlikte ses yeteneği ile önceden kaydedilmiş binlerce sesli anlatım için çalıştık. Michael’in araştırmalarında đạt ettiği bazı đột pháları gördüğümde, insan-parite metin-sese (TTS) teknolojisinin, üzerinde çalıştığım ürünü ve diğer birçok uygulamayı ve endüstrileri nasıl dönüştürebileceğini hızlıca gördük. Teknoloji ve araçlar, ses olarak bir ortam kullanarak üreticilerin ihtiyaçlarını karşılayamıyordu. Bu teknolojiyi tüm yaratıcıların eline vermeye yönelik bir yol gördük ve sesin tüm hikayelerin bir parçası olmasını sağladık.

WellSaid Labs, ses oyuncularına AI seslendirme alanına bir yol sunan az sayıda şirketten biridir. Gerçek sesleri ürününüze entegre etmeniz neden önemliydi?

Cevabımız iki yönlü: ilk olarak, profesyonel ses oyuncularının yeteneklerini tamamlayıcı çözümler yaratmak ve ses için fırsatları genişletmek istedik. İkincisi, ürünlerimizde insan kalitesinin en yüksek seviyesine ulaşmaya çalışıyoruz. Ses oyuncularımız, uzun vadeli işbirliği ortaklarımızdır ve ses verisi ve sonrasında üretilen içerik için ücret ve gelir payı alırlar. Platformumuzda sesi ne kadar kullandığımıza bağlı olarak, her bir ses oyuncusuna ses verisi ve içerik üretimi için ödeme yapıyoruz. yetenekleri bizimle işbirliği yapmayı teşvik ediyoruz; katkıları için adil bir ücret önemlidir.

En yüksek insan kalitesinde ürünler sunmak için, verilerin nereden geldiğine çok dikkat ediyoruz. Bu süreç, kalite üzerinde daha fazla kontrol sağlamamıza olanak tanır ve derin öğrenme modellerimizi, hem insan-paritesine hem de bağlamsal olarak ilgili stillere hitap edecek şekilde eğitiyoruz. Sadece verilen girdiyi okuyan bir ses yaratmiyoruz. Modellerimiz, sayfada bulunan metni gerçekleştiren çeşitli ses stilleri sunar. Kullanıcılar, kütüphanemizdeki bir avatarı kullanarak seslendirme oluşturuyor ya da markaları için özel bir ses oluşturuyor olsunlar, gerçek ses verilerini kullanarak, sorunsuz bir süreç ve kullanıcı dostu bir platform sağlıyoruz. Müşterilerimizin seslerimizi post-prodüksiyonda manipüle etmesi ve düzenleme yapması gerektiği takdirde, istenen çıktıyı elde etme süreci hantal ve uzun olurdu. Seslerimiz, yazılmış içeriğin bağlamını alır ve bağlamsal olarak doğru bir okuma sağlar. Haber okuma, sesli reklam oluşturma veya otomatik çağrı merkezi desteği gibi tüm kullanım durumları için sesler sunuyoruz; bu nedenle, her kullanım durumu için profesyonel ses yeteneği ile işbirliği yapıyoruz ve bu da bize hem bağlam hem de yüksek kaliteli ses verisi sağlar.

Müşterilerimizin seslerini temsil etmek için avatar kütüphanemizi düzenli olarak güncelliyoruz ve yeni stiller ve aksanlar ekliyoruz. WellSaid Labs Stüdyo’da, müşteriler ve markalar, bölge, stil ve kullanım durumu temelinde farklı sesleri deneme yapabilir; bu, ses içeriğinin üreticilerinin ihtiyaçlarına göre daha sorunsuz ve birleşik bir şekilde üretilmesini sağlar. İlk kayıttan sonra, kullanıcılar, sesin ihtiyaçlarına özel olarak hitap etmesini sağlamak için belirli kelimeleri, heceleri ve telaffuzları belirtebilir.

WellSaid Labs, ilk etik AI ses platformu olarak kendini konumlandırıyor. AI etiği size neden önemli?

AI’nin benimsenmesi ve daha yaygın hale gelmesiyle birlikte, zararlı kullanım örnekleri ve kötü aktörlerin korkusu, her konuşmanın merkezinde yer alıyor – ve bu endişeler, gerçek dünya olayları tarafından maalesef doğrulanıyor. AI sesi de bu durumun dışında değil; neredeyse her gün, bir ünlünün, kamu figürünün veya politikacının reklam veya siyasi amaçlar için derinlemesine sahtelenmesi hakkında yeni bir rapor haber oluyor. Resmi federal düzenleme bu teknoloji ile ilgili olarak hala gelişmekte iken, sentetik sesin kötüye kullanımı ve kötü aktörlerle mücadele edilmesi giderek daha zor hale gelecek.

AI2’den geldiğimiz için, Michael ile ilk günden itibaren bu konuları tartıştık. AI konuşma teknolojisini geliştirmek, rıza, gizlilik ve genel güvenlik konusunda önemli sorumluluklar getirir. Teknolojinin güvenli bir şekilde inşa edilmesi, etik endişelerin ele alınması ve sentetik seslerin gelecekteki geliştirilmesine zemin hazırlanması gerektiğini biliyoruz. AI konuşma teknolojisinin kötüye kullanım potansiyelini tanıyoruz ve ürünümüzün potansiyel kötüye kullanımını azaltma sorumluluğunu üstleniyoruz. Bu temeli, hatalar yapmadan ve hızlı ilerlemeden önce koymamız gerekiyor. Aksi takdirde, işletme müşterilerimize ve ses oyuncularımıza, bize yüksek kaliteli, güvenilir bir ürün inşa etmemiz gerekenlere karşı doğru davranmış olmayız.

Bu alanda yasama çağrısını tam olarak destekliyoruz; ancak, federal düzenlemeler yürürlüğe girmeden önce beklemeyeceğiz. Gizlilik, güvenlik, şeffaflık ve hesap verebilirlik ilkelerine dayalı uygulamalara her zaman öncelik verdik ve vermeye devam edeceğiz.

Şirketimizin etik amaç kodu, her kararımızda sorumlu yeniliklerle inşa etmeyi temel alır. Bu, küresel müşterilerimiz – işletme markaları – için en iyi çıkarınadır.

Etik bir AI ses platformu nasıl geliştirirsiniz?

WellSaid Labs, başından beri etik yeniliklere bağlı kaldı. Güveni ve şeffaflığı, dahili veri modellerinin, açık rıza gereksinimlerinin, içerik moderasyon programımızın ve marka koruma taahhüdümüz aracılığıyla merkezliyoruz. WellSaid’de, Sorumlu AI ilkelerine bağlı kalıyoruz ve bu ilkeler, kararlarımızı ve tasarımlarımızı şekillendiriyor; bu ilkeler ayrıca seslerimizin kullanımını da kapsıyor. Etik kodumuz, bu ilkeleri temsil ediyor: Hesap Verebilirlik, Şeffaflık, Gizlilik ve Güvenlik, ve Adillik.

Hesap Verebilirlik: Uygun olmayan içerik kullanımını yasaklıyoruz ve seslerimizin, zararlı, nefret dolu, sahtekarlık amaçlı veya şiddeti teşvik etmeyi amaçlayan içerik için kullanılmamasını sağlıyoruz. Güven ve Güvenlik ekibimiz, bu standartları, kapsamlı bir içerik moderasyon programı ile korur ve hizmet şartlarımızı ihlal etmeye çalışan kullanıcıları engeller ve kaldırır.

Şeffaflık: Bir kişinin ses verisini sentetik bir ses oluşturmak için kullanmadan önce açık rızasını gerektiriyoruz. Kullanıcılar, bir kişinin ses verisini, onun açık, yazılı rızası olmadan klonlamak için yükleyemez.

Gizlilik ve Güvenlik: Ses oyuncularının kimliklerini, sentetik sesleri temsil etmek için stok görüntüleri ve takma adlar kullanarak koruyoruz. Ayrıca, WellSaid Labs veya diğer sentetik ses şirketleriyle ilişkilerini paylaştıkları kişiler konusunda dikkatli olmalarını teşvik ediyoruz; bu, seslerinin kötüye kullanımını azaltmaya yardımcı olur.

Adillik: Platformumuz için ses verisi sağlayan tüm ses oyuncularına ücret ve sesin kullanımına bağlı olarak devam eden gelir payı sağlıyoruz.

Bu ilkelerle birlikte, fikri mülkiyet haklarına da saygı gösteriyoruz. Kullanıcılarımızın veya ses oyuncularının sağladığı içeriğin mülkiyetini iddia etmiyoruz. Her şeyde bütünlüğü, adilliği ve şeffaflığı önceliklendirerek, sentetik konuşma teknolojisimizin sorumlu ve etik bir şekilde kullanılmasını sağlıyoruz. Farklı geçmişlere ve deneyimlere sahip ses yetenekleriyle işbirliği yaparak, WellSaid Labs’in ses kütüphanesinin, yaratıcılarını ve izleyicilerini temsil ettiğinden emin oluyoruz.

Sorumlu yenilik ve etik AI ses teknolojisi geliştirme konusundaki taahhüdümüz, bu alanda othersinden bizi ayıran bir özelliktir. Bu alanda hızlı bir şekilde para kazanmaya çalışan diğerlerinden farklı olarak, etik, güvenlik ve gizlilik konularına erken yatırımlarımız, ses oyuncularımız ve müşterilerimiz arasında güven ve bağlılık oluşturur; bu müşteriler, inovasyonun ön saflarındaki şirketlerden etik olarak üretilmiş ürün ve hizmetleri arayanlardır.

WellSaid Labs, kendi dahili AI modelini geliştirdi ve AI seslerinin insan-parite düzeyine ulaşmasını sağladı; bunu, insanlara özgü hataları konuşmalara katlayarak başardı. Bu hataların AI’yi neden daha iyi yaptığı ve nasıl uygulandığı hakkında bilgi verebilir misiniz?

WellSaid Labs, sadece başka bir TTS jeneratörü değil. İlk TTS teknolojisinin, insan konuşmasının niteliğini, tonunu ve lehçesini tanıyamadığı ve sözlerin arkasındaki bağlamı ve duyguyu iletemediği yerde, WellSaid sesleri insan-parite düzeyine ulaştı ve konuşmalara benzersiz insan hataları getirdi.

Ses kalitemizin temel ölçütü her zaman insan doğallığı oldu. Bu inanç, teknolojinin her aşamasında, script kütüphanelerimizin oluşturulmasından, yeteneklere verdiğimiz talimatlara ve en son olarak TTS algoritmalarımıza nasıl.iterasyon yaptığımıza şekil verdi.

Gerçek insan seslendirmelerine dayalı eğitim veriyoruz. Ses yeteneğimiz, bizim için kaydettiğinde, senaryoyu samimi ve çekici bir şekilde okur. Konuşma mükemmelliği ise, mekanik bir kavramdır ve doğal olmayan, robotik bir çıktıya yol açar. Profesyonel ses yeteneği performans sergilediğinde, konuşma hızı değişir. Sesinin yüksekliği, okudukları içeriğe göre değişir. Sesinin tonu, coşkulu bir parçada yükselir ve daha ciddi bir cümlede düşer. Bu dinamik varyasyonlar, insan seslendirmesinin çekici bir performansını oluşturur.

Ses yeteneğimizin dinamik performanslarıyla koordineli çalışan AI süreçleri inşa ederek, gerçekten doğal bir TTS platformu oluşturduk. İlk uzun形式 TTS sistemini, tüm yaratıcı süreç boyunca öngörülü kontrollerle geliştirdik. Fonetik kütüphanemiz, seslendirmeye özgü ses verileri koleksiyonuna sahiptir; bu, kullanıcıların, üretim aşamasında modelimize seslendirmeye özgü ipuçları, telaffuz rehberliği veya kontrol edilebilirlik gibi özellikleri dahil etmesine olanak tanır. WellSaid kullanıcıları, dış veri ithal etmeden, bir platformda seslendirme kaydedebilir, düzenleyebilir ve stilize edebilir.

TTS AI şirketi kurmanın arkasındaki bazı zorlukları tartışabilir misiniz?

AI ses teknolojisinin geliştirilmesi, üreticileri ve tüketicileri için tamamen yeni bir engel seti oluşturdu. AI sektörünü saran gürültü ve hırsı takip etmemek, birincil zorluklardan biridir. AI, yeni ve popüler bir teknoloji olarak, birçok organizasyon, AI seslendirme gelişmelerinden kısa vadeli kazanç elde etmeye çalışıyor. Gerçek bir ses için herkesin sesini sağlamak istiyoruz; bu, merkezi etik ilkelerle ve otantiklikle yönlendiriliyor. Bu otantikliğe bağlılık, teknolojilerimizin geliştirilmesini ve dağıtılmasını geciktirebilir, ancak WellSaid seslerinin ve verilerinin güvenliğini ve güvenliğini pekiştirir.

TTS platformumuzu geliştirmenin bir başka zorluğu da, organizasyonların veya bireysel aktörlerin teknolojisimizi suistimal etmesini önlemek için özel rıza rehberlerini geliştirmekti. Bu zorluğu aşmak için, işbirlikçi, uzun vadeli ortaklıklar arıyor ve seslendirme geliştirme sürecine tam olarak katılıyoruz; bu, hesaplama, şeffaflık ve kullanıcı güvenliğini artırıyor. Farklı geçmişlere, organizasyonlara ve deneyimlere sahip ses yetenekleriyle işbirliği yapıyoruz; bu, WellSaid Labs’in ses kütüphanesinin, yaratıcılarını ve izleyicilerini temsil ettiğinden emin olmak için tasarlandı. Bu süreçler, teknolojinin güvenli ve etik bir şekilde kullanıldığını garantilemek için kasıtlı ve ayrıntılı bir şekilde tasarlandı; bu, geliştirme ve lansman zaman çizelisini yavaşlatabilir.

Yaratıcı AI seslerinin geleceği için vizyonunuz nedir?

Uzun bir süredir, AI konuşma teknolojisi, şirketlerin büyük ölçekli anlamlı içerik oluşturmasına yetecek kaliteye ulaşmadı. Artık ses teknolojisi, pahalı ekipman ve donanım gerektirmediğinden, tüm yazılı içerik, ses formatında üretilebilir ve yayınlanabilir; böylece, etkileşimli, çoklu ortam deneyimleri oluşturulabilir.

Bugün, AI sesleri insan benzeri sesler üretebilir ve dijital hikaye anlatımını daha erişilebilir ve doğal hale getirmek için gereken nüansı yakalayabilir. Yaratıcı AI seslerinin geleceği, hayatımızın her yönünü etkileyen duyulabilir deneyimler olacaktır. Teknoloji ilerledikçe, insan ve makine tarafından üretilen konuşma arasındaki çizgi bulanlaşacak ve işletme, iletişim, erişilebilirlik ve dünya ile etkileşim için yeni kapılar açacak.

İşletmeler, AI ses arayüzlerinde gelişmiş kişiselleştirme bulacak ve sanal asistanlarla etkileşimleri daha immersif ve kullanıcı dostu hale getirecek. Bu geliştirmeler zaten gerçekleşiyor; zeki çağrı merkezi ajanlarından hızlı yemek sürücüsüne kadar. İçerik oluşturma, reklamcılık, ürün pazarlaması, haber anlatımı, podcast’ler, sesli kitaplar ve diğer çoklu ortamlar, etkileyici içerik geliştirmek için araçları kullanarak verimliliği artıracaktır; bu, özellikle çok dilli modellerin bir şirketin erişimini tek bir noktadan küresel bir varlığa genişletmesine olanak tanıdığından, organizasyonlar için lift ve gelir artışı sağlayacaktır. Üretim ekipleri, markalarına özgü veya dinleyiciye göre özelleştirilmiş sesler oluşturmak için sentetik seslerden yararlanacaktır.

AI’nin tanıtılmasından önce, TTS teknolojisi, büyük ölçekli ve kolayca bir hikaye anlatmak için gerekli insan duygusu, tonu ve telaffuz yeteneklerine sahip değildi. Şimdi, AI destekli TTS, daha immersif ve erişilebilir deneyimler sunuyor; bunlar arasında gerçek zamanlı konuşma yetenekleri ve etkileşimli konuşma ajanları yer alıyor.

İnsan benzeri konuşma yeteneklerine ulaşmak bir yolculuktu, ancak şimdi ulaşıldığına göre, AI sesinin gerçek işletme değerleri oluşturma potansiyelini tam olarak görüyoruz.

Harika röportaj için teşekkür ederiz. Daha fazla bilgi edinmek isteyen okuyucular, WellSaid Labs ziyaret edebilir.

Antoine bir vizyoner lider ve Unite.AI'in kurucu ortağıdır ve AI ve robotik geleceğini şekillendirmek ve tanıtmak için sarsılmaz bir tutkuyla hareket etmektedir. Bir seri girişimci olarak, toplum için elektrik kadar yıkıcı olacağına inandığı AI'nin potansiyeli hakkında sık sık konuşur ve coşkusunu dile getirir.
Bir futurist olarak, bu yeniliklerin dünyamızı nasıl şekillendireceğini keşfetmeye adanmıştır. Ayrıca, Securities.io kurucusudur, bu platform geleceği yeniden tanımlayan ve tüm sektörleri yeniden şekillendiren teknolojilere yatırım yapmaya odaklanmıştır.