Connect with us

Ofir Krakowski, Deepdub’un CEO ve Kurucu Ortağı – Röportaj Serisi

Röportajlar

Ofir Krakowski, Deepdub’un CEO ve Kurucu Ortağı – Röportaj Serisi

mm

Ofir Krakowski Deepdub’un kurucu ortak ve CEO’sudur. Bilgisayar bilimi ve makine öğrenimi alanında 30 yıllık deneyime sahip olan Krakowski, 25 yıl boyunca İsrail Hava Kuvvetleri’nin makine öğrenimi ve inovasyon departmanının kurulması ve liderliğinde önemli bir rol oynadı.

Deepdub derin öğrenme ve ses klonlama teknolojilerini kullanarak film, TV ve dijital içerik için yüksek kaliteli, ölçeklenebilir yerelleştirme sağlayan bir AI destekli dublaj şirketidir. 2019 yılında kurulan şirket, içerik yaratıcılarının orijinal performansları korurken diyalogları birden fazla dile sorunsuz bir şekilde çevirmelerine olanak tanır. AI destekli konuşma sentezini insan dilbilim gözetimi ile birleştiren Deepdub, küresel içerik erişilebilirliğini artırır ve geleneksel dublajın zaman ve maliyetini azaltır. Şirket, inovasyon için endüstri tanıma, önemli ortaklıklar, sertifikalar ve eğlence sektöründe AI yerelleştirme teknolojisini genişletmek için fon elde etti.

Sizi 2019’da Deepdub’u kurmaya iten şey nedir? Bir anı veya zorluk mu vardı?

Geleneksel dublaj, içerik yerelleştirmenin endüstri standardı olmuştur, ancak pahalı, zaman alıcı ve kaynak yoğunluğuna sahip bir işlemdir. AI tarafından üretilen ses çözümleri mevcuttu, ancak yüksek kaliteli, karmaşık içerik için gerekli olan duygusal derinliği yakalayamadılar.

Bu açığı kapatma fırsatını belirledik ve orijinal performansın duygusal otantikliğini korurken verimliliği büyük ölçüde artırarak bir AI destekli yerelleştirme çözümü geliştirdik. Proprietary eTTS™ (Emotion-Text-to-Speech) teknolojisini geliştirdik, bu teknoloji AI tarafından üretilen seslerin insan aktörlerinkiyle aynı duygusal ağırlık, ton ve nüansı taşımasını sağlar.

Dil ve kültürel engellerin artık küresel içerik erişilebilirliğine engel olmaması gereken bir dünya hayal ediyoruz. Platformumuzu yaratırken, eğlence, e-öğrenme, FAST ve diğer endüstrilerdeki dil sınırlamalarının meydan okumasını tanıdık ve içerik yerelleştirmesini devrimleştirme kararı aldık.

Kompleks içerik için en yüksek kaliteli yerelleştirme ve dublajı sağlamak için, Deepdub’un çözümünün bir melez yaklaşım izlemesi ve dilbilim ve ses uzmanlarını sürece dahil etmesi gerektiğini kararlaştırdık, bu uzmanlar bizim eTTS™ teknolojisimizle birlikte çalışırlar.

Vizyonumuz, ses üretimini demokratikleştirmek, onu büyük ölçekli, evrensel olarak erişilebilir, kapsayıcı ve kültürel olarak ilgili hale getirmektir.

Deepdub’u başlatırken karşılaştığınız en büyük teknik ve iş zorlukları nelerdi ve bunları nasıl aştınız?

Eğlence endüstrisinin güvenini kazanmak, Deepdub’u başlatırken önemli bir engeldi. Hollywood, on yıllarca geleneksel dublajı kullanagelmiştir ve AI destekli çözümlere geçiş, stüdyo kalitesinde sonuçlar sunma yeteneğimizi kanıtlamayı gerektiriyordu.

Bu şüpheyi gidermek için, önce AI tarafından üretilen seslerimizin otantikliğini, tam lisanslı bir ses bankası oluşturarak artırdık. Bu banka, gerçek insan ses örneklerini içerir ve bu, Hollywood’da kabul için kritik olan doğal olma ve ifade yeteneğini önemli ölçüde geliştirir.

Sonraki adım olarak, eTTS™ gibi özel teknolojiler ve Vurgu Kontrolü gibi özellikler geliştirdik. Bu teknolojiler, AI tarafından üretilen seslerin yalnızca duygusal derinliği ve nüansları yakalamakla kalmayıp, aynı zamanda yüksek kaliteli dublaj için gerekli olan bölgesel otantikliğe de uymasını sağlar.

Ayrıca, teknolojiyle yakın çalışacak bir iç post-prodüksiyon ekibi kurduk. Bu ekip, AI çıkışlarını fine-tuner, böylece her bir içeriğin endüstrinin yüksek standartlarını karşıladığını garantiler.

Ayrıca, dünya çapındaki insan uzmanlarından oluşan bir ağ oluşturduk – ses aktörleri, dilbilimciler ve yönetmenler. Bu profesyoneller, kültürel bilgiler ve yaratıcı uzmanlık getirerek, dublaj içeriğimizin kültürel doğruluğunu ve duygusal yankısını artırır.

Dilbilim ekibimiz, teknoloji ve küresel uzmanlarla birlikte çalışarak, dilin hedef kitlenin kültürel bağlamına uygun olduğunu ve yerel normlara ve standartlara uyduğunu garantiler.

Bu stratejilerle, ileri teknolojiyi küresel uzmanlar ve iç post-prodüksiyon ekibi ile birleştirerek, Deepdub, Hollywood ve dünya çapındaki diğer üst düzey üretim şirketlerine, AI’nin geleneksel dublaj iş akışlarını önemli ölçüde geliştirebileceğini kanıtladı. Bu entegrasyon, yalnızca üretimi basitleştirmez, aynı zamanda pazar genişletme olanaklarını da artırır.

Deepdub’un AI destekli dublaj teknolojisi geleneksel dublaj yöntemlerinden nasıl farklıdır?

Geleneksel dublaj, ses aktörleri, ses mühendisleri ve post-prodüksiyon ekiplerinin diyalogları manuel olarak farklı dillere yeniden yaratmasını gerektiren emek yoğundur ve bir proje başına aylar sürebilir. Çözümümüz, teknoloji ve insan uzmanlığını birleştiren melez bir son-uç çözüm sunar ve post-prodüksiyon iş akışlarına doğrudan entegre edilir, böylece yerelleştirme maliyetlerini %70’e kadar ve teslimat sürelerini %50’ye kadar azaltır.

Diğer AI tarafından üretilen ses çözümlerinin aksine, özel eTTS™ teknolojisimiz, geleneksel yöntemlerin büyük ölçekli olarak başarmakta zorlandığı duygusal derinlik, kültürel otantiklik ve ses tutarlılığı düzeyini sağlar.

Bize Deepdub’un kullandığı melez yaklaşımı anlatır mısınız – AI ve insan uzmanlığı dublaj sürecinde nasıl birlikte çalışır?

Deepdub’un melez modeli, AI’nin doğruluğu ve ölçeklenebilirliği ile insan uzmanlığının yaratıcılığı ve kültürel duyarlılığını birleştirir. Yaklaşımımız, geleneksel dublajın sanatını ileri AI teknolojisini birleştirir, böylece yerelleştirilmiş içerik orijinalin duygusal otantikliğini ve etkisini korur.

Çözümümüz, AI’yi yerelleştirmenin temel aspectsini otomatikleştirmek için kullanır, ardından insan profesyoneller duygusal nüansları, vurguları ve kültürel ayrıntıları rafine eder. Hem eTTs™ hem de Ses’ten Ses’e (V2V) teknolojilerimizi kullanarak AI tarafından üretilen seslerin doğal ifade yeteneğini geliştirir, böylece insan performanslarının derinliğini ve gerçekliğini yakalarız. Bu şekilde, her bir içeriğin orijinal hali kadar gerçek ve etkili hissetmesini garantileriz.

Dilbilimciler ve ses profesyonelleri bu süreçte kilit bir rol oynar, çünkü AI tarafından üretilen içeriğin kültürel doğruluğunu artırır. Küreselleşme, eğlencinin geleceğini şekillendirmeye devam ettikçe, AI ile insan sanatının entegrasyonu, içerik yerelleştirmesi için altın standard haline gelecektir.

Ayrıca, Ses Sanatçıları Telif Programımız, profesyonel ses aktörlerine AI destekli dublajda sesleri kullanıldığında telif ücreti öder, böylece AI ses teknolojisini etik bir şekilde kullanmasını garantiler.

Deepdub’un özel eTTS™ (Emotion-Text-to-Speech) teknolojisi, dublaj içeriğinde ses otantikliğini ve duygusal derinliği nasıl geliştirir?

Geleneksel AI tarafından üretilen sesler genellikle performansları çekici kılan ince duygusal ipuçlarını eksik bırakır. Bu eksikliği gidermek için, Deepdub özel eTTS™ teknolojisini geliştirdi, bu teknoloji AI ve derin öğrenme modellerini kullanarak orijinal aktörün performansının tam duygusal derinliğini koruyan ve insan duygusal zekasını otomatikleştirme sürecine entegre eden konuşma üretir. Bu gelişmiş yetenek, AI’nin sentezlenen sesleri sevinç, öfke veya üzüntü gibi istenilen duyguları yansıtacak şekilde ince ayarlamasını sağlar ve bu, izleyicilerle gerçek bir şekilde rezonansa girmesini sağlar. Ayrıca, eTTS™ teknolojisimiz, insan konuşmasındaki doğal nüansları – ton, vurgu ve tempo – yüksek doğrulukla üretme konusunda excels, bu da gerçek ve etkileyici cümleler sunmak için gereklidir. Teknoloji ayrıca, vurguları kontrol ederek kültürel duyarlılığı artırır, böylece dublaj içeriği kültürel nüanslara saygı gösterir ve bunlarla uyumlu hale gelir, bu da küresel çekiciliğini ve etkinliğini artırır.

AI tarafından üretilen seslerin robotik gibi göründüğü eleştirisine sıkça rastlanır. Deepdub, AI tarafından üretilen seslerin doğal olma ve duygusal nüansı korumasını nasıl sağlar?

Özel teknolojisimiz, derin öğrenme ve makine öğrenimi algoritmalarını kullanarak, orijinal performansın amacını, stilini, mizahını ve kültürel nüanslarını koruyan ölçeklenebilir, yüksek kaliteli dublaj çözümleri sunar.

eTTS™ teknolojisimize ek olarak, Deepdub’un yenilikçi paketi, Ses’ten Ses’e (V2V), Ses Klonlama, Vurgu Kontrolü ve Ses Emotion Bank gibi özellikler içerir, bunlar üretim ekiplerinin performansları creative vizyonlarına uyacak şekilde fine-tune etmelerine olanak tanır. Bu özellikler, her bir sesin hikaye anlatımı ve kullanıcı deneyimi için gerekli olan duygusal derinliği ve nüansı taşımasını garantiler.

Son birkaç yılda, Medya ve Eğlence endüstrisinde çözümlerimizin artan başarısını gördük, bu nedenle Hollywood-vetted seslendirmelerine geliştiricilere, şirketlere ve içerik yaratıcılarına AI Ses API’miz ile erişimi açmaya karar verdik. eTTS™ teknolojisimize dayanan API, vurgu, emotional ton, tempo ve ses stili dahil gelişmiş özelleştirme parametreleriyle gerçek zamanlı ses üretimi sağlar.

API’mizin amiral gemisi özelliği, yılların endüstri deneyimine dayanan en çok istenen seslendirme ihtiyaçlarına göre tasarlanmış ses ön ayarlaridir. Bu önceden yapılandırılmış ayarlarla, kullanıcılar farklı içerik türlerini hızlı bir şekilde uyarlayabilir, bu da kapsamlı manuel yapılandırma veya keşif gerektirmez. Mevcut ön ayarlar arasında sesli açıklamalar ve sesli kitaplar, belgesel veya gerçeklik anlatımı, drama ve eğlence, haber sunumu, spor yorumları, anime veya çizgi film seslendirmeleri, İnteraktif Sesli Yanıt (IVR) ve ayrıca tanıtım ve ticari içerik bulunur.

AI dublajı, kültürel ve dilbilimsel uyarlama içerir – Deepdub, dublaj çözümlerinin kültürel olarak uygun ve doğru olduğunu nasıl garantiler?

Yerelleştirme, sadece kelimeleri çevirmekle ilgili değildir – anlamı, amacı ve kültürel bağlamı çevirmekle ilgilidir. Deepdub’un melez yaklaşımı, AI destekli otomasyonu insan dilbilim uzmanlığı ile birleştirir, böylece çevrilen diyalog, hedef kitlenin kültürel ve duygusal nüanslarını yansıtır. Yerelleştirme uzmanlarımız, AI ile birlikte çalışarak, dublaj içeriğinin bölgesel lehçelere, ifadelerine ve kültürel hassasiyetlerine uygun olduğunu garantiler.

AI dublajını bir sonraki seviyeye taşımak için şu anda üzerinde çalıştığınız en heyecan verici yenilikler nelerdir?

En büyük gelecek yeniliklerimizden biri, canlı yayınlar gibi spor müsabakaları ve haber medyası için gerçek zamanlı dublajı mümkün kılacak Canlı/Yayın Dublajıdır, bu da küresel etkinliklerin anında erişilebilir olmasını sağlar. Bu teknolojiyi, büyük ölçekli ve tam duygusal destek ile ticari haklar içeren insan seslerinden metne ses oluşturma yeteneğine sahip özel eTTs™ özelliğimizle birleştirecek olmanız, piyasadaki hiçbir şeye benzemeyen yüksek kaliteli, otantik, duygusal canlı dublaj sunma fırsatı sunacaktır.

Örneğin, Olimpiyatların açılış töreni veya herhangi bir canlı spor etkinliği gibi, yerel yayıncılar genellikle bölgesel dil ve lehçelerinde yorum yapar. Bu teknoloji, dünyanın dört bir yanındaki izleyicilerin etkinliği yerel dillerinde deneyimlemelerine olanak tanıyacaktır.

Canlı dublaj, canlı etkinliklerin dünya çapında nasıl deneyimlendiğini yeniden tanımlayarak, dilin artık bir engel olmamasını sağlayacaktır.

AI tarafından üretilen dublaj, yakın zamanda bazı projelerde eleştirilere maruz kaldı. Bu eleştirilerin arkasındaki ana faktörlerin neler olduğunu düşünüyorsunuz?

Ana eleştiriler, otantiklik, etik ve kalite endişelerinden kaynaklanmaktadır. Bazı AI tarafından üretilen sesler, hikaye anlatımı için gerekli duygusal rezonans ve nüansı thiếu etti. Deepdub’da, duygusal olarak ifade edilebilir AI sesleri geliştirerek bu sorunu çözdük, bu sesler orijinal performansın ruhunu korur. Deepdub, tüm boyutlarda, mükemmel casting, net diyalog, sorunsuz senkronizasyon ve mükemmel tempo dahil olmak üzere %70’den fazla izleyici memnuniyeti elde etti.

Diğer bir sorun, AI seslerinin etik kullanımıyla ilgilidir. Deepdub, sorumlu AI dublajının öncüsüdür ve endüstrinin ilk Royalty Programını başlatarak, AI tarafından üretilen performanslar için ses aktörlerine telif ücreti öder. İnanıyoruz ki AI, insan yaratıcılığını geliştirmeli, değilse yerine geçmemelidir ve bu taahhüt, her şeyimizdedir.

AI dublajının, önümüzdeki 5-10 yıl içinde küresel eğlence endüstrisini nasıl değiştireceğini düşünüyorsunuz?

Önümüzdeki on yıl içinde, AI destekli dublaj, içeriği daha önce hiç olmadığı kadar demokratikleştirecek, filmleri, TV şovlarını ve canlı yayınları her izleyiciye, her yerde, anında yerel dilinde ulaştıracaktır.

İçerik akışı platformları ve yayıncıların, gerçek zamanlı çok dilli dublajı entegre ettiği bir dünya hayal ediyoruz, bu da dil engellerini kaldırarak hikayelerin geleneksel yerelleştirme yöntemlerinden daha hızlı ve daha weit seyahat etmesini sağlar.

Dil erişilebilirliğinin ötesinde, AI dublajı, görsel engelliler için medya erişimini de geliştirebilir. Birçok kişi, görsel içeriği takip etmek için sesli açıklamalara güvenir ve AI dublajı, altyazıların erişilebilir olmadığı yabancı dil içerikleriyle etkileşime girmelerine olanak tanır. Hem dil hem de duyusal engelleri kırarak, AI destekli dublaj, herkes için daha kapsayıcı bir eğlence deneyimi yaratmaya yardımcı olacaktır, bu özellikle bu yıl dünya çapında medya erişilebilirliği etrafındaki yeni düzenlemeler yürürlüğe girdiği için kritiktir.

AI dublajının gerçekten ana akım haline gelmesi için hala çözülmesi gereken en büyük zorluklar nelerdir?

En büyük zorluklar, ultra yüksek kaliteyi ölçeklenebilir şekilde korumak, kültürel ve dilbilimsel doğruluğu garantilemek ve AI tarafından üretilen sesler için etik rehberleri oluşturmaktır. Ancak, teknik engellerin ötesinde, AI dublajının kamuoyu tarafından kabulü, güvene bağlıdır. İzleyiciler, AI tarafından üretilen seslerin performansların otantikliğini ve duygusal derinliğini koruduğuna, sentetik veya kopuk görünmediğine inanmalıdır.

AI dublajı tam olarak benimsenmesi için, büyük ölçekli olarak yüksek kaliteli, insan sanatını ve teknolojiyi birleştiren ve yaratıcı bütünlüğe, dilbilimsel nüansa ve kültürel bağlama saygı gösteren bir çözüm sunmalıdır. Bu, seslerin orijinal aktörlerin amacına uygun kalmasını, izleyiciyi alien edecek yanlışlıkları önlemek ve AI ses teknolojisindeki deepfake riskleri ve ses mülkiyeti ile ilgili endişeleri ele almayı gerektirir.

AI dublajı daha yaygın hale geldikçe, teknoloji sağlayıcıları, ses otantikliği, güvenlik ve fikri mülkiyet koruması için katı standartlar uygulamalıdır. Deepdub, bu alanlarda aktif olarak liderlik etmektedir, böylece AI ses teknolojisi, küresel hikaye anlatımını geliştirirken, insan yeteneğinin sanatsal ve profesyonel katkılarını saygı gösterir. Sadece o zaman, izleyiciler, içerik yaratıcıları ve endüstri paydaşları, AI dublajını, güvenilebilir ve değerli bir araç olarak kabul edecektir.

Harika röportaj için teşekkür ederiz, daha fazla bilgi edinmek isteyen okuyucular Deepdub ziyaret edebilir.

Antoine bir vizyoner lider ve Unite.AI'in kurucu ortağıdır ve AI ve robotik geleceğini şekillendirmek ve tanıtmak için sarsılmaz bir tutkuyla hareket etmektedir. Bir seri girişimci olarak, toplum için elektrik kadar yıkıcı olacağına inandığı AI'nin potansiyeli hakkında sık sık konuşur ve coşkusunu dile getirir.
Bir futurist olarak, bu yeniliklerin dünyamızı nasıl şekillendireceğini keşfetmeye adanmıştır. Ayrıca, Securities.io kurucusudur, bu platform geleceği yeniden tanımlayan ve tüm sektörleri yeniden şekillendiren teknolojilere yatırım yapmaya odaklanmıştır.