Wywiady
Ofir Krakowski, CEO i współzałożyciel Deepdub – seria wywiadów

Ofir Krakowski jest współzałożycielem i CEO Deepdub. Z 30-letnim doświadczeniem w dziedzinie informatyki i uczenia maszynowego, odegrał kluczową rolę w założeniu i kierowaniu departamentem uczenia maszynowego i innowacji izraelskich sił powietrznych przez 25 lat.
Deepdub to firma dubbingu napędzana przez sztuczną inteligencję, która wykorzystuje głębokie uczenie i klonowanie głosu, aby zapewnić wysokiej jakości, skalowalną lokalizację dla filmów, telewizji i cyfrowych treści. Założona w 2019 roku, umożliwia twórcom treści zachowanie oryginalnych występów, jednocześnie bezproblemowo tłumacząc dialogi na wiele języków. Poprzez integrację syntezatora mowy z obsługą językową, Deepdub zwiększa dostępność treści na całym świecie, redukując czas i koszty tradycyjnego dubbingu. Firma zdobyła uznanie branży za swoją innowacyjność, zabezpieczając znaczące partnerstwa, certyfikaty i finansowanie, aby rozszerzyć swoją technologię lokalizacji AI w sektorze rozrywkowym.
Czym skłoniło Cię do założenia Deepdub w 2019 roku? Czy był jakiś szczególny moment lub wyzwanie, które doprowadziło do jego powstania?
Tradycyjny dubbing od dawna jest standardem branżowym dla lokalizacji treści, ale jest to kosztowny, czasochłonny i wymagający zasobów proces. Podczas gdy istniały rozwiązania głosowe generowane przez AI, brakowało im emocjonalnej głębi niezbędnej do prawdziwego uchwycenia występu aktora, co sprawiało, że nie nadawały się one do wysokiej jakości, złożonych treści.
Zidentyfikowaliśmy możliwość zmostkowania tej luki, rozwijając rozwiązanie lokalizacji napędzane przez AI, które zachowuje emocjonalną autentyczność oryginalnego występu, jednocześnie znacznie poprawiając wydajność. Rozwinęliśmy naszą własną technologię eTTS™ (Emotion-Text-to-Speech), która gwarantuje, że generowane przez AI głosy posiadają taki sam emocjonalny ciężar, ton i nuans, jak aktorzy ludzie.
Wizjonujemy świat, w którym bariery językowe i kulturowe nie są już przeszkodą w dostępie do treści na całym świecie. Tworząc naszą platformę, rozpoznaliśmy wyzwanie ograniczeń językowych w branży rozrywkowej, e-learningu, FAST i innych, i postanowiliśmy rewolucjonizować lokalizację treści.
Aby upewnić się, że rozwiązanie Deepdub zapewnia najwyższą jakość lokalizacji i dubbingu dla złożonych treści w skali, zdecydowaliśmy się przyjąć hybrydowe podejście i włączyć do procesu ekspertów językowych i głosowych, wraz z naszą technologią eTTS™.
Naszą wizją jest demokratyzacja produkcji głosowej, czyniąc ją masowo skalowalną, powszechnie dostępną, inkluzywną i kulturowo istotną.
Jakie były największe wyzwania techniczne i biznesowe, z którymi się zetknąłeś przy uruchamianiu Deepdub, i jak je pokonałeś?
Zdobycie zaufania branży rozrywkowej było główną przeszkodą przy uruchamianiu Deepdub. Hollywood opierało się na tradycyjnym dubbingu przez dziesięciolecia, a przejście na rozwiązania napędzane przez AI wymagało udowodnienia naszej zdolności do dostarczania wyników o jakości studyjnej w branży często sceptycznej wobec AI.
Aby rozwiązać ten sceptycyzm, najpierw poprawiliśmy autentyczność naszych generowanych przez AI głosów, tworząc w pełni licencjonowany bank głosów. Ten bank zawiera prawdziwe próbki głosów ludzkich, znacznie poprawiając naturalność i ekspresywność naszych wyników, co jest kluczowe dla akceptacji w Hollywood.
Następnie opracowaliśmy własne technologie, takie jak eTTS™, wraz z funkcjami takimi jak Kontrola Akcentu. Te technologie zapewniają, że generowane przez AI głosy nie tylko uchwycą emocjonalną głębię i nuans, ale także będą przestrzegać regionalnej autentyczności wymaganej do wysokiej jakości dubbingu.
Zbudowaliśmy również dedykowany zespół postprodukcji, który ściśle współpracuje z naszą technologią. Ten zespół dopracowuje wyniki AI, zapewniając, że każda część treści jest wypolerowana i spełnia wysokie standardy branży.
Ponadto rozszerzyliśmy nasze podejście, aby objąć globalną sieć ekspertów ludzkich — aktorów głosowych, lingwistów i reżyserów z całego świata. Ci profesjonaliści przynoszą niezwykle cenne wglądy kulturowe i ekspertyzę twórczą, poprawiając kulturową dokładność i emocjonalną rezonans naszych zdubbingowanych treści.
Nasz zespół lingwistyczny pracuje w tandemie z naszą technologią i globalnymi ekspertami, aby upewnić się, że język użyty jest idealny dla kontekstu kulturowego docelowej publiczności, zapewniając jeszcze większą autentyczność i zgodność z normami lokalnymi.
Poprzez te strategie, łącząc zaawansowaną technologię z solidnym zespołem globalnych ekspertów i zespołem postprodukcji, Deepdub pomyślnie udowodnił Hollywood i innym wiodącym firmom produkcyjnym na całym świecie, że AI może znacznie poprawić tradycyjne procesy dubbingu. Ta integracja nie tylko przyspiesza produkcję, ale także rozszerza możliwości ekspansji rynkowej.
Jak technologia dubbingu Deepdub różni się od tradycyjnych metod dubbingu?
Tradycyjny dubbing jest pracochłonnym procesem, który może trwać miesiące na projekt, ponieważ wymaga od aktorów głosowych, inżynierów dźwięku i zespołów postprodukcji ręcznego odtworzenia dialogu w różnych językach. Nasze rozwiązanie rewolucjonizuje ten proces, oferując hybrydowe, końcowe rozwiązanie — łącząc technologię i ekspertyzę ludzką — zintegrowane bezpośrednio z workflow postprodukcji, redukując koszty lokalizacji o nawet 70% i czas realizacji o nawet 50%.
W przeciwieństwie do innych rozwiązań głosowych generowanych przez AI, nasza własna technologia eTTS™ pozwala na poziom emocjonalnej głębi, autentyczności kulturowej i spójności głosu, który tradycyjne metody mają trudności z osiągnięciem w skali.
Czy możesz oprowadzić nas przez hybrydowe podejście Deepdub — jak AI i ekspertyza ludzka współpracują w procesie dubbingu?
Model hybrydowy Deepdub łączy precyzję i skalowalność AI z kreatywnością i wrażliwością kulturową ekspertyzy ludzkiej. Nasze podejście łączy sztukę tradycyjnego dubbingu z zaawansowaną technologią AI, zapewniając, że zlokalizowane treści zachowują emocjonalną autentyczność i wpływ oryginału.
Nasze rozwiązanie wykorzystuje AI do zautomatyzowania podstawowych aspektów lokalizacji, podczas gdy eksperci ludzcy dopracowują emocjonalne niuanse, akcenty i detale kulturowe. Włączamy zarówno naszą własną technologię eTTs™, jak i naszą technologię Voice-to-Voice (V2V), aby poprawić naturalną ekspresywność generowanych przez AI głosów, zapewniając, że uchwycą one głębię i realizm występów ludzkich. W ten sposób zapewniamy, że każda część treści wydaje się tak autentyczna i wpływowa w swojej zlokalizowanej formie, jak i oryginał.
Lingwiści i eksperci głosowi odgrywają kluczową rolę w tym procesie, ponieważ poprawiają kulturową dokładność treści generowanych przez AI. W miarę jak globalizacja kształtuje przyszłość rozrywki, integracja AI z artyzmem ludzkim stanie się standardem dla lokalizacji treści.
Ponadto nasz Program Royalty dla Artystów Głosowych wynagradza profesjonalnych aktorów głosowych, gdy ich głosy są używane w dubbingu wspomaganym przez AI, zapewniając etyczne wykorzystanie technologii głosu AI.
Jak własna technologia Deepdub eTTS™ (Emotion-Text-to-Speech) poprawia autentyczność głosu i emocjonalną głębię w zdubbingowanych treściach?
Tradycyjne generowane przez AI głosy często brak im subtelnych sygnałów emocjonalnych, które sprawiają, że występy są przekonywające. Aby rozwiązać ten problem, Deepdub opracował swoją własną technologię eTTS™, wykorzystując AI i głębokie uczenie modeli, aby generować mowę, która nie tylko zachowuje pełną emocjonalną głębię oryginalnego występu aktora, ale także integruje ludzką inteligencję emocjonalną w procesie zautomatyzowanym. Ta zaawansowana możliwość pozwala AI na delikatne dostosowanie syntetyzowanych głosów do odzwierciedlenia zamierzonych emocji, takich jak radość, gniew lub smutek, rezonując autentycznie z publicznością. Ponadto technologia eTTS™ wyróżnia się produkcją replikacji głosu o wysokiej wierności, naśladując naturalne niuanse w mowie ludzkiej, takie jak pitch, ton i tempo, niezbędne do dostarczania linii, które są prawdziwe i angażujące. Technologia ta również poprawia wrażliwość kulturową, sprawnie adaptując dane wyjściowe do kontroli akcentów, zapewniając, że zdubbingowane treści szanują i są zgodne z nuansami kulturowymi, zwiększając tym samym ich globalny apel i skuteczność.
Jedną z powszechnych krytyk głosów generowanych przez AI jest to, że mogą brzmieć jak roboty. Jak Deepdub zapewnia, że generowane przez AI głosy zachowują naturalność i emocjonalną nuans?
Nasza własna technologia wykorzystuje głębokie uczenie i algorytmy uczenia maszynowego, aby dostarczyć skalowalne, wysokiej jakości rozwiązania dubbingu, które zachowują oryginalny zamiar, styl, humor i nuanse kulturowe.
Wraz z naszą technologią eTTS™, innowacyjny pakiet Deepdub obejmuje funkcje takie jak Voice-to-Voice (V2V), Klonowanie Głosu, Kontrola Akcentu i nasz Bank Emocji Głosowych, które pozwalają zespołom produkcyjnym na dopracowanie występów, aby dopasować je do ich wizji twórczej. Te funkcje zapewniają, że każdy głos posiada emocjonalną głębię i nuans niezbędny do przekonywujących historii i wpływowych doświadczeń użytkowników.
W ciągu ostatnich kilku lat, widzieliśmy coraz większy sukces naszych rozwiązań w branży Media & Rozrywka, więc postanowiliśmy niedawno otworzyć dostęp do naszych zweryfikowanych przez Hollywood głosów dla deweloperów, przedsiębiorstw i twórców treści za pomocą naszego AI Audio API. Napędzane przez naszą technologię eTTS™, API umożliwia generowanie głosu w czasie rzeczywistym z zaawansowanymi parametrami dostosowywania, w tym akcent, ton emocjonalny, tempo i styl głosowy.
Główną funkcją naszego API są ustawienia audio, opracowane na podstawie lat doświadczenia z najczęściej żądanymi potrzebami głosowymi. Te prekonfigurowane ustawienia umożliwiają użytkownikom szybkie adaptowanie różnych typów treści bez konieczności rozległej konfiguracji ręcznej lub eksploracji. Dostępne ustawienia obejmują opisy audio i audiobooki, narrację dokumentalną lub reality, dramat i rozrywkę, dostarczanie wiadomości, komentarz sportowy, głosy anime lub kreskówek, Interactive Voice Response (IVR), a także treści promocyjne i reklamowe.
Dubbing AI obejmuje adaptację kulturową i językową — jak Deepdub zapewnia, że jego rozwiązania dubbingu są odpowiednie kulturowo i dokładne?
Lokalizacja nie jest tylko tłumaczeniem słów — jest to tłumaczenie znaczenia, zamiaru i kontekstu kulturowego. Hybrydowe podejście Deepdub łączy zautomatyzowanie napędzane przez AI z ekspertyzą językową ludzką, zapewniając, że przetłumaczone dialogi odzwierciedlają kulturowe i emocjonalne niuanse docelowej publiczności. Nasza sieć ekspertów lokalizacji pracuje wraz z AI, aby upewnić się, że zdubbingowane treści są zgodne z dialektem regionalnym, wyrażeniami i wrażliwością kulturową.
Co są najbardziej ekscytujące innowacje, nad którymi obecnie pracujesz, aby podnieść dubbing AI na następny poziom?
Jedną z naszych największych innowacji jest Live/Streaming Dubbing, który umożliwi dubbing w czasie rzeczywistym dla transmisji na żywo, takich jak wydarzenia sportowe i media, sprawiając, że globalne wydarzenia będą natychmiast dostępne. Łącząc to z inną z naszych ekscytujących innowacji, naszą funkcją eTTs™, własną technologią, która pozwala na tworzenie głosów brzmiących jak ludzkie z tekstu w dużym stopniu i z pełnym wsparciem emocjonalnym i prawami handlowymi, będziemy w stanie zaoferować wysokiej jakości, autentyczne, emocjonalne dubbingowanie na żywo, niczym niezrównane na rynku.
Weźmy na przykład ceremonię otwarcia olimpiady lub jakiekolwiek inne wydarzenie na żywo. Podczas gdy lokalni nadawcy zwykle zapewniają komentarz w swoim regionalnym języku i dialekcie, ta technologia pozwoli widzom z całego świata doświadczyć pełnego wydarzenia w ich ojczystym języku, gdy się ono rozgrywa.
Dubbing na żywo zrewolucjonizuje, jak wydarzenia na żywo są doświadczane na całym świecie, zapewniając, że język nigdy nie będzie przeszkodą.
Dubbing generowany przez AI spotkał się z krytyką w pewnych projektach ostatnio. Co uważasz, że są kluczowymi czynnikami napędzającymi te krytyki?
Główne krytyki wynikają z obaw dotyczących autentyczności, etyki i jakości. Niektóre generowane przez AI głosy brakowało im emocjonalnej rezonansu i nuansu niezbędnego do immersyjnego opowiadania. W Deepdub, rozwiązaliśmy to, rozwijając emocjonalnie wyraziste głosy AI, zapewniając, że zachowują one duszę oryginalnego występu. Deepdub osiągnął ponad 70% zadowolenia widzów we wszystkich wymiarach, w tym wspaniałe obsadzenie, klarowny dialog, płynną synchronizację i idealne tempo.
Innym problemem jest etyczne wykorzystanie głosów AI. Deepdub jest liderem w odpowiedzialnym dubbingu AI, pionierem pierwszego programu royalty w branży, który wynagradza aktorów głosowych za występy generowane przez AI. Wierzymy, że AI powinno wspierać kreatywność ludzką, a nie ją zastępować, i to zaangażowanie jest odzwierciedlone we wszystkim, co budujemy.
Jak widzisz przyszłość dubbingu AI w branży rozrywkowej w ciągu najbliższych 5-10 lat?
W ciągu najbliższej dekady dubbing AI będzie demokratyzował treści jak nigdy wcześniej, sprawiając, że filmy, programy telewizyjne i transmisje na żywo będą dostępne dla każdej publiczności, wszędzie, w ich ojczystym języku, natychmiast.
Wizjonujemy świat, w którym platformy streamingowe i nadawcy zintegrują dubbing wielojęzyczny w czasie rzeczywistym, usuwając bariery językowe i pozwalając historiom podróżować dalej i szybciej niż tradycyjne metody lokalizacji pozwoliły.
Poza dostępnością językową dubbing AI może również poprawić dostępność mediów dla osób niewidomych i słabowidzących. Wielu z nich polega na opisach audio, aby śledzić treści wizualne, a dubbing AI pozwala im angażować się w treści obcojęzyczne, gdy napisy nie są dostępne. Przełamując zarówno bariery językowe, jak i sensoryczne, dubbing AI pomoże stworzyć bardziej inkluzywne doświadczenie rozrywkowe dla wszystkich, co jest szczególnie istotne, gdy nowe przepisy dotyczące dostępności mediów wchodzą w życie na całym świecie w tym roku.
Co są największe wyzwania, które nadal muszą być rozwiązane, aby dubbing AI stał się naprawdę głównym?
Największymi wyzwaniami są utrzymanie ultra-wysokiej jakości w skali, zapewnienie precyzji kulturowej i językowej oraz ustanowienie wytycznych etycznych dla głosów generowanych przez AI. Jednak poza wyzwaniami technicznymi, akceptacja publiczna dubbingu AI zależy od zaufania. Widzowie muszą czuć, że głosy generowane przez AI zachowują autentyczność i emocjonalną głębię występów, zamiast brzmieć sztucznie lub oderwanie.
Aby dubbing AI został w pełni zaakceptowany, musi być wysokiej jakości, łącząc sztukę ludzką i technologię w skali, oraz demonstrować szacunek dla integralności twórczej, nuansów językowych i kontekstu kulturowego. Oznacza to zapewnienie, że głosy pozostają prawdziwe w stosunku do zamiaru aktorów, unikając nieścisłości, które mogłyby alienować publiczność, oraz rozwiązywanie problemów etycznych związanych z ryzykiem deepfake i własnością głosu.
W miarę jak dubbing AI staje się bardziej powszechny, dostawcy technologii muszą wdrożyć rygorystyczne standardy dla autentyczności głosu, bezpieczeństwa i ochrony własności intelektualnej. Deepdub aktywnie prowadzi prace w tych obszarach, zapewniając, że technologia głosu AI wspiera opowiadanie na całym świecie, szanując jednocześnie artystyczne i zawodowe wkłady talentów ludzkich. Dopiero wtedy widzowie, twórcy treści i stakeholderzy branży w pełni zaakceptują dubbing AI jako godne zaufania i cenne narzędzie.
Dziękujemy za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Deepdub.












