Інтерв’ю
Офір Краковський, генеральний директор і співзасновник Deepdub – Серія інтерв’ю

Офір Краковський є співзасновником і генеральним директором Deepdub. З 30-річним досвідом у галузі комп’ютерних наук і машинного навчання, він відіграв ключову роль у створенні та керівництві відділом машинного навчання та інновацій ВПС Ізраїлю протягом 25 років.
Deepdub – це компанія з дублювання, яка використовує штучний інтелект і технологію клонування голосу для забезпечення високоякісної, масштабованої локалізації для фільмів, телебачення та цифрового контенту. Заснована у 2019 році, вона дозволяє творцям контенту зберегти оригінальні виконання, одночасно безшовно перекладаючи діалог на декілька мов. Інтегруючи синтез мови, керований штучним інтелектом, з лінгвістичним наглядом людини, Deepdub підвищує глобальну доступність контенту, зменшуючи час і вартість традиційного дублювання. Компанія здобула визнання галузі за свою інноваційність, забезпечивши великі партнерства, сертифікації та фінансування для розширення своєї технології локалізації штучного інтелекту у сфері розваг.
Що надихнуло вас заснувати Deepdub у 2019 році? Чи був якийсь особливий момент або виклик, який призвів до його створення?
Традиційне дублювання давно є стандартом галузі для локалізації контенту, але це дорогий, тривалий і ресурсоємний процес. Хоча існували рішення для генерації голосу штучним інтелектом, їм бракувало емоційної глибини, необхідної для справжнього захоплення виконання актора, що робило їх непридатними для високоякісного, складного контенту.
Ми визначили можливість звузити цю прогалину, розробивши рішення для локалізації, керованої штучним інтелектом, яке зберігає емоційну автентичність оригінального виконання, одночасно суттєво покращуючи ефективність. Ми розробили свою пропріетарну технологію eTTS™ (Emotion-Text-to-Speech), яка забезпечує, що голоси, згенеровані штучним інтелектом, несуть той же емоційний вагу, тон і нюанси, що й людські актори.
Ми бачимо світ, у якому мовні та культурні бар’єри більше не будуть перешкодами для глобальної доступності контенту. Створюючи нашу платформу, ми визнали виклик мовних обмежень у сфері розваг, електронного навчання, FAST та інших галузей, і поставили за мету революціонізувати локалізацію контенту.
Для того, щоб забезпечити, що рішення Deepdub забезпечує найвищу якість локалізації та дублювання для складного контенту у масштабі, ми вирішили застосувати гібридний підхід і включити лінгвістичних і голосових експертів у процес, у поєднанні з нашою технологією eTTS™.
Наша мета – демократизувати виробництво голосу, роблячи його масштабованим, універсально доступним, інклюзивним і культурно відповідним.
Які були деякі з найбільших технічних і бізнес-викликів, з якими ви зіткнулися при запуску Deepdub, і як ви їх подолали?
Одним із найбільших перешкод при запуску Deepdub було здобуття довіри галузі розваг. Голлівуд довгий час покладався на традиційне дублювання, і перехід до рішень, керованих штучним інтелектом, вимагав демонстрації нашої здатності доставляти результати студійного рівня у галузі, часто скептичній щодо штучного інтелекту.
Для подолання цього скептицизму ми спочатку покращили автентичність наших голосів, згенерованих штучним інтелектом, створивши повністю ліцензований голосовий банк. Цей банк включає реальні зразки людського голосу, суттєво покращуючи природність і виразність нашого виходу, що є важливим для прийняття в Голлівуді.
Далі ми розробили пропріетарні технології, такі як eTTS™, а також функції, такі як Контроль акценту. Ці технології забезпечують, що голоси, згенеровані штучним інтелектом, не тільки захоплюють емоційну глибину і нюанси, але й відповідають регіональній автентичності, необхідній для високоякісного дублювання.
Ми також створили спеціалізовану внутрішню постпродукційну команду, яка працює в тісній співпраці з нашою технологією. Ця команда доопрацьовує виходи штучного інтелекту, забезпечуючи, що кожна частина контенту відполірована і відповідає високим стандартам галузі.
Крім того, ми розширили свій підхід, включивши глобальну мережу експертів-людей – голосових акторів, лінгвістів і режисерів з усього світу. Ці професіонали приносять невимовну культурну експертизу і творчу майстерність, підвищуючи культурну точність і емоційну резонансність нашого дубльованого контенту.
Наша лінгвістична команда працює в тандемі з нашою технологією і глобальними експертами, щоб забезпечити, що мова, використовувана у контексті культури ціліової аудиторії, ще більше забезпечує автентичність і відповідність місцевим нормам.
Через ці стратегії, поєднуючи передову технологію з потужною командою глобальних експертів і внутрішньої постпродукційної команди, Deepdub успішно продемонстрував Голлівуду і іншим топовим виробничим компаніям світу, що штучний інтелект може суттєво покращити традиційні робочі процеси дублювання. Ця інтеграція не тільки оптимізує виробництво, але й розширює можливості для розширення ринку.
Як технологія дублювання Deepdub, керована штучним інтелектом, відрізняється від традиційних методів дублювання?
Традиційне дублювання – це трудомісткий процес, який може тривати місяцями на проект, оскільки для цього потрібно, щоб голосові актори, інженери звуку та постпродукційні команди вручну відтворювали діалог різними мовами. Наше рішення революціонізує цей процес, пропонуючи гібридне кінцеве рішення – поєднання технології і людської експертизи – інтегроване безпосередньо у робочі процеси постпродакшну, тим самим зменшуючи витрати на локалізацію до 70% і час виконання до 50%.
На відміну від інших рішень для генерації голосу штучним інтелектом, наша пропріетарна технологія eTTS™ дозволяє досягти рівня емоційної глибини, культурної автентичності і консистентності голосу, яких традиційні методи важко досягти у масштабі.
Можете роз’яснити гібридний підхід Deepdub – як штучний інтелект і людська експертиза працюють разом у процесі дублювання?
Гібридна модель Deepdub поєднує точність і масштабованість штучного інтелекту з творчістю і культурною чутливістю людської експертизи. Наш підхід поєднує мистецтво традиційного дублювання з передовою технологією штучного інтелекту, забезпечуючи, що локалізований контент зберігає емоційну автентичність і вплив оригіналу.
Наше рішення використовує штучний інтелект для автоматизації основних аспектів локалізації, тоді як людські професіонали доопрацьовують емоційні нюанси, акценти і культурні деталі. Ми включаємо як нашу пропріетарну технологію eTTs™, так і нашу технологію Voice-to-Voice (V2V), щоб підвищити природну виразність голосів, згенерованих штучним інтелектом, забезпечуючи, що вони захоплюють глибину і реалізм людських виступів. Таким чином, ми забезпечуємо, що кожна частина контенту здається такою ж автентичною і впливовою у локалізованій формі, як і в оригіналі.
Лінгвісти і голосові професіонали відіграють ключову роль у цьому процесі, оскільки вони підвищують культурну точність контенту, згенерованого штучним інтелектом. Коли глобалізація продовжує формувати майбутнє розваг, інтеграція штучного інтелекту з людською творчістю стане золотим стандартом для локалізації контенту.
Крім того,我们的 Програма роялті для голосових артистів компенсує професійним голосовим акторам кожного разу, коли їхні голоси використовуються у дублюванні, підтримуваному штучним інтелектом, забезпечуючи етичне використання технології голосового штучного інтелекту.
Як пропріетарна технологія Deepdub eTTS™ (Emotion-Text-to-Speech) покращує автентичність голосу і емоційну глибину у дубльованому контенті?
Традиційні голоси, згенеровані штучним інтелектом, часто бракують тонких емоційних сигналів, які роблять виступи привабливими. Для подолання цього недоліку Deepdub розробила свою пропріетарну технологію eTTS™, використовуючи штучний інтелект і моделі глибокого навчання для генерації мови, яка не тільки зберігає повну емоційну глибину оригінального виконання актора, але й інтегрує людську емоційну інтелект у автоматизований процес. Ця передова здатність дозволяє штучному інтелекту точно налаштовувати синтезовані голоси для відображення намічних емоцій, таких як радість, гнів або смуток, резонуючи автентично з аудиторією. Крім того, технологія eTTS™ виділяється у виробництві високоякісної реплікації голосу, імітуючи природні нюанси людської мови, такі як висота, тон і темп, необхідні для доставки рядків, які є справжніми і привабливими. Технологія також підвищує культурну чутливість, адаптуючи виходи для контролю акцентів, тим самим підвищуючи її глобальну привабливість і ефективність.
Однією з поширених критик щодо голосів, згенерованих штучним інтелектом, є те, що вони можуть звучати роботично. Як Deepdub забезпечує, що голоси, згенеровані штучним інтелектом, зберігають природність і емоційну нюанс?
Наша пропріетарна технологія використовує глибоке навчання і алгоритми машинного навчання для доставки масштабованих, високоякісних рішень для дублювання, які зберігають оригінальний намір, стиль, гумор і культурні нюанси.
Разом з нашою технологією eTTS™ інноваційна суїта Deepdub включає функції, такі як Voice-to-Voice (V2V), Voice Cloning, Accent Control і наш Vocal Emotion Bank, які дозволяють командам виробництва доопрацьовувати виступи для відповідності їх творчій візії. Ці функції забезпечують, що кожен голос несе емоційну глибину і нюанси, необхідні для привабливого розповідання історій і впливових користувацьких досвідів.
За останні кілька років ми бачили зростаючий успіх наших рішень у галузі Медіа та Розваг, тому ми вирішили відкрити доступ до наших голлівудських голосових озвучувань для розробників, підприємств і творців контенту з нашим API аудіо. Потужний нашою технологією eTTS™, API дозволяє генерацію голосу в реальному часі з передовими параметрами налаштування, включаючи акцент, емоційний тон, темп і стиль голосу.
Флагманська функція нашого API – аудіопресети, розроблені на основі років досвіду галузі з найбільш затребуваними потребами озвучування. Ці попередньо налаштовані параметри дозволяють користувачам швидко адаптувати різні типи контенту без потреби у великому ручному налаштуванні або дослідження. Доступні пресети включають аудіо-описи і аудіокниги, документальне або реальне оповідання, драму і розваги, доставку новин, спортивний коментар, озвучування аніме або мультфільмів, інтерактивну систему голосової відповіді (IVR), а також рекламний і комерційний контент.
Дублювання штучним інтелектом включає культурну і лінгвістичну адаптацію – як Deepdub забезпечує, що його рішення для дублювання є культурно відповідними і точними?
Локалізація – це не тільки переклад слів – це переклад значення, наміру і культурного контексту. Гібридний підхід Deepdub поєднує автоматизацію, керовану штучним інтелектом, з людською лінгвістичною експертизою, забезпечуючи, що перекладений діалог відображає культурні і емоційні нюанси цілової аудиторії. Наша мережа експертів з локалізації працює поряд зі штучним інтелектом, щоб забезпечити, що дубльований контент відповідає регіональним діалектам, виразам і культурним чутливостям.
Які найцікавіші інновації ви зараз працюєте над тим, щоб 推ити дублювання штучним інтелектом на новий рівень?
Однією з найбільших майбутніх інновацій є дублювання в реальному часі, яке дозволить здійснювати дублювання в реальному часі для прямої трансляції, таких як спортивні події і новинні медіа, роблячи глобальні події миттєво доступними. Об’єднавши це з іншою нашою цікавою інновацією, нашою функцією eTTs™, пропріетарною технологією, яка дозволяє створювати голоси, подібні людським, з тексту у великому масштабі і з повною емоційною підтримкою і комерційними правами, ми зможемо пропонувати високоякісне, автентичне, емоційне дублювання в реальному часі, якого немає на ринку.
Взявши, наприклад, церемонію відкриття Олімпіади або будь-яку іншу прямую спортивну подію. Хоча місцеві мовники зазвичай забезпечують коментарі своєю регіональною мовою і діалектом, ця технологія дозволить глядачам з усього світу переживати подію в своїй рідній мові, як вона відбувається.
Дублювання в реальному часі переозначить, як глобальні події переживаються по всьому світу, забезпечуючи, що мова ніколи не буде бар’єром.
Дублювання, згенероване штучним інтелектом, зазнало критики в деяких проектах останнім часом. Що, на вашу думку, є ключовими факторами, які спричиняють ці критики?
Основні критики походять від проблем з автентичністю, етикою і якістю. Деякі голоси, згенеровані штучним інтелектом, бракували емоційної резонансності і нюансів, необхідних для захопливого розповідання історій. У Deepdub ми подолали це, розробивши емоційно виразні голоси штучного інтелекту, забезпечуючи, що вони зберігають душу оригінального виконання. Deepdub досягла понад 70% виняткової задоволеності глядачів по всіх вимірах, включаючи чудове акторське мистецтво, чіткий діалог, безшовну синхронізацію і ідеальний темп.
Іншою проблемою є етичне використання голосів штучного інтелекту. Deepdub є лідером у відповідальному дублюванні штучним інтелектом, який впроваджує першу в галузі Програму роялті, яка компенсує голосовим акторам за виступи, згенеровані штучним інтелектом. Ми вважаємо, що штучний інтелект повинен підвищувати людську творчість, а не замінювати її, і ця приверженість відображається у всьому, що ми будемо будувати.
Як ви бачите дублювання штучним інтелектом, яке змінює глобальну індустрію розваг за наступні 5-10 років?
У наступному десятилітті дублювання, кероване штучним інтелектом, демократизує контент, як ніколи раніше, роблячи фільми, телешоу і прямої трансляції доступними кожній аудиторії, скрізь, їхньою рідною мовою миттєво.
Ми бачимо світ, у якому платформи потокового мовлення і мовники інтегрують багатомовне дублювання в реальному часі, усуваючи мовні бар’єри і дозволяючи історіям подорожувати далі і швидше, ніж традиційні методи локалізації дозволяли.
Поза мовною доступністю дублювання штучним інтелектом також може підвищити доступність медіа для сліпих і людей з порушеннями зору. Багато хто залежить від аудіо-описів, щоб слідкувати за візуальним контентом, і дублювання штучним інтелектом дозволяє їм взаємодіяти з іноземним контентом, коли субтитри не є доступним варіантом. Розбиваючи як мовні, так і сенсорні бар’єри, дублювання штучним інтелектом допоможе створити більш інклюзивний досвід розваг для всіх, що особливо критично, оскільки нові правила щодо доступності медіа набувають чинності у світі цього року.
Які найбільші виклики, які все ще потрібно вирішити, щоб дублювання штучним інтелектом стало真正ньо мейнстрімом?
Найбільші виклики – це підтримання надвисокої якості у масштабі, забезпечення культурної і лінгвістичної точності, а також встановлення етичних керівних принципів для голосів, згенерованих штучним інтелектом. Однак, окрім технічних перешкод, публічне прийняття дублювання штучним інтелектом залежить від довіри. Глядачі повинні відчувати, що голоси, згенеровані штучним інтелектом, зберігають автентичність і емоційну глибину виступів, а не звучать синтетично або відсторонено.
Для того, щоб дублювання штучним інтелектом було повністю прийнято, воно повинно бути високоякісним, поєднуючи людську творчість і технологію у масштабі, і демонструвати повагу до творчої цілісності, лінгвістичної нюансів і культурного контексту. Це означає забезпечення того, що голоси залишаються вірними оригінальному наміру акторів, уникання неточностей, які могли б відштовхнути аудиторію, і вирішення етичних проблем щодо ризиків дипфейків і власності голосу.
Когда дублювання штучним інтелектом стане більш поширеним, постачальники технологій повинні реалізувати суворі стандарти для автентичності голосу, безпеки і захисту інтелектуальної власності. Deepdub активно веде цю справу, забезпечуючи, що технологія голосу штучного інтелекту підвищує глобальне розповідання історій, одночасно поважаючи художню і професійну внесок людського таланту. Тільки тоді аудиторія, творці контенту і учасники галузі повністю приймуть дублювання штучним інтелектом як надійний і цінний інструмент.
Дякуємо за велике інтерв’ю, читачам, які бажають дізнатися більше, повинні відвідати Deepdub.












