Интервью
Офир Краковски, генеральный директор и сооснователь Deepdub – Серия интервью

Офир Краковски является сооснователем и генеральным директором Deepdub. С 30-летним опытом в области компьютерных наук и машинного обучения, он сыграл ключевую роль в создании и руководстве отделом машинного обучения и инноваций израильских ВВС в течение 25 лет.
Deepdub – это компания, занимающаяся дубляжом с использованием ИИ, которая использует глубокое обучение и клонирование голоса для предоставления высококачественной, масштабируемой локализации для фильмов, телевидения и цифрового контента. Основанная в 2019 году, она позволяет создателям контента сохранять оригинальные выступления, одновременно обеспечивая бесшовный перевод диалогов на несколько языков. Интегрируя синтез речи на основе ИИ с человеческим лингвистическим надзором, Deepdub повышает доступность контента во всем мире, снижая время и стоимость традиционного дубляжа. Компания получила признание в отрасли за свою инновационность, обеспечив крупные партнерства, сертификаты и финансирование для расширения своей технологии локализации ИИ в секторе развлечений.
Что вдохновило вас основать Deepdub в 2019 году? Был ли какой-то конкретный момент или вызов, который привел к ее созданию?
Традиционный дубляж долгое время был отраслевым стандартом для локализации контента, но это дорогой, трудоемкий и ресурсоемкий процесс. Хотя существовали решения для генерации голоса на основе ИИ, они не имели эмоциональной глубины, необходимой для真正его захвата выступления актера, что делало их непригодными для высококачественного, сложного контента.
Мы определили возможность сократить этот разрыв, разработав решение для локализации на основе ИИ, которое сохраняет эмоциональную аутентичность оригинального выступления, одновременно значительно улучшая эффективность. Мы разработали нашу проприетарную технологию eTTS (Эмоция-Текст-в-Речь), которая гарантирует, что генерируемые ИИ голоса несут тот же эмоциональный вес, тон и нюансы, что и человеческие актеры.
Мы представляем себе мир, где языковые и культурные барьеры больше не являются препятствиями для глобальной доступности контента. При создании нашей платформы мы признали вызов языковых ограничений в сфере развлечений, электронного обучения, FAST и других отраслей, и поставили цель революционизировать локализацию контента.
Чтобы гарантировать, что решение Deepdub обеспечивает высочайшее качество локализации и дубляжа для сложного контента в масштабе, мы решили принять гибридный подход и включить лингвистических и голосовых экспертов в процесс, в сочетании с нашей технологией eTTS.
Наша цель – демократизировать производство голоса, сделав его массово масштабируемым, универсально доступным, инклюзивным и культурно релевантным.
Какие были некоторые из самых больших технических и деловых вызовов, с которыми вы столкнулись при запуске Deepdub, и как вы их преодолели?
Одной из основных проблем при запуске Deepdub было завоевание доверия индустрии развлечений. Голливуд полагался на традиционный дубляж десятилетиями, и переход к решениям на основе ИИ требовал демонстрации нашей способности обеспечить качество, соответствующее студийным стандартам, в отрасли, часто скептической по отношению к ИИ.
Чтобы решить эту скептицизм, мы сначала повысили аутентичность наших генерируемых ИИ голосов, создав полностью лицензированный банк голосов. Этот банк включает реальные образцы человеческого голоса, значительно улучшающие естественность и выразительность нашего вывода, что имеет решающее значение для принятия в Голливуде.
Далее мы разработали проприетарные технологии, такие как eTTS, а также функции, такие как Контроль Акцента. Эти технологии гарантируют, что генерируемые ИИ голоса не только захватывают эмоциональную глубину и нюансы, но также соответствуют региональной аутентичности, необходимой для высококачественного дубляжа.
Мы также построили посвященную внутреннюю команду постпродакшна, которая тесно работает с нашей технологией. Эта команда донастраивает вывод ИИ, гарантируя, что каждый кусок контента отполирован и соответствует высоким стандартам отрасли.
Кроме того, мы расширили наш подход, чтобы включить глобальную сеть человеческих экспертов – голосовых актеров, лингвистов и режиссеров со всего мира. Эти профессионалы приносят бесценные культурные идеи и творческую экспертизу, повышая культурную точность и эмоциональный резонанс нашего дублированного контента.
Наша лингвистическая команда работает в тандеме с нашей технологией и глобальными экспертами, чтобы гарантировать, что используемый язык идеален для культурного контекста целевой аудитории, еще больше гарантируя аутентичность и соблюдение местных норм.
Благодаря этим стратегиям, сочетая передовые технологии с прочной командой глобальных экспертов и внутренней командой постпродакшна, Deepdub успешно продемонстрировала Голливуду и другим топовым производственным компаниям во всем мире, что ИИ может значительно улучшить традиционные рабочие процессы дубляжа. Это интеграция не только оптимизирует производство, но и расширит возможности для расширения рынка.
Как технология дубляжа Deepdub, работающая на основе ИИ, отличается от традиционных методов дубляжа?
Традиционный дубляж – это трудоемкий процесс, который может занять месяцы на проект, поскольку он требует голосовых актеров, звукорежиссеров и команд постпродакшна для ручного воспроизведения диалогов на разных языках. Наше решение революционизирует этот процесс, предлагая гибридное решение от начала до конца – сочетая технологию и человеческую экспертизу – интегрированное直接 в рабочие процессы постпродакшна, тем самым снижая затраты на локализацию до 70% и время выполнения до 50%.
В отличие от других решений для генерации голоса на основе ИИ, наша проприетарная технология eTTS позволяет достичь уровня эмоциональной глубины, культурной аутентичности и последовательности голоса, который традиционные методы с трудом могут достичь в масштабе.
Можете ли вы пройти с нами через гибридный подход, который использует Deepdub – как ИИ и человеческая экспертиза работают вместе в процессе дубляжа?
Гибридная модель Deepdub сочетает точность и масштабируемость ИИ с творчеством и культурной чувствительностью человеческой экспертизы. Наш подход сочетает художественность традиционного дубляжа с передовой технологией ИИ, гарантируя, что локализованный контент сохраняет эмоциональную аутентичность и воздействие оригинала.
Наше решение использует ИИ для автоматизации основной работы по локализации, в то время как человеческие профессионалы уточняют эмоциональные нюансы, акценты и культурные детали. Мы включаем как нашу проприетарную технологию eTTs, так и нашу технологию Голос-в-Голос (V2V), чтобы повысить естественную выразительность генерируемых ИИ голосов, гарантируя, что они захватывают глубину и реализм человеческих выступлений. Таким образом, мы гарантируем, что каждый кусок контента кажется таким же аутентичным и влиятельным в своей локализованной форме, как и в оригинале.
Лингвисты и голосовые профессионалы играют ключевую роль в этом процессе, поскольку они повышают культурную точность генерируемого ИИ контента. По мере того, как глобализация продолжает формировать будущее развлечений, интеграция ИИ с человеческим творчеством станет золотым стандартом для локализации контента.
Кроме того, наша Программа роялти для голосовых актеров компенсирует профессиональным голосовым актерам всякий раз, когда их голоса используются в дубляже с помощью ИИ, гарантируя этичное использование технологии голосового ИИ.
Как проприетарная технология Deepdub eTTS (Эмоция-Текст-в-Речь) улучшает аутентичность голоса и эмоциональную глубину в дублированном контенте?
Традиционные генерируемые ИИ голоса часто лишены тонких эмоциональных сигналов, которые делают выступления привлекательными. Чтобы решить эту проблему, Deepdub разработала свою проприетарную технологию eTTS, использующую ИИ и модели глубокого обучения для генерации речи, которая не только сохраняет полную эмоциональную глубину оригинального выступления актера, но также интегрирует человеческий эмоциональный интеллект в автоматизированный процесс. Эта передовая возможность позволяет ИИ тонко регулировать синтезированные голоса, чтобы отразить предназначенные эмоции, такие как радость, гнев или печаль, резонируя аутентично с аудиторией. Кроме того, технология eTTS excels в производстве высококачественной репликации голоса, имитирующей естественные нюансы в человеческой речи, такие как высота, тон и темп, необходимые для доставки строк, которые являются искренними и увлекательными. Технология также повышает культурную чувствительность, умело адаптируя вывод, чтобы контролировать акценты, гарантируя, что дублированный контент уважает и соответствует культурным нюансам, тем самым повышая его глобальную привлекательность и эффективность.
Одна из распространенных критик дубляжа, сгенерированного ИИ, заключается в том, что он может звучать роботизированно. Как Deepdub гарантирует, что генерируемые ИИ голоса сохраняют естественность и эмоциональную нюанс?
Наша проприетарная технология использует глубокое обучение и алгоритмы машинного обучения для предоставления масштабируемых, высококачественных решений для дубляжа, которые сохраняют оригинальный замысел, стиль, юмор и культурные нюансы.
Вместе с нашей технологией eTTS инновационный набор Deepdub включает функции, такие как Голос-в-Голос (V2V), Клонирование Голоса, Контроль Акцента и наш Банк Вокальной Эмоции, которые позволяют командам производства донастроить выступления, чтобы они соответствовали их творческому видению. Эти функции гарантируют, что каждый голос несет эмоциональную глубину и нюанс, необходимые для привлекательного рассказывания историй и влиятельных пользовательских опытов.
За последние несколько лет мы видели растущий успех наших решений в отрасли СМИ и развлечений, поэтому мы最近 решили открыть доступ к нашим проверенным Голливудом голосовым для разработчиков, предприятий и создателей контента с помощью нашего Аудио-API ИИ. Основанный на нашей технологии eTTS, API позволяет генерировать голоса в реальном времени с расширенными параметрами настройки, включая акцент, эмоциональный тон, темп и стиль голоса.
Флагманской функцией нашего API являются аудио-предустановки, разработанные на основе лет опыта отрасли с наиболее запрошенными потребностями в голосовом сопровождении. Эти предварительно настроенные настройки позволяют пользователям быстро адаптировать разные типы контента без необходимости обширной ручной настройки или исследования. Доступные предустановки включают аудио-описания и аудиокниги, документальное или реальное повествование, драму и развлечения, доставку новостей, спортивный комментарий, аниме или мультяшные голоса, Интерактивный голосовой ответ (IVR), а также рекламный и коммерческий контент.
Дубляж с помощью ИИ включает культурную и лингвистическую адаптацию – как Deepdub гарантирует, что его решения для дубляжа культурно подходят и точны?
Локализация не только о переводе слов – это о переводе смысла, намерения и культурного контекста. Гибридный подход Deepdub сочетает автоматизацию на основе ИИ с человеческой лингвистической экспертизой, гарантируя, что переведенный диалог отражает культурные и эмоциональные нюансы целевой аудитории. Наша сеть экспертов по локализации работает вместе с ИИ, чтобы гарантировать, что дублированный контент соответствует региональным диалектам, выражениям и культурным чувствительностям.
Какие самые интересные инновации вы в настоящее время работаете над тем, чтобы толкнуть дубляж ИИ на новый уровень?
Одной из наших крупнейших предстоящих инноваций является дубляж в прямом эфире, который позволит осуществлять дубляж в реальном времени для прямых трансляций, таких как спортивные мероприятия и новостные медиа, делая глобальные события мгновенно доступными. Объединив это с другой нашей интересной инновацией, нашей функцией eTTs, проприетарной технологией, которая позволяет создавать голоса, похожие на человеческие, из текста в крупном масштабе и с полной эмоциональной поддержкой и коммерческими правами, мы сможем предложить высококачественный, аутентичный и эмоциональный дубляж в прямом эфире, не имеющий аналогов на рынке.
Возьмем, к примеру, церемонию открытия Олимпийских игр или любое другое прямое спортивное мероприятие. Хотя местные вещатели обычно предоставляют комментарии на региональном языке и диалекте, эта технология позволит зрителям со всего мира испытать полное событие на своем родном языке, по мере его развития.
Дубляж в прямом эфире переопределит, как живые события переживаются во всем мире, гарантируя, что язык никогда не будет препятствием.
Дубляж, сгенерированный ИИ, подвергся критике в определенных проектах в последнее время. Что, по вашему мнению, являются ключевыми факторами, которые стимулируют эти критики?
Основные критики исходят от проблем с аутентичностью, этикой и качеством. Некоторые генерируемые ИИ голоса не имели эмоционального резонанса и нюансов, необходимых для погружающего рассказывания историй. В Deepdub мы решили эту проблему, разработав эмоционально выразительные голоса ИИ, гарантируя, что они сохраняют душу оригинального выступления. Deepdub достигла более 70% исключительного удовлетворения зрителей по всем параметрам, включая превосходное актерское мастерство, ясный диалог, бесшовную синхронизацию и идеальный темп.
Другой проблемой является этичное использование голосов ИИ. Deepdub является лидером в ответственной локализации ИИ, пионером в отрасли первой программы роялти, которая компенсирует голосовым актерам выступления, сгенерированные ИИ. Мы считаем, что ИИ должен улучшать человеческое творчество, а не заменять его, и эта приверженность отражена во всем, что мы строим.
Как вы видите дубляж ИИ, меняющий глобальную индустрию развлечений в течение следующих 5-10 лет?
В течение следующего десятилетия дубляж на основе ИИ демократизирует контент, как никогда раньше, делая фильмы, телешоу и прямые трансляции доступными каждой аудитории, где бы она ни была, на ее родном языке мгновенно.
Мы представляем себе мир, где платформы потокового вещания и вещатели интегрируют многolingвальный дубляж в реальном времени, удаляя языковые барьеры и позволяя историям путешествовать дальше и быстрее, чем традиционные методы локализации допускали.
Помимо языковой доступности дубляж ИИ также может улучшить доступ к медиа для слепых и людей с нарушениями зрения. Многие полагаются на аудио-описания, чтобы следить за визуальным контентом, и дубляж ИИ позволяет им взаимодействовать с иностранным контентом, когда субтитры не являются доступным вариантом. Разрушая как языковые, так и сенсорные барьеры, дубляж на основе ИИ поможет создать более инклюзивный опыт развлечений для всех, что особенно важно, поскольку новые правила доступности медиа вступают в силу во всем мире в этом году.
Какие из самых больших проблем все еще необходимо решить, чтобы дубляж ИИ стал真正щим мейнстримом?
Самыми большими проблемами являются поддержание сверхвысокого качества в масштабе, обеспечение культурной и лингвистической точности, а также установление этических руководств для голосов, сгенерированных ИИ. Однако, помимо технических препятствий, общественное принятие дубляжа ИИ зависит от доверия. Зрители должны чувствовать, что голоса, сгенерированные ИИ, сохраняют аутентичность и эмоциональную глубину выступлений, а не звучат синтетически или отстраненно.
Чтобы дубляж ИИ был полностью принят, он должен быть высокого качества, сочетая человеческое творчество и технологию в масштабе, и также демонстрировать уважение к творческой целостности, лингвистическим нюансам и культурному контексту. Это означает обеспечение того, чтобы голоса оставались верными исходному замыслу актеров, избегая неточностей, которые могли бы оттолкнуть аудиторию, и решая этические проблемы, связанные с рисками дипфейка и владением голосом.
По мере того, как дубляж ИИ становится более распространенным, поставщики технологий должны реализовать строгие стандарты для аутентичности голоса, безопасности и защиты интеллектуальной собственности. Deepdub активно лидирует в этих областях, гарантируя, что технология голоса ИИ улучшает глобальное рассказывание историй, уважая художественные и профессиональные вклады человеческого таланта. Только тогда аудитория, создатели контента и заинтересованные стороны отрасли полностью примут дубляж ИИ как заслуживающий доверия и ценный инструмент.
Большое спасибо за отличное интервью, читателям, которые хотят узнать больше, следует посетить Deepdub.












