Интервью
Антон Дворкович, генеральный директор и основатель Dubformer – серия интервью

Антон Дворкович, генеральный директор и основатель Dubformer, более десяти лет работал над формированием взаимосвязи между искусственным интеллектом, языковыми и речевыми технологиями. До запуска Dubformer в 2023 году он руководил крупными проектами в области машинного обучения и обработки естественного языка в Яндексе, курируя такие продукты, как Яндекс.Переводчик, Яндекс.Клавиатура и голосовой помощник «Алиса», каждый из которых обслуживает миллионы пользователей. В Nebius он возглавлял направление искусственного интеллекта, развивая масштабную инфраструктуру для интеллектуальных систем. Его опыт управления кросс-функциональными командами, состоящими из более чем 100 инженеров, разработчиков и исследователей, заложил основу для концепции Dubformer — преодоления языковых барьеров с помощью передового озвучивания на основе искусственного интеллекта.
Дубформер — стартап по дубляжу на базе искусственного интеллекта со штаб-квартирой в Амстердаме, который уже обработал более миллиона минут локализованного видеоконтента. Компания специализируется на переводе и дубляже видео с использованием синтетических голосов, сохраняющих эмоциональный тон, темп и индивидуальность говорящего, помогая создателям, студиям и компаниям сделать свой контент доступным по всему миру. Её платформа использует модели глубокого обучения для распознавания речи, клонирования голоса и перевода, обеспечивая естественное звучание, значительно превосходящее результаты традиционных инструментов дубляжа.
После руководства командами обработки естественного языка и озвучивания в «Яндексе», а также работы руководителем направления искусственного интеллекта в Nebius, что побудило вас создать специализированную компанию по дубляжу на базе искусственного интеллекта, и как этот опыт повлиял на ваше видение?
Работая в Яндексе руководителем отдела обработки естественного языка (NLP), я проникся страстью к разрушению языковых барьеров с помощью технологий. Я стал свидетелем (и участником) революции искусственного интеллекта, произошедшей с машинным переводом, и тогда я понял, что большой пробел, который до сих пор остаётся практически нерешённым, — это перевод медиа (аудио и видео). Когда видишь, что перевод текста становится почти идеальным, начинаешь спрашивать: а как насчёт историй, которые действительно трогают людей? А как насчёт выступлений, которые заставляют смеяться или плакать? Поэтому мы решили взяться за создание технологии озвучивания на основе искусственного интеллекта и выйти за рамки просто понятного перевода медиа, сделав его по-настоящему приятным. Именно поэтому мы запустили Dubformer.
Какой конкретный пробел в локализации медиа вы выявили и как ваш опыт в области нейронного машинного перевода и голосовых технологий повлиял на ваш подход к его решению?
Сегодня локализация медиаматериалов практически полностью осуществляется актёрами озвучивания, что имеет ряд недостатков: это довольно дорого, сроки выполнения большие, масштабирование очень сложное и приводит к огромным накладным расходам на управление персоналом. Подумайте только: традиционное дубляжное мастерство невероятно, но эти ограничения означают, что многие проекты вообще не дублируются. Таким образом, хотя традиционный дубляж довольно хорош, многие проекты пока не дублируются из-за вышеупомянутых недостатков. Фактически, 95% контента доступно только на языке оригинала. Именно этот пробел мы и заполнили.
Тест VOX-DUB — важная веха в оценке качества дубляжа. Какую информацию о текущем состоянии отрасли дало участие в тестировании?
Результаты VOX-DUB выявили нечто важное: индустрия уже решила проблему создания закадровой озвучки с использованием искусственного интеллекта, «похожей на человеческую» для контента, где эмоциональная составляющая не имеет решающего значения. Однако дубляж контента, где эмоции действительно важны, остаётся нерешённой задачей, хотя может показаться, что всё уже решено. Многие системы способны воспроизводить понятную речь, но лишь немногие способны создавать аутентичные и эмоционально созвучные оригиналу сценические образы. Мы освоили чтение текста вслух, но всё ещё учимся играть сцены.
Вы говорили о компромиссе между точностью передачи голоса и общим качеством речи. Как вы подходите к балансу этих факторов в своих системах?
На самом деле, компромисс часто заключается не в точности передачи голоса и качестве, а в глубине эмоциональной, интонационной и экспрессивной передачи и стабильности результата. Чем больше усилий вы прикладываете, тем выше риск неправильного переноса, особенно учитывая, что эмоции звучат и выражаются по-разному в разных языках. То, что звучит страстно в одном языке, может звучать неестественно или даже резко в другом. Мы стремимся найти баланс между эмоциональной точностью и естественностью, гарантируя, что перевод останется выразительным и при этом комфортным для восприятия.
Чем, по вашему мнению, ИИ-дублирование принципиально отличается от традиционного преобразования текста в речь — как в техническом, так и в художественном плане?
Традиционная система озвучивания текста (TTS) фокусируется на простом чтении текста, обычно нейтральном тоне. Дубляж с использованием ИИ, особенно в медиаиндустрии, — гораздо более сложная задача, где цель — не просто передать смысл, но и создать ощущение присутствия и подлинного исполнения. Эмоции, интонации и естественные паузы играют решающую роль, наряду с такими сложностями, как микширование, акустическая адаптация и синхронизация с движениями губ и ритмом сцены. С точки зрения искусства дубляж с использованием ИИ гораздо ближе к актёрской игре, чем к чтению: система должна сыграть реплику, а не просто произнести её.
Какие аспекты системы оценки VOX-DUB вы считаете наиболее ценными для обеспечения прозрачности и подотчетности в локализации медиаконтента на базе ИИ?
VOX-DUB делает этот подход настолько ценным с точки зрения прозрачности, поскольку он требует от всех честности в отношении того, что они действительно могут предложить. До появления этой системы компании могли заявлять о качестве своего дубляжа, не имея возможности его проверить. Ключевым достижением является то, что VOX-DUB представляет первый систематизированный каталог ошибок дубляжа, допущенных искусственным интеллектом, с помощью комплексного бенчмарка, основанного на человеческих данных. набор данных с открытым исходным кодом Создаётся общий язык для обеспечения качества: оригинальные фрагменты речи с переводами, аудио, сгенерированное с помощью нескольких систем, и человеческие комментарии по пяти важнейшим аспектам: произношение, естественность, качество звука, сходство эмоций и сходство голоса. Впервые у нас есть стандарт для человеческой оценки дубляжа с чёткими рекомендациями и примерами. Теперь, когда команды говорят о качестве, все говорят об одном и том же. Опубликованные результаты, которые может увидеть каждый, создают реальную ответственность. Командам необходимо подкреплять свои маркетинговые заявления данными об эффективности по всем пяти параметрам качества. Такая открытость меняет принципы работы всей отрасли и укрепляет доверие создателей, которым нужны надёжные, измеримые результаты.
Как, по вашему мнению, такие бенчмарки, как VOX-DUB, влияют на темпы прогресса в создании и распространении многоязычного контента?
Преимущество чётких ориентиров в том, что они создают дорожную карту, которой все могут следовать. Когда команды видят, чего можно достичь благодаря результатам VOX-DUB, это ускоряет их собственные сроки разработки. Вместо того, чтобы гадать о качестве, у них есть конкретные цели, к которым нужно стремиться. Я наблюдаю, как компании сокращают свои дорожные карты, видя примеры успешного опыта других компаний. Это общее понимание помогает всей отрасли быстрее развиваться вместе, а это значит, что более разнообразный контент может быстрее достичь глобальной аудитории.
Ваша платформа достигла отличных результатов в области произношения и естественности. Какие базовые инновации или выбор моделей в наибольшей степени способствовали этому?
Всё сводится к пониманию того, что дубляж — это не просто отдельные слова, а целая экосистема исполнения. Два прорыва сыграли решающую роль. Во-первых, мы перестали относиться к произношению как к чисто техническому аспекту и стали относиться к нему как к эмоциональному. Люди говорят не идеально артикулированными слогами; они невнятно произносят слова, когда грустят, и торопятся, когда волнуются. Уловить это естественное несовершенство было критически важно. Во-вторых, нам нужно было продумать весь звуковой ландшафт. Когда кто-то говорит в сцене с дождём или в гулком соборе, его голос естественным образом адаптируется. Наша система научилась сливаться с исходной акустической средой. Это были не просто технические улучшения. Они были направлены на понимание того, что делает речь человеческой.
Каким образом ваша платформа объединяет человеческий опыт и автоматизацию для обеспечения профессионального дубляжа в любом масштабе?
Мы тесно сотрудничаем с традиционными студиями дубляжа, помогая им обучать своих сотрудников новым навыкам и новым профессиям. ИИ отвечает за перевод, синхронизацию и озвучивание, а профессиональные редакторы, переводчики и звукорежиссёры проводят финальную проверку качества через нашу платформу. Такой подход позволяет нам поддерживать качество студийного уровня, сокращая сроки выполнения работ с нескольких недель до нескольких часов. Автоматизация обеспечивает масштабируемость, а человеческий опыт — художественную выразительность. Это лучшее из двух миров: эффективность машин и мастерство человека.
Учитывая стремительный рост рынка локализации медиаконтента на основе ИИ, какую более широкую роль, по вашему мнению, ИИ будет играть в преобразовании мирового творческого производства?
Локализация на основе искусственного интеллекта сделает дубляж доступным гораздо более широкому кругу авторов и рассказчиков. Это позволит им делиться своими историями с мировой аудиторией, не теряя при этом эмоциональной глубины и культурной аутентичности. Со временем это приведёт к значительному разнообразию контента, открывая возможности для нишевых проектов и специализированной аудитории, которая раньше не могла себе позволить профессиональный дубляж. Вспомните независимых режиссёров, создателей документальных фильмов и образовательного контента: они наконец смогут охватить международную аудиторию, которая раньше была им недоступна.
Какие предстоящие достижения или совместные проекты вызывают у вас наибольший энтузиазм в связи с предстоящим этапом развития?
Больше всего меня вдохновляет постоянное совершенствование наших возможностей по передаче эмоций. Мы добились значительного прогресса, но нам ещё многое предстоит сделать, чтобы сохранить тонкие нюансы, которые делают выступления аутентичными. В рамках сотрудничества мы выстраиваем более тесное партнёрство с традиционными студиями дубляжа, чтобы создавать гибридные рабочие процессы, сочетающие лучшее из обоих миров. Эти студии обладают многолетним опытом, которому мы учимся, и одновременно предоставляем технологии для расширения их возможностей. Самое интересное сотрудничество – со студиями, которые рассматривают ИИ не как замену, а как способ усилить свои команды и взяться за более разнообразные проекты, с которыми они раньше не справлялись. Настоящий прорыв наступит, когда мы сможем стабильно создавать выступления, о которых зрители забудут, что они созданы с помощью ИИ. Именно к этому мы и движемся.
Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Дубформер.












