Свяжитесь с нами:

Антон Дворкович, генеральный директор и основатель Dubformer – серия интервью

Интервью

Антон Дворкович, генеральный директор и основатель Dubformer – серия интервью

mm

Антон Дворкович, генеральный директор и основатель Dubformer, более десяти лет работал над формированием взаимосвязи между искусственным интеллектом, языковыми и речевыми технологиями. До запуска Dubformer в 2023 году он руководил крупными проектами в области машинного обучения и обработки естественного языка в Яндексе, курируя такие продукты, как Яндекс.Переводчик, Яндекс.Клавиатура и голосовой помощник «Алиса», каждый из которых обслуживает миллионы пользователей. В Nebius он возглавлял направление искусственного интеллекта, развивая масштабную инфраструктуру для интеллектуальных систем. Его опыт управления кросс-функциональными командами, состоящими из более чем 100 инженеров, разработчиков и исследователей, заложил основу для концепции Dubformer — преодоления языковых барьеров с помощью передового озвучивания на основе искусственного интеллекта.

Дубформер — стартап по дубляжу на базе искусственного интеллекта со штаб-квартирой в Амстердаме, который уже обработал более миллиона минут локализованного видеоконтента. Компания специализируется на переводе и дубляже видео с использованием синтетических голосов, сохраняющих эмоциональный тон, темп и индивидуальность говорящего, помогая создателям, студиям и компаниям сделать свой контент доступным по всему миру. Её платформа использует модели глубокого обучения для распознавания речи, клонирования голоса и перевода, обеспечивая естественное звучание, значительно превосходящее результаты традиционных инструментов дубляжа.

Работая в Яндексе руководителем отдела обработки естественного языка (NLP), я проникся страстью к разрушению языковых барьеров с помощью технологий. Я стал свидетелем (и участником) революции искусственного интеллекта, произошедшей с машинным переводом, и тогда я понял, что большой пробел, который до сих пор остаётся практически нерешённым, — это перевод медиа (аудио и видео). Когда видишь, что перевод текста становится почти идеальным, начинаешь спрашивать: а как насчёт историй, которые действительно трогают людей? А как насчёт выступлений, которые заставляют смеяться или плакать? Поэтому мы решили взяться за создание технологии озвучивания на основе искусственного интеллекта и выйти за рамки просто понятного перевода медиа, сделав его по-настоящему приятным. Именно поэтому мы запустили Dubformer.

Сегодня локализация медиаматериалов практически полностью осуществляется актёрами озвучивания, что имеет ряд недостатков: это довольно дорого, сроки выполнения большие, масштабирование очень сложное и приводит к огромным накладным расходам на управление персоналом. Подумайте только: традиционное дубляжное мастерство невероятно, но эти ограничения означают, что многие проекты вообще не дублируются. Таким образом, хотя традиционный дубляж довольно хорош, многие проекты пока не дублируются из-за вышеупомянутых недостатков. Фактически, 95% контента доступно только на языке оригинала. Именно этот пробел мы и заполнили.

Результаты VOX-DUB выявили нечто важное: индустрия уже решила проблему создания закадровой озвучки с использованием искусственного интеллекта, «похожей на человеческую» для контента, где эмоциональная составляющая не имеет решающего значения. Однако дубляж контента, где эмоции действительно важны, остаётся нерешённой задачей, хотя может показаться, что всё уже решено. Многие системы способны воспроизводить понятную речь, но лишь немногие способны создавать аутентичные и эмоционально созвучные оригиналу сценические образы. Мы освоили чтение текста вслух, но всё ещё учимся играть сцены.

Вы говорили о компромиссе между точностью передачи голоса и общим качеством речи. Как вы подходите к балансу этих факторов в своих системах?

На самом деле, компромисс часто заключается не в точности передачи голоса и качестве, а в глубине эмоциональной, интонационной и экспрессивной передачи и стабильности результата. Чем больше усилий вы прикладываете, тем выше риск неправильного переноса, особенно учитывая, что эмоции звучат и выражаются по-разному в разных языках. То, что звучит страстно в одном языке, может звучать неестественно или даже резко в другом. Мы стремимся найти баланс между эмоциональной точностью и естественностью, гарантируя, что перевод останется выразительным и при этом комфортным для восприятия.

Традиционная система озвучивания текста (TTS) фокусируется на простом чтении текста, обычно нейтральном тоне. Дубляж с использованием ИИ, особенно в медиаиндустрии, — гораздо более сложная задача, где цель — не просто передать смысл, но и создать ощущение присутствия и подлинного исполнения. Эмоции, интонации и естественные паузы играют решающую роль, наряду с такими сложностями, как микширование, акустическая адаптация и синхронизация с движениями губ и ритмом сцены. С точки зрения искусства дубляж с использованием ИИ гораздо ближе к актёрской игре, чем к чтению: система должна сыграть реплику, а не просто произнести её.

Преимущество чётких ориентиров в том, что они создают дорожную карту, которой все могут следовать. Когда команды видят, чего можно достичь благодаря результатам VOX-DUB, это ускоряет их собственные сроки разработки. Вместо того, чтобы гадать о качестве, у них есть конкретные цели, к которым нужно стремиться. Я наблюдаю, как компании сокращают свои дорожные карты, видя примеры успешного опыта других компаний. Это общее понимание помогает всей отрасли быстрее развиваться вместе, а это значит, что более разнообразный контент может быстрее достичь глобальной аудитории.

Всё сводится к пониманию того, что дубляж — это не просто отдельные слова, а целая экосистема исполнения. Два прорыва сыграли решающую роль. Во-первых, мы перестали относиться к произношению как к чисто техническому аспекту и стали относиться к нему как к эмоциональному. Люди говорят не идеально артикулированными слогами; они невнятно произносят слова, когда грустят, и торопятся, когда волнуются. Уловить это естественное несовершенство было критически важно. Во-вторых, нам нужно было продумать весь звуковой ландшафт. Когда кто-то говорит в сцене с дождём или в гулком соборе, его голос естественным образом адаптируется. Наша система научилась сливаться с исходной акустической средой. Это были не просто технические улучшения. Они были направлены на понимание того, что делает речь человеческой.

Каким образом ваша платформа объединяет человеческий опыт и автоматизацию для обеспечения профессионального дубляжа в любом масштабе?

Мы тесно сотрудничаем с традиционными студиями дубляжа, помогая им обучать своих сотрудников новым навыкам и новым профессиям. ИИ отвечает за перевод, синхронизацию и озвучивание, а профессиональные редакторы, переводчики и звукорежиссёры проводят финальную проверку качества через нашу платформу. Такой подход позволяет нам поддерживать качество студийного уровня, сокращая сроки выполнения работ с нескольких недель до нескольких часов. Автоматизация обеспечивает масштабируемость, а человеческий опыт — художественную выразительность. Это лучшее из двух миров: эффективность машин и мастерство человека.

Локализация на основе искусственного интеллекта сделает дубляж доступным гораздо более широкому кругу авторов и рассказчиков. Это позволит им делиться своими историями с мировой аудиторией, не теряя при этом эмоциональной глубины и культурной аутентичности. Со временем это приведёт к значительному разнообразию контента, открывая возможности для нишевых проектов и специализированной аудитории, которая раньше не могла себе позволить профессиональный дубляж. Вспомните независимых режиссёров, создателей документальных фильмов и образовательного контента: они наконец смогут охватить международную аудиторию, которая раньше была им недоступна.

Больше всего меня вдохновляет постоянное совершенствование наших возможностей по передаче эмоций. Мы добились значительного прогресса, но нам ещё многое предстоит сделать, чтобы сохранить тонкие нюансы, которые делают выступления аутентичными. В рамках сотрудничества мы выстраиваем более тесное партнёрство с традиционными студиями дубляжа, чтобы создавать гибридные рабочие процессы, сочетающие лучшее из обоих миров. Эти студии обладают многолетним опытом, которому мы учимся, и одновременно предоставляем технологии для расширения их возможностей. Самое интересное сотрудничество – со студиями, которые рассматривают ИИ не как замену, а как способ усилить свои команды и взяться за более разнообразные проекты, с которыми они раньше не справлялись. Настоящий прорыв наступит, когда мы сможем стабильно создавать выступления, о которых зрители забудут, что они созданы с помощью ИИ. Именно к этому мы и движемся.

Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Дубформер.

Антуан — дальновидный лидер и партнер-основатель Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Серийный предприниматель, он считает, что ИИ будет таким же разрушительным для общества, как электричество, и его часто ловят на том, что он восторженно отзывается о потенциале разрушительных технологий и AGI.

футурист, он посвятил себя изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Ценные бумаги.io, платформа, ориентированная на инвестиции в передовые технологии, которые меняют будущее и преобразуют целые секторы.