Entre em contato

Anton Dvorkovich, CEO e fundador da Dubformer – Série de entrevistas

Entrevistas

Anton Dvorkovich, CEO e fundador da Dubformer – Série de entrevistas

mm

Anton Dvorkovitch - Obras Completas, CEO e fundador da Dubformer, passou mais de uma década moldando a interseção entre IA, linguagem e tecnologias de fala. Antes de lançar a Dubformer em 2023, ele liderou importantes iniciativas de aprendizado de máquina e PNL na Yandex, supervisionando produtos como o Yandex Translate, o Yandex Keyboard e a assistente de voz Alice, cada um atendendo milhões de usuários. Na Nebius, atuou como Head de IA, impulsionando a infraestrutura em larga escala para sistemas inteligentes. Sua experiência gerenciando equipes multifuncionais de mais de 100 engenheiros, desenvolvedores e pesquisadores forneceu a base para a visão da Dubformer: superar as barreiras linguísticas por meio da dublagem avançada com IA.

Dublador é uma startup de dublagem com inteligência artificial sediada em Amsterdã que já processou mais de um milhão de minutos de conteúdo de vídeo localizado. A empresa se especializa em traduzir e dublar vídeos usando vozes sintéticas que preservam o tom emocional, o ritmo e a individualidade do locutor, ajudando criadores, estúdios e empresas a tornar seu conteúdo acessível globalmente. Sua plataforma utiliza modelos de aprendizado profundo para reconhecimento de fala, clonagem de voz e tradução, oferecendo resultados com som natural que superam em muito as ferramentas de dublagem tradicionais.

Trabalhando na Yandex como Chefe de PNL (Processamento de Linguagem Natural), desenvolvi uma paixão por quebrar barreiras linguísticas com a tecnologia. Testemunhei (e participei) da revolução da IA ​​na tradução automática – e então percebi que uma grande lacuna, ainda em grande parte não resolvida, é a tradução de mídia (áudio e vídeo). Quando você vê a tradução de texto se tornando quase perfeita, começa a se perguntar: e as histórias que realmente emocionam as pessoas? E as performances que fazem você rir ou chorar? Então, decidimos aceitar o desafio de construir uma tecnologia de dublagem por IA e ir além da tradução de mídia que é apenas compreensível, para uma que seja realmente agradável. Foi assim que lançamos o Dubformer.

A localização de conteúdo para mídia hoje em dia é feita quase que inteiramente com dubladores, o que apresenta diversas desvantagens: é bastante caro, os prazos de entrega são longos e a escalabilidade é muito difícil, gerando custos enormes com a gestão de pessoal. Pense bem: a qualidade da dublagem tradicional é incrível, mas essas limitações fazem com que muitos projetos nunca sejam dublados. Portanto, embora a dublagem tradicional seja muito boa, muitos projetos não estão sendo dublados no momento devido às desvantagens já mencionadas. De fato, 95% do conteúdo está disponível apenas no idioma original. É essa lacuna que estamos buscando preencher.

Os resultados do VOX-DUB revelaram algo importante: a indústria já resolveu o problema de fazer com que as locuções de IA soem "humanas" para conteúdos onde o componente emocional não é crucial. No entanto, dublar conteúdos onde as emoções realmente importam continua sendo um desafio, mesmo que pareça que tudo já esteja resolvido. Muitos sistemas conseguem produzir fala compreensível, mas poucos conseguem criar performances que pareçam autênticas e emocionalmente alinhadas com o original. Dominamos a leitura de textos em voz alta, mas ainda estamos aprendendo a interpretar cenas.

Você mencionou uma relação de compromisso entre fidelidade de voz e qualidade geral da fala. Como vocês abordam o equilíbrio desses fatores em seus sistemas?

Na realidade, a escolha muitas vezes não se dá entre fidelidade e qualidade vocal, mas sim entre a profundidade da transferência emocional, entonacional e expressiva e a estabilidade do resultado. Quanto mais se tenta transferir, maior o risco de transmitir algo incorretamente, especialmente porque as emoções soam e são expressas de forma diferente em cada idioma. O que soa apaixonado em uma língua pode soar artificial ou até mesmo dissonante em outra. Nosso objetivo é encontrar um equilíbrio entre precisão emocional e naturalidade, garantindo que o resultado final permaneça expressivo e, ao mesmo tempo, agradável de ouvir.

A síntese de voz tradicional concentra-se simplesmente na leitura do texto, geralmente em um tom neutro. A dublagem por IA, especialmente na indústria da mídia, é uma tarefa muito mais complexa, cujo objetivo não é apenas transmitir o significado, mas criar uma sensação de presença e atuação genuína. Emoções, entonações e pausas naturais desempenham um papel crucial, juntamente com desafios como mixagem, adaptação acústica e sincronização com os movimentos labiais e o ritmo da cena. Artisticamente, a dublagem por IA está muito mais próxima da atuação do que da leitura; o sistema precisa interpretar a fala, não apenas pronunciá-la.

O bom de ter parâmetros de referência claros é que isso cria um roteiro a ser seguido por todos. Quando as equipes veem o que é possível alcançar por meio dos resultados do VOX-DUB, isso acelera seus próprios cronogramas de desenvolvimento. Em vez de adivinhar o que significa qualidade, elas têm metas concretas para atingir. Estou vendo empresas comprimirem seus cronogramas porque conseguem ver evidências do que funciona em outros lugares. Esse entendimento compartilhado está ajudando todo o setor a avançar mais rapidamente em conjunto, o que significa que conteúdo mais diversificado pode alcançar o público global mais cedo.

Tudo se resume a entender que a dublagem não se trata apenas de palavras individuais; trata-se de todo o ecossistema da performance. Duas inovações fizeram a diferença. Primeiro, deixamos de tratar a pronúncia como puramente técnica e passamos a tratá-la como emocional. As pessoas não falam em sílabas perfeitamente articuladas; elas arrastam as palavras quando estão tristes, falam rápido quando estão animadas. Capturar essa imperfeição natural foi crucial. Segundo, tivemos que pensar em toda a paisagem sonora. Quando alguém está falando em uma cena com chuva ou em uma catedral com eco, sua voz se adapta naturalmente. Nosso sistema aprendeu a se integrar ao ambiente acústico original. Essas não foram apenas melhorias técnicas. Elas se tratavam de entender o que faz a fala soar humana.

Como sua plataforma combina conhecimento humano com automação para fornecer dublagem de nível profissional em grande escala?

Trabalhamos em estreita colaboração com estúdios de dublagem tradicionais, ajudando-os a treinar suas equipes em novas habilidades e profissões emergentes. A IA cuida da tradução, sincronização e geração de voz, enquanto revisores, tradutores e engenheiros de som profissionais realizam a verificação final de qualidade por meio de nossa plataforma. Essa abordagem nos permite manter a qualidade de um estúdio, reduzindo o tempo de produção de semanas para horas. A automação proporciona escalabilidade e a expertise humana garante a expressividade artística. É o melhor dos dois mundos: a eficiência da máquina com a arte humana.

A localização por IA tornará a dublagem acessível a uma gama muito maior de criadores e contadores de histórias. Isso permitirá que eles compartilhem suas histórias com o público global sem perder a profundidade emocional ou a autenticidade cultural. Com o tempo, isso levará a uma diversidade muito maior de conteúdo, abrindo portas para projetos de nicho e públicos especializados que antes não podiam pagar por dublagem profissional. Pense em cineastas independentes, documentaristas, criadores de conteúdo educacional; eles finalmente poderão alcançar públicos globais que antes estavam fora de seu alcance.

O que mais me entusiasma é continuar a aprimorar nossa capacidade de transmitir emoções. Fizemos um bom progresso, mas ainda há muito espaço para melhorarmos na preservação das nuances sutis que tornam as performances autênticas. Em relação às colaborações, estamos construindo parcerias mais sólidas com estúdios de dublagem tradicionais para criar fluxos de trabalho híbridos que combinem o melhor dos dois mundos. Esses estúdios têm décadas de experiência da qual estamos aprendendo, enquanto fornecemos a tecnologia para ampliar sua arte. As colaborações mais empolgantes são com estúdios que veem a IA não como uma substituta, mas como uma forma de complementar suas equipes e assumir projetos mais diversos que não conseguiam realizar antes. O verdadeiro avanço será quando pudermos entregar, de forma consistente, performances que o público esqueça que foram criadas por IA. É para isso que estamos caminhando.

Obrigado pela ótima entrevista, os leitores que desejam saber mais devem visitar Dublador.

Antoine é um líder visionário e sócio fundador da Unite.AI, movido por uma paixão inabalável por moldar e promover o futuro da IA ​​e da robótica. Um empreendedor em série, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego delirando sobre o potencial das tecnologias disruptivas e da AGI.

Como um futurista, ele se dedica a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Valores Mobiliários.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.