Entrevistas
Ofir Krakowski, CEO e Co-Fundador da Deepdub – Série de Entrevistas

Ofir Krakowski é o co-fundador e CEO da Deepdub. Com 30 anos de experiência em ciência da computação e aprendizado de máquina, ele desempenhou um papel fundamental na fundação e liderança do departamento de aprendizado de máquina e inovação da Força Aérea Israelense por 25 anos.
Deepdub é uma empresa de dublagem impulsionada por IA que aproveita o aprendizado profundo e a clonagem de voz para fornecer localização de alta qualidade e escalável para filmes, TV e conteúdo digital. Fundada em 2019, ela permite que os criadores de conteúdo preservem as performances originais enquanto traduzem diálogos para vários idiomas de forma transparente. Ao integrar a síntese de fala impulsionada por IA com a supervisão linguística humana, a Deepdub melhora a acessibilidade de conteúdo global, reduzindo o tempo e o custo da dublagem tradicional. A empresa ganhou reconhecimento da indústria por sua inovação, garantindo parcerias importantes, certificações e financiamento para expandir sua tecnologia de localização de IA ao longo do setor de entretenimento.
O que o inspirou a fundar a Deepdub em 2019? Houve um momento ou desafio específico que levou à sua criação?
A dublagem tradicional tem sido o padrão da indústria para a localização de conteúdo, mas é um processo caro, demorado e intensivo em recursos. Embora as soluções de voz geradas por IA existissem, elas careciam da profundidade emocional necessária para realmente capturar a performance de um ator, tornando-as inadequadas para conteúdo complexo e de alta qualidade.
Identificamos uma oportunidade para preencher essa lacuna desenvolvendo uma solução de localização impulsionada por IA que mantém a autenticidade emocional da performance original, melhorando drasticamente a eficiência. Desenvolvemos nossa tecnologia proprietária eTTS™ (Emotion-Text-to-Speech), que garante que as vozes geradas por IA carreguem o mesmo peso emocional, tom e nuances que os atores humanos.
Visamos um mundo onde as barreiras linguísticas e culturais não sejam mais obstáculos para a acessibilidade global de conteúdo. Ao criar nossa plataforma, reconhecemos o desafio das limitações linguísticas dentro do entretenimento, e-learning, FAST e outras indústrias, e nos esforçamos para revolucionar a localização de conteúdo.
Para garantir que a solução da Deepdub fornecesse a localização e dublagem de alta qualidade para conteúdo complexo em escala, decidimos adotar uma abordagem híbrida, incorporando especialistas linguísticos e de voz ao processo, juntamente com nossa tecnologia eTTS™.
Nossa visão é democratizar a produção de voz, tornando-a massivamente escalável, universalmente acessível, inclusiva e culturalmente relevante.
Quais foram alguns dos maiores desafios técnicos e comerciais que você enfrentou ao lançar a Deepdub, e como você os superou?
Ganhar a confiança da indústria do entretenimento foi um grande obstáculo ao lançar a Deepdub. Hollywood confiou na dublagem tradicional por décadas, e a mudança para soluções impulsionadas por IA exigia demonstrar nossa capacidade de entregar resultados de estúdio de alta qualidade em uma indústria frequentemente cética em relação à IA.
Para abordar esse ceticismo, primeiro melhoramos a autenticidade de nossas vozes geradas por IA, criando um banco de vozes totalmente licenciado. Esse banco incorpora amostras de vozes humanas reais, melhorando significativamente a naturalidade e expressividade de nossa saída, o que é crucial para a aceitação em Hollywood.
Em seguida, desenvolvemos tecnologias proprietárias, como a eTTS™, juntamente com recursos como Controle de Sotaque. Essas tecnologias garantem que as vozes geradas por IA não apenas capturem a profundidade emocional e nuances, mas também adiram à autenticidade regional necessária para a dublagem de alta qualidade.
Também construímos uma equipe de pós-produção interna dedicada que trabalha em estreita colaboração com nossa tecnologia. Essa equipe ajusta os resultados da IA, garantindo que cada peça de conteúdo seja polida e atenda aos altos padrões da indústria.
Além disso, expandimos nossa abordagem para incluir uma rede global de especialistas humanos – atores de voz, linguistas e diretores de todo o mundo. Esses profissionais trazem insights culturais e expertise criativa inestimáveis, melhorando a precisão cultural e a ressonância emocional de nosso conteúdo dublado.
Nossa equipe de linguística trabalha em conjunto com nossa tecnologia e especialistas globais para garantir que a linguagem utilizada seja perfeita para o contexto cultural do público-alvo, garantindo ainda mais autenticidade e conformidade com as normas locais.
Por meio dessas estratégias, combinando tecnologia avançada com uma equipe robusta de especialistas globais e uma equipe de pós-produção interna, a Deepdub demonstrou com sucesso a Hollywood e a outras empresas de produção de alto nível em todo o mundo que a IA pode melhorar significativamente os fluxos de trabalho de dublagem tradicionais. Essa integração não apenas simplifica a produção, mas também expande as possibilidades de expansão de mercado.
Como a tecnologia de dublagem impulsionada por IA da Deepdub difere dos métodos de dublagem tradicionais?
A dublagem tradicional é laboriosa e um processo que pode levar meses por projeto, pois exige atores de voz, engenheiros de som e equipes de pós-produção para recriar manualmente diálogos em diferentes idiomas. Nossa solução revoluciona esse processo, oferecendo uma solução híbrida de ponta a ponta – combinando tecnologia e expertise humana – integrada diretamente aos fluxos de trabalho de pós-produção, reduzindo os custos de localização em até 70% e os tempos de entrega em até 50%.
Diferentemente de outras soluções de voz geradas por IA, nossa tecnologia proprietária eTTS™ permite um nível de profundidade emocional, autenticidade cultural e consistência de voz que os métodos tradicionais lutam para alcançar em escala.
Pode nos guiar pela abordagem híbrida que a Deepdub usa – como a IA e a expertise humana trabalham juntas no processo de dublagem?
O modelo híbrido da Deepdub combina a precisão e escalabilidade da IA com a criatividade e sensibilidade cultural da expertise humana. Nossa abordagem mistura a arte da dublagem tradicional com tecnologia de IA avançada, garantindo que o conteúdo localizado retém a autenticidade emocional e o impacto do original.
Nossa solução aproveita a IA para automatizar os aspectos básicos da localização, enquanto profissionais humanos refinam as nuances emocionais, sotaques e detalhes culturais. Incorporamos tanto nossa tecnologia proprietária eTTS™ quanto nossa tecnologia Voice-to-Voice (V2V) para melhorar a expressividade natural das vozes geradas por IA, garantindo que elas capturem a profundidade e realismo das performances humanas. Dessa forma, garantimos que cada peça de conteúdo se sinta tão genuína e impactante em sua forma localizada quanto no original.
Linguistas e profissionais de voz desempenham um papel fundamental nesse processo, pois eles melhoram a precisão cultural do conteúdo gerado por IA. À medida que a globalização continua a moldar o futuro do entretenimento, a integração da IA com a arte humana se tornará o padrão de ouro para a localização de conteúdo.
Além disso, nosso Programa de Royalties para Artistas de Voz compensa os atores de voz profissionais sempre que suas vozes são usadas na dublagem assistida por IA, garantindo o uso ético da tecnologia de voz IA.
Como a tecnologia proprietária eTTS™ (Emotion-Text-to-Speech) da Deepdub melhora a autenticidade da voz e a profundidade emocional no conteúdo dublado?
As vozes geradas por IA tradicionais frequentemente carecem dos sutis sinais emocionais que tornam as performances atraentes. Para abordar essa deficiência, a Deepdub desenvolveu sua tecnologia proprietária eTTS™, aproveitando a IA e os modelos de aprendizado profundo para gerar fala que não apenas retém a plena profundidade emocional da performance do ator original, mas também integra a inteligência emocional humana ao processo automatizado. Essa capacidade avançada permite que a IA ajuste finamente as vozes sintetizadas para refletir emoções pretendidas, como alegria, raiva ou tristeza, ressoando de forma autêntica com o público. Além disso, a eTTS™ se destaca na replicação de voz de alta fidelidade, imitando nuances naturais na fala humana, como tom, entonação e ritmo, essenciais para entregar linhas que são genuínas e envolventes. A tecnologia também melhora a sensibilidade cultural, adaptando habilmente as saídas para controlar sotaques, garantindo que o conteúdo dublado respeite e se alinhe com nuances culturais, aumentando assim seu apelo e eficácia globais.
Uma das críticas comuns às vozes geradas por IA é que elas podem soar robóticas. Como a Deepdub garante que as vozes geradas por IA retenham a naturalidade e a nuances emocionais?
Nossa tecnologia proprietária utiliza algoritmos de aprendizado profundo e de máquina para entregar soluções de dublagem escaláveis e de alta qualidade que preservam a intenção, estilo, humor e nuances culturais originais.
Juntamente com nossa tecnologia eTTS™, a suíte inovadora da Deepdub inclui recursos como Voice-to-Voice (V2V), Clonagem de Voz, Controle de Sotaque e nosso Banco de Emoção Vocal, que permitem que as equipes de produção ajustem as performances para corresponder à sua visão criativa. Esses recursos garantem que cada voz carregue a profundidade emocional e nuances necessárias para contar histórias atraentes e experiências de usuário impactantes.
Nos últimos anos, vimos o sucesso crescente de nossas soluções na indústria de Mídia e Entretenimento, então decidimos abrir o acesso a nossas vozes vetadas por Hollywood para desenvolvedores, empresas e criadores de conteúdo com nossa API de Áudio IA. Impulsionada por nossa tecnologia eTTS™, a API permite a geração de voz em tempo real com parâmetros de personalização avançados, incluindo sotaque, tom emocional, tempo e estilo vocal.
O recurso de destaque da nossa API são os presets de áudio, projetados com base em anos de experiência com as necessidades de voz mais solicitadas. Essas configurações pré-configuradas permitem que os usuários adaptem rapidamente diferentes tipos de conteúdo sem precisar de configuração manual extensa ou exploração. Os presets disponíveis incluem descrições de áudio e livros áudio, narração de documentários ou reality, drama e entretenimento, entrega de notícias, comentários esportivos, dublagem de anime ou desenho animado, Resposta de Voz Interativa (IVR), bem como conteúdo promocional e comercial.
A dublagem por IA envolve adaptação cultural e linguística – como a Deepdub garante que suas soluções de dublagem sejam culturalmente apropriadas e precisas?
A localização não é apenas sobre traduzir palavras – é sobre traduzir significado, intenção e contexto cultural. A abordagem híbrida da Deepdub combina a automação impulsionada por IA com a expertise linguística humana, garantindo que o diálogo traduzido reflete as nuances culturais e emocionais do público-alvo. Nossa rede de especialistas em localização trabalha ao lado da IA para garantir que o conteúdo dublado se alinhe com dialetos regionais, expressões e sensibilidades culturais.
Quais são as inovações mais emocionais em que você está trabalhando atualmente para impulsionar a dublagem por IA para o próximo nível?
Uma de nossas principais inovações em andamento é a Dublagem ao Vivo/Transmissão, que permitirá a dublagem em tempo real para transmissões ao vivo, como eventos esportivos e notícias, tornando eventos globais instantaneamente acessíveis. Ao combinar isso com outra de nossas inovações emocionais, nosso recurso eTTs™, uma tecnologia proprietária que permite a criação de vozes que soam humanas a partir de texto em larga escala e com suporte emocional e direitos comerciais integrados, estaremos em condições de oferecer dublagem ao vivo de alta qualidade, autêntica e emocional, sem precedentes no mercado.
Pegue, por exemplo, as cerimônias de abertura dos Jogos Olímpicos ou qualquer evento esportivo ao vivo. Enquanto os broadcasters locais normalmente fornecem comentários em seu idioma e dialeto regional, essa tecnologia permitirá que os espectadores de todo o mundo experimentem o evento completo em seu idioma nativo à medida que ele ocorre.
A dublagem ao vivo redefinirá como os eventos ao vivo são experimentados em todo o mundo, garantindo que a linguagem nunca seja uma barreira.
A dublagem gerada por IA enfrentou críticas em certos projetos recentemente. O que você acredita que são os principais fatores impulsionando essas críticas?
As principais críticas decorrem de preocupações com autenticidade, ética e qualidade. Algumas vozes geradas por IA careceram da ressonância emocional e nuances necessárias para contar histórias imersivas. Na Deepdub, abordamos isso desenvolvendo vozes geradas por IA expressivamente emocionais, garantindo que elas retenham a alma da performance original. A Deepdub alcançou mais de 70% de satisfação do espectador excepcional em todas as dimensões, incluindo elenco superior, diálogo claro, sincronização sem interrupções e ritmo perfeito.
Outro problema é o uso ético de vozes IA. A Deepdub é líder em dublagem por IA responsável, pioneira no primeiro Programa de Royalties da indústria que compensa os atores de voz por performances geradas por IA. Acreditamos que a IA deve melhorar a criatividade humana, não substituí-la, e esse compromisso é refletido em tudo o que construímos.
Como você vê a dublagem por IA mudando a indústria de entretenimento global nos próximos 5-10 anos?
Na próxima década, a dublagem impulsionada por IA democratizará o conteúdo como nunca antes, tornando filmes, programas de TV e transmissões ao vivo acessíveis a todos os públicos, em todos os lugares, em seu idioma nativo instantaneamente.
Visamos um mundo onde as plataformas de streaming e os broadcasters integrem a dublagem multilíngue em tempo real, removendo barreiras linguísticas e permitindo que as histórias viajem mais longe e mais rápido do que os métodos de localização tradicionais permitiram.
Além da acessibilidade linguística, a dublagem por IA também pode melhorar o acesso à mídia para os cegos e pessoas com deficiência visual. Muitos dependem de descrições de áudio para seguir o conteúdo visual, e a dublagem por IA permite que eles se engajem com o conteúdo em idiomas estrangeiros quando as legendas não são uma opção acessível. Ao quebrar barreiras linguísticas e sensoriais, a dublagem por IA impulsionada por IA ajudará a criar uma experiência de entretenimento mais inclusiva para todos, o que é especialmente crítico à medida que novas regulamentações sobre acessibilidade de mídia entram em vigor este ano em todo o mundo.
Quais são os principais desafios que ainda precisam ser resolvidos para que a dublagem por IA se torne verdadeiramente mainstream?
Os principais desafios são manter a qualidade ultra-alta em escala, garantir a precisão cultural e linguística e estabelecer diretrizes éticas para vozes geradas por IA. No entanto, além dos obstáculos técnicos, a aceitação pública da dublagem por IA depende da confiança. Os espectadores precisam sentir que as vozes geradas por IA preservam a autenticidade e a profundidade emocional das performances, em vez de soar sintéticas ou desapegadas.
Para que a dublagem por IA seja plenamente aceita, ela deve ser de alta qualidade, combinando arte e tecnologia humana em escala, e também demonstrar respeito pela integridade criativa, nuances linguísticas e contexto cultural. Isso significa garantir que as vozes permaneçam fiéis à intenção do ator original, evitando imprecisões que poderiam alienar o público e abordando preocupações éticas em torno dos riscos de deepfake e propriedade de voz.
À medida que a dublagem por IA se torna mais difundida, os provedores de tecnologia devem implementar padrões rigorosos para autenticidade de voz, segurança e proteção de propriedade intelectual. A Deepdub está ativamente liderando o caminho nesses aspectos, garantindo que a tecnologia de voz IA melhore a narrativa global, respeitando as contribuições artísticas e profissionais do talento humano. Somente então os espectadores, criadores de conteúdo e stakeholders da indústria abraçarão plenamente a dublagem por IA como uma ferramenta confiável e valiosa.
Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Deepdub.












