Connect with us

Ofir Krakowski, CEO y Co-Fundador de Deepdub – Serie de Entrevistas

Entrevistas

Ofir Krakowski, CEO y Co-Fundador de Deepdub – Serie de Entrevistas

mm

Ofir Krakowski es el co-fundador y CEO de Deepdub. Con 30 años de experiencia en ciencias de la computación y aprendizaje automático, desempeñó un papel clave en la fundación y dirección del departamento de aprendizaje automático e innovación de la Fuerza Aérea Israelí durante 25 años.

Deepdub es una empresa de doblaje impulsada por inteligencia artificial que aprovecha el aprendizaje profundo y la clonación de voces para ofrecer una localización de alta calidad y escalable para películas, televisión y contenido digital. Fundada en 2019, permite a los creadores de contenido preservar las actuaciones originales mientras traducen diálogos a múltiples idiomas de manera fluida. Al integrar la síntesis de habla impulsada por inteligencia artificial con la supervisión lingüística humana, Deepdub mejora la accesibilidad de contenido global, reduciendo el tiempo y el costo de los métodos de doblaje tradicionales. La empresa ha obtenido reconocimiento en la industria por su innovación, asegurando importantes asociaciones, certificaciones y financiación para expandir su tecnología de localización de inteligencia artificial en el sector del entretenimiento.

¿Qué te inspiró a fundar Deepdub en 2019? ¿Hubo un momento o desafío en particular que llevó a su creación?

El doblaje tradicional ha sido durante mucho tiempo el estándar de la industria para la localización de contenido, pero es un proceso costoso, que consume mucho tiempo y requiere muchos recursos. Mientras que existían soluciones de voz generadas por inteligencia artificial, carecían de la profundidad emocional necesaria para capturar realmente la actuación de un actor, lo que las hacía inadecuadas para contenido complejo y de alta calidad.

Identificamos una oportunidad para cerrar esta brecha desarrollando una solución de localización impulsada por inteligencia artificial que mantuviera la autenticidad emocional de la actuación original mientras mejoraba drásticamente la eficiencia. Desarrollamos nuestra tecnología propietaria eTTS™ (Emotion-Text-to-Speech), que garantiza que las voces generadas por inteligencia artificial tengan el mismo peso emocional, tono y matiz que los actores humanos.

Visualizamos un mundo donde las barreras lingüísticas y culturales ya no sean obstáculos para la accesibilidad global de contenido. Al crear nuestra plataforma, reconocimos el desafío de las limitaciones lingüísticas dentro del entretenimiento, el aprendizaje electrónico, FAST y otras industrias, y nos propusimos revolucionar la localización de contenido.

Para garantizar que la solución de Deepdub proporcionara la localización y el doblaje de la más alta calidad para contenido complejo a escala, decidimos adoptar un enfoque híbrido e incorporar expertos lingüísticos y de voz en el proceso, junto con nuestra tecnología eTTS™.

Nuestra visión es democratizar la producción de voz, haciéndola masivamente escalable, universalmente accesible, inclusiva y culturalmente relevante.

¿Cuáles fueron algunos de los mayores desafíos técnicos y comerciales que enfrentaste al lanzar Deepdub, y cómo los superaste?

Ganar la confianza de la industria del entretenimiento fue un obstáculo importante al lanzar Deepdub. Hollywood ha confiado en el doblaje tradicional durante décadas, y el cambio hacia soluciones impulsadas por inteligencia artificial requirió demostrar nuestra capacidad para entregar resultados de calidad de estudio en una industria a menudo escéptica sobre la inteligencia artificial.

Para abordar este escepticismo, primero mejoramos la autenticidad de nuestras voces generadas por inteligencia artificial creando un banco de voces completamente licenciado. Este banco incorpora muestras de voz humana real, lo que mejora significativamente la naturalidad y la expresividad de nuestra salida, lo cual es crucial para la aceptación en Hollywood.

A continuación, desarrollamos tecnologías propietarias, como eTTS™, junto con características como Control de Acento. Estas tecnologías garantizan que las voces generadas por inteligencia artificial no solo capturan la profundidad emocional y los matices, sino que también se adhieren a la autenticidad regional requerida para el doblaje de alta calidad.

También construimos un equipo de post-producción dedicado en casa que trabaja en estrecha colaboración con nuestra tecnología. Este equipo ajusta los resultados de la inteligencia artificial, asegurando que cada pieza de contenido esté pulida y cumpla con los altos estándares de la industria.

Además, expandimos nuestro enfoque para incluir una red global de expertos humanos: actores de voz, lingüistas y directores de todo el mundo. Estos profesionales aportan valiosos conocimientos culturales y experiencia creativa, mejorando la precisión cultural y la resonancia emocional de nuestro contenido doblado.

Nuestro equipo de lingüística trabaja en conjunto con nuestra tecnología y expertos globales para garantizar que el lenguaje utilizado sea perfecto para el contexto cultural del público objetivo, asegurando aún más la autenticidad y el cumplimiento de las normas locales.

A través de estas estrategias, combinando tecnología avanzada con un equipo sólido de expertos globales y un equipo de post-producción en casa, Deepdub ha demostrado con éxito a Hollywood y a otras empresas de producción de primer nivel en todo el mundo que la inteligencia artificial puede mejorar significativamente los flujos de trabajo de doblaje tradicionales. Esta integración no solo optimiza la producción, sino que también amplía las posibilidades de expansión del mercado.

¿Cómo se diferencia la tecnología de doblaje impulsada por inteligencia artificial de Deepdub de los métodos de doblaje tradicionales?

El doblaje tradicional es laborioso y un proceso que puede tomar meses por proyecto, ya que requiere actores de voz, ingenieros de sonido y equipos de post-producción para recrear manualmente diálogos en diferentes idiomas. Nuestra solución revoluciona este proceso al ofrecer una solución híbrida de extremo a extremo – combinando tecnología y experiencia humana – integrada directamente en los flujos de trabajo de post-producción, reduciendo así los costos de localización hasta un 70% y los tiempos de entrega hasta un 50%.

A diferencia de otras soluciones de voz generadas por inteligencia artificial, nuestra tecnología propietaria eTTS™ permite un nivel de profundidad emocional, autenticidad cultural y consistencia de voz que los métodos tradicionales luchan por lograr a escala.

¿Puedes explicarnos el enfoque híbrido que utiliza Deepdub —cómo trabajan juntas la inteligencia artificial y la experiencia humana en el proceso de doblaje?

El modelo híbrido de Deepdub combina la precisión y la escalabilidad de la inteligencia artificial con la creatividad y la sensibilidad cultural de la experiencia humana. Nuestro enfoque combina el arte de la traducción con tecnología de inteligencia artificial avanzada, asegurando que el contenido localizado retenga la autenticidad emocional y el impacto del original.

Nuestra solución aprovecha la inteligencia artificial para automatizar los aspectos básicos de la localización, mientras que los profesionales humanos afinan los matices emocionales, acentos y detalles culturales. Incorporamos tanto nuestra tecnología propietaria eTTs™ como nuestra tecnología Voz a Voz (V2V) para mejorar la expresividad natural de las voces generadas por inteligencia artificial, asegurando que capturen la profundidad y la realismo de las actuaciones humanas. De esta manera, garantizamos que cada pieza de contenido se sienta tan genuina e impactante en su forma localizada como en el original.

Los lingüistas y los profesionales de la voz desempeñan un papel clave en este proceso, ya que mejoran la precisión cultural del contenido generado por inteligencia artificial. A medida que la globalización continúa dando forma al futuro del entretenimiento, la integración de la inteligencia artificial con el arte humano se convertirá en el estándar de oro para la localización de contenido.

Además, nuestro Programa de Regalías para Artistas de Voz compensa a los actores de voz profesionales cada vez que sus voces se utilizan en el doblaje asistido por inteligencia artificial, garantizando el uso ético de la tecnología de voz artificial.

¿Cómo mejora la tecnología propietaria eTTS™ (Emotion-Text-to-Speech) de Deepdub la autenticidad de la voz y la profundidad emocional en el contenido doblado?

Las voces generadas por inteligencia artificial tradicionales a menudo carecen de las sutiles señales de emoción que hacen que las actuaciones sean convincentes. Para abordar esta deficiencia, Deepdub desarrolló su tecnología propietaria eTTS™, que aprovecha la inteligencia artificial y los modelos de aprendizaje profundo para generar habla que no solo retiene la plena profundidad emocional de la actuación original del actor, sino que también integra la inteligencia emocional humana en el proceso automatizado. Esta capacidad avanzada permite a la inteligencia artificial ajustar con precisión las voces sintetizadas para reflejar emociones intencionadas como alegría, ira o tristeza, resonando de manera auténtica con las audiencias. Además, eTTS™ sobresale en la producción de réplicas de voz de alta fidelidad, imitando las sutilezas naturales del habla humana como el tono, el ritmo y el ritmo, esenciales para entregar líneas que sean genuinas y atractivas. La tecnología también mejora la sensibilidad cultural al adaptar hábilmente las salidas para controlar los acentos, garantizando que el contenido doblado respete y se alinee con las sutilezas culturales, mejorando así su atractivo y eficacia globales.

Una de las críticas comunes a las voces generadas por inteligencia artificial es que pueden sonar robóticas. ¿Cómo garantiza Deepdub que las voces generadas por inteligencia artificial retienen la naturalidad y el matiz emocional?

Nuestra tecnología propietaria utiliza algoritmos de aprendizaje profundo y aprendizaje automático para ofrecer soluciones de doblaje escalables y de alta calidad que preservan la intención, el estilo, el humor y las sutilezas culturales originales.

Junto con nuestra tecnología eTTS™, la suite innovadora de Deepdub incluye características como Voz a Voz (V2V), Clonación de Voz, Control de Acento y nuestro Banco de Emoción Vocal, que permiten a los equipos de producción afinar las actuaciones para que coincidan con su visión creativa. Estas características garantizan que cada voz lleve el peso emocional y el matiz necesario para contar historias convincentes y experiencias de usuario impactantes.

En los últimos años, hemos visto un aumento en el éxito de nuestras soluciones en la industria de los Medios y el Entretenimiento, así que decidimos abrir el acceso a nuestros doblajes de voz avalados por Hollywood a desarrolladores, empresas y creadores de contenido con nuestra API de Audio de Inteligencia Artificial. Impulsada por nuestra tecnología eTTS™, la API permite la generación de voz en tiempo real con parámetros de personalización avanzados, incluyendo acento, tono emocional, tempo y estilo vocal.

La característica insignia de nuestra API son los preajustes de audio, diseñados en función de años de experiencia en la industria con las necesidades de doblaje más solicitadas. Estos ajustes preconfigurados permiten a los usuarios adaptar rápidamente diferentes tipos de contenido sin necesidad de una configuración manual extensa o exploración. Los preajustes disponibles incluyen descripciones de audio y audiolibros, narración de documentales o realidad, drama y entretenimiento, entrega de noticias, comentarios deportivos, doblaje de anime o caricaturas, Respuesta de Voz Interactiva (IVR), así como contenido promocional y comercial.

El doblaje asistido por inteligencia artificial implica adaptación cultural y lingüística —¿cómo garantiza Deepdub que sus soluciones de doblaje sean culturalmente apropiadas y precisas?

La localización no se trata solo de traducir palabras – se trata de traducir significado, intención y contexto cultural. El enfoque híbrido de Deepdub combina la automatización impulsada por inteligencia artificial con la experiencia lingüística humana, garantizando que el diálogo traducido refleje las sutilezas culturales y emocionales del público objetivo. Nuestra red de expertos en localización trabaja junto con la inteligencia artificial para garantizar que el contenido doblado se alinee con dialectos regionales, expresiones y sensibilidades culturales.

¿Cuáles son las innovaciones más emocionantes en las que estás trabajando actualmente para impulsar el doblaje asistido por inteligencia artificial al siguiente nivel?

Una de nuestras mayores innovaciones en curso es el Doblaje en Vivo/Transmisión, que permitirá el doblaje en tiempo real para transmisiones en vivo como eventos deportivos y medios de comunicación, haciendo que los eventos globales sean accesibles de inmediato. Al combinar esto con otra de nuestras emocionantes innovaciones, nuestra característica eTTs™, una tecnología propietaria que permite la creación de voces que suenan humanas a partir de texto a gran escala y con apoyo emocional completo y derechos comerciales integrados, podremos ofrecer un doblaje en vivo de alta calidad, auténtico y emotivo, sin precedentes en el mercado.

Tomemos, por ejemplo, la ceremonia de apertura de los Juegos Olímpicos o cualquier evento deportivo en vivo. Mientras que los broadcasters locales suelen proporcionar comentarios en su idioma y dialecto regional, esta tecnología permitirá a los espectadores de todo el mundo experimentar el evento completo en su idioma nativo a medida que se desarrolla.

El doblaje en vivo redefinirá cómo se experimentan los eventos en vivo en todo el mundo, garantizando que el lenguaje nunca sea una barrera.

El doblaje asistido por inteligencia artificial ha enfrentado críticas en ciertos proyectos recientemente. ¿Qué crees que son los factores clave que impulsan estas críticas?

Las principales críticas provienen de preocupaciones sobre la autenticidad, la ética y la calidad. Algunas voces generadas por inteligencia artificial han carecido de la resonancia emocional y el matiz necesario para una narrativa inmersiva. En Deepdub, hemos abordado esto desarrollando voces generadas por inteligencia artificial con expresividad emocional, garantizando que retengan el alma de la actuación original. Deepdub ha logrado más del 70% de satisfacción del espectador excepcional en todas las dimensiones, incluyendo casting excelente, diálogo claro, sincronización perfecta y ritmo perfecto.

Otra cuestión es el uso ético de las voces de inteligencia artificial. Deepdub es un líder en el doblaje asistido por inteligencia artificial responsable, pionero en el primer Programa de Regalías de la industria que compensa a los actores de voz por las actuaciones generadas por inteligencia artificial. Creemos que la inteligencia artificial debe mejorar la creatividad humana, no reemplazarla, y ese compromiso se refleja en todo lo que construimos.

¿Cómo ves el doblaje asistido por inteligencia artificial cambiando la industria del entretenimiento global en los próximos 5-10 años?

En la próxima década, el doblaje impulsado por inteligencia artificial democratizará el contenido como nunca antes, haciendo que las películas, los programas de televisión y las transmisiones en vivo sean accesibles a todas las audiencias, en cualquier lugar, en su idioma nativo de inmediato.

Visualizamos un mundo donde las plataformas de streaming y los broadcasters integren el doblaje multilingüe en tiempo real, eliminando las barreras lingüísticas y permitiendo que las historias viajen más lejos y más rápido de lo que los métodos de localización tradicionales han permitido.

Más allá de la accesibilidad lingüística, el doblaje asistido por inteligencia artificial también puede mejorar el acceso a los medios para los ciegos y los discapacitados visuales. Muchos dependen de las descripciones de audio para seguir el contenido visual, y el doblaje asistido por inteligencia artificial les permite interactuar con el contenido en idiomas extranjeros cuando los subtítulos no son una opción accesible. Al romper tanto las barreras lingüísticas como las sensoriales, el doblaje asistido por inteligencia artificial ayudará a crear una experiencia de entretenimiento más inclusiva para todos, lo cual es especialmente crítico a medida que surgen nuevas regulaciones sobre la accesibilidad de los medios en todo el mundo este año.

¿Cuáles son algunos de los mayores desafíos que aún necesitan ser resueltos para que el doblaje asistido por inteligencia artificial se convierta realmente en mainstream?

Los mayores desafíos son mantener la calidad ultra alta a escala, garantizar la precisión cultural y lingüística, y establecer pautas éticas para las voces generadas por inteligencia artificial. Sin embargo, más allá de los obstáculos técnicos, la aceptación pública del doblaje asistido por inteligencia artificial depende de la confianza. Los espectadores necesitan sentir que las voces generadas por inteligencia artificial preservan la autenticidad y la profundidad emocional de las actuaciones en lugar de sonar sintéticas o desapegadas.

Para que el doblaje asistido por inteligencia artificial sea plenamente aceptado, debe ser de alta calidad combinando el arte humano y la tecnología a escala, y también demostrar respeto por la integridad creativa, la sutileza lingüística y el contexto cultural. Esto significa garantizar que las voces permanezcan fieles a la intención original de los actores, evitando inexactitudes que podrían alienar a las audiencias, y abordando las preocupaciones éticas sobre los riesgos de deepfakes y la propiedad de la voz.

A medida que el doblaje asistido por inteligencia artificial se vuelve más generalizado, los proveedores de tecnología deben implementar estándares rigurosos para la autenticidad de la voz, la seguridad y la protección de la propiedad intelectual. Deepdub está liderando activamente la carga en estas áreas, garantizando que la tecnología de voz de inteligencia artificial mejore la narrativa global mientras respeta las contribuciones artísticas y profesionales del talento humano. Solo entonces las audiencias, los creadores de contenido y las partes interesadas de la industria abrazarán plenamente el doblaje asistido por inteligencia artificial como una herramienta confiable y valiosa.

Gracias por la excelente entrevista, los lectores que deseen aprender más deben visitar Deepdub.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.