Connect with us

Ofir Krakowski, PDG et co-fondateur de Deepdub – Série d’entretiens

Entretiens

Ofir Krakowski, PDG et co-fondateur de Deepdub – Série d’entretiens

mm

Ofir Krakowski est le co-fondateur et PDG de Deepdub. Avec 30 ans d’expérience en informatique et en apprentissage automatique, il a joué un rôle clé dans la fondation et la direction du département d’apprentissage automatique et d’innovation de la force aérienne israélienne pendant 25 ans.

Deepdub est une société de doublage pilotée par l’IA qui utilise l’apprentissage profond et le clonage de voix pour fournir une localisation de haute qualité et évolutives pour les films, la télévision et le contenu numérique. Fondée en 2019, elle permet aux créateurs de contenu de préserver les performances originales tout en traduisant en douceur les dialogues dans plusieurs langues. En intégrant la synthèse vocale pilotée par l’IA avec une surveillance linguistique humaine, Deepdub améliore l’accessibilité du contenu mondial, réduisant le temps et le coût du doublage traditionnel. La société a obtenu une reconnaissance dans l’industrie pour son innovation, sécurisant des partenariats majeurs, des certifications et des financements pour étendre sa technologie de localisation basée sur l’IA dans le secteur du divertissement.

Qu’est-ce qui vous a inspiré à fonder Deepdub en 2019 ? Y a-t-il eu un moment ou un défi particulier qui a conduit à sa création ?

Le doublage traditionnel a longtemps été la norme de l’industrie pour la localisation du contenu, mais c’est un processus coûteux, chronophage et gourmand en ressources. Alors que les solutions de voix générées par l’IA existaient, elles manquaient de profondeur émotionnelle nécessaire pour vraiment capturer la performance d’un acteur, les rendant inadaptées pour du contenu complexe et de haute qualité.

Nous avons identifié une opportunité pour combler ce fossé en développant une solution de localisation pilotée par l’IA qui maintient l’authenticité émotionnelle de la performance originale tout en améliorant considérablement l’efficacité. Nous avons développé notre technologie propriétaire eTTS™ (Emotion-Text-to-Speech), qui garantit que les voix générées par l’IA portent le même poids émotionnel, le même ton et la même nuance que les acteurs humains.

Nous nous imaginons un monde où les barrières linguistiques et culturelles ne sont plus des obstacles à l’accessibilité du contenu mondial. En créant notre plateforme, nous avons reconnu le défi des limites linguistiques au sein du divertissement, de l’apprentissage en ligne, de FAST et d’autres industries, et nous nous sommes efforcés de révolutionner la localisation du contenu.

Pour nous assurer que la solution de Deepdub fournissait la localisation et le doublage de la plus haute qualité pour le contenu complexe à grande échelle, nous avons décidé d’adopter une approche hybride et d’intégrer des experts linguistiques et vocaux dans le processus, conjointement avec notre technologie eTTS™.

Notre vision est de démocratiser la production vocale, la rendant massivement évolutives, universellement accessible, inclusive et culturellement pertinente.

Quels étaient certains des plus grands défis techniques et commerciaux que vous avez rencontrés lors du lancement de Deepdub, et comment les avez-vous surmontés ?

Gagner la confiance de l’industrie du divertissement a été un obstacle majeur lors du lancement de Deepdub. Hollywood a compté sur le doublage traditionnel pendant des décennies, et le passage à des solutions pilotées par l’IA a nécessité de démontrer notre capacité à fournir des résultats de qualité studio dans une industrie souvent sceptique à l’égard de l’IA.

Pour répondre à ce scepticisme, nous avons tout d’abord amélioré l’authenticité de nos voix générées par l’IA en créant une banque de voix entièrement sous licence. Cette banque intègre des échantillons de voix humaine réels, améliorant considérablement la naturalité et l’expressivité de nos sorties, ce qui est crucial pour l’acceptation à Hollywood.

Ensuite, nous avons développé des technologies propriétaires, telles que eTTS™, ainsi que des fonctionnalités comme le contrôle d’accent. Ces technologies garantissent que les voix générées par l’IA ne capturent pas seulement la profondeur émotionnelle et les nuances, mais s’adaptent également à l’authenticité régionale requise pour un doublage de haute qualité.

Nous avons également construit une équipe de post-production dédiée en interne qui travaille en étroite collaboration avec notre technologie. Cette équipe affine les sorties de l’IA, garantissant que chaque pièce de contenu est polie et répond aux normes élevées de l’industrie.

De plus, nous avons élargi notre approche pour inclure un réseau mondial d’experts humains – acteurs de voix, linguistes et réalisateurs du monde entier. Ces professionnels apportent des connaissances culturelles et une expertise créative inestimables, améliorant l’exactitude culturelle et la résonance émotionnelle de nos contenus doublés.

Notre équipe de linguistique travaille en tandem avec notre technologie et nos experts mondiaux pour garantir que le langage utilisé est parfait pour le contexte culturel du public cible, garantissant ainsi l’authenticité et la conformité avec les normes locales.

Grâce à ces stratégies, en combinant une technologie avancée avec une équipe robuste d’experts mondiaux et une équipe de post-production en interne, Deepdub a réussi à démontrer à Hollywood et à d’autres sociétés de production de premier plan dans le monde que l’IA peut considérablement améliorer les flux de travail de doublage traditionnels. Cette intégration ne réduit pas seulement la production, mais élargit également les possibilités d’expansion du marché.

Comment la technologie de doublage pilotée par l’IA de Deepdub diffère-t-elle des méthodes de doublage traditionnelles ?

Le doublage traditionnel est un processus fastidieux qui peut prendre des mois par projet, car il nécessite des acteurs de voix, des ingénieurs du son et des équipes de post-production pour recréer manuellement les dialogues dans différentes langues. Notre solution révolutionne ce processus en offrant une solution hybride de bout en bout – combinant la technologie et l’expertise humaine – intégrée directement dans les flux de travail de post-production, réduisant ainsi les coûts de localisation de jusqu’à 70 % et les délais de jusqu’à 50 %.

Contrairement à d’autres solutions de voix générées par l’IA, notre technologie propriétaire eTTS™ permet un niveau de profondeur émotionnelle, d’authenticité culturelle et de cohérence vocale que les méthodes traditionnelles ont du mal à atteindre à grande échelle.

Pouvez-vous nous guider à travers l’approche hybride de Deepdub — comment l’IA et l’expertise humaine travaillent-elles ensemble dans le processus de doublage ?

Le modèle hybride de Deepdub combine la précision et l’évolutivité de l’IA avec la créativité et la sensibilité culturelle de l’expertise humaine. Notre approche mêle l’art de la tradition du doublage avec la technologie avancée de l’IA, garantissant que le contenu localisé conserve l’authenticité émotionnelle et l’impact de l’original.

Notre solution utilise l’IA pour automatiser les aspects de base de la localisation, tandis que les professionnels humains affinent les nuances émotionnelles, les accents et les détails culturels. Nous intégrons à la fois notre technologie propriétaire eTTs™ et notre technologie Voice-to-Voice (V2V) pour améliorer l’expressivité naturelle des voix générées par l’IA, garantissant qu’elles capturent la profondeur et le réalisme des performances humaines. Cela nous permet de garantir que chaque pièce de contenu semble aussi authentique et percutante dans sa forme localisée qu’elle l’est dans l’original.

Les linguistes et les professionnels de la voix jouent un rôle clé dans ce processus, car ils améliorent l’exactitude culturelle du contenu généré par l’IA. À mesure que la mondialisation continue de façonner l’avenir du divertissement, l’intégration de l’IA avec l’art humain deviendra la norme pour la localisation du contenu.

De plus, notre programme de redevance pour les artistes vocaux compense les acteurs de voix professionnels chaque fois que leurs voix sont utilisées dans le doublage assisté par l’IA, garantissant une utilisation éthique de la technologie de voix IA.

Comment la technologie propriétaire eTTS™ (Emotion-Text-to-Speech) de Deepdub améliore-t-elle l’authenticité vocale et la profondeur émotionnelle dans le contenu doublé ?

Les voix générées par l’IA traditionnelles manquent souvent des signaux émotionnels subtils qui rendent les performances percutantes. Pour remédier à ce manque, Deepdub a développé sa technologie propriétaire eTTS™, utilisant l’IA et les modèles d’apprentissage profond pour générer un discours qui non seulement conserve la pleine profondeur émotionnelle de la performance originale de l’acteur, mais intègre également l’intelligence émotionnelle humaine dans le processus automatisé. Cette capacité avancée permet à l’IA de finement ajuster les voix synthétisées pour refléter les émotions intentionnelles telles que la joie, la colère ou la tristesse, résonnant de manière authentique avec les publics. De plus, eTTS™ excelle à produire une réplication vocale de haute fidélité, imitant les nuances naturelles du discours humain telles que le ton, le ton et le rythme, essentielles pour livrer des lignes qui sont authentiques et engageantes. La technologie améliore également la sensibilité culturelle en adaptant adroitement les sorties pour contrôler les accents, garantissant que le contenu doublé respecte et s’aligne sur les nuances culturelles, améliorant ainsi son attrait et son efficacité mondiaux.

L’une des critiques courantes des voix générées par l’IA est qu’elles peuvent sonner de manière robotique. Comment Deepdub garantit-il que les voix générées par l’IA conservent la naturalité et la nuance émotionnelle ?

Notre technologie propriétaire utilise l’apprentissage profond et les algorithmes d’apprentissage automatique pour fournir des solutions de doublage évolutives et de haute qualité qui préservent l’intention originale, le style, l’humour et les nuances culturelles.

En plus de notre technologie eTTS™, la suite innovante de Deepdub inclut des fonctionnalités telles que Voice-to-Voice (V2V), le clonage de voix, le contrôle d’accent et notre banque vocale d’émotion, qui permettent aux équipes de production d’affiner les performances pour correspondre à leur vision créative. Ces fonctionnalités garantissent que chaque voix porte la profondeur émotionnelle et la nuance nécessaire pour un récit percutant et une expérience utilisateur percutante.

Au cours des dernières années, nous avons vu le succès croissant de nos solutions dans l’industrie des médias et du divertissement, nous avons donc décidé d’ouvrir l’accès à nos voix-offs vérifiées par Hollywood aux développeurs, aux entreprises et aux créateurs de contenu avec notre API Audio IA. Propulsée par notre technologie eTTS™, l’API permet la génération de voix en temps réel avec des paramètres de personnalisation avancés, notamment l’accent, le ton émotionnel, le tempo et le style vocal.

La fonctionnalité phare de notre API est les présets audio, conçus sur la base d’années d’expérience dans les besoins de voix-off les plus demandés. Ces paramètres préconfigurés permettent aux utilisateurs de s’adapter rapidement à différents types de contenu sans nécessiter de configuration manuelle extensive ou d’exploration. Les présents disponibles incluent les descriptions audio et les livres audio, la narration de documentaires ou de réalité, le drame et le divertissement, la livraison de nouvelles, les commentaires sportifs, les voix-off d’anime ou de dessins animés, la réponse vocale interactive (IVR), ainsi que le contenu promotionnel et commercial.

Le doublage IA implique l’adaptation culturelle et linguistique — comment Deepdub garantit-il que ses solutions de doublage sont culturellement appropriées et précises ?

La localisation ne consiste pas seulement à traduire des mots – c’est traduire le sens, l’intention et le contexte culturel. L’approche hybride de Deepdub combine l’automatisation pilotée par l’IA avec l’expertise linguistique humaine, garantissant que le dialogue traduit reflète les nuances culturelles et émotionnelles du public cible. Notre réseau d’experts en localisation travaille aux côtés de l’IA pour garantir que le contenu doublé s’aligne sur les dialectes régionaux, les expressions et les sensibilités culturelles.

Quelles sont les innovations les plus passionnantes sur lesquelles vous travaillez actuellement pour pousser le doublage IA vers le prochain niveau ?

L’une de nos plus grandes innovations à venir est le doublage en direct/à la demande, qui permettra le doublage en temps réel pour les diffusions en direct comme les événements sportifs et les médias d’information, rendant les événements mondiaux instantanément accessibles. En combinant cela avec une autre de nos innovations excitantes, notre fonctionnalité eTTs™, une technologie propriétaire qui permet la création de voix humaines à partir de texte à grande échelle et avec un soutien émotionnel complet et des droits commerciaux intégrés, nous allons être en mesure d’offrir un doublage en direct de haute qualité, authentique et émotif, sans précédent sur le marché.

Prenez, par exemple, les cérémonies d’ouverture des Jeux olympiques ou tout événement sportif en direct. Alors que les diffuseurs locaux fournissent généralement des commentaires dans leur langue et leur dialecte régionaux, cette technologie permettra aux téléspectateurs du monde entier d’expérir l’événement dans sa langue maternelle à mesure qu’il se déroule.

Le doublage en direct redéfinit la façon dont les événements en direct sont vécus dans le monde, garantissant que la langue ne soit jamais un obstacle.

Le doublage généré par l’IA a fait face à des critiques dans certains projets récemment. Quels facteurs clés, selon vous, sont à l’origine de ces critiques ?

Les principales critiques découlent de préoccupations concernant l’authenticité, l’éthique et la qualité. Certaines voix générées par l’IA ont manqué de résonance émotionnelle et de nuance nécessaires pour un récit immersif. Chez Deepdub, nous avons abordé ce problème en développant des voix IA expressives sur le plan émotionnel, garantissant qu’elles conservent l’âme de la performance originale. Deepdub a obtenu plus de 70 % de satisfaction exceptionnelle des téléspectateurs sur tous les aspects, notamment un excellent casting, des dialogues clairs, une synchronisation sans faille et un rythme parfait.

Un autre problème est l’utilisation éthique des voix IA. Deepdub est un leader dans le doublage IA responsable, pionnier du premier programme de redevance de l’industrie qui compense les acteurs de voix pour les performances générées par l’IA. Nous croyons que l’IA devrait améliorer la créativité humaine, et non la remplacer, et cet engagement se reflète dans tout ce que nous construisons.

Comment voyez-vous le doublage IA changer l’industrie du divertissement mondial dans les 5 à 10 prochaines années ?

Au cours de la prochaine décennie, le doublage piloté par l’IA démocratisera le contenu comme jamais auparavant, rendant les films, les émissions de télévision et les diffusions en direct accessibles à chaque public, partout, dans sa langue maternelle, instantanément.

Nous nous imaginons un monde où les plateformes de streaming et les diffuseurs intègrent le doublage multilingue en temps réel, supprimant les barrières linguistiques et permettant aux histoires de voyager plus loin et plus vite que les méthodes de localisation traditionnelles ne l’ont permis.

Au-delà de l’accessibilité linguistique, le doublage IA peut également améliorer l’accès aux médias pour les aveugles et les malvoyants. Beaucoup dépendent des descriptions audio pour suivre le contenu visuel, et le doublage IA permet de s’engager dans le contenu en langues étrangères lorsque les sous-titres ne sont pas une option accessible. En brisant à la fois les barrières linguistiques et sensorielles, le doublage piloté par l’IA contribuera à créer une expérience de divertissement plus inclusive pour tous, ce qui est particulièrement crucial à mesure que de nouvelles réglementations sur l’accessibilité des médias entrent en vigueur dans le monde entier cette année.

Quels sont les plus grands défis qui doivent encore être résolus pour que le doublage IA devienne vraiment mainstream ?

Les plus grands défis sont de maintenir une qualité ultra-élevée à grande échelle, de garantir la précision culturelle et linguistique et d’établir des lignes directrices éthiques pour les voix générées par l’IA. Cependant, au-delà des obstacles techniques, l’acceptation publique du doublage IA dépend de la confiance. Les téléspectateurs doivent sentir que les voix générées par l’IA préservent l’authenticité et la profondeur émotionnelle des performances plutôt que de sonner de manière synthétique ou détachée.

Pour que le doublage IA soit pleinement adopté, il doit être de haute qualité en combinant l’art humain et la technologie à grande échelle, et démontrer également le respect de l’intégrité créative, de la nuance linguistique et du contexte culturel. Cela signifie garantir que les voix restent fidèles à l’intention originale des acteurs, en évitant les inexactitudes qui pourraient aliéner les publics, et en abordant les préoccupations éthiques liées aux risques de deepfake et à la propriété vocale.

À mesure que le doublage IA se généralise, les fournisseurs de technologie doivent mettre en œuvre des normes rigoureuses pour l’authenticité vocale, la sécurité et la protection de la propriété intellectuelle. Deepdub est activement à la tête de ces domaines, garantissant que la technologie de voix IA améliore le récit mondial tout en respectant les contributions artistiques et professionnelles du talent humain. Seulement alors les publics, les créateurs de contenu et les parties prenantes de l’industrie adopteront pleinement le doublage IA comme un outil fiable et précieux.

Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Deepdub.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.