Interviews
Ofir Krakowski, CEO en mede-oprichter van Deepdub – Interviewreeks

Ofir Krakowski is de mede-oprichter en CEO van Deepdub. Met 30 jaar ervaring in computerwetenschappen en machine learning, speelde hij een sleutelrol bij de oprichting en leiding van de afdeling machine learning en innovatie van de Israëlische luchtmacht gedurende 25 jaar.
Deepdub is een AI-gedreven nasynchronisatiebedrijf dat diepe leermodellen en stemkloon technologie gebruikt om hoogwaardige, schaalbare localisatie te bieden voor film, tv en digitale content. Opgericht in 2019, maakt het content creators mogelijk om de originele prestaties te behouden terwijl het gesprek naadloos wordt vertaald in meerdere talen. Door AI-geactiveerde spraaksynthese te integreren met menselijke linguïstische toezicht, verbetert Deepdub de wereldwijde toegankelijkheid van content, waardoor de tijd en kosten van traditionele nasynchronisatie worden verlaagd. Het bedrijf heeft erkenning ontvangen in de industrie voor zijn innovatie, waarbij het belangrijke partnerschappen, certificaten en financiering heeft veiliggesteld om zijn AI-localisatietechnologie uit te breiden in de entertainmentsector.
Wat inspireerde u om Deepdub in 2019 op te richten? Was er een specifiek moment of uitdaging dat leidde tot zijn creatie?
Traditionele nasynchronisatie is lange tijd de industrienorm geweest voor het lokaliseren van content, maar het is een dure, tijdrovende en resource-intensieve procedure. Terwijl AI-gegenereerde stemoplossingen bestonden, ontbrak het aan emotionele diepte om de prestatie van een acteur echt te vangen, waardoor ze ongeschikt waren voor hoogwaardige, complexe content.
We hebben een kans gezien om deze kloof te overbruggen door een AI-geactiveerde localisatieoplossing te ontwikkelen die de emotionele authenticiteit van de originele prestatie behoudt en de efficiëntie aanzienlijk verbetert. We hebben onze eigen eTTS™ (Emotion-Text-to-Speech) technologie ontwikkeld, die ervoor zorgt dat AI-gegenereerde stemmen dezelfde emotionele gewicht, toon en nuance hebben als menselijke acteurs.
We zien een wereld waarin taal- en culturele barrières geen obstakels meer zijn voor de wereldwijde toegankelijkheid van content. Bij het creëren van ons platform hebben we de uitdaging van taalbeperkingen binnen de entertainment-, e-learning-, FAST- en andere industrieën erkend en zijn we uitgegaan van de revolutie van contentlocalisatie.
Om ervoor te zorgen dat Deepdubs oplossing de hoogste kwaliteit localisatie en nasynchronisatie voor complexe content op grote schaal biedt, hebben we besloten om een hybride aanpak te volgen en linguïstische en stemexperts in het proces op te nemen, samen met onze eTTS™-technologie.
Ons doel is om stemproductie te democratiseren, waardoor het massaal schaalbaar, universeel toegankelijk, inclusief en cultureel relevant wordt.
Wat waren enkele van de grootste technische en bedrijfsuitdagingen die u tegenkwam bij de lancering van Deepdub, en hoe hebt u deze overwonnen?
Het verdienen van het vertrouwen van de entertainmentindustrie was een grote hindernis bij de lancering van Deepdub. Hollywood heeft decennialang vertrouwd op traditionele nasynchronisatie, en het omschakelen naar AI-gedreven oplossingen vereiste het aantonen van onze mogelijkheid om studio-kwaliteit resultaten te leveren in een industrie die vaak sceptisch staat tegenover AI.
Om deze scepsis aan te pakken, hebben we eerst de authenticiteit van onze AI-gegenereerde stemmen verbeterd door een volledig gelicenceerde stembank te creëren. Deze bank bevat echte menselijke stemmonsters, waardoor de naturaliteit en expressiviteit van onze output aanzienlijk wordt verbeterd, wat cruciaal is voor acceptatie in Hollywood.
Vervolgens hebben we eigen technologieën ontwikkeld, zoals eTTS™, evenals functies zoals Accent Control. Deze technologieën zorgen ervoor dat AI-gegenereerde stemmen niet alleen emotionele diepte en nuances vangen, maar ook regionale authenticiteit behouden die nodig is voor hoogwaardige nasynchronisatie.
We hebben ook een toegewijd in-house post-productieteam opgebouwd dat nauw samenwerkt met onze technologie. Dit team fine-tuned de AI-outputs, waardoor elke stuk content gepolijst en voldoet aan de hoge standaarden van de industrie.
Bovendien hebben we onze aanpak uitgebreid om een wereldwijd netwerk van menselijke experts te omvatten – stemacteurs, linguïsten en regisseurs van over de hele wereld. Deze professionals brengen waardevolle culturele inzichten en creatieve expertise, waardoor de culturele nauwkeurigheid en emotionele resonantie van onze nagesynchroniseerde content worden verbeterd.
Ons linguïstisch team werkt samen met onze technologie en wereldwijde experts om ervoor te zorgen dat de taal die wordt gebruikt perfect is voor de culturele context van het doelpubliek, waardoor authenticiteit en naleving van lokale normen worden gewaarborgd.
Door deze strategieën, door geavanceerde technologie te combineren met een robuust team van wereldwijde experts en een in-house post-productieteam, heeft Deepdub erfolgreich aangetoond aan Hollywood en andere top-productiebedrijven wereldwijd dat AI traditionele nasynchronisatie-workflows aanzienlijk kan verbeteren. Deze integratie stroomlijnt niet alleen de productie, maar breidt ook de mogelijkheden voor marktuitbreiding uit.
Hoe verschilt Deepdubs AI-gedreven nasynchronisatietechnologie van traditionele nasynchronisatiemethoden?
Traditionele nasynchronisatie is arbeidsintensief en een proces dat maanden per project kan duren, omdat het stemacteurs, geluidstechnici en post-productieteams vereist om handmatig dialoog in verschillende talen te recreëren. Onze oplossing revolutioneert dit proces door een hybride eind-tot-eindoplossing te bieden – door technologie en menselijke expertise te combineren – geïntegreerd in post-productie workflows, waardoor localisatiekosten met tot 70% en doorlooptijden met tot 50% worden verlaagd.
In tegenstelling tot andere AI-gegenereerde stemoplossingen, maakt onze eigen eTTS™-technologie het mogelijk om een niveau van emotionele diepte, culturele authenticiteit en stemconsistentie te bereiken dat traditionele methoden moeilijk kunnen bereiken op grote schaal.
Kunt u ons door de hybride aanpak van Deepdub leiden – hoe werken AI en menselijke expertise samen in het nasynchronisatieproces?
Deepdubs hybride model combineert de precisie en schaalbaarheid van AI met de creativiteit en culturele gevoeligheid van menselijke expertise. Onze aanpak combineert de kunst van traditionele nasynchronisatie met geavanceerde AI-technologie, waardoor gelokaliseerde content de emotionele authenticiteit en impact van het origineel behoudt.
Onze oplossing gebruikt AI om de grondwerkaspecten van localisatie te automatiseren, terwijl menselijke professionals de emotionele nuances, accenten en culturele details verfijnen. We gebruiken zowel onze eigen eTTs™- als onze Voice-to-Voice (V2V)-technologieën om de natuurlijke expressiviteit van AI-gegenereerde stemmen te verbeteren, waardoor ze de diepte en realisme van menselijke prestaties vangen. Op deze manier garanderen we dat elk stuk content even authentiek en impactvol is in zijn gelokaliseerde vorm als in het origineel.
Linguïsten en stemprofessionals spelen een sleutelrol in dit proces, aangezien ze de culturele nauwkeurigheid van AI-gegenereerde content verhogen. Naarmate globalisering de toekomst van entertainment vormgeeft, zal de integratie van AI met menselijke kunst de standaard worden voor contentlocalisatie.
Bovendien compenseert ons Voice Artist Royalty Program professionele stemacteurs wanneer hun stemmen worden gebruikt in AI-geassisteerde nasynchronisatie, waardoor een ethisch gebruik van stem-AI-technologie wordt gewaarborgd.
Hoe verbetert Deepdubs eigen eTTS™ (Emotion-Text-to-Speech) technologie de stemauthenticiteit en emotionele diepte in nagesynchroniseerde content?
Traditionele AI-gegenereerde stemmen ontbreken vaak aan de subtiele emotionele signalen die prestaties boeiend maken. Om deze tekortkoming aan te pakken, heeft Deepdub zijn eigen eTTS™-technologie ontwikkeld, die AI en diepe leermodellen gebruikt om spraak te genereren die niet alleen de volledige emotionele diepte van de originele acteursprestatie behoudt, maar ook menselijke emotionele intelligentie in het geautomatiseerde proces integreert. Deze geavanceerde mogelijkheid stelt de AI in staat om gesynthesiseerde stemmen fijn te stellen om de bedoelde emoties weer te geven, zoals vreugde, woede of verdriet, waardoor ze authentiek resonerend met het publiek zijn. Bovendien excelleert eTTS™ in het produceren van hoogfrequente stemreplicatie, waardoor natuurlijke nuances in menselijke spraak zoals toon, toonhoogte en tempo worden nagebootst, essentieel voor het leveren van regels die echt en boeiend zijn. De technologie verbetert ook culturele gevoeligheid door output aan te passen om accenten te controleren, waardoor de nagesynchroniseerde content de culturele nuances respecteert en zich aanpast, waardoor de wereldwijde aantrekkingskracht en effectiviteit worden verbeterd.
Een van de veelvoorkomende kritieken op AI-gegenereerde stemmen is dat ze robotachtig klinken. Hoe zorgt Deepdub ervoor dat AI-gegenereerde stemmen natuurlijk en emotioneel nuance behouden?
Onze eigen technologie gebruikt diepe leer- en machine learning-algoritmen om schaalbare, hoogwaardige nasynchronisatieoplossingen te leveren die de oorspronkelijke intentie, stijl, humor en culturele nuances behouden.
Naast onze eTTS™-technologie omvat Deepdubs innovatieve suite functies zoals Voice-to-Voice (V2V), Voice Cloning, Accent Control en onze Vocal Emotion Bank, die productieteams in staat stellen om prestaties te fine-tunen om aan hun creatieve visie te voldoen. Deze functies garanderen dat elke stem de emotionele diepte en nuance nodig heeft voor boeiend verhaalvertellen en impactvolle gebruikerservaringen.
In de afgelopen jaren hebben we een toenemend succes van onze oplossingen in de Media & Entertainment-industrie gezien, dus hebben we onlangs besloten om toegang te openen tot onze door Hollywood goedgekeurde voice-overs voor ontwikkelaars, bedrijven en content creators met onze AI Audio API. Aangedreven door onze eTTS™-technologie, stelt de API real-time stemgeneratie mogelijk met geavanceerde aanpasbare parameters, waaronder accent, emotionele toon, tempo en vocale stijl.
Het vlaggenschip van onze API is de audio-presets, ontworpen op basis van jarenlange industrie-ervaring met de meest gevraagde voice-over behoeften. Deze vooraf geconfigureerde instellingen stellen gebruikers in staat om snel verschillende contenttypen aan te passen zonder uitgebreide handmatige configuratie of exploratie. Beschikbare presets omvatten audiobeschrijvingen en luisterboeken, documentaire- of reality-narratie, drama en entertainment, nieuwslevering, sportcommentaar, anime- of cartoon-stemmen, Interactive Voice Response (IVR), evenals promotionele en commerciële content.
AI-nasynchronisatie omvat culturele en linguïstische adaptatie – hoe zorgt Deepdub ervoor dat zijn nasynchronisatieoplossingen cultureel geschikt en nauwkeurig zijn?
Localisatie gaat niet alleen over het vertalen van woorden – het gaat over het vertalen van betekenis, intentie en culturele context. Deepdubs hybride aanpak combineert AI-gedreven automatisering met menselijke linguïstische expertise, waardoor vertaalde dialoog de culturele en emotionele nuances van het doelpubliek weerspiegelt. Ons netwerk van localisatie-experts werkt samen met AI om ervoor te zorgen dat nagesynchroniseerde content overeenkomt met regionale dialecten, uitdrukkingen en culturele gevoeligheden.
Wat zijn de meest spannende innovaties waar u momenteel aan werkt om AI-nasynchronisatie naar het volgende niveau te tillen?
Een van onze grootste aanstaande innovaties is Live/Streaming Dubbing, waardoor real-time nasynchronisatie mogelijk wordt voor live-uitzendingen zoals sportevenementen en nieuwsmedia, waardoor globale evenementen onmiddellijk toegankelijk worden. Door dit te combineren met een andere van onze spannende innovaties, onze eTTs™-functie, een eigen technologie die het mogelijk maakt om menselijke stemmen te creëren uit tekst op grote schaal en met volledige emotionele ondersteuning en commerciële rechten ingebouwd, zullen we in staat zijn om hoogwaardige, authentieke, emotionele live-nasynchronisatie te bieden zoals niets anders op de markt.
Neem bijvoorbeeld de openingsceremonie van de Olympische Spelen of elk live-sportevenement. Terwijl lokale omroepen typisch commentaar leveren in hun regionale taal en dialect, zal deze technologie het mogelijk maken voor kijkers over de hele wereld om het evenement in hun moedertaal te ervaren terwijl het zich ontvouwt.
Live-nasynchronisatie zal opnieuw definiëren hoe live-evenementen wereldwijd worden ervaren, waardoor taal nooit een barrière vormt.
AI-gegenereerde nasynchronisatie heeft in bepaalde projecten onlangs kritiek ontvangen. Wat denkt u dat de belangrijkste factoren zijn die deze kritieken aandrijven?
De belangrijkste kritieken komen voort uit zorgen over authenticiteit, ethiek en kwaliteit. Sommige AI-gegenereerde stemmen ontbraken aan de emotionele resonantie en nuance nodig voor boeiend verhaalvertellen. Bij Deepdub hebben we dit aangepakt door emotioneel expressieve AI-stemmen te ontwikkelen, waardoor ze de ziel van de originele prestatie behouden. Deepdub heeft meer dan 70% uitzonderlijke kijkersbevrediging bereikt over alle dimensies, waaronder uitstekende casting, duidelijk dialoog, naadloze synchronisatie en perfecte timing.
Een ander probleem is het ethische gebruik van AI-stemmen. Deepdub is een leider in verantwoordelijke AI-nasynchronisatie, waarbij het de eerste Royalty Program in de industrie introduceert dat stemacteurs compenseert voor AI-gegenereerde prestaties. We geloven dat AI menselijke creativiteit moet versterken, niet vervangen, en dat engagement wordt weerspiegeld in alles wat we bouwen.
Hoe ziet u AI-nasynchronisatie de wereldwijde entertainmentindustrie veranderen in de komende 5-10 jaar?
In de komende decennium zal AI-gedreven nasynchronisatie content democratiseren zoals nooit tevoren, waardoor films, tv-series en live-uitzendingen toegankelijk worden voor elk publiek, overal, in hun moedertaal, onmiddellijk.
We zien een wereld waarin streamingplatforms en omroepen real-time meertalige nasynchronisatie integreren, waardoor taalbarrières worden verwijderd en verhalen sneller en verder reiken dan traditionele localisatiemethoden hebben toegestaan.
Behalve taaltoegankelijkheid kan AI-nasynchronisatie ook mediatoegang voor blinden en visueel gehandicapten verbeteren. Velen zijn afhankelijk van audiobeschrijvingen om visuele content te volgen, en AI-nasynchronisatie stelt hen in staat om te communiceren met buitenlandse content wanneer ondertiteling geen toegankelijke optie is. Door zowel taal- als sensorische barrières te doorbreken, zal AI-gedreven nasynchronisatie helpen een meer inclusieve entertainmentervaring te creëren voor iedereen, wat vooral kritiek is aangezien nieuwe regelgeving rond mediatoegankelijkheid dit jaar wereldwijd van kracht wordt.
Wat zijn enkele van de grootste uitdagingen die nog moeten worden opgelost om AI-nasynchronisatie echt mainstream te maken?
De grootste uitdagingen zijn het behouden van ultra-hoge kwaliteit op grote schaal, het garanderen van culturele en linguïstische precisie en het vaststellen van ethische richtlijnen voor AI-gegenereerde stemmen. Echter, voorbij de technische hindernissen, hangt de publieke acceptatie van AI-nasynchronisatie af van vertrouwen. Kijkers moeten het gevoel hebben dat AI-gegenereerde stemmen de authenticiteit en emotionele diepte van prestaties behouden, in plaats van synthetisch of losgekoppeld te klinken.
Om AI-nasynchronisatie volledig te omarmen, moet het van hoge kwaliteit zijn door menselijke kunst en technologie op grote schaal te combineren en ook respect te tonen voor creatieve integriteit, linguïstische nuances en culturele context. Dit betekent ervoor zorgen dat stemmen trouw blijven aan de intentie van de originele acteurs, inaccuraatheid vermijden die het publiek zou kunnen alienatie, en ethische zorgen aanpakken over diepe vervalsing risico’s en stembezit.
Naarmate AI-nasynchronisatie meer wordt verspreid, moeten technologieaanbieders strikte standaarden implementeren voor stemauthenticiteit, beveiliging en intellectueel eigendomsbescherming. Deepdub leidt actief decharge in deze gebieden, waarbij wordt gegarandeerd dat AI-stemtechnologie wereldwijde verhalen vertelt, terwijl het artistieke en professionele bijdragen van menselijke talenten respecteert. Pas dan zullen kijkers, content creators en industrieleiders AI-nasynchronisatie volledig omarmen als een betrouwbaar en waardevol instrument.
Bedankt voor het geweldige interview, lezers die meer willen leren, moeten Deepdub bezoeken.












