Intervjuer

Ofir Krakowski, VD och medgrundare av Deepdub – Intervjuserie

Published March 13, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Ofir Krakowski är medgrundare och VD för Deepdub. Med 30 års erfarenhet av datavetenskap och maskinlärning spelade han en nyckelroll i att grunda och leda det israeliska flygvapnets avdelning för maskinlärning och innovation under 25 år.

Deepdub är ett företag som använder AI-driven dubbning och som utnyttjar djupinlärning och röstkloning för att tillhandahålla högkvalitativ, skalbar lokaliseringslösning för film, TV och digitalt innehåll. Företaget grundades 2019 och möjliggör för innehållsskapare att bevara de ursprungliga prestationerna samtidigt som de sömlöst översätter dialoger till flera språk. Genom att integrera AI-stödd tal syntes med mänsklig lingvistisk översyn förbättrar Deepdub den globala tillgängligheten för innehåll, samtidigt som det minskar tiden och kostnaderna för traditionell dubbning. Företaget har fått branschens erkännande för sin innovation och har säkrat stora partnerskap, certifieringar och finansiering för att expandera sin AI-lösning för lokaliserings teknologi inom underhållningssektorn.

Vad inspirerade dig att grunda Deepdub 2019? Fanns det ett särskilt ögonblick eller utmaning som ledde till dess skapande?

Traditionell dubbning har länge varit branschstandard för lokaliseringsinnehåll, men det är en dyr, tidskrävande och resursintensiv process. Medan AI-genererade röster redan fanns, saknade de den emotionella djupet som behövs för att verkligen fånga en skådespelares prestation, vilket gjorde dem olämpliga för högkvalitativt och komplext innehåll.

Vi identifierade en möjlighet att överbrygga denna klyfta genom att utveckla en AI-stödd lokaliseringslösning som upprätthåller den emotionella autenticiteten i den ursprungliga prestationen samtidigt som den drastiskt förbättrar effektiviteten. Vi utvecklade vår egen eTTS™ (Emotion-Text-to-Speech)-teknologi, som säkerställer att AI-genererade röster bär samma emotionella vikt, ton och nyans som mänskliga skådespelare.

Vi ser en värld där språk- och kulturella barriärer inte längre är hinder för global tillgänglighet av innehåll. I skapandet av vår plattform erkände vi utmaningen med språkbegränsningar inom underhållning, e-lärande, FAST och andra branscher, och satte oss att revolutionera innehållslokalisering.

För att säkerställa att Deepdubs lösning tillhandahöll den högsta kvaliteten på lokaliserings- och dubbningstjänster för komplext innehåll i stor skala, beslutade vi att anta en hybridansats och inkorporera lingvistiska och röstexperter i processen, i kombination med vår eTTS™-teknologi.

Vår vision är att demokratisera röstproduktion, göra den massivt skalbar, universellt tillgänglig, inkluderande och kulturellt relevant.

Vilka var några av de största tekniska och affärsmässiga utmaningarna du stod inför när du lanserade Deepdub, och hur övervann du dem?

Att vinna förtroendet från underhållningsbranschen var ett stort hinder när Deepdub lanserades. Hollywood har länge förlitat sig på traditionell dubbning, och att gå över till AI-stödda lösningar krävde att vi visade vår förmåga att leverera studio-kvalitetsresultat i en bransch som ofta är skeptisk till AI.

För att hantera denna skepsis förbättrade vi autenticiteten hos våra AI-genererade röster genom att skapa en fullständigt licensierad röstbank. Denna bank inkorporerar riktiga mänskliga röstprover, vilket avsevärt förbättrar naturaliteten och uttrycksfullheten i vår utdata, vilket är avgörande för acceptans i Hollywood.

Därefter utvecklade vi proprietära teknologier, som eTTS™, tillsammans med funktioner som Accent Control. Dessa teknologier säkerställer att AI-genererade röster inte bara fångar emotionell djup och nyanser, utan också följer den regionala autenticitet som krävs för högkvalitativ dubbning.

Vi byggde också ett dedikerat internt postproduktionsteam som arbetar nära med vår teknologi. Detta team finjusterar AI-utdata, säkerställer att varje innehåll är polerat och uppfyller branschens höga standarder.

Dessutom utvidgade vi vår ansats till att omfatta ett globalt nätverk av mänskliga experter – röstskådespelare, lingvister och regissörer från hela världen. Dessa proffs bidrar med ovärderliga kulturella insikter och kreativ expertis, vilket förbättrar den kulturella precisionen och emotionella resonansen i våra dubbade innehåll.

Vårt lingvistiska team arbetar i tandem med vår teknologi och globala experter för att säkerställa att språket som används är perfekt för målgruppens kulturella sammanhang, vilket ytterligare säkerställer autenticitet och överensstämmelse med lokala normer.

Genom dessa strategier, som kombinerar avancerad teknologi med ett robust team av globala experter och ett internt postproduktionsteam, har Deepdub framgångsrikt visat för Hollywood och andra toppproduktionsföretag världen över att AI kan avsevärt förbättra traditionella dubbningprocesser. Denna integration inte bara rationaliserar produktionen utan utökar också möjligheterna för marknadsexpansion.

Hur skiljer sig Deepdubs AI-stödda dubbningsteknologi sig från traditionella dubbningmetoder?

Traditionell dubbning är en arbetsintensiv process som kan ta månader per projekt, eftersom den kräver röstskådespelare, ljudtekniker och postproduktionsteam för att manuellt återskapa dialoger på olika språk. Vår lösning revolutionerar denna process genom att erbjuda en hybrid slut-till-slut-lösning – som kombinerar teknologi och mänsklig expertis – integrerad direkt i postproduktionsflöden, vilket minskar lokaliseringskostnaderna med upp till 70% och omsättningstiderna med upp till 50%.

Till skillnad från andra AI-genererade röstlösningar tillåter vår proprietära eTTS™-teknologi en nivå av emotionell djup, kulturell autenticitet och röstkonsekvens som traditionella metoder kämpar för att uppnå i stor skala.

Kan du gå igenom den hybridansats Deepdub använder – hur fungerar AI och mänsklig expertis tillsammans i dubbningprocessen?

Deepdubs hybridmodell kombinerar precisionen och skalbarheten hos AI med kreativiteten och kulturella känsligheten hos mänsklig expertis. Vår ansats blandar konsten i traditionell dubbning med avancerad AI-teknologi, säkerställer att lokaliserat innehåll behåller den emotionella autenticiteten och påverkan av originalet.

Vår lösning utnyttjar AI för att automatisera de grundläggande aspekterna av lokaliseringsprocessen, medan mänskliga proffs finjusterar de emotionella nyanserna, accenter och kulturella detaljerna. Vi inkorporerar både vår proprietära eTTs™ och vår Voice-to-Voice (V2V)-teknologi för att förbättra den naturliga uttrycksfullheten hos AI-genererade röster, säkerställer att de fångar djupet och realismen i mänskliga prestationer. På detta sätt säkerställer vi att varje innehåll känns lika äkta och påverkande i sin lokaliserade form som det gör i originalet.

Lingvister och röstproffs spelar en nyckelroll i denna process, eftersom de förbättrar den kulturella precisionen i AI-genererat innehåll. När globaliseringen fortsätter att forma underhållningens framtid kommer integrationen av AI med mänsklig konstnärlighet att bli den gyllene standarden för innehållslokalisering.

Dessutom kompenserar vårt Voice Artist Royalty Program professionella röstskådespelare varje gång deras röster används i AI-assisterad dubbning, säkerställer etisk användning av röst-AI-teknologi.

Hur förbättrar Deepdubs proprietära eTTS™ (Emotion-Text-to-Speech)-teknologi röstautenticitet och emotionell djup i dubbade innehåll?

Traditionella AI-genererade röster saknar ofta de subtila emotionella signalerna som gör prestationer övertygande. För att hantera denna brist utvecklade Deepdub sin proprietära eTTS™-teknologi, som använder AI och djupinlärningsmodeller för att generera tal som inte bara behåller den fulla emotionella djupet i den ursprungliga skådespelarens prestation, utan också integrerar mänsklig emotionell intelligens i den automatiserade processen. Denna avancerade funktion låter AI justera syntetiserade röster för att återspegla avsedda emotioner som glädje, ilska eller sorg, vilket ger en autentisk resonans med publiken. Dessutom excellerar eTTS™ i att producera högkvalitativ röstreplication, som imiterar naturliga nyanser i mänskligt tal som tonhöjd, ton och tempo, vilket är avgörande för att leverera rader som är äkta och engagerande. Teknologin förbättrar också kulturell känslighet genom att anpassa utdata för att kontrollera accenter, säkerställer att det dubbade innehållet respekterar och anpassar sig till kulturella nyanser, vilket förbättrar dess globala attraktionskraft och effektivitet.

En av de vanligaste kritikerna mot AI-genererade röster är att de kan låta robotiska. Hur säkerställer Deepdub att AI-genererade röster behåller naturalitet och emotionell nyans?

Vår proprietära teknologi använder djupinlärning och maskinlärningsalgoritmer för att leverera skalbara, högkvalitativa dubbninglösningar som bevarar den ursprungliga avsikten, stilen, humorn och de kulturella nyanserna.

Tillsammans med vår eTTS™-teknologi inkluderar Deepdubs innovativa svit funktioner som Voice-to-Voice (V2V), Voice Cloning, Accent Control och vår Vocal Emotion Bank, som låter produktionslag fine-tune prestationer för att matcha deras kreativa vision. Dessa funktioner säkerställer att varje röst bär den emotionella djupet och nyansen som behövs för övertygande berättande och påverkande användarupplevelser.

Under de senaste åren har vi sett en ökning av framgång för våra lösningar inom media- och underhållningsbranschen, så vi beslutade nyligen att öppna tillgång till våra Hollywood-godkända röster till utvecklare, företag och innehållsskapare med vår AI Audio API. Driven av vår eTTS™-teknologi möjliggör API:n realtidsröstgenerering med avancerade anpassningsparametrar, inklusive accent, emotionell ton, tempo och röststil.

Flaggskeppsfunktionen i vår API är ljudförinställningar, utformade utifrån års erfarenhet av de mest efterfrågade röstbehoven inom branschen. Dessa förkonfigurerade inställningar möjliggör för användare att snabbt anpassa olika innehållstyper utan att kräva omfattande manuell konfiguration eller utforskning. Tillgängliga förinställningar inkluderar ljudbeskrivningar och ljudböcker, dokumentär- eller verklighetsbaserad berättande, drama och underhållning, nyhetspresentation, sportkommentarer, anime- eller tecknadfilmsröster, interaktiv röstsvar (IVR) samt reklam- och kommersiellt innehåll.

AI-dubbning innefattar kulturell och språklig anpassning – hur säkerställer Deepdub att dess dubbninglösningar är kulturellt lämpliga och precisa?

Lokalisering handlar inte bara om att översätta ord – det handlar om att översätta mening, avsikt och kulturell kontext. Deepdubs hybridansats kombinerar AI-driven automation med mänsklig lingvistisk expertis, säkerställer att översatt dialog återspeglar de kulturella och emotionella nyanserna hos målgruppen. Vårt nätverk av lokaliseringsexperter arbetar tillsammans med AI för att säkerställa att dubbade innehåll anpassar sig till regionala dialektala uttryck och kulturella känsligheter.

Vilka är de mest spännande innovationerna du för närvarande arbetar med för att driva AI-dubbning till nästa nivå?

En av våra största kommande innovationer är Live/Streaming Dubbing, som kommer att möjliggöra realtidsdubbning för direktsända evenemang som sport och nyheter, vilket gör globala evenemang omedelbart tillgängliga. Genom att kombinera detta med en annan av våra spännande innovationer, vår eTTs™-funktion, en proprietär teknik som möjliggör skapandet av mänskligt ljudande röster från text i stor skala och med fullständigt emotionellt stöd och kommersiella rättigheter inbyggda, kommer vi att kunna erbjuda högkvalitativ, äkta och emotionell live-dubbning som inte finns på marknaden.

Ta till exempel öppningsceremonierna för Olympiska spelen eller något annat live-evenemang. Medan lokala sändare vanligtvis tillhandahåller kommentarer på sitt regionala språk och dialekt, kommer denna teknik att låta tittare från hela världen uppleva hela evenemanget på sitt modersmål medan det utvecklas.

Live-dubbning kommer att omdefiniera hur live-evenemang upplevs runt om i världen, säkerställer att språk aldrig är ett hinder.

AI-genererad dubbning har mött kritik i vissa projekt nyligen. Vad tror du är de viktigaste faktorerna som driver dessa kritiker?

De främsta kritikerna härrör från bekymmer om autenticitet, etik och kvalitet. Vissa AI-genererade röster har saknat den emotionella resonans och nyans som behövs för övertygande berättande. På Deepdub har vi hanterat detta genom att utveckla emotionellt uttrycksfulla AI-röster, säkerställer att de behåller själen i den ursprungliga prestationen. Deepdub har uppnått över 70% exceptionell tittarsättning över alla dimensioner, inklusive superb rollbesättning, tydlig dialog, sömlös synkronisering och perfekt takt.

En annan fråga är den etiska användningen av AI-röster. Deepdub är en ledare inom ansvarsfull AI-dubbning, banbrytande inom branschens första royaltyprogram som kompenserar röstskådespelare för AI-genererade prestationer. Vi tror att AI ska förbättra mänsklig kreativitet, inte ersätta den, och det åtagandet återspeglas i allt vi bygger.

Hur ser du att AI-dubbning kommer att förändra den globala underhållningsbranschen under de kommande 5-10 åren?

Under de kommande 10 åren kommer AI-stödd dubbning att demokratisera innehåll som aldrig tidigare, göra filmer, TV-serier och live-sändningar tillgängliga för alla målgrupper, överallt, på deras modersmål, omedelbart.

Vi ser en värld där streamingplattformar och sändare integrerar realtidsflerspråkig dubbning, avlägsnar språkliga barriärer och låter berättelser resa längre och snabbare än traditionella lokaliseringsmetoder har tillåtit.

Förutom språktillgänglighet kan AI-dubbning också förbättra medietillgänglighet för blinda och synskadade. Många förlitar sig på ljudbeskrivningar för att följa visuellt innehåll, och AI-dubbning låter dem engagera sig i främmande språksinnehåll när undertexter inte är ett tillgängligt alternativ. Genom att bryta både språkliga och sensoriska barriärer kommer AI-stödd dubbning att bidra till att skapa en mer inkluderande underhållningsupplevelse för alla, vilket är särskilt viktigt eftersom nya regleringar kring medietillgänglighet kommer att träda i kraft i år över hela världen.

Vilka är några av de största utmaningarna som fortfarande måste lösas för att AI-dubbning ska bli riktigt mainstream?

De största utmaningarna är att upprätthålla ultrahög kvalitet i stor skala, säkerställa kulturell och språklig precision och etablera etiska riktlinjer för AI-genererade röster. Men bortom de tekniska hindren beror allmän acceptans av AI-dubbning på förtroende. Tittare måste känna att AI-genererade röster bevarar autenticiteten och emotionella djupet i prestationerna, snarare än att låta syntetiska eller avlägsna.

För att AI-dubbning ska bli fullt accepterad måste den vara av högsta kvalitet genom att kombinera mänsklig konstnärlighet och teknologi i stor skala, och den måste visa respekt för kreativ integritet, språklig nyans och kulturell kontext. Detta innebär att säkerställa att röster förblir sanna till de ursprungliga skådespelarnas avsikt, undviker fel som kan alienera publiken och hanterar etiska problem kring deepfake-risker och röstägande.

När AI-dubbning blir mer utbredd måste teknologileverantörer implementera rigorösa standarder för röstautenticitet, säkerhet och immateriella rättigheter. Deepdub arbetar aktivt för att leda utvecklingen inom dessa områden, säkerställer att AI-röstteknologi förbättrar global berättande samtidigt som den respekterar de konstnärliga och professionella bidragen från mänsklig talang. Först då kommer tittare, innehållsskapare och branschaktörer att fullt ut acceptera AI-dubbning som ett pålitligt och värdefullt verktyg.

Tack för den utmärkta intervjun, läsare som vill lära sig mer bör besöka Deepdub.

Unite.AI

Ofir Krakowski, VD och medgrundare av Deepdub – Intervjuserie

You may like