Connect with us

Interviews

Ofir Krakowski, CEO og medstifter af Deepdub – Interviewserie

mm

Ofir Krakowski er medstifter og CEO af Deepdub. Med 30 års erfaring i datalogi og maskinlæring, spillede han en nøglerolle i oprettelsen og ledelsen af det israelske luftvåbens afdeling for maskinlæring og innovation i 25 år.

Deepdub er et AI-drevet dubbingfirma, der udnytter dyb læring og stemmekloning til at levere højkvalitets-, skalerbar lokalisation af film, tv og digitalt indhold. Grundlagt i 2019, gør det det muligt for indholdsskabere at bevare de originale præstationer, mens de samtidig ubemærket oversætter dialogen til flere sprog. Ved at integrere AI-drevet tale-syntese med menneskelig lingvistisk oversigt, forbedrer Deepdub den globale tilgængelighed af indhold, reducerer tiden og omkostningerne ved traditionel dubbing. Virksomheden har opnået branchegenkendelse for sin innovation, sikret større partnerskaber, certificeringer og finansiering til at udvide sin AI-lokalisationsteknologi på underholdningssektoren.

Hvad inspirerede dig til at grundlægge Deepdub i 2019? Var der et bestemt øjeblik eller udfordring, der ledte til dets oprettelse?

Traditionel dubbing har længe været branchestandarden for lokalisation af indhold, men det er en dyrekøbt, tidskrævende og ressourcekrævende proces. Mens AI-genererede stemmeløsninger fandtes, manglede de den emotionelle dybde, der er nødvendig for at fange en skuespillers præstation, og gjorde dem derfor uegnede til højkvalitets-, komplekst indhold.

Vi identificerede en mulighed for at brobygge denne kløft ved at udvikle en AI-drevet lokalisationssolution, der opretholder den emotionelle autenticitet af den originale præstation, samtidig med at den dramatisk forbedrer effektiviteten. Vi udviklede vores proprietære eTTS™ (Emotion-Text-to-Speech)-teknologi, der sikrer, at AI-genererede stemmer bærer den samme emotionelle vægt, tone og nuance som menneskelige skuespillere.

Vi forestiller os en verden, hvor sprog- og kulturelle barrierer ikke længere er hindringer for global tilgængelighed af indhold. I oprettelsen af vores platform erkendte vi udfordringen med sprogmæssige begrænsninger inden for underholdnings-, e-lærings-, FAST- og andre brancher, og satte os for at revolutionere indholdslokalisation.

For at sikre, at Deepdubs løsning leverede den højeste kvalitetslokalisation og dubbing af komplekst indhold i stor målestok, besluttede vi at følge en hybridtilgang og inkorporere lingvistiske og stemmeeksperter i processen i kombination med vores eTTS™-teknologi.

Vores vision er at demokratisere stemmeproduktion, gøre den massivt skalerbar, universelt tilgængelig, inklusiv og kulturelt relevant.

Hvad var nogle af de største tekniske og forretningsmæssige udfordringer, du stod over for, da du lancerede Deepdub, og hvordan overvandt du dem?

At opnå tillid fra underholdningsindustrien var en stor hindring, da Deepdub blev lanceret. Hollywood har længe afhængigt af traditionel dubbing, og skiftet til AI-drevne løsninger krævede, at vi demonstrerede vores evne til at levere studie-kvalitetsresultater i en branche, der ofte er skeptisk over for AI.

For at imødegå denne skepsis forbedrede vi først autenticiteten af vores AI-genererede stemmer ved at oprette en fuldt licenseret stemmebank. Denne bank indeholder ægte menneskestemmemønstre, hvilket betydeligt forbedrer naturligheden og udtryksfuldheden af vores output, som er afgørende for accept i Hollywood.

Herefter udviklede vi proprietære teknologier som f.eks. eTTS™ samt funktioner som Accent Control. Disse teknologier sikrer, at AI-genererede stemmer ikke kun fanger den emotionelle dybde og nuancer, men også overholder den regionale autenticitet, der kræves for højkvalitetsdubbing.

Vi byggede også et dedikeret internt postproduktionsteam, der arbejder tæt sammen med vores teknologi. Dette team finjusterer AI-udgangene, så hver enkelt del af indholdet er poleret og opfylder branchens høje standarder.

Desuden udvidede vi vores tilgang til at omfatte et globalt netværk af menneskelige eksperter – stemmeaktører, lingvister og instruktører fra hele verden. Disse fagfolk bringer uvurderlige kulturelle indsighter og kreative ekspertise, der forbedrer den kulturelle nøjagtighed og emotionelle resonans af vores dubbede indhold.

Vores lingvistiske team arbejder i tæt samarbejde med vores teknologi og globale eksperter for at sikre, at sproget brugt er perfekt for målgruppens kulturelle kontekst, og yderligere sikrer autenticitet og overholdelse af lokale normer.

Gennem disse strategier, der kombinerer avanceret teknologi med et robust team af globale eksperter og et internt postproduktionsteam, har Deepdub succesfuldt demonstreret for Hollywood og andre top-tier produktionsselskaber verden over, at AI kan betydeligt forbedre traditionelle dubbing-workflows. Denne integration reducerer ikke kun produktionsomkostningerne, men udvider også mulighederne for markedsudvidelse.

Hvordan adskiller Deepdubs AI-drevne dubbingsteknologi sig fra traditionelle dubbingmetoder?

Traditionel dubbing er en arbejdskrævende proces, der kan tage måneder pr. projekt, da den kræver stemmeaktører, lydteknikere og postproduktionsteams til at manuelt genskabe dialog i forskellige sprog. Vores løsning revolutionerer denne proces ved at tilbyde en hybrid end-to-end-løsning – kombinerer teknologi og menneskelig ekspertise – integreret direkte i postproduktions-workflows, hvilket reducerer lokaliseringsomkostningerne med op til 70% og gennemføringstiderne med op til 50%.

I modsætning til andre AI-genererede stemmeløsninger tillader vores proprietære eTTS™-teknologi en niveau af emotionel dybde, kulturel autenticitet og stemmekonsistens, som traditionelle metoder kæmper for at opnå i stor målestok.

Kan du føre os igennem den hybridtilgang, Deepdub bruger – hvordan samarbejder AI og menneskelig ekspertise i dubbingprocessen?

Deepdubs hybridmodel kombinerer præcisionen og skalerbarheden af AI med kreativiteten og den kulturelle følsomhed af menneskelig ekspertise. Vores tilgang kombinerer kunsten i traditionel dubbing med avanceret AI-teknologi, sikrer, at lokaliseret indhold beholder den emotionelle autenticitet og impact af originalen.

Vores løsning udnytter AI til at automatisere grundarbejdsaspekterne af lokalisation, mens menneskelige fagfolk finjusterer de emotionelle nuancer, accenter og kulturelle detaljer. Vi inkorporerer både vores proprietære eTTs™ og vores Voice-to-Voice (V2V)-teknologier for at forbedre den naturlige udtryksfuldhed af AI-genererede stemmer, sikrer, at de fanger dybden og realisme af menneskelige præstationer. På denne måde sikrer vi, at hvert enkelt stykke indhold føles lige så ægte og virkningsfuldt i sin lokaliserede form som i originalen.

Lingvister og stemmeeksperter spiller en nøglerolle i denne proces, da de forbedrer den kulturelle nøjagtighed af AI-genereret indhold. Da globaliseringen fortsætter med at forme fremtiden for underholdning, vil integrationen af AI med menneskelig kunstnerisk udtryk blive standarden for indholdslokalisation.

Desuden kompenserer vores Voice Artist Royalty Program professionelle stemmeaktører, hver gang deres stemmer bruges i AI-assisteret dubbing, sikrer en etisk brug af stemme-AI-teknologi.

Hvordan forbedrer Deepdubs proprietære eTTS™ (Emotion-Text-to-Speech)-teknologi stemmeautenticitet og emotionel dybde i dubbede indhold?

Traditionelle AI-genererede stemmer mangler ofte de subtile emotionelle signaler, der gør præstationer overbevisende. For at imødegå denne mangel udviklede Deepdub sin proprietære eTTS™-teknologi, der udnytter AI og dyb læring til at generere tale, der ikke kun beholder den fulde emotionelle dybde af den originale skuespillers præstation, men også integrerer menneskelig emotionel intelligens i den automatiserede proces. Denne avancerede funktionality tillader AI’en at finjustere syntetiserede stemmer for at reflektere intentionerne emotioner som glæde, vrede eller sorg, og giver en autentisk resonans med publikum. Desuden excellerer eTTS™ i at producere høj-fidelity stemme-replikation, efterligner naturlige nuancer i menneskesprog som tone, tonehøjde og tempo, afgørende for at levere linjer, der er ægte og engagerende. Teknologien forbedrer også kulturel følsomhed ved at tilpasse output til at kontrollere accenter, sikrer, at det dubbede indhold respekterer og tilpaser kulturelle nuancer, og dermed forbedrer dets globale appel og effektivitet.

En af de almindelige kritikker af AI-genererede stemmer er, at de kan lyde robotiske. Hvordan sikrer Deepdub, at AI-genererede stemmer beholder naturlighed og emotionel nuance?

Vores proprietære teknologi udnytter dyb læring og maskinlæring algoritmer til at levere skalerbar, højkvalitets dubbing-løsninger, der bevarede den originale intention, stil, humor og kulturelle nuancer.

Sammen med vores eTTS™-teknologi inkluderer Deepdubs innovative suite funktioner som Voice-to-Voice (V2V), Voice Cloning, Accent Control og vores Vocal Emotion Bank, der giver produktionsholdene mulighed for at finjustere præstationer for at matche deres kreative vision. Disse funktioner sikrer, at hver enkelt stemme bærer den emotionelle dybde og nuance, der er nødvendig for overbevisende historiefortælling og virkningsfulde brugeroplevelser.

Over de seneste par år har vi set en stigende succes af vores løsninger i medie- og underholdningsindustrien, så vi besluttede for nylig at åbne adgangen til vores Hollywood-godkendte stemmer til udviklere, virksomheder og indholdsskabere med vores AI Audio API. Drevet af vores eTTS™-teknologi giver API’en mulighed for realtids stemmegenerering med avancerede tilpasningsparametre, herunder accent, emotionel tone, tempo og vokalstil.

Flagship-funktionen i vores API er lydforudindstillinger, designet på baggrund af års erfaring med de mest anmodede stemmebehov. Disse forudkonfigurerede indstillinger giver brugerne mulighed for at hurtigt tilpasse forskellige indholdstyper uden at kræve omfattende manuel konfiguration eller udforskning. Tilgængelige forudindstillinger inkluderer lydbeskrivelser og lydbøger, dokumentar- eller reality-narration, drama og underholdning, nyhedsformidling, sportskommentarer, anime- eller tegnefilmsstemmer, Interactive Voice Response (IVR) samt promoverings- og kommercielt indhold.

AI-dubbing indebærer kulturel og sproglig tilpasning – hvordan sikrer Deepdub, at deres dubbing-løsninger er kulturelt passende og nøjagtige?

Lokalisation handler ikke kun om at oversætte ord – det handler om at oversætte mening, intention og kulturel kontekst. Deepdubs hybridtilgang kombinerer AI-drevet automation med menneskelig lingvistisk ekspertise, sikrer, at oversat dialog reflekterer de kulturelle og emotionelle nuancer af målgruppen. Vores netværk af lokaliseringseksperter arbejder sammen med AI for at sikre, at dubbede indhold er i overensstemmelse med regionale dialekter, udtryk og kulturelle følsomheder.

Hvad er nogle af de mest spændende innovationer, du arbejder på lige nu for at skubbe AI-dubbing til næste niveau?

En af vores største kommende innovationer er Live/Streaming Dubbing, der vil give mulighed for realtidsdubbing af live-transmissioner som sportsbegivenheder og nyhedsmedier, og gøre globale begivenheder øjeblikkeligt tilgængelige. Ved at kombinere dette med en anden af vores spændende innovationer, vores eTTs™-funktion, en proprietær teknologi, der giver mulighed for at oprette menneske-lignende stemmer fra tekst i stor målestok og med fuld emotionel støtte og kommercielle rettigheder bygget ind, vil vi kunne tilbyde højkvalitets-, ægte, emotionel live-dubbing, der ikke har noget lignende på markedet.

Tag åbningsseremonierne for de olympiske lege eller enhver anden live-sportsbegivenhed som eksempel. Mens lokale tv-stationer typisk giver kommentarer på deres regionale sprog og dialekt, vil denne teknologi give seerne verden over mulighed for at opleve den fulde begivenhed på deres modersmål, mens den udvikler sig.

Live-dubbing vil omdefinere, hvordan live-begivenheder opleves verden over, og sikre, at sprog aldrig er en barriere.

AI-genereret dubbing har været udsat for kritik i visse projekter for nylig. Hvad mener du er de vigtigste faktorer, der driver disse kritikker?

De primære kritikker stammer fra bekymringer over autenticitet, etik og kvalitet. Nogle AI-genererede stemmer har manglet den emotionelle resonans og nuance, der er nødvendig for overbevisende historiefortælling. Hos Deepdub har vi tacklet dette ved at udvikle emotionelt udtryksfulde AI-stemmer, sikrer, at de beholder sjælen af den originale præstation. Deepdub har opnået over 70% exceptionel seertilfredshed på tværs af alle dimensioner, herunder superb casting, klart dialog, ubemærket synkronisering og perfekt pacing.

En anden problemstilling er den etiske brug af AI-stemmer. Deepdub er en leder i ansvarlig AI-dubbing, og vi har banet vejen for branchens første royalty-program, der kompenserer stemmeaktører for AI-genererede præstationer. Vi mener, at AI skal forbedre menneskelig kreativitet, ikke erstatte den, og det engagement afspejles i alt, hvad vi bygger.

Hvordan ser du AI-dubbing ændre den globale underholdningsindustri i de næste 5-10 år?

I de næste 10 år vil AI-drevet dubbing demokratisere indhold som aldrig før, og gøre film, tv-serier og live-transmissioner tilgængelige for hver enkelt publikum, overalt, på deres modersmål, øjeblikkeligt.

Vi forestiller os en verden, hvor streaming-platforme og tv-stationer integrerer realtids, flersproget dubbing, fjerner sproglige barrierer og giver mulighed for, at historier kan rejse længere og hurtigere end traditionelle lokaliseringsmetoder har tilladt.

Ud over sprogtilgængelighed kan AI-dubbing også forbedre medieadgangen for blinde og svagtseende. Mange afhænger af lydbeskrivelser for at følge visuelt indhold, og AI-dubbing giver dem mulighed for at engagere sig i fremmedsprogede indhold, når undertekster ikke er en tilgængelig mulighed. Ved at bryde både sproglige og sensoriske barrierer vil AI-drevet dubbing hjælpe med at skabe en mere inklusiv underholdningsoplevelse for alle, hvilket er særligt kritisk, da nye reguleringskrav omkring medieadgang kommer i kraft verden over i år.

Hvad er nogle af de største udfordringer, der stadig skal løses for, at AI-dubbing kan blive virkelig mainstream?

De største udfordringer er at opretholde ultra-høj kvalitet i stor målestok, sikre kulturel og sproglig præcision, og etablere etiske retningslinjer for AI-genererede stemmer. Men ud over de tekniske hindringer afhænger offentlig accept af AI-dubbing af tillid. Seerne skal føle, at AI-genererede stemmer bevare autenticiteten og emotionelle dybde af præstationer, snarere end at lyde syntetiske eller afsondrede.

For at AI-dubbing fuldt ud kan accepteres, skal den være af høj kvalitet ved at kombinere menneskelig kunstnerisk udtryk og teknologi i stor målestok, og også demonstrere respekt for kreativ integritet, sproglig nuance og kulturel kontekst. Dette indebærer, at stemmer forbliver sande over for de originale skuespilleres intention, undgår uretfærdigheder, der kunne alienere publikum, og adresserer etiske bekymringer omkring deepfake-risici og stemme-ejerskab.

Da AI-dubbing bliver mere udbredt, skal teknologileverandører implementere strenge standarder for stemmeautenticitet, sikkerhed og immaterielle rettigheder. Deepdub er aktivt med til at lede an i disse områder, sikrer, at AI-stemme-teknologi forbedrer global historiefortælling, mens den respekterer de kunstneriske og professionelle bidrag fra menneskelig talent. Først da vil seere, indholdsskabere og branchefolk fuldt ud acceptere AI-dubbing som et pålideligt og værdifuldt værktøj.

Tak for det gode interview. Læsere, der ønsker at lære mere, skal besøge Deepdub.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.