Connect with us

Intervjuer

Ofir Krakowski, CEO og medgrunnlegger av Deepdub – Intervju-serie

mm

Ofir Krakowski er medgrunnlegger og CEO av Deepdub. Med 30 års erfaring innen datavitenskap og maskinlæring, spilte han en nøkkelrolle i å etablere og lede det israelske flyvåpenets avdeling for maskinlæring og innovasjon i 25 år.

Deepdub er et selskap som driver med AI-drevet dubbing, og som utnytter dyplæring og stemme-kloning for å levere høykvalitets-, skalerbare lokaliseringsløsninger for film, TV og digitale innhold. Grunnlagt i 2019, muliggjør det at innholdsskapere kan bevare de opprinnelige prestasjonene samtidig som de umiddelbart oversetter dialoger til flere språk. Ved å integrere AI-drevet tale-syntese med menneskelig lingvistisk tilsyn, forbedrer Deepdub den globale tilgjengeligheten av innhold, og reduserer tiden og kostnadene forbundet med tradisjonell dubbing. Selskapet har fått bransje-gjennkjennelse for sin innovasjon, og har sikret større partnerskap, sertifiseringer og finansiering for å utvide sin AI-lokaliserings-teknologi over hele underholdningssektoren.

Hva inspirerte deg til å etablere Deepdub i 2019? Var det et bestemt øyeblikk eller utfordring som ledet til dets opprettelse?

Tradisjonell dubbing har lenge vært bransjestandarden for lokaliseringsinnhold, men det er en kostbar, tidskrevende og ressurs-intensiv prosess. Mens AI-genererte stemme-løsninger eksisterte, manglet de den emosjonelle dybden nødvendig for å faktisk fange en skuespillers prestasjon, og gjorde dem upassende for høykvalitets-, komplekse innhold.

Vi identifiserte en mulighet til å lukke denne gapen ved å utvikle en AI-drevet lokaliseringsløsning som opprettholder den emosjonelle autentisiteten til den opprinnelige prestasjonen samtidig som den dramatisk forbedrer effektiviteten. Vi utviklet vår egen eTTS™ (Emotion-Text-to-Speech)-teknologi, som sikrer at AI-genererte stemmer bærer den samme emosjonelle vekten, tonen og nyansene som menneskelige skuespillere.

Vi forestiller oss en verden hvor språk- og kulturelle barrierer ikke lenger er hindringer for global tilgjengelighet av innhold. Ved å skape vår plattform, erkjente vi utfordringen med språk-begrensninger innen underholdning, e-læring, FAST og andre industrier, og satte oss som mål å revolusjonere innhold-lokaliseringsprosessen.

For å sikre at Deepdubs løsning tilbød den høyeste kvalitets-lokaliserings- og dubbing for komplekse innhold i skala, bestemte vi oss for å ta en hybrid-tilnærming og inkorporere lingvistiske og stemme-eksperter i prosessen, i tillegg til vår eTTS™-teknologi.

Vår visjon er å demokratisere stemme-produksjon, gjøre den massivt skalerbar, universelt tilgjengelig, inkluderende og kulturelt relevant.

Hva var noen av de største tekniske og forretningsmessige utfordringene du møtte da du lanserte Deepdub, og hvordan overvant du dem?

Å vinne tillit hos underholdningsindustrien var en stor hindring da Deepdub ble lansert. Hollywood har lenge avhengig av tradisjonell dubbing, og å skifte til AI-drevne løsninger krevde at vi viste vår evne til å levere studio-kvalitets-resultater i en bransje som ofte er skeptisk til AI.

For å møte denne skeptisismen, forbedret vi først autentisiteten til våre AI-genererte stemmer ved å lage en fullt lisensiert stemme-bank. Denne banken inkorporerer ekte menneskestemme-eksempler, og forbedrer betydelig den naturlige og uttrykksfulle kvaliteten til vårt utgangsmateriale, som er avgjørende for aksept i Hollywood.

Deretter utviklet vi egen teknologi, som eTTS™, samt funksjoner som Accent Control. Disse teknologiene sikrer at AI-genererte stemmer ikke bare fanger den emosjonelle dybden og nyansene, men også overholder den regionale autentisiteten nødvendig for høykvalitets-dubbing.

Vi bygget også et dedikert internpost-produksjons-team som arbeider tett med vår teknologi. Dette teamet finjusterer AI-utgangene, og sikrer at hvert enkelt innhold er polert og møter bransjens høye standarder.

Videre utvidet vi vår tilnærming til å inkludere et globalt nettverk av menneskelige eksperter – stemme-skuespillere, lingvister og regissører fra hele verden. Disse profesjonelle bringer uvurderlige kulturelle innsikter og kreative ekspertise, og forbedrer den kulturelle nøyaktigheten og emosjonelle resonansen til våre dubbede innhold.

Vår lingvistiske team arbeider i tandem med vår teknologi og globale eksperter for å sikre at språket som brukes er perfekt for målgruppens kulturelle kontekst, og videre sikrer autentisitet og overholdelse av lokale normer.

Gjennom disse strategiene, som kombinerer avansert teknologi med et robust team av globale eksperter og et internpost-produksjons-team, har Deepdub suksessfullt demonstrert for Hollywood og andre topp-bransjer verden over at AI kan betydelig forbedre tradisjonelle dubbing-prosesser. Denne integreringen ikke bare strømlinjeformer produksjonen, men utvider også mulighetene for markeds-ekspansjon.

Hvordan skiller Deepdubs AI-drevne dubbing-teknologi seg fra tradisjonelle dubbing-metoder?

Tradisjonell dubbing er en arbeidskrevende prosess som kan ta måneder per prosjekt, ettersom den krever stemme-skuespillere, lydteknikere og post-produksjons-team for å manuelt gjenskape dialoger på forskjellige språk. Vår løsning revolusjonerer denne prosessen ved å tilby en hybrid, sluttløsning – som kombinerer teknologi og menneskelig ekspertise – integrert direkte i post-produksjons-workflows, og reduserer dermed lokaliserings-kostnadene med opptil 70% og omgangstidene med opptil 50%.

I motsetning til andre AI-genererte stemme-løsninger, tillater vår egen eTTS™-teknologi en emosjonell dybde, kulturell autentisitet og stemme-konsistens som tradisjonelle metoder sliter med å oppnå i skala.

Kan du gå gjennom den hybride tilnærmingen Deepdub bruker – hvordan fungerer AI og menneskelig ekspertise sammen i dubbing-prosessen?

Deepdubs hybrid-modell kombinerer presisjonen og skalerbarheten til AI med kreativiteten og kulturelle sensitiviteten til menneskelig ekspertise. Vår tilnærming blander kunsten til tradisjonell dubbing med avansert AI-teknologi, og sikrer at lokaliserings-innhold beholder den emosjonelle autentisiteten og impulsen til originalen.

Vår løsning utnytter AI til å automatisere grunnarbeidet i lokaliserings-prosessen, mens menneskelige profesjonelle finjusterer de emosjonelle nyansene, aksentene og kulturelle detaljene. Vi inkorporerer både vår egen eTTS™ og vår Voice-to-Voice (V2V)-teknologi for å forbedre den naturlige uttrykksfulle kvaliteten til AI-genererte stemmer, og sikre at de fanger dybden og realisme til menneskelige prestasjoner. På denne måten sikrer vi at hvert enkelt innhold føles like ekte og impulsgivende i sin lokaliserings-form som det gjør i originalen.

Lingvister og stemme-profesjonelle spiller en nøkkelrolle i denne prosessen, ettersom de forbedrer den kulturelle nøyaktigheten til AI-generert innhold. Ettersom globaliseringen fortsetter å forme fremtiden til underholdning, vil integreringen av AI med menneskelig kunstnerisk uttrykk bli standarden for innhold-lokaliseringsprosesser.

Videre har vår Voice Artist Royalty Program kompensert profesjonelle stemme-skuespillere hver gang deres stemmer brukes i AI-assistert dubbing, og sikrer en etisk bruk av stemme-AI-teknologi.

Hvordan forbedrer Deepdubs egen eTTS™ (Emotion-Text-to-Speech)-teknologi stemme-autentisiteten og den emosjonelle dybden i dubbede innhold?

Tradisjonelle AI-genererte stemmer mangler ofte de subtile emosjonelle signalene som gjør prestasjoner kompulsive. For å møte denne mangelen, utviklet Deepdub sin egen eTTS™-teknologi, som utnytter AI og dyplærings-modeller for å generere tale som ikke bare beholder den fulle emosjonelle dybden til den opprinnelige skuespillerens prestasjon, men også integrerer menneskelig emosjonell intelligens i den automatiserte prosessen. Denne avanserte kapasiteten tillater AI å finjustere syntetiske stemmer for å reflektere mentede emosjoner som gleder, sinne eller sorg, og resonere ekte med publikum. Videre excellerer eTTS™ i å produsere høykvalitets stemme-replikasjon, og etterligner naturlige nyanser i menneskelig tale som tone, tone og tempo, essensielle for å levere linjer som er ekte og engasjerende. Teknologien forbedrer også kulturell sensitivitet ved å adeptivt tilpasse utgangene for å kontrollere aksenter, og sikre at dubbede innhold respekterer og harmonerer med kulturelle nyanser, og dermed forbedrer dens globale appel og effektivitet.

En av de vanlige kritikkene av AI-genererte stemmer er at de kan høres robot-liknende ut. Hvordan sikrer Deepdub at AI-genererte stemmer beholder naturlig og emosjonell nuanse?

Vår egen teknologi utnytter dyplæring og maskinlærings-algoritmer for å levere skalerbare, høykvalitets-dubbing-løsninger som beholder den opprinnelige intensjonen, stilen, humoren og kulturelle nyansene.

I tillegg til vår eTTS™-teknologi, inkluderer Deepdubs innovative suite funksjoner som Voice-to-Voice (V2V), Voice Cloning, Accent Control, og vår Vocal Emotion Bank, som tillater produksjons-team å finjustere prestasjoner for å matche deres kreative visjon. Disse funksjonene sikrer at hver stemme bærer den emosjonelle dybden og nuansen nødvendig for kompulsive fortellinger og impulsgivende bruker-erfaringer.

Over de siste årene har vi sett en økende suksess med våre løsninger i medie- og underholdnings-industrien, så vi bestemte oss nylig for å åpne tilgang til våre Hollywood-godkjente stemmer til utviklere, bedrifter og innholdsskapere med vår AI Audio API. Drevet av vår eTTS™-teknologi, tillater API-en sanntids stemme-generering med avanserte tilpasnings-parametere, inkludert aksent, emosjonell tone, tempo og vokal-stil.

Flaggskip-funksjonen til vår API er audio-preset-ene, designet basert på års erfaring med de mest etterspurte stemme-krav. Disse forhånds-konfigurerte innstillinger tillater brukerne å raskt tilpasse forskjellige innhold-typer uten å kreve omfattende manuell konfigurasjon eller utforskning. Tilgjengelige presets inkluderer audio-beskrivelser og lydbøker, dokumentar- eller reality-narrasjon, drama og underholdning, nyhets-levering, sports-kommentar, anime eller tegnefilm-stemmer, interaktivt tale-svar (IVR), samt promotering og kommersielt innhold.

AI-dubbing innebærer kulturell og lingvistisk tilpasning – hvordan sikrer Deepdub at deres dubbing-løsninger er kulturelt passende og nøyaktige?

Lokalisering handler ikke bare om å oversette ord – det handler om å oversette mening, intensjon og kulturell kontekst. Deepdubs hybrid-tilnærming kombinerer AI-drevet automatisering med menneskelig lingvistisk ekspertise, og sikrer at oversatt dialog reflekterer de kulturelle og emosjonelle nyansene til målgruppen. Vår nettverk av lokaliserings-eksperter arbeider sammen med AI for å sikre at dubbede innhold harmonerer med regionale dialekter, uttrykk og kulturelle sensitiviteter.

Hva er noen av de mest spennende innovasjonene du for tiden arbeider med for å drive AI-dubbing til neste nivå?

En av våre største kommende innovasjoner er Live/Streaming Dubbing, som vil muliggjøre sanntids-dubbing for live-sendinger som sports-arrangementer og nyhets-medier, og gjøre globale hendelser umiddelbart tilgjengelige. Ved å kombinere dette med en annen av våre spennende innovasjoner, vår eTTs™-funksjon, en proprietær teknologi som tillater skapelsen av menneske-liknende stemmer fra tekst i stor skala og med full emosjonell støtte og kommersielle rettigheter bygget inn, vil vi kunne tilby høykvalitets-, autentiske, emosjonelle, sanntids-dubbing ulikt noe annet på markedet.

Ta åpningsseremonien til OL eller noen andre live-sport-arrangementer som eksempel. Mens lokale kringkastere vanligvis tilbyr kommentarer på sitt regionale språk og dialekt, vil denne teknologien tillate seere fra hele verden å oppleve hele arrangementet på sitt morsmål mens det utvikler seg.

Sanntids-dubbing vil omdefinere hvordan live-hendelser oppleves verden over, og sikre at språk aldri er en hindring.

AI-generert dubbing har møtt kritikk i noen prosjekter nylig. Hva tror du er de viktigste faktorene som driver disse kritikkene?

Hoved-kritikkene stammer fra bekymringer om autentisitet, etikk og kvalitet. Noen AI-genererte stemmer har manglet den emosjonelle resonansen og nuansen nødvendig for immersive fortellinger. Hos Deepdub har vi møtt dette ved å utvikle emosjonelt uttrykksfulle AI-stemmer, og sikret at de beholder sjelen til den opprinnelige prestasjonen. Deepdub har oppnådd over 70% unik seer-tilfredshet over alle dimensjoner, inkludert superb casting, klart dialog, sømløs synkronisering og perfekt pacing.

En annen utfordring er den etiske bruken av AI-stemmer. Deepdub er en leder i ansvarlig AI-dubbing, og har banebrytende bransjens første Royalty Program som kompenserer stemme-skuespillere for AI-genererte prestasjoner. Vi tror at AI skal forbedre menneskelig kreativitet, ikke erstatte den, og dette engasjementet reflekteres i alt vi bygger.

Hvordan ser du på at AI-dubbing vil endre den globale underholdnings-industrien de neste 5-10 årene?

I de neste ti årene vil AI-drevet dubbing demokratisere innhold som aldri før, og gjøre filmer, TV-serier og live-sendinger tilgjengelige for hver enkelt målgruppe, over hele verden, på sitt morsmål umiddelbart.

Vi forestiller oss en verden hvor strømmingtjenester og kringkastere integrerer sanntids-flerspråklig dubbing, og fjerner språk-barrierer og lar historier reise lengre og raskere enn tradisjonelle lokaliserings-metoder har tillatt.

Forbi språk-tilgjengelighet kan AI-dubbing også forbedre medie-tilgjengelighet for blinde og synshemmede. Mange avhenger av audio-beskrivelser for å følge visuelt innhold, og AI-dubbing tillater dem å engasjere seg med fremmed-språklig innhold når undertekster ikke er en tilgjengelig mulighet. Ved å bryte både språk- og sans-barrierer, vil AI-drevet dubbing hjelpe til å skape en mer inkluderende underholdnings-erfaring for alle, noe som er spesielt kritisk ettersom nye reguleringer omkring medie-tilgjengelighet kommer i kraft verden over i år.

Hva er noen av de største utfordringene som fortsatt må løses for at AI-dubbing skal bli virkelig mainstream?

De største utfordringene er å opprettholde ultra-høy kvalitet i skala, sikre kulturell og lingvistisk presisjon, og etablere etiske retningslinjer for AI-genererte stemmer. Men, forbi de tekniske hindringene, avhenger offentlig aksept av AI-dubbing av tillit. Seere må føle at AI-genererte stemmer beholder autentisiteten og den emosjonelle dybden til prestasjonene, snarere enn å høres syntetiske eller avsondret ut.

For at AI-dubbing skal bli fullt akseptert, må den være av høy kvalitet ved å kombinere menneskelig kunstnerisk uttrykk og teknologi i skala, og også demonstrere respekt for kreativ integritet, lingvistisk nyanser og kulturell kontekst. Dette betyr å sikre at stemmer forblir tro mot de opprinnelige skuespillerens intensjon, unngå uakkurater som kunne alienere seere, og møte etiske bekymringer omkring deepfake-risiko og stemme-eierskap.

Ettersom AI-dubbing blir mer utbredt, må teknologileverandører implementere strenge standarder for stemme-autentisitet, sikkerhet og immaterielle rettigheter. Deepdub er aktivt ledende i disse områdene, og sikrer at AI-stemme-teknologi forbedrer global fortelling samtidig som den respekterer de kunstneriske og profesjonelle bidragene til menneskelig talent. Først da vil seere, innholdsskapere og bransje-aktører fullt ut akseptere AI-dubbing som et pålitelig og verdifullt verktøy.

Takk for det flotte intervjuet, lesere som ønsker å lære mer bør besøke Deepdub.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.