Interviste
Ofir Krakowski, CEO e Co-Fondatore di Deepdub – Serie di Interviste

Ofir Krakowski è il co-fondatore e CEO di Deepdub. Con 30 anni di esperienza nel campo della scienza informatica e dell’apprendimento automatico, ha svolto un ruolo chiave nella fondazione e nella guida del dipartimento di apprendimento automatico e innovazione dell’aeronautica militare israeliana per 25 anni.
Deepdub è un’azienda di doppiaggio guidata dall’intelligenza artificiale che sfrutta l’apprendimento profondo e la clonazione vocale per fornire una localizzazione di alta qualità e scalabile per film, TV e contenuti digitali. Fondata nel 2019, consente ai creatori di contenuti di preservare le prestazioni originali mentre traducono senza sforzo il dialogo in più lingue. Integrando la sintesi vocale alimentata da intelligenza artificiale con la supervisione linguistica umana, Deepdub aumenta l’accessibilità dei contenuti a livello globale, riducendo il tempo e i costi del doppiaggio tradizionale. L’azienda ha ottenuto il riconoscimento dell’industria per la sua innovazione, assicurandosi importanti partnership, certificazioni e finanziamenti per espandere la sua tecnologia di localizzazione AI nel settore dell’intrattenimento.
Cosa ti ha ispirato a fondare Deepdub nel 2019? C’è stato un momento o una sfida particolare che ha portato alla sua creazione?
Il doppiaggio tradizionale è stato a lungo lo standard dell’industria per la localizzazione dei contenuti, ma è un processo costoso, lungo e intensivo in termini di risorse. Mentre esistevano soluzioni di voce generate da AI, mancavano della profondità emotiva necessaria per catturare veramente la prestazione di un attore, rendendole inadeguate per contenuti di alta qualità e complessi.
Abbiamo identificato un’opportunità per colmare questo divario sviluppando una soluzione di localizzazione alimentata da AI che mantenga l’autenticità emotiva della prestazione originale mentre migliora drasticamente l’efficienza. Abbiamo sviluppato la nostra tecnologia proprietaria eTTS™ (Emotion-Text-to-Speech), che assicura che le voci generate da AI abbiano lo stesso peso emotivo, tono e sfumatura degli attori umani.
Ci immaginiamo un mondo in cui le barriere linguistiche e culturali non sono più ostacoli all’accessibilità dei contenuti a livello globale. Creando la nostra piattaforma, abbiamo riconosciuto la sfida delle limitazioni linguistiche all’interno dell’intrattenimento, dell’apprendimento a distanza, di FAST e altri settori, e ci siamo prefissi di rivoluzionare la localizzazione dei contenuti.
Per garantire che la soluzione di Deepdub fornisca la localizzazione e il doppiaggio di alta qualità per contenuti complessi su larga scala, abbiamo deciso di adottare un approccio ibrido e di incorporare esperti linguistici e vocali nel processo, insieme alla nostra tecnologia eTTS™.
La nostra visione è quella di democratizzare la produzione vocale, rendendola massicciamente scalabile, universalmente accessibile, inclusiva e culturalmente rilevante.
Quali sono stati alcuni dei più grandi sfide tecniche e commerciali che hai affrontato quando hai lanciato Deepdub, e come li hai superati?
Guadagnare la fiducia dell’industria dell’intrattenimento è stato un grande ostacolo quando abbiamo lanciato Deepdub. Hollywood ha fatto affidamento sul doppiaggio tradizionale per decenni, e spostarsi verso soluzioni guidate da AI ha richiesto di dimostrare la nostra capacità di fornire risultati di qualità studio in un’industria spesso scettica nei confronti dell’AI.
Per affrontare questo scetticismo, abbiamo migliorato l’autenticità delle nostre voci generate da AI creando una banca di voci completamente licenziata. Questa banca incorpora campioni di voci umane reali, migliorando notevolmente la naturalità e l’espressività della nostra uscita, che è cruciale per l’accettazione a Hollywood.
Inoltre, abbiamo sviluppato tecnologie proprietarie, come eTTS™, insieme a funzionalità come Accent Control. Queste tecnologie assicurano che le voci generate da AI non solo catturino la profondità emotiva e le sfumature, ma anche aderiscano all’autenticità regionale richiesta per il doppiaggio di alta qualità.
Abbiamo anche costruito un team di post-produzione interno dedicato che lavora a stretto contatto con la nostra tecnologia. Questo team affina gli output dell’AI, assicurandosi che ogni pezzo di contenuto sia lucidato e soddisfi gli alti standard dell’industria.
Inoltre, abbiamo esteso il nostro approccio per includere una rete globale di esperti umani – attori vocali, linguisti e registi di tutto il mondo. Questi professionisti portano conoscenze culturali e competenze creative inestimabili, aumentando l’accuratezza culturale e la risonanza emotiva dei nostri contenuti doppiati.
Il nostro team di linguistica lavora in tandem con la nostra tecnologia e gli esperti globali per assicurarsi che il linguaggio utilizzato sia perfetto per il contesto culturale del pubblico di destinazione, assicurando ulteriormente l’autenticità e la conformità con le norme locali.
Attraverso queste strategie, combinando tecnologia avanzata con un team robusto di esperti globali e un team di post-produzione interno, Deepdub ha dimostrato con successo a Hollywood e ad altre aziende di produzione di alto livello in tutto il mondo che l’AI può migliorare notevolmente i flussi di lavoro di doppiaggio tradizionali. Questa integrazione non solo semplifica la produzione, ma espande anche le possibilità di espansione del mercato.
Come si differenzia la tecnologia di doppiaggio alimentata da AI di Deepdub dai metodi di doppiaggio tradizionali?
Il doppiaggio tradizionale è un processo laborioso e lungo che può richiedere mesi per progetto, poiché richiede attori vocali, ingegneri del suono e team di post-produzione per ricreare manualmente il dialogo in diverse lingue. La nostra soluzione rivoluziona questo processo offrendo una soluzione ibrida end-to-end – combinando tecnologia e competenza umana – integrata direttamente nei flussi di lavoro di post-produzione, riducendo così i costi di localizzazione fino al 70% e i tempi di consegna fino al 50%.
A differenza di altre soluzioni di voce generate da AI, la nostra tecnologia proprietaria eTTS™ consente un livello di profondità emotiva, autenticità culturale e coerenza vocale che i metodi tradizionali faticano a raggiungere su larga scala.
Puoi guidarci attraverso l’approccio ibrido utilizzato da Deepdub – come funzionano insieme l’AI e la competenza umana nel processo di doppiaggio?
Il modello ibrido di Deepdub combina la precisione e la scalabilità dell’AI con la creatività e la sensibilità culturale della competenza umana. Il nostro approccio combina l’arte del doppiaggio tradizionale con la tecnologia AI avanzata, assicurandosi che i contenuti localizzati mantengano l’autenticità emotiva e l’impatto dell’originale.
La nostra soluzione sfrutta l’AI per automatizzare gli aspetti di base della localizzazione, mentre i professionisti umani raffinano le sfumature emotive, gli accenti e i dettagli culturali. Incorporiamo sia la nostra tecnologia proprietaria eTTS™ che la nostra tecnologia Voice-to-Voice (V2V) per aumentare l’espressività naturale delle voci generate da AI, assicurandoci che catturino la profondità e la realismo delle prestazioni umane. In questo modo, assicuriamo che ogni pezzo di contenuto sembri autentico e coinvolgente nella sua forma localizzata come lo è nell’originale.
I linguisti e i professionisti vocali svolgono un ruolo chiave in questo processo, poiché aumentano l’accuratezza culturale dei contenuti generati da AI. Man mano che la globalizzazione continua a plasmare il futuro dell’intrattenimento, l’integrazione dell’AI con l’arte umana diventerà lo standard aureo per la localizzazione dei contenuti.
Inoltre, il nostro Programma di Royalty per Artisti Vocali compensa gli attori vocali professionisti ogni volta che le loro voci vengono utilizzate nel doppiaggio assistito da AI, assicurando l’uso etico della tecnologia di voce AI.
Come migliora la tecnologia proprietaria eTTS™ (Emotion-Text-to-Speech) di Deepdub l’autenticità vocale e la profondità emotiva nei contenuti doppiati?
Le voci generate da AI tradizionali spesso mancano dei sottili segnali emotivi che rendono le prestazioni coinvolgenti. Per affrontare questo limite, Deepdub ha sviluppato la sua tecnologia proprietaria eTTS™, sfruttando l’AI e i modelli di apprendimento profondo per generare discorsi che non solo mantengono la piena profondità emotiva della prestazione originale dell’attore, ma anche integrano l’intelligenza emotiva umana nel processo automatizzato. Questa capacità avanzata consente all’AI di regolare finemente le voci sintetizzate per riflettere le emozioni intese, come gioia, rabbia o tristezza, risuonando in modo autentico con il pubblico. Inoltre, eTTS™ eccelle nella produzione di repliche vocali ad alta fedeltà, imitando le sfumature naturali nel discorso umano come pitch, tono e ritmo, essenziali per consegnare battute che sono genuine e coinvolgenti. La tecnologia migliora anche la sensibilità culturale adattando abilmente le uscite per controllare gli accenti, assicurando che i contenuti doppiati rispettino e si allineino con le sfumature culturali, aumentando così il loro appeal e la loro efficacia a livello globale.
Una delle critiche comuni alle voci generate da AI è che possono suonare robotiche. Come assicura Deepdub che le voci generate da AI mantengano la naturalità e la sfumatura emotiva?
La nostra tecnologia proprietaria utilizza algoritmi di apprendimento profondo e di apprendimento automatico per fornire soluzioni di doppiaggio scalabili e di alta qualità che preservano l’intento originale, lo stile, l’umorismo e le sfumature culturali.
Insieme alla nostra tecnologia eTTS™, la suite innovativa di Deepdub include funzionalità come Voice-to-Voice (V2V), Voice Cloning, Accent Control e la nostra Vocal Emotion Bank, che consentono ai team di produzione di raffinare le prestazioni per adattarle alla loro visione creativa. Queste funzionalità assicurano che ogni voce abbia la profondità emotiva e la sfumatura necessarie per storie coinvolgenti e esperienze utente impattanti.
Negli ultimi anni, abbiamo visto un crescente successo delle nostre soluzioni nel settore dei Media & Entertainment, quindi abbiamo recentemente deciso di aprire l’accesso ai nostri doppiaggi testati a Hollywood agli sviluppatori, alle aziende e ai creatori di contenuti con il nostro AI Audio API. Alimentata dalla nostra tecnologia eTTS™, l’API consente la generazione di voci in tempo reale con parametri di personalizzazione avanzati, tra cui accento, tono emotivo, tempo e stile vocale.
La funzionalità principale della nostra API sono i preset audio, progettati in base a anni di esperienza nel settore con le esigenze di doppiaggio più richieste. Queste impostazioni preconfigurate consentono agli utenti di adattare rapidamente diversi tipi di contenuto senza richiedere una configurazione manuale estensiva o un’indagine. I preset disponibili includono descrizioni audio e audiolibri, narrazione di documentari o reality, drama e intrattenimento, consegna di notizie, commento sportivo, doppiaggio di anime o cartoni animati, Interactive Voice Response (IVR), nonché contenuti promozionali e commerciali.
Il doppiaggio AI coinvolge l’adattamento culturale e linguistico – come assicura Deepdub che le sue soluzioni di doppiaggio siano culturalmente adeguate e accurate?
La localizzazione non è solo questione di tradurre parole – è questione di tradurre significato, intento e contesto culturale. L’approccio ibrido di Deepdub combina l’automazione guidata da AI con la competenza linguistica umana, assicurandosi che il dialogo tradotto rifletta le sfumature culturali ed emotive del pubblico di destinazione. La nostra rete di esperti di localizzazione lavora insieme all’AI per assicurarsi che i contenuti doppiati si allineino con i dialetti regionali, le espressioni e le sensibilità culturali.
Quali sono le innovazioni più emozionanti su cui stai attualmente lavorando per spingere il doppiaggio AI al prossimo livello?
Una delle nostre più grandi innovazioni in arrivo è il Doppiaggio in Diretta/Streaming, che consentirà il doppiaggio in tempo reale per trasmissioni live come eventi sportivi e notizie, rendendo gli eventi globali accessibili all’istante. Combinando questo con un’altra delle nostre emozionanti innovazioni, la nostra funzionalità eTTs™, una tecnologia proprietaria che consente la creazione di voci che suonano umane dal testo su larga scala e con pieno supporto emotivo e diritti commerciali integrati, saremo in grado di offrire un doppiaggio live di alta qualità, autentico ed emotivo, diverso da tutto ciò che è disponibile sul mercato.
Prendiamo ad esempio le cerimonie di apertura delle Olimpiadi o qualsiasi evento sportivo live. Mentre i broadcaster locali di solito forniscono commenti nella loro lingua e dialetto regionali, questa tecnologia consentirà ai viewer di tutto il mondo di sperimentare l’intero evento nella loro lingua nativa mentre si svolge.
Il doppiaggio live ridefinirà la way in cui gli eventi live sono sperimentati in tutto il mondo, assicurandosi che la lingua non sia mai una barriera.
Il doppiaggio generato da AI ha affrontato critiche in alcuni progetti recenti. Cosa pensi siano i fattori chiave che guidano queste critiche?
Le principali critiche derivano da preoccupazioni sull’autenticità, l’etica e la qualità. Alcune voci generate da AI hanno mancato la risonanza emotiva e la sfumatura necessarie per storie coinvolgenti. In Deepdub, abbiamo affrontato questo problema sviluppando voci generate da AI emotivamente espressive, assicurandoci che mantengano l’anima della prestazione originale. Deepdub ha raggiunto oltre il 70% di soddisfazione del pubblico eccezionale in tutte le dimensioni, tra cui casting superbo, dialogo chiaro, sincronizzazione senza soluzione di continuità e ritmo perfetto.
Un altro problema è l’uso etico delle voci AI. Deepdub è un leader nel doppiaggio AI responsabile, pioniere del primo Programma di Royalty dell’industria che compensa gli attori vocali per le prestazioni generate da AI. Crediamo che l’AI debba potenziare la creatività umana, non sostituirla, e questo impegno è riflesso in tutto ciò che costruiamo.
Come vedi il doppiaggio AI cambiare l’industria dell’intrattenimento globale nei prossimi 5-10 anni?
Nei prossimi dieci anni, il doppiaggio alimentato da AI democratizzerà i contenuti come mai prima d’ora, rendendo film, spettacoli TV e trasmissioni live accessibili a ogni pubblico, ovunque, nella loro lingua nativa all’istante.
Ci immaginiamo un mondo in cui le piattaforme di streaming e i broadcaster integrano il doppiaggio multilingue in tempo reale, rimuovendo le barriere linguistiche e consentendo alle storie di viaggiare più lontano e più velocemente dei metodi di localizzazione tradizionali.
Oltre alla accessibilità linguistica, il doppiaggio AI può anche migliorare l’accesso ai media per i non vedenti e gli ipovedenti. Molti dipendono dalle descrizioni audio per seguire i contenuti visivi, e il doppiaggio AI consente loro di interagire con i contenuti in lingua straniera quando le didascalie non sono un’opzione accessibile. Rompendo sia le barriere linguistiche che sensoriali, il doppiaggio AI aiuterà a creare un’esperienza di intrattenimento più inclusiva per tutti, il che è particolarmente critico poiché nuove norme sull’accessibilità dei media stanno entrando in vigore in tutto il mondo quest’anno.
Quali sono alcune delle più grandi sfide che devono ancora essere risolte per il doppiaggio AI per diventare veramente mainstream?
Le più grandi sfide sono mantenere un’ultra-alta qualità su larga scala, assicurare la precisione culturale e linguistica e stabilire linee guida etiche per le voci generate da AI. Tuttavia, oltre gli ostacoli tecnici, l’accettazione pubblica del doppiaggio AI dipende dalla fiducia. I viewer devono sentirsi che le voci generate da AI preservano l’autenticità e la profondità emotiva delle prestazioni, piuttosto che suonare sintetiche o distaccate.
Perché il doppiaggio AI sia pienamente accettato, deve essere di alta qualità combinando l’arte umana e la tecnologia su larga scala, e deve anche dimostrare rispetto per l’integrità creativa, la sfumatura linguistica e il contesto culturale. Ciò significa assicurarsi che le voci rimangano vere all’intento degli attori originali, evitando inesattezze che potrebbero allontanare il pubblico, e affrontando le preoccupazioni etiche relative ai rischi di deepfake e alla proprietà della voce.
Man mano che il doppiaggio AI diventa più diffuso, i fornitori di tecnologia devono implementare standard rigorosi per l’autenticità vocale, la sicurezza e la protezione della proprietà intellettuale. Deepdub è attivamente alla guida in queste aree, assicurandosi che la tecnologia di voce AI migliori la narrazione globale mentre rispetta i contributi artistici e professionali del talento umano. Solo allora il pubblico, i creatori di contenuti e gli stakeholder dell’industria accetteranno pienamente il doppiaggio AI come uno strumento affidabile e prezioso.
Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Deepdub.












