Connect with us

Ofir Krakowski, CEO și Co-Fondator al Deepdub – Seria de Interviuri

Interviuri

Ofir Krakowski, CEO și Co-Fondator al Deepdub – Seria de Interviuri

mm

Ofir Krakowski este co-fondator și CEO al Deepdub. Cu o experiență de 30 de ani în informatică și învățare automată, el a jucat un rol cheie în fondarea și conducerea departamentului de învățare automată și inovare al Forțelor Aeriene Israeliene timp de 25 de ani.

Deepdub este o companie de dublaj condusă de inteligență artificială care utilizează învățarea profundă și clonarea vocii pentru a oferi localizare de înaltă calitate și scalabilă pentru filme, programe de televiziune și conținut digital. Fondată în 2019, aceasta permite creatorilor de conținut să păstreze performanțele originale, traducând în același timp dialogul în multiple limbi, fără a compromite calitatea. Prin integrarea sintezei vocale bazate pe inteligență artificială cu supravegherea lingvistică umană, Deepdub îmbunătățește accesibilitatea globală a conținutului, reducând timpul și costurile metodelor tradiționale de dublaj. Compania a obținut recunoașterea industriei pentru inovația sa, asigurând parteneriate majore, certificări și finanțare pentru a-și extinde tehnologia de localizare bazată pe inteligență artificială în sectorul divertismentului.

Ce v-a inspirat să fondați Deepdub în 2019? A existat un moment sau o provocare particulară care a condus la crearea sa?

Dublajul tradițional a fost mult timp standardul industriei pentru localizarea conținutului, dar este un proces costisitor, care necesită mult timp și resurse. În timp ce soluțiile de voce generate de inteligență artificială existau, acestea lipseau de profunzimea emoțională necesară pentru a captura cu adevărat performanța unui actor, făcându-le nepotrivite pentru conținut de înaltă calitate și complex.

Am identificat o oportunitate de a acoperi această lacună prin dezvoltarea unei soluții de localizare bazate pe inteligență artificială care menține autenticitatea emoțională a performanței originale, îmbunătățind în același timp eficiența. Am dezvoltat tehnologia noastră proprietară eTTS™ (Emoție-Text-la-Vorbire), care asigură că vocile generate de inteligență artificială au aceeași greutate emoțională, ton și nuanță ca și actorii umani.

Ne imaginăm o lume în care barierele lingvistice și culturale nu mai sunt obstacole pentru accesibilitatea globală a conținutului. La crearea platformei noastre, am recunoscut provocarea limitărilor lingvistice din cadrul divertismentului, al învățământului la distanță, al FAST și al altor industrii, și am decis să revoluționăm localizarea conținutului.

Pentru a ne asigura că soluția Deepdub oferă localizare și dublaj de cea mai înaltă calitate pentru conținut complex la scară largă, am decis să adoptăm o abordare hibridă, integrând experți lingvisti și vocali în proces, alături de tehnologia noastră eTTS™.

Viziunea noastră este de a democratiza producția de voce, făcând-o masiv scalabilă, universal accesibilă, incluzivă și relevantă din punct de vedere cultural.

Care au fost unele dintre cele mai mari provocări tehnice și de afaceri cu care v-ați confruntat atunci când ați lansat Deepdub, și cum le-ați depășit?

Câștigarea încrederii industriei divertismentului a fost o piedică majoră la lansarea Deepdub. Hollywoodul s-a bazat pe dublajul tradițional timp de decenii, și trecerea către soluții conduse de inteligență artificială a necesitat demonstrarea capacității noastre de a oferi rezultate de calitate studio într-o industrie adesea sceptică față de inteligență artificială.

Pentru a aborda acest scepticism, am îmbunătățit autenticitatea vocilor noastre generate de inteligență artificială prin crearea unei bănci de voce complet licențiate. Această bancă incorporează mostre reale de voce umană, îmbunătățind semnificativ naturalitatea și expresivitatea ieșirii noastre, ceea ce este esențial pentru acceptarea în Hollywood.

Următorul pas a fost dezvoltarea tehnologiilor noastre proprietare, cum ar fi eTTS™, împreună cu caracteristici precum Controlul Accentului. Aceste tehnologii asigură că vocile generate de inteligență artificială nu numai că captează profunzimea emoțională și nuanțele, dar se și conformează autenticității regionale necesare pentru dublaj de înaltă calitate.

De asemenea, am construit o echipă dedicată de post-producție internă care lucrează îndeaproape cu tehnologia noastră. Această echipă ajustează ieșirile inteligenței artificiale, asigurându-se că fiecare bucată de conținut este lustruită și îndeplinește standardele înalte ale industriei.

Mai mult, am extins abordarea noastră pentru a include o rețea globală de experți umani – actori vocali, lingviști și regizori din întreaga lume. Acești profesioniști aduc perspective culturale inestimabile și expertiză creativă, îmbunătățind acuratețea culturală și rezonanța emoțională a conținutului nostru dublat.

Echipa noastră de lingvistică lucrează în tandem cu tehnologia și experții noștri globali pentru a se asigura că limbajul utilizat este perfect pentru contextul cultural al audienței țintă, asigurându-se astfel autenticitatea și conformitatea cu normele locale.

Prin aceste strategii, combinând tehnologia avansată cu o echipă robustă de experți globali și o echipă de post-producție internă, Deepdub a demonstrat cu succes Hollywoodului și altor companii de producție de top din întreaga lume că inteligența artificială poate îmbunătăți semnificativ fluxurile de lucru tradiționale de dublaj. Această integrare nu numai că optimizează producția, dar oferă și posibilități extinse de expansiune pe piață.

Cum se diferențiază tehnologia de dublaj bazată pe inteligență artificială a Deepdub de metodele tradiționale de dublaj?

Dublajul tradițional este o activitate care necesită multă muncă și un proces care poate dura luni pentru un proiect, deoarece necesită actori vocali, ingineri de sunet și echipe de post-producție pentru a recrea manual dialogul în diferite limbi. Soluția noastră revoluționează acest proces, oferind o soluție hibridă de la capăt la capăt – combinând tehnologia și expertiza umană – integrată direct în fluxurile de lucru de post-producție, reducând astfel costurile de localizare cu până la 70% și timpul de livrare cu până la 50%.

În contrast cu alte soluții de voce generate de inteligență artificială, tehnologia noastră proprietară eTTS™ permite un nivel de profunzime emoțională, autenticitate culturală și consistență a vocii pe care metodele tradiționale le-au dificultăți să le atingă la scară.

Ne puteți descrie abordarea hibridă pe care o folosește Deepdub – cum lucrează inteligența artificială și expertiza umană împreună în procesul de dublaj?

Modelul hibrid al Deepdub combină precizia și scalabilitatea inteligenței artificiale cu creativitatea și sensibilitatea culturală a expertizei umane. Abordarea noastră amestecă arta dublajului tradițional cu tehnologia avansată de inteligență artificială, asigurându-se că conținutul localizat păstrează autenticitatea emoțională și impactul originalului.

Soluția noastră utilizează inteligența artificială pentru a automatiza aspectele de bază ale localizării, în timp ce profesioniștii umani rafinează nuanțele emoționale, accentele și detaliile culturale. Incorporăm atât tehnologia noastră proprietară eTTs™, cât și tehnologia noastră Voice-to-Voice (V2V) pentru a îmbunătăți expresivitatea naturală a vocilor generate de inteligență artificială, asigurându-ne că acestea captează profunzimea și realismul performanțelor umane. Astfel, ne asigurăm că fiecare bucată de conținut pare la fel de autentică și de impactantă în forma sa localizată, precum și în original.

Lingviștii și profesioniștii vocali joacă un rol cheie în acest proces, deoarece ei îmbunătățesc acuratețea culturală a conținutului generat de inteligență artificială. Pe măsură ce globalizarea continuă să modeleze viitorul divertismentului, integrarea inteligenței artificiale cu arta umană va deveni standardul de aur pentru localizarea conținutului.

În plus, Programul nostru de Royaltăți pentru Artiști Vocali compensă actorii vocali profesioniști de fiecare dată când vocile lor sunt utilizate în dublajul asistat de inteligență artificială, asigurându-se utilizarea etică a tehnologiei vocale bazate pe inteligență artificială.

Cum îmbunătățește tehnologia proprietară eTTS™ (Emoție-Text-la-Vorbire) a Deepdub autenticitatea vocii și profunzimea emoțională în conținutul dublat?

Vocile generate de inteligență artificială tradițională adesea lipsesc de subtilele semne emoționale care fac ca performanțele să fie convingătoare. Pentru a aborda această lipsă, Deepdub a dezvoltat tehnologia sa proprietară eTTS™, utilizând inteligență artificială și modele de învățare profundă pentru a genera vorbire care nu numai că păstrează întreaga profunzime emoțională a performanței originale a actorului, dar integrează și inteligența emoțională umană în procesul automatizat. Această capacitate avansată permite inteligenței artificiale să ajusteze fin vocile sintetizate pentru a reflecta emoțiile intenționate, cum ar fi bucuria, furia sau tristețea, rezonând în mod autentic cu publicul. În plus, eTTS™ excelează în producerea de replici vocale de înaltă fidelitate, imitând nuanțele naturale din vorbirea umană, cum ar fi pitch-ul, tonul și viteza, esențiale pentru livrarea unor replici care sunt autentice și angajante. Tehnologia îmbunătățește, de asemenea, sensibilitatea culturală, adaptând cu pricepere ieșirile pentru a controla accentele, asigurându-se că conținutul dublat respectă și se aliniază cu nuanțele culturale, îmbunătățind astfel atracția și eficacitatea sa globală.

Una dintre criticile comune aduse vocilor generate de inteligență artificială este că pot suna robotic. Cum asigură Deepdub că vocile generate de inteligență artificială păstrează naturalitatea și nuanța emoțională?

Tehnologia noastră proprietară utilizează algoritmi de învățare profundă și de mașină pentru a oferi soluții de dublaj scalabile și de înaltă calitate care păstrează intenția originală, stilul, umorul și nuanțele culturale.

Împreună cu tehnologia noastră eTTS™, suita noastră inovatoare include caracteristici precum Voice-to-Voice (V2V), Clonarea Vocii, Controlul Accentului și Banca noastră de Emoții Vocale, care permit echipelor de producție să ajusteze performanțele pentru a se potrivi viziunii lor creative. Aceste caracteristici asigură că fiecare voce are profunzimea emoțională și nuanța necesare pentru povestiri convingătoare și experiențe cu impact.

În ultimii ani, am văzut o creștere a succesului soluțiilor noastre în industria Media & Entertainment, așa că am decis recent să deschidem accesul la vocile noastre de calitate Hollywood pentru dezvoltatori, întreprinderi și creatori de conținut cu API-ul nostru de Audio. Acesta este alimentat de tehnologia noastră eTTS™ și permite generarea de voce în timp real cu parametri avansați de personalizare, inclusiv accent, ton emoțional, tempo și stil vocal.

Caracteristica principală a API-ului nostru este reprezentată de presetările audio, proiectate pe baza a ani de experiență în industrie cu cele mai solicitate nevoi de voce. Aceste setări preconfigurate permit utilizatorilor să adapteze rapid diferite tipuri de conținut fără a necesita o configurare manuală extinsă sau explorare. Printre presetările disponibile se numără descrieri audio și cărți audio, nararea de documentare sau realitate, dramă și divertisment, livrarea de știri, comentarii sportive, vocile de desene animate sau benzi desenate, Răspunsul Vocal Interactiv (IVR), precum și conținutul promoțional și comercial.

Dublajul bazat pe inteligență artificială implică adaptare culturală și lingvistică – cum asigură Deepdub că soluțiile sale de dublaj sunt adecvate din punct de vedere cultural și precis din punct de vedere lingvistic?

Localizarea nu se referă doar la traducerea cuvintelor – este vorba despre traducerea sensului, intenției și contextului cultural. Abordarea hibridă a Deepdub combină automatizarea condusă de inteligență artificială cu expertiza lingvistică umană, asigurându-se că dialogul tradus reflectă nuanțele emoționale și culturale ale audienței țintă. Rețeaua noastră de experți în localizare lucrează alături de inteligența artificială pentru a se asigura că conținutul dublat se aliniază cu dialectele regionale, expresiile și sensibilitățile culturale.

Ce sunt cele mai interesante inovații pe care le lucrați în prezent pentru a duce dublajul bazat pe inteligență artificială la următorul nivel?

Una dintre cele mai mari inovații pe care le avem în vedere este Dublajul în Direct/Streaming, care va permite dublajul în timp real pentru transmisii live, cum ar fi evenimente sportive și știri, făcând evenimentele globale instant accesibile. Combinând aceasta cu o altă inovație interesantă, caracteristica noastră eTTs™, o tehnologie proprietară care permite crearea de voci care sună uman la scară largă și cu suport emoțional complet și drepturi comerciale integrate, vom putea oferi dublaj live de înaltă calitate, autentic și emoțional, fără precedent pe piață.

Luați, de exemplu, ceremoniile de deschidere ale Jocurilor Olimpice sau orice eveniment sportiv live. În timp ce radiodifuzorii locali oferă, de obicei, comentarii în limba și dialectul regional, această tehnologie va permite spectatorilor din întreaga lume să experimenteze evenimentul în limba lor maternă, pe măsură ce se desfășoară.

Dublajul live va redefini modul în care evenimentele live sunt experimentate la nivel global, asigurând că limba nu va mai fi o barieră.

Dublajul generat de inteligență artificială a fost criticat în anumite proiecte recente. Ce credeți că sunt factorii cheie care conduc la aceste critici?

Principalele critici provin din preocupări legate de autenticitate, etică și calitate. Unele voci generate de inteligență artificială au lipsit profunzimea emoțională și nuanța necesare pentru o povestire imersivă. La Deepdub, am abordat acest lucru prin dezvoltarea de voci generate de inteligență artificială care păstrează sufletul performanței originale. Deepdub a obținut peste 70% satisfacție excepțională a vizualizatorilor în toate dimensiunile, incluzând distribuție superbă, dialog clar, sincronizare fără efort și ritm perfect.

O altă problemă este utilizarea etică a vocilor generate de inteligență artificială. Deepdub este un lider în dublajul responsabil bazat pe inteligență artificială, pionierat în industrie cu primul program de royaltăți care compensă actorii vocali pentru performanțele generate de inteligență artificială. Credem că inteligența artificială ar trebui să îmbunătățească creativitatea umană, nu să o înlocuiască, și acest angajament se reflectă în tot ceea ce construim.

Cum credeți că va schimba dublajul bazat pe inteligență artificială industria globală de divertisment în următorii 5-10 ani?

În următorul deceniu, dublajul bazat pe inteligență artificială va democratiza conținutul mai mult ca niciodată, făcând filme, programe de televiziune și transmisii live accesibile tuturor audiențelor, oriunde, în limba lor maternă, instantaneu.

Ne imaginăm o lume în care platformele de streaming și radiodifuzorii integrează dublaj multilingv în timp real, eliminând barierele lingvistice și permițând poveștilor să călătorească mai departe și mai rapid decât metodele tradiționale de localizare au permis vreodată.

Dincolo de accesibilitatea lingvistică, dublajul bazat pe inteligență artificială poate îmbunătăți, de asemenea, accesul la mass-media pentru persoanele cu deficiențe de vedere. Mulți se bazează pe descrieri audio pentru a urmări conținutul vizual, și dublajul bazat pe inteligență artificială le permite să se angajeze în conținut în limbi străine atunci când subtitrarea nu este o opțiune accesibilă. Prin ruperea atât a barierelor lingvistice, cât și a celor senzoriale, dublajul bazat pe inteligență artificială va ajuta la crearea unei experiențe de divertisment mai incluzivă pentru toată lumea, ceea ce este deosebit de important, având în vedere că noi reglementări privind accesibilitatea mass-mediei intră în vigoare în acest an în întreaga lume.

Ce sunt cele mai mari provocări care trebuie încă rezolvate pentru ca dublajul bazat pe inteligență artificială să devină cu adevărat mainstream?

Cea mai mare provocare este menținerea calității ultra-înalte la scară, asigurarea preciziei culturale și lingvistice și stabilirea unor ghiduri etice pentru vocile generate de inteligență artificială. Cu toate acestea, dincolo de barierele tehnice, acceptarea publică a dublajului bazat pe inteligență artificială depinde de încredere. Spectatorii trebuie să simtă că vocile generate de inteligență artificială păstrează autenticitatea și profunzimea emoțională a performanțelor, în loc să sune sintetice sau detașate.

Pentru a fi pe deplin acceptat, dublajul bazat pe inteligență artificială trebuie să fie de calitate superioară, combinând arta umană și tehnologia la scară și demonstrând respect pentru integritatea creativă, nuanța lingvistică și contextul cultural. Acest lucru înseamnă a se asigura că vocile rămân fideli intenției originale a actorilor, evitând inexactitățile care ar putea aliena audiența și abordând preocupările etice legate de riscurile de deepfake și proprietatea vocii.

Pe măsură ce dublajul bazat pe inteligență artificială devine mai răspândit, furnizorii de tehnologie trebuie să implementeze standarde riguroase pentru autenticitatea vocii, securitate și protecția proprietății intelectuale. Deepdub conduce activ aceste eforturi, asigurându-se că tehnologia vocii bazate pe inteligență artificială îmbunătățește povestirea globală, respectând în același timp contribuțiile artistice și profesionale ale talentului uman. Abia atunci audiența, creatorii de conținut și stakeholderii industriei vor accepta pe deplin dublajul bazat pe inteligență artificială ca un instrument de încredere și valoros.

Mulțumim pentru acest interviu minunat; cititorii care doresc să afle mai multe despre Deepdub ar trebui să viziteze Deepdub.

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintita pentru a da forma și a promova viitorul inteligenței artificiale și al roboticii. Un antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea, și este adesea prins vorbind cu entuziasm despre potențialul tehnologiilor disruptive și al inteligenței artificiale generale.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.