Connect with us

Ofir Krakowski, CEO und Mitgründer von Deepdub – Interviewreihe

Interviews

Ofir Krakowski, CEO und Mitgründer von Deepdub – Interviewreihe

mm

Ofir Krakowski ist der Mitgründer und CEO von Deepdub. Mit 30 Jahren Erfahrung in Informatik und maschinellem Lernen spielte er eine Schlüsselrolle bei der Gründung und Leitung der Abteilung für maschinelles Lernen und Innovation der israelischen Luftwaffe für 25 Jahre.

Deepdub ist ein von künstlicher Intelligenz angetriebenes Synchronisationsunternehmen, das tiefes Lernen und Stimmenklonung nutzt, um hochwertige, skalierbare Lokalisierung für Film, Fernsehen und digitale Inhalte bereitzustellen. Gegründet im Jahr 2019 ermöglicht es es Inhaltecreatern, die ursprünglichen Leistungen zu erhalten, während es Dialoge nahtlos in mehrere Sprachen übersetzt. Durch die Integration von künstlicher Intelligenz-gesteuerter Sprachsynthese mit menschlicher linguistischer Aufsicht verbessert Deepdub die globale Inhalte-Zugänglichkeit, reduziert die Zeit und Kosten traditioneller Synchronisation. Das Unternehmen hat Branchenanerkennung für seine Innovation erlangt, indem es wichtige Partnerschaften, Zertifizierungen und Finanzierung zur Erweiterung seiner künstlichen Intelligenz-Lokalisierungstechnologie im Unterhaltungssektor gesichert hat.

Was hat Sie dazu inspiriert, Deepdub im Jahr 2019 zu gründen? Gab es einen bestimmten Moment oder eine bestimmte Herausforderung, die zu seiner Entstehung führte?

Traditionelle Synchronisation war seit Langem der Branchenstandard für die Lokalisierung von Inhalten, aber es ist ein teurer, zeitaufwändiger und ressourcenintensiver Prozess. Während es bereits künstlich erzeugte Sprachlösungen gab, fehlte es ihnen an der emotionalen Tiefe, die erforderlich ist, um die Leistung eines Schauspielers wirklich einzufangen, was sie für hochwertige, komplexe Inhalte ungeeignet machte.

Wir haben eine Gelegenheit erkannt, diese Lücke zu schließen, indem wir eine künstliche Intelligenz-gesteuerte Lokalisierungslösung entwickelten, die die emotionale Authentizität der ursprünglichen Leistung beibehält, während sie die Effizienz drastisch verbessert. Wir entwickelten unsere eigene eTTS™-Technologie (Emotion-Text-to-Speech), die sicherstellt, dass künstlich erzeugte Stimmen das gleiche emotionale Gewicht, die gleiche Tonlage und die gleiche Nuancen wie menschliche Schauspieler haben.

Wir stellen uns eine Welt vor, in der Sprach- und Kulturgrenzen keine Hindernisse mehr für die globale Inhalte-Zugänglichkeit sind. Bei der Erstellung unserer Plattform erkannten wir die Herausforderung der Sprachbegrenzungen innerhalb der Unterhaltungs-, E-Learning-, FAST- und anderen Branchen und setzten uns das Ziel, die Inhalte-Lokalisierung zu revolutionieren.

Um sicherzustellen, dass Deepdubs Lösung die höchste Qualität an Lokalisierung und Synchronisation für komplexe Inhalte im großen Maßstab bietet, entschieden wir uns für einen hybriden Ansatz und integrierten linguistische und Stimmenexperten in den Prozess, in Verbindung mit unserer eTTS™-Technologie.

Unsere Vision ist es, die Sprachproduktion zu demokratisieren, sie massiv skalierbar, universell zugänglich, inklusiv und kulturell relevant zu machen.

Welche waren einige der größten technischen und geschäftlichen Herausforderungen, denen Sie bei der Gründung von Deepdub gegenüberstanden, und wie haben Sie sie überwunden?

Das Gewinnen des Vertrauens der Unterhaltungsindustrie war ein großes Hindernis, als Deepdub gegründet wurde. Hollywood hat seit Jahrzehnten auf traditionelle Synchronisation gesetzt, und der Wechsel zu künstlicher Intelligenz-gesteuerter Lösung erforderte, dass wir unsere Fähigkeit demonstrieren, studioqualifizierte Ergebnisse in einer Branche zu liefern, die oft skeptisch gegenüber künstlicher Intelligenz ist.

Um diese Skepsis zu bekämpfen, verbesserten wir zunächst die Authentizität unserer künstlich erzeugten Stimmen, indem wir eine vollständig lizenzierte Stimmbank erstellten. Diese Bank enthält echte menschliche Stimmproben, was die Natürlichkeit und Ausdruckskraft unseres Outputs erheblich verbessert, was für die Akzeptanz in Hollywood entscheidend ist.

Als nächstes entwickelten wir eigene Technologien wie eTTS™ und Funktionen wie Accent Control. Diese Technologien stellen sicher, dass künstlich erzeugte Stimmen nicht nur emotionale Tiefe und Nuancen erfassen, sondern auch der regionalen Authentizität entsprechen, die für hochwertige Synchronisation erforderlich ist.

Wir bauten auch ein dediziertes internes Postproduktionsteam, das eng mit unserer Technologie zusammenarbeitet. Dieses Team feilt die künstlichen Ausgaben, um sicherzustellen, dass jeder Inhalt poliert und den hohen Standards der Branche entspricht.

Darüber hinaus erweiterten wir unseren Ansatz, um ein globales Netzwerk von menschlichen Experten einzuschließen – Stimmenakteuren, Linguisten und Regisseuren aus der ganzen Welt. Diese Fachleute bringen unverzichtbare kulturelle Einblicke und kreative Expertise ein, die kulturelle Genauigkeit und emotionale Resonanz unserer synchronisierten Inhalte verbessern.

Unser Linguistikteam arbeitet in enger Abstimmung mit unserer Technologie und globalen Experten, um sicherzustellen, dass die verwendete Sprache für den kulturellen Kontext der Zielgruppe perfekt ist, was die Authentizität und Einhaltung lokaler Normen weiter gewährleistet.

Durch diese Strategien, die fortschrittliche Technologie mit einem robusten Team von globalen Experten und einem internen Postproduktionsteam kombinieren, hat Deepdub erfolgreich demonstriert, dass künstliche Intelligenz traditionelle Synchronisationsworkflows erheblich verbessern kann. Diese Integration nicht nur die Produktion zu rationalisieren, sondern auch die Möglichkeiten für Markterweiterung zu erweitern.

Wie unterscheidet sich Deepdubs künstliche Intelligenz-gesteuerte Synchronisationstechnologie von traditionellen Synchronisationsmethoden?

Traditionelle Synchronisation ist arbeitsintensiv und ein Prozess, der Monate pro Projekt dauern kann, da sie Stimmenakteure, Tontechniker und Postproduktionsteams erfordert, um Dialoge manuell in verschiedenen Sprachen nachzubilden. Unsere Lösung revolutioniert diesen Prozess, indem sie eine hybride End-to-End-Lösung bietet – eine Kombination aus Technologie und menschlicher Expertise – die direkt in Postproduktionsworkflows integriert ist, wodurch die Lokalisierungskosten um bis zu 70 % und die Bearbeitungszeit um bis zu 50 % reduziert werden.

Im Gegensatz zu anderen künstlich erzeugten Sprachlösungen ermöglicht unsere eigene eTTS™-Technologie ein Maß an emotionaler Tiefe, kultureller Authentizität und Stimmenkonsistenz, das traditionelle Methoden bei der Skalierung schwer erreichen können.

Können Sie uns den hybriden Ansatz von Deepdub erläutern – wie arbeiten künstliche Intelligenz und menschliche Expertise im Synchronisationsprozess zusammen?

Deepdubs Hybridmodell kombiniert die Präzision und Skalierbarkeit von künstlicher Intelligenz mit der Kreativität und kulturellen Sensibilität menschlicher Expertise. Unser Ansatz verbindet die Kunstfertigkeit traditioneller Synchronisation mit fortschrittlicher künstlicher Intelligenz-Technologie, um sicherzustellen, dass lokalisierte Inhalte die emotionale Authentizität und Wirkung des Originals beibehalten.

Unsere Lösung nutzt künstliche Intelligenz, um die Grundarbeiten der Lokalisierung zu automatisieren, während menschliche Fachleute die emotionalen Nuancen, Akzente und kulturellen Details verfeinern. Wir integrieren sowohl unsere eigene eTTs™- als auch unsere Voice-to-Voice (V2V)-Technologien, um die natürliche Ausdruckskraft von künstlich erzeugten Stimmen zu verbessern, um sicherzustellen, dass sie die Tiefe und Realismus von menschlichen Leistungen erfassen. Auf diese Weise stellen wir sicher, dass jeder Inhalt so echt und wirksam in seiner lokalisierten Form ist wie im Original.

Linguisten und Stimmenfachleute spielen eine Schlüsselrolle in diesem Prozess, da sie die kulturelle Genauigkeit von künstlich erzeugten Inhalten verbessern. Da die Globalisierung die Zukunft der Unterhaltung weiter prägt, wird die Integration von künstlicher Intelligenz mit menschlicher Kunstfertigkeit zum Goldstandard für Inhalte-Lokalisierung werden.

Darüber hinaus zahlt unser Voice Artist Royalty Program professionellen Stimmenakteuren, wenn ihre Stimmen in künstlicher Intelligenz-gesteuerter Synchronisation verwendet werden, um eine ethische Nutzung von Stimmen-KI-Technologie zu gewährleisten.

Wie verbessert Deepdubs eigene eTTS™-Technologie (Emotion-Text-to-Speech) die Stimmenauthentizität und emotionale Tiefe in synchronisierten Inhalten?

Traditionelle künstlich erzeugte Stimmen fehlen oft die subtilen emotionalen Hinweise, die Leistungen überzeugend machen. Um diese Lücke zu schließen, entwickelte Deepdub seine eigene eTTS™-Technologie, die künstliche Intelligenz und Deep-Learning-Modelle nutzt, um Sprache zu generieren, die nicht nur die volle emotionale Tiefe der ursprünglichen Leistung des Schauspielers beibehält, sondern auch menschliche emotionale Intelligenz in den automatisierten Prozess integriert. Diese fortschrittliche Fähigkeit ermöglicht es der künstlichen Intelligenz, synthetisierte Stimmen fein abzustimmen, um beabsichtigte Emotionen wie Freude, Wut oder Traurigkeit widerzuspiegeln, die authentisch bei Zuschauern anklingen. Darüber hinaus zeichnet sich die eTTS™-Technologie durch die Erzeugung von hochwertigen Stimmenreplicationen aus, die natürliche Nuancen in der menschlichen Sprache wie Tonhöhe, Ton und Tempo nachahmen, was für die Lieferung von Zeilen, die echt und ansprechend sind, unerlässlich ist. Die Technologie verbessert auch die kulturelle Sensibilität, indem sie die Ausgaben anpassen kann, um Akzente zu kontrollieren, was sicherstellt, dass die synchronisierten Inhalte den kulturellen Nuancen entsprechen und somit ihre globale Attraktivität und Wirksamkeit erhöhen.

Eines der häufigsten Kritikpunkte an künstlich erzeugten Stimmen ist, dass sie roboterhaft klingen können. Wie stellt Deepdub sicher, dass künstlich erzeugte Stimmen Natürlichkeit und emotionale Nuancen beibehalten?

Unsere eigene Technologie nutzt Deep Learning und Machine Learning-Algorithmen, um skalierbare, hochwertige Synchronisationslösungen bereitzustellen, die die ursprüngliche Absicht, den Stil, den Humor und die kulturellen Nuancen bewahren.

Zusammen mit unserer eTTS™-Technologie umfasst Deepdubs innovative Suite Funktionen wie Voice-to-Voice (V2V), Voice Cloning, Accent Control und unsere Vocal Emotion Bank, die es ProduktionsTeams ermöglichen, Leistungen zu fein abzustimmen, um ihrem kreativen Konzept zu entsprechen. Diese Funktionen stellen sicher, dass jede Stimme die emotionale Tiefe und Nuancen besitzt, die für überzeugende Erzählungen und wirksame Benutzererfahrungen erforderlich sind.

In den letzten Jahren haben wir zunehmend den Erfolg unserer Lösungen in der Medien- und Unterhaltungsindustrie gesehen, so dass wir uns kürzlich entschieden, den Zugang zu unseren in Hollywood geprüften Voiceovers für Entwickler, Unternehmen und Inhaltecreater mit unserem AI Audio API zu öffnen. Das von unserer eTTS™-Technologie angetriebene API ermöglicht die Echtzeit-StimmenGenerierung mit erweiterten Anpassungsparametern, einschließlich Akzent, emotionaler Ton, Tempo und Stimmstil.

Das Flaggschiff-Feature unseres API sind die Audio-Präset, die auf Basis von jahrelanger Branchenerfahrung mit den am häufigsten angeforderten Voiceover-Bedürfnissen entwickelt wurden. Diese vorkonfigurierten Einstellungen ermöglichen es Benutzern, unterschiedliche Inhalte schnell anzupassen, ohne dass eine umfangreiche manuelle Konfiguration oder Erkundung erforderlich ist. Verfügbar sind Präset für Audio-Beschreibungen und Hörbücher, Dokumentar- oder Reality-Narration, Drama und Unterhaltung, Nachrichtenlieferung, Sportkommentar, Anime- oder Cartoon-Synchronisationen, Interactive Voice Response (IVR) sowie Werbe- und kommerzielle Inhalte.

Künstliche Intelligenz-Synchronisation beinhaltet kulturelle und sprachliche Anpassung – wie stellt Deepdub sicher, dass seine Synchronisationslösungen kulturell angemessen und genau sind?

Lokalisierung ist nicht nur die Übersetzung von Worten – es ist die Übersetzung von Bedeutung, Absicht und kulturellem Kontext. Deepdubs hybrider Ansatz kombiniert künstliche Intelligenz-gesteuerte Automatisierung mit menschlicher linguistischer Expertise, um sicherzustellen, dass übersetzter Dialog die kulturellen und emotionalen Nuancen der Zielgruppe widerspiegelt. Unser Netzwerk von Lokalisierungsexperten arbeitet Seite an Seite mit künstlicher Intelligenz, um sicherzustellen, dass synchronisierte Inhalte mit regionalen Dialekten, Ausdrücken und kulturellen Sensibilitäten übereinstimmen.

Was sind einige der aufregendsten Innovationen, an denen Sie derzeit arbeiten, um künstliche Intelligenz-Synchronisation auf das nächste Level zu heben?

Eine unserer größten kommenden Innovationen ist die Live-/Streaming-Synchronisation, die es ermöglichen wird, Echtzeit-Synchronisation für Live-Übertragungen wie Sportereignisse und Nachrichtenmedien zu ermöglichen, wodurch globale Ereignisse sofort zugänglich gemacht werden. Durch die Kombination dieser mit einer weiteren unserer aufregenden Innovationen, unserer eTTs™-Funktion, einer proprietären Technologie, die die Erstellung von menschlich klingenden Stimmen aus Texten im großen Maßstab und mit vollem emotionalen Support und kommerziellen Rechten ermöglicht, werden wir in der Lage sein, hochwertige, authentische, emotionale Live-Synchronisation zu bieten, wie sie auf dem Markt noch nicht existiert.

Nehmen wir beispielsweise die Eröffnungszeremonie der Olympischen Spiele oder jedes Live-Sportereignis. Während lokale Sender typischerweise Kommentare in ihrer regionalen Sprache und ihrem Dialekt anbieten, ermöglicht diese Technologie es Zuschauern auf der ganzen Welt, das gesamte Ereignis in ihrer Muttersprache zu erleben, während es stattfindet.

Live-Synchronisation wird neu definieren, wie Live-Veranstaltungen auf der ganzen Welt erlebt werden, und sicherstellen, dass Sprache nie ein Hindernis ist.

Künstliche Intelligenz-gesteuerte Synchronisation hat in bestimmten Projekten kürzlich Kritik erfahren. Was denken Sie, sind die wichtigsten Faktoren, die diese Kritik antreiben?

Die Hauptkritikpunkte resultieren aus Bedenken hinsichtlich Authentizität, Ethik und Qualität. Einige künstlich erzeugte Stimmen haben der emotionalen Resonanz und Nuancen gefehlt, die für immersive Erzählungen erforderlich sind. Bei Deepdub haben wir dies angegangen, indem wir emotional ausdrucksstarke künstliche Intelligenz-Stimmen entwickelt haben, um sicherzustellen, dass sie die Seele der ursprünglichen Leistung beibehalten. Deepdub hat über 70 % außergewöhnliche Zuschauerzufriedenheit in allen Dimensionen erzielt, einschließlich hervorragender Besetzung, klarer Dialoge, nahtloser Synchronisation und perfekter Timing.

Ein weiteres Problem ist die ethische Nutzung von künstlichen Intelligenz-Stimmen. Deepdub ist ein Vorreiter für verantwortungsvolle künstliche Intelligenz-Synchronisation und hat das erste Royalty-Programm der Branche eingeführt, das Stimmenakteuren für künstlich erzeugte Leistungen entschädigt. Wir glauben, dass künstliche Intelligenz menschliche Kreativität erweitern und nicht ersetzen sollte, und dieses Engagement spiegelt sich in allem wider, was wir aufbauen.

Wie sehen Sie die künstliche Intelligenz-Synchronisation die globale Unterhaltungsindustrie in den nächsten 5-10 Jahren verändern?

In den nächsten zehn Jahren wird künstliche Intelligenz-gesteuerte Synchronisation Inhalte demokratisieren, wie nie zuvor, und Filme, Fernsehsendungen und Live-Übertragungen für jedes Publikum, überall und in seiner Muttersprache sofort zugänglich machen.

Wir stellen uns eine Welt vor, in der Streaming-Plattformen und Sender Echtzeit-Mehrsprachensynchronisation integrieren, um sprachliche Barrieren zu beseitigen und es Geschichten zu ermöglichen, weiter und schneller zu reisen, als traditionelle Lokalisierungsmethoden es bisher ermöglicht haben.

Darüber hinaus kann künstliche Intelligenz-Synchronisation auch den Zugang zu Medien für Blinde und Sehbehinderte verbessern. Viele verlassen sich auf Audio-Beschreibungen, um visuelle Inhalte zu verfolgen, und künstliche Intelligenz-Synchronisation ermöglicht es ihnen, sich mit fremdsprachigen Inhalten auseinanderzusetzen, wenn Untertitel nicht als zugängliche Option verfügbar sind. Durch die Überwindung sowohl sprachlicher als auch sensorischer Barrieren wird künstliche Intelligenz-gesteuerte Synchronisation dazu beitragen, ein inklusiveres Unterhaltungserlebnis für alle zu schaffen, was insbesondere kritisch ist, da neue Vorschriften zur Medienzugänglichkeit in diesem Jahr weltweit in Kraft treten.

Was sind einige der größten Herausforderungen, die noch gelöst werden müssen, damit künstliche Intelligenz-Synchronisation wirklich mainstream wird?

Die größten Herausforderungen sind die Aufrechterhaltung von ultrahochwertiger Qualität im großen Maßstab, die Gewährleistung kultureller und sprachlicher Präzision und die Festlegung ethischer Richtlinien für künstlich erzeugte Stimmen. Aber über die technischen Hürden hinaus hängt die öffentliche Akzeptanz von künstlicher Intelligenz-Synchronisation von Vertrauen ab. Zuschauer müssen das Gefühl haben, dass künstlich erzeugte Stimmen die Authentizität und emotionale Tiefe von Leistungen bewahren, anstatt synthetisch oder abgekoppelt zu klingen.

Damit künstliche Intelligenz-Synchronisation vollständig akzeptiert wird, muss sie hochwertig sein, indem sie menschliche Kunstfertigkeit und Technologie im großen Maßstab kombiniert, und sie muss Respekt für kreative Integrität, sprachliche Nuancen und kulturellen Kontext demonstrieren. Das bedeutet, dass Stimmen treu bleiben müssen zu den ursprünglichen Absichten der Schauspieler, Vermeidung von Ungenauigkeiten, die das Publikum alienieren könnten, und die Ansprache ethischer Bedenken hinsichtlich Deepfake-Risiken und Stimmeneigentum.

Da künstliche Intelligenz-Synchronisation weiter verbreitet wird, müssen Technologieanbieter strenge Standards für Stimmenauthentizität, Sicherheit und geistiges Eigentum umsetzen. Deepdub ist aktiv dabei, in diesen Bereichen die Führung zu übernehmen, um sicherzustellen, dass künstliche Intelligenz-Stimmentechnologie globale Erzählungen bereichert, während sie die künstlerischen und professionellen Beiträge menschlichen Talents respektiert. Nur dann werden Zuschauer, Inhaltecreater und Branchenakteure künstliche Intelligenz-Synchronisation vollständig als vertrauenswürdiges und wertvolles Werkzeug akzeptieren.

Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten Deepdub besuchen.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.