Interviews

Anton Dvorkovich, CEO und Gründer von Dubformer – Interviewreihe

Published November 6, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Anton Dvorkovich, CEO und Gründer von Dubformer, hat über ein Jahrzehnt damit verbracht, die Schnittstelle zwischen KI, Sprache und Sprachtechnologien zu gestalten. Bevor er Dubformer 2023 gründete, leitete er wichtige Maschinenlern- und NLP-Initiativen bei Yandex, bei denen Produkte wie Yandex Translate, Yandex Keyboard und die Sprachassistentin Alice entwickelt wurden, die jeweils Millionen von Nutzern bedienen. Bei Nebius war er als Leiter der KI-Abteilung tätig und baute große Infrastrukturen für intelligente Systeme auf. Seine Erfahrung bei der Leitung von crossfunktionellen Teams mit über 100 Ingenieuren, Entwicklern und Forschern legte den Grundstein für Dubformers Vision – die Überbrückung von Sprachbarrieren durch fortschrittliche KI-Synchronisation.

Dubformer ist ein KI-basiertes Synchronisations-Startup mit Sitz in Amsterdam, das bereits über eine Million Minuten lokalisierten Videoinhalts verarbeitet hat. Das Unternehmen spezialisiert sich auf die Übersetzung und Synchronisation von Videos mithilfe synthetischer Stimmen, die den emotionalen Ton, die Timing und die Sprecherindividualität bewahren, um Kreativen, Studios und Unternehmen zu helfen, ihren Inhalt global zugänglich zu machen. Seine Plattform nutzt Deep-Learning-Modelle für Spracherkennung, Stimmenklonung und Übersetzung, um natürliche Ergebnisse zu liefern, die traditionelle Synchronisationswerkzeuge weit übertreffen.

Nachdem Sie NLP- und Sprachteams bei Yandex geleitet und als Leiter der KI-Abteilung bei Nebius gearbeitet haben, was hat Sie dazu bewogen, ein dediziertes KI-Synchronisationsunternehmen aufzubauen, und wie haben diese Erfahrungen Ihre Vision geprägt?

Als ich bei Yandex als Leiter der NLP-Abteilung arbeitete, entwickelte ich eine Leidenschaft dafür, Sprachbarrieren mit Technologie zu überwinden. Ich durfte (und ich nahm teil an) der KI-Revolution bei der maschinellen Übersetzung – und dann wurde mir klar, dass eine große Lücke, die noch weitgehend ungelöst ist, die Medienübersetzung (Audio- und Video-) ist. Wenn Sie sehen, dass die Textübersetzung fast perfekt wird, beginnen Sie, sich zu fragen: Was ist mit den Geschichten, die die Menschen wirklich berühren? Was ist mit den Darbietungen, die Sie zum Lachen oder Weinen bringen? Also beschlossen wir, die Herausforderung anzunehmen, KI-Synchronisationstechnologie aufzubauen, und gingen über die Medienübersetzung hinaus, die nur verständlich ist, zu der, die tatsächlich genießbar ist. Deshalb haben wir Dubformer gestartet.

Welche spezifische Lücke in der Medienlokalisierung haben Sie identifiziert, und wie hat Ihre Erfahrung im Bereich der neuronalen Maschinensübersetzung und der Sprachtechnologien Ihren Ansatz zur Lösung dieses Problems beeinflusst?

Die Medienlokalisierung wird heute fast ausschließlich mit Sprechern durchgeführt, was mehrere Nachteile hat: Es ist ziemlich teuer, die Bearbeitungszeiten sind lang, und die Skalierung ist sehr schwierig und führt zu enormen Personalkosten. Denken Sie darüber nach: Die traditionelle Synchronisationskunst ist unglaublich, aber diese Einschränkungen bedeuten, dass viele Projekte überhaupt nicht synchronisiert werden. Tatsächlich sind 95 % des Inhalts nur in der Originalsprache verfügbar. Das ist die Lücke, die wir ansprechen.

Die VOX-DUB-Benchmark ist ein wichtiger Meilenstein für die Bewertung der Synchronisationsqualität. Welche Erkenntnisse haben Sie durch die Teilnahme gewonnen, und wie sieht die Branche derzeit aus?

Die VOX-DUB-Ergebnisse zeigten etwas Wichtiges: Die Branche hat bereits das Problem gelöst, AI-Sprechstimmen klingen “menschlich” für Inhalte zu machen, bei denen der emotionale Anteil nicht kritisch ist. Die Synchronisation von Inhalten, bei denen Emotionen wirklich wichtig sind, bleibt jedoch eine ungelöste Herausforderung, obwohl es den Anschein haben mag, dass bereits alles gelöst ist. Viele Systeme können verständliche Sprache produzieren, aber nur wenige können Darbietungen erstellen, die authentisch und emotional mit dem Original übereinstimmen. Wir haben gelernt, Text vorzulesen, aber wir lernen noch, wie man tatsächlich Szenen aufführt.

Sie haben von einem Kompromiss zwischen Stimmgüte und Gesamtsprachqualität gesprochen. Wie gehen Sie bei der Abwägung dieser Faktoren in Ihren Systemen vor?

In Wirklichkeit ist der Kompromiss oft nicht zwischen Stimmgüte und Qualität, sondern zwischen der Tiefe der emotionalen, intonationalen und expressiven Übertragung und der Stabilität des Ergebnisses. Je mehr Sie versuchen, zu übertragen, desto höher ist das Risiko, etwas falsch zu übertragen, insbesondere da Emotionen in verschiedenen Sprachen unterschiedlich klingen und ausgedrückt werden. Was in einer Sprache leidenschaftlich klingt, kann in einer anderen unnatürlich oder sogar verstörend klingen. Wir zielen darauf ab, eine Balance zwischen emotionaler Genauigkeit und Natürlichkeit zu finden, um sicherzustellen, dass die Ausgabe expressiv bleibt, aber auch angenehm zu hören ist.

Was macht AI-Synchronisation Ihrer Meinung nach grundlegend anders als traditionelle Text-to-Speech-Technologie – sowohl technisch als auch künstlerisch?

Traditionelle TTS konzentriert sich auf das einfache Vorlesen von Text, meist in neutraler Tonlage. AI-Synchronisation, insbesondere in der Medienbranche, ist eine viel komplexere Aufgabe, bei der das Ziel nicht nur darin besteht, Bedeutung zu vermitteln, sondern auch ein Gefühl von Präsenz und echter Darbietung zu schaffen. Emotionen, Intonationen und natürliche Pausen spielen alle eine entscheidende Rolle, zusammen mit Herausforderungen wie Mischung, akustischer Anpassung und Synchronisation mit Lippenbewegungen und Szenenrhythmus. Künstlerisch gesehen ist AI-Synchronisation viel näher an Schauspielerei als an Vorlesen; das System muss die Zeile aufführen, nicht nur aussprechen.

Welche Aspekte des VOX-DUB-Bewertungsrahmens finden Sie am wertvollsten, um Transparenz und Rechenschaftspflicht in der AI-Medienlokalisierung zu fördern?

Was VOX-DUB so wertvoll für Transparenz macht, ist, dass es jeden zwingt, ehrlich zu sein, was sie tatsächlich liefern können. Bevor es diesen Rahmen gab, konnten Unternehmen Behauptungen über ihre Synchronisationsqualität aufstellen, ohne dass es eine Möglichkeit gab, sie zu überprüfen. Der entscheidende Durchbruch ist, dass VOX-DUB den ersten systematischen Katalog von AI-Synchronisationsfehlern durch seine umfassende menschliche Benchmark einführt. Diese Open-Source-Datensatz schafft eine gemeinsame Sprache für Qualität – Originalsprachfragmente mit Übersetzungen, generierte Audio von mehreren Systemen und menschliche Annotationen in fünf kritischen Aspekten: Aussprache, Natürlichkeit, Soundqualität, Emotionsähnlichkeit und Stimmsähnlichkeit. Zum ersten Mal haben wir einen Standard für menschliche Bewertung von Synchronisation mit klaren Richtlinien und Beispielen. Jetzt, wenn Teams über Qualität sprechen, sprechen sie tatsächlich über dasselbe. Veröffentlichte Ergebnisse, die jeder sehen kann, schaffen echte Rechenschaftspflicht. Teams müssen ihre Marketingbehauptungen mit Leistungsdaten in allen fünf Qualitätsdimensionen untermauern. Diese Art von Offenheit verändert, wie die gesamte Branche operiert, und schafft Vertrauen bei Kreativen, die zuverlässige, messbare Ergebnisse benötigen.

Wie sehen Sie den Einfluss von Benchmarks wie VOX-DUB auf den Fortschritt bei der multilingualen Inhaltserschaffung und -verteilung?

Das Schöne an klaren Benchmarks ist, dass sie einen Fahrplan für jeden schaffen. Wenn Teams die VOX-DUB-Ergebnisse sehen, beschleunigt es ihre eigene Entwicklungszeitpläne. Anstatt zu raten, wie Qualität aussieht, haben sie konkrete Ziele, auf die sie abzielen können. Ich beobachte, wie Unternehmen ihre Roadmaps komprimieren, weil sie sehen, was woanders funktioniert. Dieses gemeinsame Verständnis hilft dem gesamten Feld, schneller zusammenzukommen, was bedeutet, dass mehr vielfältige Inhalte globalen Publikum früher erreichen können.

Ihre Plattform hat starke Ergebnisse in Aussprache und Natürlichkeit erzielt. Welche zugrunde liegenden Innovationen oder Modellentscheidungen trugen am meisten zu diesem Erfolg bei?

Es kommt darauf an, zu verstehen, dass Synchronisation nicht nur darum geht, einzelne Wörter zu verwenden; es geht um das gesamte Darbietungssystem. Zwei Durchbrüche machten den Unterschied. Erstens hörten wir auf, Aussprache als rein technisch zu betrachten, und begannen, sie als emotional zu betrachten. Menschen sprechen nicht in perfekt artikulierten Silben; sie verschleifen Wörter, wenn sie traurig sind, sie sprechen schnell, wenn sie aufgeregt sind. Das Erfassen dieser natürlichen Unvollkommenheit war entscheidend. Zweitens mussten wir über die gesamte Klanglandschaft nachdenken. Wenn jemand in einer Szene mit Regen oder in einer halligen Kathedrale spricht, passt seine Stimme sich natürlich an. Unser System lernte, sich mit der ursprünglichen akustischen Umgebung zu verbinden. Diese waren nicht nur technische Verbesserungen. Sie gingen um das Verständnis dessen, was Sprache menschlich macht.

Wie kombiniert Ihre Plattform menschliche Expertise mit Automatisierung, um professionelle Synchronisation im großen Maßstab zu liefern?

Wir arbeiten eng mit traditionellen Synchronisationsstudios zusammen, um ihnen zu helfen, ihre Teams in neuen Fähigkeiten und aufkommenden Berufen zu schulen. AI übernimmt die Übersetzung, Synchronisation und StimmenGenerierung, während professionelle Rezensenten, Übersetzer und Tontechniker die endgültige Qualitätskontrolle durch unsere Plattform durchführen. Dieser Ansatz ermöglicht es uns, Studio-Qualität beizubehalten, während die Bearbeitungszeiten von Wochen auf Stunden reduziert werden. Automatisierung bietet Skalierbarkeit, und menschliche Expertise gewährleistet künstlerischen Ausdruck. Es ist das Beste aus beiden Welten: Maschineneffizienz mit menschlicher Kreativität.

Da der AI-Medienlokalisierungsmarkt rasch wächst, welche umfassendere Rolle sehen Sie AI bei der Neugestaltung der globalen kreativen Produktion?

AI-Lokalisierung wird es Kreativen und Erzählern ermöglichen, ihre Geschichten mit globalen Publikum zu teilen, ohne emotionale Tiefe oder kulturelle Authentizität zu verlieren. Im Laufe der Zeit wird dies zu einer viel größeren Vielfalt an Inhalten führen, indem es Nischenprojekte und spezialisierte Publikum ermöglicht, die zuvor nicht professionelle Synchronisation bezahlen konnten. Denken Sie an unabhängige Filmemacher, Dokumentarfilmer, Bildungsinhalte-Ersteller; sie können endlich globale Publikum erreichen, die zuvor außer Reichweite lagen.

Welche kommenden Fortschritte oder Zusammenarbeiten sind Sie am meisten aufgeregt, wenn Sie auf die nächste Entwicklungsstufe blicken?

Was mich am meisten begeistert, ist die weitere Verbesserung unserer emotionalen Transferfähigkeiten. Wir haben gute Fortschritte gemacht, aber es gibt noch so viel Raum, um besser zu werden, die feinen Nuancen zu bewahren, die Darbietungen authentisch machen. Bei Zusammenarbeiten bauen wir tiefergehende Partnerschaften mit traditionellen Synchronisationsstudios auf, um hybride Workflows zu schaffen, die das Beste aus beiden Welten kombinieren. Diese Studios haben Jahrzehnte der Expertise, von denen wir lernen, während wir die Technologie liefern, um ihre Kreativität zu skalieren. Die aufregendsten Zusammenarbeiten sind mit Studios, die AI nicht als Ersatz, sondern als Mittel sehen, ihre Teams zu erweitern und vielfältigere Projekte zu übernehmen, die sie zuvor nicht bewältigen konnten. Der eigentliche Durchbruch wird sein, wenn wir konsistent Darbietungen liefern können, die das Publikum vergisst, dass sie von AI erstellt wurden. Dorthin gehen wir.

Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten Dubformer besuchen.

Unite.AI

Anton Dvorkovich, CEO und Gründer von Dubformer – Interviewreihe

You may like