인터뷰

Ofir Krakowski, Deepdub의 CEO 및 공동 창립자 – 인터뷰 시리즈

Published March 13, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Ofir Krakowski는 Deepdub의 공동 창립자이자 CEO입니다. 컴퓨터 과학과 기계 학습에 30년 이상의 경험을 가지고 있으며, 이스라엘 공군의 기계 학습 및 혁신 부서를 25년간 설립하고 운영하는 데 중요한 역할을 했습니다.

Deepdub은 딥 러닝과 음성 클로닝을 활용하여 영화, TV, 디지털 콘텐츠에 대한 고품질의 확장 가능한 지역화를 제공하는 AI 기반 더빙 회사입니다. 2019년에 설립된 이 회사는 콘텐츠 제작자가 원래 성능을 유지하면서 대화의 대화를 여러 언어로 무결하게 번역할 수 있도록 합니다. AI 기반 음성 합성을 인간 언어 감시와 통합함으로써 Deepdub은 글로벌 콘텐츠 접근성을 향상시키며 전통적인 더빙의 시간과 비용을 줄입니다. 이 회사는 혁신에 대한 산업 인정을 얻었으며 주요 파트너십, 인증, 자금을 확보하여 엔터테인먼트 부문 전반에 걸쳐 자신의 AI 지역화 기술을 확장했습니다.

2019년에 Deepdub을 설립하도록 영감을 준 것은 무엇인가? 특정한 순간이나 도전이 그것의 창설로 이어졌는가?

전통적인 더빙은 오랫동안 산업 표준으로 사용되어 왔지만, 비용이 많이 들고 시간이 많이 걸리는 과정입니다. AI 생성 음성 솔루션이 존재했지만, 높은 품질의 복잡한 콘텐츠에 적합하지 않았던 감정의 깊이를 缺乏했습니다.

우리는 원래 성능의 감정적 진실성을 유지하면서 효율성을 크게 개선하는 AI 기반 지역화 솔루션을 개발할 수 있는 기회를 식별했습니다. 우리는 감정-텍스트-음성(eTTS™) 기술을 개발했습니다. 이 기술은 AI 생성 음성이 인간 배우와 동일한 감정의 무게, 톤 및 뉴앙스를 가질 수 있도록 합니다.

우리는 언어와 문화적 장벽이 더 이상 글로벌 콘텐츠 접근성의 장애물이 되지 않는 세상을 꿈꾸고 있습니다. 우리의 플랫폼을 만들면서, 우리는 엔터테인먼트, 이러닝, FAST 및 기타 산업에서 언어 제한의 도전에 대해 인식하고 콘텐츠 지역화를 혁신하기 위해 노력했습니다.

복잡한 콘텐츠를 대규모로 더빙하고 지역화하는 데 있어 Deepdub의 솔루션이最高의 품질을 제공하기 위해, 우리는 기술과 함께 언어학 및 음성 전문가를 프로세스에 통합하여 하이브리드 접근 방식을 채택하기로 결정했습니다.

우리의 비전은 음성 제작을 민주화하여 대규모로 확장 가능하고, 普遍적으로 접근 가능하고, 包容적이며, 문화적으로 관련성이 있도록 하는 것입니다.

Deepdub을 출시할 때 직면한 가장 큰 기술적 및 비즈니스 도전은 무엇이었으며, 어떻게 그것들을 극복했나요?

엔터테인먼트 산업의 신뢰를 얻는 것은 Deepdub을 출시할 때 주요 장애물이었습니다. 할리우드는 수십 년 동안 전통적인 더빙에 의존해 왔으며, AI 기반 솔루션으로 전환하는 것은 스튜디오 품질의 결과를 제공할 수 있는 능력을 입증하는 것을 필요로 했습니다.

이 회의를 해결하기 위해, 우리는 먼저 우리의 AI 생성 음성의 진실성을 향상시키기 위해 완전히 라이선스된 음성 뱅크를 생성했습니다. 이 뱅크에는 실제 인간 음성 샘플이 포함되어 있으며, 이는 할리우드에서 받아들이기 위해 필수적인 출력의 자연스러움과 표현력을 크게 향상시킵니다.

다음으로, 우리는 eTTS™과 같은 독점 기술을 개발했으며, 이러한 기술은 AI 생성 음성이 감정의 깊이와 뉴앙스를 캡처할 뿐만 아니라 지역적인 진실성을 제공하는 데 필요합니다.

우리는 또한 기술과 밀접하게 협력하는 전용 인하우스 포스트 프로덕션 팀을 구축했습니다. 이 팀은 AI 출력을 세부적으로 조정하여 모든 콘텐츠가 산업의 높은 표준을 충족하도록 합니다.

さらに, 우리는 전 세계의 인간 전문가 네트워크, 즉 음성 배우, 언어학자 및 감독을 포함하는 접근 방식을 확장했습니다. 이러한 전문가들은 문화적 통찰력과 창의적 전문 지식을 제공하여 우리의 더빙 콘텐츠의 문화적 정확성과 감정적 공鳴을 향상시킵니다.

우리의 언어학 팀은 기술과 전 세계 전문가와 함께 작업하여 언어가 대상 관객의 문화적 맥락에 완벽하게 적합하도록 보장합니다. 이는 진실성과 지역 규정 준수를 보장합니다.

이러한 전략을 통해, 우리는 Deepdub이 전통적인 더빙 워크플로우를 향상시키는 데 AI를 성공적으로 사용할 수 있음을 할리우드와 전 세계의 다른 상위 티어 프로덕션 회사에 입증했습니다. 이 통합은 생산을 간소화할 뿐만 아니라 시장 확장을 위한 가능성을 확대합니다.

Deepdub의 AI 기반 더빙 기술은 전통적인 더빙 방법과 어떻게 다른가요?

전통적인 더빙은 노동 집약적이며 프로젝트당 수 개월이 걸릴 수 있는 과정입니다. 이는 음성 배우, 사운드 엔지니어 및 포스트 프로덕션 팀이 수동으로 다른 언어로 대화를 재생성해야 하기 때문입니다. 우리의 솔루션은 기술과 인간 전문 지식을 결합한 하이브리드 엔드투엔드 솔루션을 제공함으로써 이 프로세스를 혁신합니다. 이는 지역화 비용을 최대 70%, 교환 시간을 최대 50%까지 줄입니다.

다른 AI 생성 음성 솔루션과 달리, 우리의 독점적인 eTTS™ 기술은 전통적인 방법이 대규모로 달성하기 어려운 감정의 깊이, 문화적 진실성 및 음성 일관성을 제공합니다.

Deepdub이 사용하는 하이브리드 접근 방식을 설명해 주시겠습니까? 더빙 프로세스에서 AI와 인간 전문 지식은 어떻게 협력합니까?

Deepdub의 하이브리드 모델은 AI의 정밀도와 확장 가능성과 인간 전문 지식의 창의성 및 문화적 감도를 결합합니다. 우리의 접근 방식은 전통적인 더빙의 예술성과 고급 AI 기술을 결합하여 지역화된 콘텐츠가 원래의 진실성과 영향을 유지하도록 합니다.

우리의 솔루션은 지역화의 기초적인 측면을 자동화하기 위해 AI를 활용합니다. 인간 전문가가 감정의 뉴앙스, 억양 및 문화적 세부 사항을 세부적으로 조정합니다. 우리는 AI 생성 음성이 인간 성능의 깊이와 현실성을 캡처하도록 보장하기 위해 우리의 독점적인 eTTS™ 및 음성대음성(V2V) 기술을 결합하여 사용합니다.

언어학자와 음성 전문가가 이 프로세스에서 중요한 역할을 합니다. 그들은 AI 생성 콘텐츠의 문화적 정확성을 향상시킵니다. 글로벌화가 엔터테인먼트의 미래를 형성함에 따라, AI와 인간 예술성의 통합은 콘텐츠 지역화의 금본 표준이 될 것입니다.

또한, 우리의 음성 아티스트 로열티 프로그램은 전문 음성 배우가 AI 보조 더빙에서 자신의 음성을 사용할 때마다 보상을 제공하여 음성 AI 기술의 윤리적 사용을 보장합니다.

Deepdub의 독점적인 eTTS™ (감정-텍스트-음성) 기술은 어떻게 더빙된 콘텐츠에서 음성의 진실성과 감정의 깊이를 향상시킵니까?

전통적인 AI 생성 음성은 종종 성과를 매력적으로 만드는 미묘한 감정적 신호를 缺乏합니다. 이러한 부족을 해결하기 위해, Deepdub은 AI와 딥 러닝 모델을 사용하여 원래 배우의 성능의 전체 감정의 깊이를 유지하는 음성을 생성하는 자신의 독점적인 eTTS™ 기술을 개발했습니다. 이 고급 기능을 사용하면 AI가 합성 음성을 세부적으로 조정하여 의도된 감정(즉, 기쁨, 분노 또는 슬픔)을 진실하게 반영할 수 있습니다. 또한, eTTS™은 음성의 자연스러운 뉴앙스(즉, 피치, 톤 및 템포)와 같은 고화질 음성 복제를 생성하는 데 뛰어난 성능을 발휘합니다. 이는 진정성 있고 매력적인 줄거리를 전달하는 데 필요합니다. 기술은 또한 문화적 민감성을 향상시키기 위해 출력을 지역적인 억양을 제어하는 데 능숙하게 적응시킵니다. 이는 글로벌 매력과 효과성을 향상시킵니다.

AI 생성 음성이 로봇처럼 들릴 수 있다는 비판이 있습니다. Deepdub은 어떻게 AI 생성 음성이 자연스러움과 감정의 뉴앙스를 유지하도록 보장합니까?

우리의 독점 기술은 확장 가능하고 고품질의 더빙 솔루션을 제공하기 위해 딥 러닝과 기계 학습 알고리즘을 사용합니다. 이러한 솔루션은 원래 의도, 스타일, 유머 및 문화적 뉴앙스를 유지합니다.

우리의 eTTS™ 기술과 함께, Deepdub의 혁신적인 제품군에는 음성대음성(V2V), 음성 클로닝, 억양 제어 및 음성 감정 뱅크와 같은 기능이 포함되어 있습니다. 이러한 기능은 프로덕션 팀이 성능을 자신의 창의적 비전에 맞게 세부적으로 조정할 수 있도록 합니다. 이러한 기능은 매력적이고 영향력 있는 이야기와 사용자 경험을 위한 모든 음성이 감정의 깊이와 뉴앙스를 가질 수 있도록 합니다.

過去 몇 년 동안, 우리는 미디어 및 엔터테인먼트 산업에서 우리의 솔루션의 성공을 보았습니다. 그래서, 우리는 최근에 개발자, 기업 및 콘텐츠 제작자를 위한 AI 오디오 API에 대한 액세스를 개방했습니다. 우리의 eTTS™ 기술로 구동되는 이 API는 고급 사용자 정의 매개 변수(즉, 억양, 감정적 톤, 템포 및 보컬 스타일)를 포함하여 실시간 음성 생성을 가능하게 합니다.

API의 플래그십 기능은 오디오 프레셋입니다. 이는 수년간의 산업 경험을 기반으로 가장 요청되는 음성오버需求에 따라 설계되었습니다. 이러한 사전 구성된 설정을 사용하면 사용자가 광범위한 수동 구성이나 탐색 없이 다양한 콘텐츠 유형을 신속하게 적응할 수 있습니다. 사용 가능한 프레젠테이션에는 오디오 설명 및 오디오 북, 다큐멘터리 또는 리얼리티 내레이션, 드라마 및 엔터테인먼트, 뉴스 전달, 스포츠 해설, 애니메이션 또는 만화 음성오버, 인터랙티브 보이스 응답(IVR) 및 프로모션 및 상업용 콘텐츠가 포함됩니다.

AI 더빙에는 문화적 및 언어적 적응이 포함됩니다. Deepdub은 어떻게 자신의 더빙 솔루션이 문화적으로 적절하고 정확한지 보장합니까?

지역화는 단순히 단어를 번역하는 것뿐만 아니라, 의미, 의도 및 문화적 맥락을 번역하는 것입니다. Deepdub의 하이브리드 접근 방식은 AI 기반 자동화와 인간 언어 전문 지식을 결합하여 번역된 대화가 대상 관객의 문화적 및 감정적 뉴앙스를 반영하도록 합니다. 우리의 지역화 전문가 네트워크는 AI와 함께 작업하여 더빙된 콘텐츠가 지역 방언, 표현 및 문화적 민감성을 반영하도록 합니다.

현재 AI 더빙을 다음 단계로 끌어올리기 위해 작업 중인 가장 흥미로운 혁신은 무엇입니까?

우리가 작업 중인 가장 큰 혁신 중 하나는 라이브/스트리밍 더빙입니다. 이는 라이브 방송(예: 스포츠 이벤트 및 뉴스 미디어)에서 실시간 더빙을 가능하게 하여 글로벌 이벤트를 즉시 접근할 수 있도록 합니다. 이 기술을 우리의 또 다른 혁신인 eTTs™ 기능과 결합하여, 우리는 시장에서 볼 수 없는 고품질의 진정성 있고 감정적인 라이브 더빙을 제공할 수 있을 것입니다.

예를 들어, 올림픽의 개막식 또는 라이브 스포츠 이벤트를 생각해 보십시오. 지역 방송사에서는 일반적으로 지역 언어와 방언으로 해설을 제공하지만, 이 기술을 사용하면 전 세계의 시청자가 이벤트가 진행되는 동안 자신의 모국어로 전체 이벤트를 경험할 수 있습니다.

라이브 더빙은 라이브 이벤트가 전 세계에서 경험되는 방식을 재정의할 것입니다. 언어는 더 이상 장벽이 되지 않을 것입니다.

AI 생성 더빙은 최근 일부 프로젝트에서 비판을 받았습니다. 이러한 비판의 주요 요인은 무엇이라고 생각합니까?

주된 비판은 진실성, 윤리 및 품질에 대한 우려에서 비롯됩니다. 일부 AI 생성 음성은 매력적인 이야기 전달에 필요한 감정적 공鳴과 뉴앙스를 缺乏했습니다. Deepdub에서, 우리는 감정적으로 표현력 있는 AI 음성을 개발하여 원래 성능의 영혼을 유지했습니다. Deepdub은 모든 차원(예: 훌륭한 캐스팅, 명확한 대화, 무결한 동기화 및 완벽한 페이스)에서 70% 이상의 예외적인 시청자 만족도를 달성했습니다.

또 다른 문제는 AI 음성의 윤리적 사용입니다. Deepdub은 책임 있는 AI 더빙의 선구자로서, 산업 최초의 로열티 프로그램을 개척하여 AI 생성 성능에 대한 음성 배우의 보상을 제공했습니다. 우리는 AI가 인간의 창의성을 향상시키기 위해 사용되어야 하며, 우리가 구축하는 모든 것에 이러한 헌신이 반영되어야 한다고 믿습니다.

다음 5-10년 동안 AI 더빙이 글로벌 엔터테인먼트 산업을 어떻게 변화시킬 것으로 보십니까?

다음 10년 동안, AI 기반 더빙은 콘텐츠를 이전과 같은 방식으로 민주화할 것입니다. 영화, TV 쇼 및 라이브 방송을 모든 관객이 즉시 자신의 모국어로 접근할 수 있도록 할 것입니다.

우리는 스트리밍 플랫폼과 방송사들이 실시간 다국어 더빙을 통합하여 언어적 장벽을 제거하고 이야기를 전통적인 지역화 방법으로 허용한 것보다 더 빠르게 더远으로 전달할 수 있는 세상을 상상합니다.

언어 접근성 이외에도, AI 더빙은 시각적으로 장애가 있는 사람들을 위한 미디어 접근성을 향상시킬 수 있습니다. 많은 사람들이 시각 콘텐츠를 따라가기 위해 오디오 설명을 의존합니다. AI 더빙을 사용하면, 자막이 접근 가능한 옵션이 아닌 경우 외국어 콘텐츠와 상호작용할 수 있습니다. 언어적 및 감각적 장벽을 모두 깨뜨림으로써, AI 기반 더빙은 모든 사람을 위한 더 包容적이고 접근 가능한 엔터테인먼트 경험을 창조하는 데 도움이 될 것입니다. 이는 특히 미디어 접근성에 대한 새로운 규정들이 올해 전 세계적으로 시행됨에 따라 특히 중요합니다.

AI 더빙이真正로 주류가 되기 위해 여전히 해결해야 할 가장 큰 도전은 무엇입니까?

가장 큰 도전은 대규모에서 초고품질을 유지하는 것입니다. 또한, 문화적 및 언어적 정밀성을 보장하고, AI 생성 음성에 대한 윤리적 지침을 확립하는 것입니다. 그러나, 기술적인 장애물을 넘어서서, AI 더빙에 대한 대중의 수용은 신뢰에 달려 있습니다. 시청자는 AI 생성 음성이 성능의 진실성과 감정의 깊이를 유지한다는 것을 느끼고, 합성적이거나 분리된 것으로 들리지 않도록 해야 합니다.

AI 더빙이 완전히 받아들여지기 위해서는,それは 인간의 예술성과 기술의 결합을 통해 대규모로 고품질의 솔루션을 제공해야 합니다. 또한, 창의적 진실성, 언어적 뉴앙스 및 문화적 맥락을尊重하는 것을 입증해야 합니다. 이는 원래 배우의 의도에 진실한 음성을 유지하고, 관객을 멀어지게 할 수 있는 부정확성을 피하며, 딥페이크 위험 및 음성 소유권과 관련된 윤리적 우려를 해결하는 것을 의미합니다.

AI 더빙이 보편화됨에 따라, 기술 제공업체는 음성 진실성, 보안 및 지적 재산 보호를 위한 엄격한 표준을 구현해야 합니다. Deepdub은 이러한 영역에서 적극적으로 리드를하고 있으며, AI 음성 기술이 글로벌 이야기 전달을 향상시키면서 인간 재능의 예술적 및 전문적인 기여를尊重하는 것을 보장합니다. 그때에, 시청자, 콘텐츠 제작자 및 산업의 이해 관계자는 AI 더빙을 신뢰할 수 있고 가치 있는 도구로 완전히 받아들이게 될 것입니다.

멋진 인터뷰 감사합니다. 더 많은 정보를 원하는 독자는 Deepdub을 방문해야 합니다.

Unite.AI

Ofir Krakowski, Deepdub의 CEO 및 공동 창립자 – 인터뷰 시리즈

You may like