Phỏng vấn
Ofir Krakowski, CEO và Đồng sáng lập của Deepdub – Loạt phỏng vấn

Ofir Krakowski là đồng sáng lập và CEO của Deepdub. Với 30 năm kinh nghiệm trong lĩnh vực khoa học máy tính và học máy, ông đã đóng vai trò quan trọng trong việc thành lập và lãnh đạo bộ phận học máy và đổi mới của Không quân Israel trong 25 năm.
Deepdub là một công ty lồng tiếng được thúc đẩy bởi AI, tận dụng học sâu và nhân bản giọng nói để cung cấp khả năng định vị cao cấp, có thể mở rộng cho phim, truyền hình và nội dung kỹ thuật số. Được thành lập vào năm 2019, nó cho phép các nhà tạo nội dung bảo tồn hiệu suất gốc trong khi dịch đối thoại một cách liền mạch vào nhiều ngôn ngữ. Bằng cách tích hợp tổng hợp giọng nói được hỗ trợ bởi AI với giám sát ngôn ngữ của con người, Deepdub nâng cao khả năng tiếp cận nội dung toàn cầu, giảm thời gian và chi phí của quá trình lồng tiếng truyền thống. Công ty đã nhận được sự công nhận của ngành công nghiệp về sự đổi mới, đảm bảo các đối tác chính, chứng nhận và tài trợ để mở rộng công nghệ định vị AI của mình trên toàn bộ ngành giải trí.
Điều gì đã truyền cảm hứng cho bạn để thành lập Deepdub vào năm 2019? Có một khoảnh khắc hoặc thách thức cụ thể nào dẫn đến sự ra đời của nó?
Lồng tiếng truyền thống đã trở thành tiêu chuẩn của ngành công nghiệp trong việc định vị nội dung, nhưng nó là một quá trình tốn kém, mất thời gian và đòi hỏi nhiều tài nguyên. Trong khi các giải pháp giọng nói được tạo bởi AI đã tồn tại, chúng thiếu độ sâu cảm xúc cần thiết để thực sự bắt được hiệu suất của diễn viên, khiến chúng không phù hợp cho nội dung phức tạp và chất lượng cao.
Chúng tôi đã xác định một cơ hội để lấp đầy khoảng trống này bằng cách phát triển một giải pháp định vị được hỗ trợ bởi AI, giúp duy trì tính xác thực cảm xúc của hiệu suất gốc trong khi cải thiện đáng kể hiệu quả. Chúng tôi đã phát triển công nghệ eTTS™ (Emotion-Text-to-Speech) độc quyền của mình, đảm bảo rằng các giọng nói được tạo bởi AI mang cùng trọng lượng cảm xúc, giọng điệu và sắc thái như các diễn viên con người.
Chúng tôi hình dung một thế giới nơi các rào cản ngôn ngữ và văn hóa không còn là chướng ngại vật đối với khả năng tiếp cận nội dung toàn cầu. Trong việc tạo nền tảng của mình, chúng tôi đã nhận ra thách thức của các hạn chế ngôn ngữ trong các ngành giải trí, học tập từ xa, FAST và các ngành khác, và đã thiết lập để cách mạng hóa việc định vị nội dung.
Để đảm bảo rằng giải pháp của Deepdub cung cấp khả năng định vị và lồng tiếng chất lượng cao nhất cho nội dung phức tạp với quy mô lớn, chúng tôi đã quyết định thực hiện một cách tiếp cận kết hợp và tích hợp các chuyên gia ngôn ngữ và giọng nói vào quá trình, cùng với công nghệ eTTS™ của chúng tôi.
Tầm nhìn của chúng tôi là dân chủ hóa sản xuất giọng nói, khiến nó trở nên có thể mở rộng lớn, dễ tiếp cận, bao gồm và phù hợp với văn hóa.
Những thách thức kỹ thuật và kinh doanh lớn nhất mà bạn phải đối mặt khi ra mắt Deepdub là gì và bạn đã vượt qua chúng như thế nào?
Việc giành được niềm tin của ngành công nghiệp giải trí là một chướng ngại vật lớn khi ra mắt Deepdub. Hollywood đã dựa vào lồng tiếng truyền thống trong nhiều thập kỷ, và việc chuyển sang các giải pháp được thúc đẩy bởi AI đòi hỏi phải chứng minh khả năng của chúng tôi trong việc cung cấp kết quả chất lượng phòng thu trong một ngành công nghiệp thường hoài nghi về AI.
Để giải quyết sự hoài nghi này, chúng tôi đầu tiên đã tăng cường tính xác thực của các giọng nói được tạo bởi AI bằng cách tạo một ngân hàng giọng nói được cấp phép đầy đủ. Ngân hàng này kết hợp các mẫu giọng nói của con người thực, cải thiện đáng kể tính tự nhiên và biểu cảm của đầu ra của chúng tôi, điều này rất quan trọng để được chấp nhận tại Hollywood.
Tiếp theo, chúng tôi đã phát triển các công nghệ độc quyền, chẳng hạn như eTTS™, cùng với các tính năng như Kiểm soát giọng điệu. Những công nghệ này đảm bảo rằng các giọng nói được tạo bởi AI không chỉ bắt được độ sâu cảm xúc và sắc thái mà còn tuân thủ tính xác thực khu vực cần thiết cho việc lồng tiếng chất lượng cao.
Chúng tôi cũng đã xây dựng một đội hậu sản xuất chuyên dụng trong nhà làm việc chặt chẽ với công nghệ của chúng tôi. Đội này tinh chỉnh đầu ra của AI, đảm bảo rằng mọi mảnh nội dung đều được đánh bóng và đáp ứng các tiêu chuẩn cao của ngành công nghiệp.
Hơn nữa, chúng tôi đã mở rộng cách tiếp cận của mình để bao gồm một mạng lưới chuyên gia toàn cầu – diễn viên lồng tiếng, nhà ngôn ngữ học và đạo diễn từ khắp nơi trên thế giới. Những chuyên gia này mang lại những hiểu biết văn hóa và chuyên môn sáng tạo vô giá, nâng cao tính chính xác văn hóa và độ sâu cảm xúc của nội dung lồng tiếng của chúng tôi.
Đội ngũ ngôn ngữ học của chúng tôi làm việc cùng với công nghệ và chuyên gia toàn cầu của chúng tôi để đảm bảo rằng ngôn ngữ được sử dụng là hoàn hảo cho ngữ cảnh văn hóa của khán giả mục tiêu, đảm bảo tính xác thực và tuân thủ các chuẩn mực địa phương.
Thông qua những chiến lược này, kết hợp công nghệ tiên tiến với một đội ngũ chuyên gia toàn cầu mạnh mẽ và một đội hậu sản xuất trong nhà, Deepdub đã chứng minh thành công cho Hollywood và các công ty sản xuất hàng đầu trên toàn thế giới rằng AI có thể nâng cao đáng kể các quy trình lồng tiếng truyền thống. Sự tích hợp này không chỉ tối ưu hóa sản xuất mà còn mở rộng khả năng mở rộng thị trường.
Công nghệ lồng tiếng được hỗ trợ bởi AI của Deepdub khác với các phương pháp lồng tiếng truyền thống như thế nào?
Lồng tiếng truyền thống là một quá trình đòi hỏi lao động và có thể mất nhiều tháng cho mỗi dự án, vì nó đòi hỏi diễn viên lồng tiếng, kỹ sư âm thanh và đội hậu sản xuất phải tự tái tạo lại đối thoại bằng tay trong các ngôn ngữ khác nhau. Giải pháp của chúng tôi cách mạng hóa quá trình này bằng cách cung cấp một giải pháp cuối cùng kết hợp – kết hợp công nghệ và chuyên môn của con người – tích hợp trực tiếp vào các quy trình hậu sản xuất, do đó giảm chi phí định vị lên đến 70% và thời gian giao hàng lên đến 50%.
Khác với các giải pháp giọng nói được tạo bởi AI khác, công nghệ eTTS™ độc quyền của chúng tôi cho phép có độ sâu cảm xúc, tính xác thực văn hóa và tính nhất quán của giọng nói mà các phương pháp truyền thống khó đạt được với quy mô lớn.
Bạn có thể giải thích cách tiếp cận kết hợp mà Deepdub sử dụng – AI và chuyên môn của con người hoạt động cùng nhau trong quá trình lồng tiếng như thế nào?
Mô hình kết hợp của Deepdub kết hợp sự chính xác và khả năng mở rộng của AI với sự sáng tạo và tính nhạy cảm văn hóa của chuyên môn con người. Cách tiếp cận của chúng tôi kết hợp nghệ thuật của lồng tiếng truyền thống với công nghệ AI tiên tiến, đảm bảo rằng nội dung được định vị vẫn giữ được tính xác thực cảm xúc và tác động của bản gốc.
Giải pháp của chúng tôi tận dụng AI để tự động hóa các khía cạnh cơ bản của định vị, trong khi các chuyên gia con người tinh chỉnh các sắc thái cảm xúc, giọng điệu và chi tiết văn hóa. Chúng tôi tích hợp cả công nghệ eTTs™ và công nghệ Voice-to-Voice (V2V) của chúng tôi để nâng cao tính biểu cảm tự nhiên của các giọng nói được tạo bởi AI, đảm bảo rằng chúng bắt được độ sâu và tính chân thực của các hiệu suất con người. Bằng cách này, chúng tôi đảm bảo rằng mọi mảnh nội dung đều cảm thấy chân thực và có tác động trong hình thức được định vị như nó có trong bản gốc.
Các chuyên gia ngôn ngữ và giọng nói đóng vai trò quan trọng trong quá trình này, vì họ nâng cao tính chính xác văn hóa của nội dung được tạo bởi AI. Khi toàn cầu hóa tiếp tục định hình tương lai của giải trí, sự tích hợp của AI với nghệ thuật con người sẽ trở thành tiêu chuẩn vàng cho định vị nội dung.
Ngoài ra, Chương trình Cổ tức Nghệ sĩ Giọng nói của chúng tôi bồi thường cho các diễn viên lồng tiếng chuyên nghiệp mỗi khi giọng nói của họ được sử dụng trong lồng tiếng hỗ trợ bởi AI, đảm bảo sử dụng công nghệ AI giọng nói một cách có đạo đức.
Công nghệ eTTS™ (Emotion-Text-to-Speech) độc quyền của Deepdub cải thiện tính xác thực và độ sâu cảm xúc của giọng nói trong nội dung lồng tiếng như thế nào?
Các giọng nói được tạo bởi AI truyền thống thường thiếu các tín hiệu cảm xúc tinh tế làm cho các hiệu suất trở nên hấp dẫn. Để giải quyết sự thiếu hụt này, Deepdub đã phát triển công nghệ eTTS™ độc quyền của mình, tận dụng AI và các mô hình học sâu để tạo ra giọng nói không chỉ giữ được độ sâu cảm xúc đầy đủ của hiệu suất của diễn viên gốc mà còn tích hợp trí tuệ cảm xúc của con người vào quá trình tự động. Khả năng tiên tiến này cho phép AI điều chỉnh giọng nói tổng hợp để phản ánh các cảm xúc dự định như niềm vui, giận dữ hoặc buồn, cộng hưởng một cách xác thực với khán giả. Ngoài ra, eTTS™ excels trong việc tạo ra sự sao chép giọng nói chất lượng cao, bắt chước các sắc thái tự nhiên trong giọng nói của con người như cao độ, giọng điệu và nhịp độ, điều cần thiết để cung cấp các dòng thoại chân thực và hấp dẫn. Công nghệ này cũng nâng cao tính nhạy cảm văn hóa bằng cách điều chỉnh đầu ra một cách khéo léo để kiểm soát giọng điệu, đảm bảo rằng nội dung lồng tiếng tôn trọng và phù hợp với các sắc thái văn hóa, do đó nâng cao sự hấp dẫn và hiệu quả toàn cầu của nó.
Một trong những chỉ trích phổ biến của các giọng nói được tạo bởi AI là chúng có thể nghe giống như robot. Deepdub đảm bảo rằng các giọng nói được tạo bởi AI giữ được tính tự nhiên và sắc thái cảm xúc như thế nào?
Công nghệ độc quyền của chúng tôi tận dụng các thuật toán học sâu và học máy để cung cấp các giải pháp lồng tiếng có thể mở rộng, chất lượng cao, bảo tồn ý định, phong cách, hài hước và sắc thái văn hóa gốc.
Cùng với công nghệ eTTS™ của chúng tôi, bộ giải pháp đổi mới của Deepdub bao gồm các tính năng như Voice-to-Voice (V2V), Nhân bản Giọng nói, Kiểm soát giọng điệu và Ngân hàng Cảm xúc Giọng nói của chúng tôi, cho phép các đội sản xuất tinh chỉnh hiệu suất để phù hợp với tầm nhìn sáng tạo của họ. Những tính năng này đảm bảo rằng mọi giọng nói đều mang độ sâu cảm xúc và sắc thái cần thiết cho việc kể chuyện hấp dẫn và trải nghiệm người dùng có tác động.
Trong vài năm qua, chúng tôi đã chứng kiến sự thành công ngày càng tăng của các giải pháp của mình trong ngành Truyền thông & Giải trí, vì vậy chúng tôi gần đây đã quyết định mở quyền truy cập vào các bản lồng tiếng đã được kiểm chứng của Hollywood cho các nhà phát triển, doanh nghiệp và nhà tạo nội dung với API Âm thanh AI của chúng tôi. Được hỗ trợ bởi công nghệ eTTS™ của chúng tôi, API cho phép tạo giọng nói theo thời gian thực với các tham số tùy chỉnh nâng cao, bao gồm giọng điệu, sắc thái cảm xúc, nhịp độ và phong cách giọng nói.
Tính năng nổi bật của API của chúng tôi là các bản thiết lập âm thanh, được thiết kế dựa trên nhiều năm kinh nghiệm trong ngành với các nhu cầu lồng tiếng được yêu cầu nhiều nhất. Những cài đặt trước này cho phép người dùng thích nghi nhanh chóng với các loại nội dung khác nhau mà không cần phải cấu hình thủ công hoặc khám phá rộng rãi. Các bản trình bày có sẵn bao gồm mô tả âm thanh và sách nói, tường thuật tài liệu hoặc thực tế, kịch và giải trí, giao tiếp tin tức, bình luận thể thao, lồng tiếng anime hoặc hoạt hình, Trả lời Tự động Giọng nói (IVR), cũng như nội dung quảng cáo và thương mại.
Lồng tiếng AI liên quan đến việc thích nghi văn hóa và ngôn ngữ – Deepdub đảm bảo rằng các giải pháp lồng tiếng của mình là phù hợp và chính xác về mặt văn hóa như thế nào?
Định vị không chỉ là dịch từ – đó là dịch ý nghĩa, ý định và ngữ cảnh văn hóa. Cách tiếp cận kết hợp của Deepdub kết hợp tự động hóa được thúc đẩy bởi AI với chuyên môn ngôn ngữ của con người, đảm bảo rằng đối thoại được dịch phản ánh các sắc thái văn hóa và cảm xúc của khán giả mục tiêu. Mạng lưới chuyên gia định vị của chúng tôi làm việc cùng với AI để đảm bảo rằng nội dung lồng tiếng phù hợp với phương ngữ khu vực, biểu thức và tính nhạy cảm văn hóa.
Những đổi mới thú vị nhất mà bạn đang làm việc để đưa lồng tiếng AI lên tầm cao mới là gì?
Một trong những đổi mới lớn nhất mà chúng tôi đang làm việc là Lồng tiếng Trực tiếp / Phát trực tuyến, sẽ cho phép lồng tiếng theo thời gian thực cho các sự kiện phát trực tuyến như các sự kiện thể thao và phương tiện truyền thông, khiến các sự kiện toàn cầu trở nên dễ tiếp cận ngay lập tức. Bằng cách kết hợp điều này với một trong những đổi mới thú vị khác của chúng tôi, tính năng eTTs™ của chúng tôi, một công nghệ độc quyền cho phép tạo ra giọng nói giống như con người từ văn bản với quy mô lớn và hỗ trợ cảm xúc đầy đủ và quyền thương mại được tích hợp, chúng tôi sẽ có thể cung cấp lồng tiếng trực tiếp chất lượng cao, xác thực và富 cảm xúc không giống như bất cứ thứ gì trên thị trường.
Lấy lễ khai mạc Thế vận hội hoặc bất kỳ sự kiện thể thao trực tiếp nào làm ví dụ. Trong khi các đài truyền hình địa phương thường cung cấp bình luận trong ngôn ngữ và phương ngữ khu vực của họ, công nghệ này sẽ cho phép người xem từ khắp nơi trên thế giới trải nghiệm toàn bộ sự kiện bằng ngôn ngữ bản địa của họ khi nó diễn ra.
Lồng tiếng trực tiếp sẽ định nghĩa lại cách các sự kiện trực tiếp được trải nghiệm trên toàn thế giới, đảm bảo rằng ngôn ngữ không bao giờ là một rào cản.
Lồng tiếng được tạo bởi AI đã phải đối mặt với sự chỉ trích trong một số dự án gần đây. Bạn nghĩ rằng những yếu tố chính nào đang thúc đẩy những chỉ trích này?
Các chỉ trích chính xuất phát từ lo ngại về tính xác thực, đạo đức và chất lượng. Một số giọng nói được tạo bởi AI đã thiếu sự cộng hưởng cảm xúc và sắc thái cần thiết cho việc kể chuyện hấp dẫn. Tại Deepdub, chúng tôi đã giải quyết vấn đề này bằng cách phát triển các giọng nói được tạo bởi AI có biểu cảm cảm xúc, đảm bảo rằng chúng giữ được linh hồn của hiệu suất gốc. Deepdub đã đạt được hơn 70% sự hài lòng của người xem vượt trội trên tất cả các khía cạnh, bao gồm cả việc chọn diễn viên, đối thoại rõ ràng, đồng bộ hóa liền mạch và nhịp độ hoàn hảo.
Một vấn đề khác là việc sử dụng đạo đức các giọng nói AI. Deepdub là một người dẫn đầu trong lĩnh vực lồng tiếng AI có trách nhiệm, tiên phong trong việc tạo ra Chương trình Cổ tức đầu tiên của ngành công nghiệp cho các diễn viên lồng tiếng cho các hiệu suất được tạo bởi AI. Chúng tôi tin rằng AI nên nâng cao sự sáng tạo của con người, không thay thế nó, và cam kết đó được phản ánh trong mọi thứ chúng tôi xây dựng.
Bạn nhìn thấy lồng tiếng AI thay đổi ngành công nghiệp giải trí toàn cầu trong 5-10 năm tới như thế nào?
Trong thập kỷ tới, lồng tiếng được hỗ trợ bởi AI sẽ dân chủ hóa nội dung như chưa từng có, khiến phim, chương trình truyền hình và phát sóng trực tiếp trở nên dễ tiếp cận với mọi khán giả, mọi nơi, bằng ngôn ngữ bản địa của họ ngay lập tức.
Chúng tôi hình dung một thế giới nơi các nền tảng phát trực tuyến và các đài truyền hình tích hợp lồng tiếng đa ngôn ngữ theo thời gian thực, loại bỏ các rào cản ngôn ngữ và cho phép các câu chuyện đi xa hơn và nhanh hơn so với các phương pháp định vị truyền thống cho phép.
Ngoài khả năng tiếp cận ngôn ngữ, lồng tiếng AI cũng có thể nâng cao khả năng tiếp cận phương tiện truyền thông cho người mù và người khiếm thị. Nhiều người dựa vào mô tả âm thanh để theo dõi nội dung trực quan, và lồng tiếng AI cho phép họ tham gia vào nội dung ngôn ngữ nước ngoài khi các phụ đề không phải là một lựa chọn dễ tiếp cận. Bằng cách phá vỡ cả các rào cản ngôn ngữ và cảm giác, lồng tiếng AI sẽ giúp tạo ra một trải nghiệm giải trí bao gồm hơn cho tất cả mọi người, điều này đặc biệt quan trọng khi các quy định về khả năng tiếp cận phương tiện truyền thông mới đang có hiệu lực trên toàn thế giới trong năm nay.
Những thách thức lớn nhất mà lồng tiếng AI vẫn cần vượt qua để trở thành một công nghệ chính thống là gì?
Những thách thức lớn nhất là duy trì chất lượng siêu cao với quy mô lớn, đảm bảo sự chính xác về văn hóa và ngôn ngữ, và thiết lập các hướng dẫn đạo đức cho các giọng nói được tạo bởi AI. Tuy nhiên, ngoài các chướng ngại vật kỹ thuật, sự chấp nhận của công chúng đối với lồng tiếng AI phụ thuộc vào niềm tin. Người xem cần cảm thấy rằng các giọng nói được tạo bởi AI bảo tồn tính xác thực và độ sâu cảm xúc của các hiệu suất thay vì nghe có vẻ tổng hợp hoặc tách rời.
Để lồng tiếng AI được chấp nhận hoàn toàn, nó phải có chất lượng cao bằng cách kết hợp nghệ thuật con người và công nghệ với quy mô lớn và cũng chứng minh sự tôn trọng tính toàn vẹn sáng tạo, sắc thái ngôn ngữ và ngữ cảnh văn hóa. Điều này có nghĩa là đảm bảo rằng các giọng nói vẫn giữ được ý định của diễn viên gốc, tránh các sai sót có thể khiến khán giả xa lánh, và giải quyết các lo ngại về rủi ro giả mạo và quyền sở hữu giọng nói.
Khi lồng tiếng AI trở nên phổ biến hơn, các nhà cung cấp công nghệ phải thực hiện các tiêu chuẩn nghiêm ngặt về tính xác thực giọng nói, bảo mật và bảo vệ tài sản trí tuệ. Deepdub đang tích cực dẫn đầu trong các lĩnh vực này, đảm bảo rằng công nghệ giọng nói AI nâng cao việc kể chuyện toàn cầu trong khi tôn trọng các đóng góp nghệ thuật và chuyên môn của tài năng con người. Chỉ khi đó, khán giả, nhà tạo nội dung và các bên liên quan trong ngành công nghiệp mới hoàn toàn chấp nhận lồng tiếng AI như một công cụ đáng tin cậy và có giá trị.
Cảm ơn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập Deepdub.












