Phỏng vấn

Victor Erukhimov, Giám đốc điều hành của CraftStory – Loạt phỏng vấn

mm

Victor Erukhimov, Giám đốc điều hành của CraftStory, là một kỹ sư nghiên cứu và phát triển tầm nhìn máy tính đã chuyển sang doanh nhân, người đã giúp định hình sự tiến hóa sớm của OpenCV, sau đó đồng sáng lập Itseez và dẫn dắt nó từ một công ty khởi nghiệp kỹ thuật thành một trong những nhóm nghiên cứu tầm nhìn máy tính hàng đầu thế giới trước khi được Intel mua lại. Trong hơn một thập kỷ, ông đã tiến từ CTO đến CEO và sau đó là Chủ tịch, và tiếp tục con đường đó tại Itseez3D, nơi ông dẫn đầu sự phát triển của công nghệ quét 3D di động và tạo hình ảnh tiên tiến trong khi cũng служ làm thành viên hội đồng quản trị lâu dài của OpenCV.org.

Tại CraftStory, ông hiện tập trung vào việc tạo video bản địa AI, xây dựng công nghệ biến đầu vào đơn giản thành video có sẵn cho người tạo nội dung với độ thực tế cao. Dưới sự lãnh đạo của ông, công ty đang phát triển các mô hình video tạo sinh thế hệ tiếp theo được thiết kế cho các nhóm tiếp thị, giáo viên và những người kể chuyện sản phẩm cần nội dung chất lượng cao nhanh chóng mà không cần chi phí sản xuất trong phòng thu.

Bạn đã là một lực lượng thúc đẩy đằng sau một số dự án tầm nhìn máy tính có ảnh hưởng nhất – từ OpenCV đến Itseez3D. Điều gì đã truyền cảm hứng cho bạn thành lập CraftStory, và làm thế nào công việc trong quá khứ của bạn đã định hình tầm nhìn cho video AI chất lượng phòng thu dài?

Trước CraftStory, nhóm của tôi và tôi đã làm việc trên Avatar SDK – một công cụ tạo ra hình ảnh đại diện thực tế từ ảnh tự chụp cho VR/AR, trò chơi, tiếp thị và các ứng dụng khác. Chúng tôi đã suy nghĩ sâu sắc về con người kỹ thuật số trong vài năm. Sau đó, khoảng hai năm trước, chúng tôi nhận ra rằng công nghệ GenAI để tạo video đang trở nên đủ tốt để mở ra một làn sóng ứng dụng hoàn toàn mới, và chúng tôi đã tham gia ngay.

CraftStory được ra mắt với các nhà sáng lập OpenCV ở cốt lõi. Làm thế nào nền tảng chung này đã ảnh hưởng đến hướng kỹ thuật và ưu tiên nghiên cứu cho Model 2.0?

Chúng ta đang sống trong một giai đoạn tiến bộ phi thường trong tầm nhìn máy tính và học máy. Nó cảm thấy như tất cả những đột phá của cơ học lượng tử ban đầu – ban đầu được phân tán trong nhiều thập kỷ – đã được nén vào chỉ vài năm. Sự hiểu biết và tạo hình ảnh đã tiến bộ vượt xa so với những gì chúng tôi đã làm việc khi phát triển OpenCV. Sau khi quan sát sự tiến hóa này trong hơn một thập kỷ, đưa ra dự đoán và thấy chúng thành công hoặc thất bại, chúng tôi đã có được một trực giác sâu sắc về nơi công nghệ và thị trường đang đi. Quan điểm đó đã định hình trực tiếp ưu tiên nghiên cứu và lộ trình cho Model 2.0.

Model 2.0 giải quyết một vấn đề mà nhiều mô hình video gặp phải: duy trì bản sắc, cảm xúc và tính nhất quán trên nhiều phút video. Những đột phá nào đã làm cho điều này trở nên khả thi?

Bản sắc và tính nhất quán đã là ưu tiên của chúng tôi từ ngày đầu tiên. Một số lựa chọn kiến trúc trong mạng được thiết kế đặc biệt để giải quyết những thách thức này. Nhưng cũng quan trọng không kém là tinh chỉnh mô hình trên dữ liệu chúng tôi thu thập riêng. Chúng tôi đã quay các diễn viên chuyên nghiệp trong một môi trường phòng thu được kiểm soát sử dụng máy quay tốc độ khung hình cao của riêng chúng tôi để đảm bảo rằng mỗi khung hình – bao gồm cả chuyển động nhanh của cơ thể, tay và ngón tay – vẫn sắc nét. Mức độ dữ liệu chất lượng cao, giàu chuyển động như vậy đã tạo ra sự khác biệt đáng kể.

Đội của bạn đã giới thiệu một đường ống khuếch tán song song để giữ cho các chuỗi dài nhất quán. Vấn đề nào được thiết kế để giải quyết, và tại sao nó lại quan trọng cho video con người nhiều phút?

Chạy một quá trình khuếch tán đơn trên một chuỗi khung hình dài là cực kỳ thách thức – nó tốn kém về mặt tính toán và đòi hỏi một lượng lớn dữ liệu đào tạo. Đường ống khuếch tán song song của chúng tôi giải quyết vấn đề này bằng cách chạy nhiều quá trình khuếch tán trên các phân khúc thời gian khác nhau đồng thời. Đột phá chính là tìm ra cách kết nối các phân khúc này để chúng vẫn nhất quán và logic trong thời gian dài. Model 2.0 hiện có thể tạo video lên đến năm phút, nhưng đó chủ yếu là một hạn chế kỹ thuật. Với nhiều công việc kỹ thuật hơn, chúng tôi có thể kéo dài thời gian này lên video với chiều dài gần như tùy ý.

CraftStory nhấn mạnh vào tính thực tế trong cả chuyển động và biểu cảm. Những thách thức khó khăn nhất trong việc duy trì động lực tự nhiên của tay, cơ thể và khuôn mặt ở thời gian dài hơn là gì?

Thách thức lớn nhất là tạo ra chuyển động cơ thể và khuôn mặt thực tế đồng nhất trong thời gian dài. Các chi tiết nhỏ – như chuyển động tay tinh tế, thay đổi tư thế hoặc biểu cảm nhỏ – có xu hướng bị phá vỡ trong hầu hết các mô hình khi chuỗi trở nên dài hơn. Chúng tôi đã giải quyết vấn đề này bằng cách đào tạo trên bộ dữ liệu chất lượng cao, phong phú của riêng chúng tôi, được quay với diễn viên chuyên nghiệp và máy quay tốc độ khung hình cao. Mức độ footage phong phú, giàu chuyển động như vậy đã cung cấp cho mô hình tín hiệu cần thiết để duy trì động lực tự nhiên trên toàn bộ hiệu suất, không chỉ trong những khoảnh khắc riêng lẻ.

Nhiều công ty đang mắc kẹt giữa việc quay trực tiếp tốn kém và các đoạn video AI ngắn, không đáng tin cậy. Bạn thấy nhu cầu thương mại lớn nhất sẽ xuất hiện ở đâu đối với video con người nhiều phút?

Video AI được tạo ra đang trở nên không thể phân biệt với cảnh quay từ máy quay, trong khi chi phí chỉ là một phần nhỏ so với sản xuất truyền thống. Nhu cầu lớn nhất mà chúng tôi đang thấy là trong nội dung doanh nghiệp – đặc biệt là Học tập và Phát triển – nơi các công ty cần một lượng lớn video hướng dẫn rõ ràng, tập trung vào con người có thể được cập nhật ngay lập tức. Người trình bày AI nhiều phút, nhất quán là một lựa chọn hoàn hảo cho điều đó.

Chúng tôi cũng đang thấy sự quan tâm ngày càng tăng trong các trường hợp sử dụng tiếp thị như giới thiệu sản phẩm, hướng dẫn và giải thích. Khi công nghệ trưởng thành, video dài AI sẽ ngày càng thay thế cả quay trực tiếp tốn kém và các đoạn ngắn, không đáng tin cậy mà hầu hết các công cụ có thể sản xuất ngày nay.

Bạn đã xây dựng một hệ thống đồng bộ hóa âm thanh và sắp xếp cử chỉ tiên tiến. Chúng ta còn bao xa để có được cuộc đối thoại AI hoàn toàn thuyết phục, và điều gì vẫn cần được cải thiện?

Tôi nghĩ chúng tôi rất gần. Một lần lặp lại công nghệ – đặc biệt là để làm cho nó nhanh hơn và tạo ra 1080p bản địa – sẽ đưa chúng tôi đến cuộc đối thoại AI hoàn toàn thuyết phục.

Mô hình văn bản-sang-video mà bạn đang phát triển hứa hẹn tạo ra video dài trực tiếp từ kịch bản. Những rào cản kỹ thuật nào bạn vẫn đang cố gắng vượt qua trước khi điều đó trở thành chủ đạo?

Không có rào cản cơ bản – chỉ có rất nhiều công việc kỹ thuật phía trước. Video-sang-video là quả thấp hơn, vì vậy chúng tôi đã đưa nó đến thị trường trước. Giờ đây, chúng tôi tập trung vào mô hình hình ảnh-sang-video lấy kịch bản và hình ảnh tham chiếu làm đầu vào. Chúng tôi đang làm việc nhanh và hy vọng sẽ phát hành nó trong vài tuần tới.

Các chuỗi máy quay di động – như cảnh quay đi và nói – là một bước lớn hướng tới tự động hóa điện ảnh. Đội của bạn đang tiếp cận thách thức này như thế nào so với các đối thủ như Sora?

Chúng tôi tập trung vào việc tạo ra dài chuỗi đi và nói – các cảnh quay nhiều phút cảm giác như điện ảnh và tự nhiên. Mục tiêu của chúng tôi là cung cấp cho khách hàng khả năng tạo video theo phong cách của chiến dịch “Keep Walking” nổi tiếng của Johnnie Walker, nhưng không cần một đội sản xuất đầy đủ. Chúng tôi đang làm việc nhanh và rất sớm sẽ có thể sản xuất các chuỗi đi và nói kéo dài vài phút với nhân vật, chuyển động và động lực máy quay nhất quán.

Với OpenAI, Google và các công ty khác đang chạy vào video dài, bạn thấy lợi thế của CraftStory trong thị trường mới nổi này là gì?

Thị trường video AI cực kỳ cạnh tranh, và chúng tôi hoàn toàn mong đợi các công ty lớn sẽ bắt kịp về mặt công nghệ. Nhưng lợi thế của chúng tôi là sự tập trung và tốc độ. Chúng tôi có một lộ trình rất tham vọng, và chúng tôi là một đội tinh gọn có thể di chuyển nhanh và lặp lại nhanh. Sự linh hoạt đó – và sự tập trung của chúng tôi vào video con người dài – là điều khiến CraftStory khác biệt.

Khi video con người được tạo ra bằng AI trở nên giống như thật và có thể mở rộng, bạn tin rằng những biện pháp bảo vệ sáng tạo và đạo đức nào nên được đưa ra khi công nghệ này lan rộng?

Mỗi công nghệ mạnh là một con dao hai lưỡi, và điều quan trọng là phải hiểu rõ những rủi ro cụ thể đi kèm với việc đưa nó ra thị trường. Trong video con người được tạo ra bằng AI, sự giả mạo là mối quan tâm lớn nhất – mặc dù không phải là duy nhất. Chúng tôi đã dành thời gian để phân tích những rủi ro này và đã thực hiện các biện pháp bảo vệ để ngăn chặn các trường hợp sử dụng có hại nhất định. Khi công nghệ trở nên giống như thật và có thể mở rộng hơn, việc duy trì các biện pháp bảo vệ sáng tạo và đạo đức mạnh mẽ sẽ là điều cần thiết cho toàn bộ ngành công nghiệp.

Cảm ơn bạn vì cuộc phỏng vấn tuyệt vời, độc giả muốn tìm hiểu thêm nên truy cập CraftStory.

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.