Gọi vốn
Công nghệ ShengShu thu hút hơn 86 triệu đô la trong vòng tài trợ A+ để thúc đẩy ranh giới AI đa phương thức

Công nghệ ShengShu đã hoàn thành vòng tài trợ A+ vượt quá 600 triệu RMB (khoảng 86 triệu USD), đánh dấu một cột mốc quan trọng cho công ty khi nó mở rộng các mô hình nền tảng đa phương thức cho cả ứng dụng kỹ thuật số và vật lý. Vòng này được dẫn đầu bởi Thành phố Khoa học Zhongguancun và LINK-X CAPITAL, với sự tham gia chiến lược từ Wondershare, Visual China Group và TRS. Một số nhà đầu tư hiện tại cũng tăng cường cam kết của họ, nhấn mạnh sự tự tin tiếp tục vào hướng đi kỹ thuật và tiến bộ thương mại của ShengShu.
Vốn mới đến vào thời điểm hệ thống AI đa phương thức đang chuyển từ công cụ thử nghiệm sang cơ sở hạ tầng hỗ trợ sản xuất thực tế. Đường lối của ShengShu phản ánh sự thay đổi đó, với các đột phá nghiên cứu ngày càng được chuyển thành sản phẩm được triển khai trên các ngành công nghiệp.
Từ Nghiên cứu Sơ bộ đến Mô hình Thương mại
Công nghệ ShengShu là một trong những đội đầu tiên trên toàn cầu tập trung vào các thuật toán sinh đa phương thức như một hướng nghiên cứu cốt lõi. Vào năm 2022, công ty đã giới thiệu kiến trúc U-ViT, giúp thiết lập một nền tảng kỹ thuật cho các mô hình có khả năng lý luận trên văn bản, hình ảnh và video. Cách tiếp cận nghiên cứu trước đã đặt nền móng cho việc ra mắt Vidu vào giữa năm 2024.
Vidu đã进入 thị trường với khả năng Tham chiếu-sang-Video, vượt qua việc tạo video từ văn bản hoặc hình ảnh thông thường. Thay vì xử lý từng khung hình như một đầu ra riêng biệt, hệ thống được thiết kế để duy trì sự nhất quán của nhiều thực thể trên các cảnh, giải quyết một thách thức lâu dài trong việc tạo video thương mại. Kể từ khi ra mắt, ShengShu đã lặp lại nhanh chóng, phát hành các phiên bản liên tiếp cải thiện sự hiểu biết ngữ nghĩa, độ ổn định của chuyển động, tính nhất quán về hình ảnh và tốc độ suy luận.
Phiên bản mới nhất, Vidu Q3, phản ánh sự tập trung có chủ đích vào việc kể chuyện. Mô hình hỗ trợ tạo video và âm thanh đồng bộ lên đến 16 giây, đầu ra 1080p gốc, chuyển đổi cảnh chính xác, hiển thị văn bản đa ngôn ngữ và đầu ra đa ngôn ngữ. Những khả năng này đặt hệ thống gần hơn với các quy trình sản xuất, thay vì các đoạn thử nghiệm ngắn.
Hiệu suất, Tốc độ và Sáng tạo Mở
Ngoài chất lượng đầu ra, ShengShu đã nhấn mạnh hiệu quả như một yếu tố phân biệt cạnh tranh. Vào cuối năm 2025, công ty đã mở nguồn khuôn khổ TurboDiffusion, một động thái đã giảm đáng kể độ trễ tạo video. Với khuôn khổ này, một video năm giây có thể được tạo trong dưới hai giây trên một GPU cao cấp đơn, đại diện cho lợi ích hàng trăm lần so với các phương pháp trước đây.
Sự tập trung vào tốc độ không chỉ là một tiêu chuẩn kỹ thuật. Độ trễ và yêu cầu tính toán thấp hơn trực tiếp ảnh hưởng đến khả năng triển khai các mô hình đa phương thức trên quy mô lớn, đặc biệt là cho các ứng dụng tương tác và công cụ sáng tạo thời gian thực. Bằng cách giảm chi phí và thời gian cần thiết để tạo video chất lượng cao, ShengShu đang đẩy AI đa phương thức gần hơn với sử dụng hàng ngày trong môi trường chuyên nghiệp.
Mở rộng Việc áp dụng trên Thị trường Sáng tạo và Doanh nghiệp
ShengShu đã xây dựng một hệ sinh thái sản phẩm rộng lớn xung quanh Vidu, bao gồm các dịch vụ được quản lý, dịch vụ SaaS, ứng dụng và công cụ dựa trên đại lý. Những sản phẩm này hiện đang phục vụ các nhà sáng tạo, studio và doanh nghiệp trên hơn 200 quốc gia và khu vực. Vào năm 2025, công ty đã báo cáo sự tăng trưởng hơn mười倍 trong cả người dùng và doanh thu, chỉ ra sự áp dụng ngày càng tăng.
Trong lĩnh vực điện ảnh và giải trí, Vidu được sử dụng trên các quy trình hoạt hình, sản xuất ngắn và quy trình tính năng, với sự tham gia của các chủ sở hữu nội dung, nhà cung cấp công cụ và studio sản xuất. Song song, các nền tảng internet và công ty thiết bị thông minh đang áp dụng công nghệ này vào việc tạo tài sản tiếp thị, nội dung tương tác và đổi mới sản phẩm.
Quảng cáo và trò chơi đã xuất hiện như những lĩnh vực hấp dẫn khác. Các thương hiệu và cơ quan sử dụng Vidu để tăng quy mô sản xuất video cho các chiến dịch, trong khi các nhà phát triển trò chơi triển khai nó cho nội dung quảng cáo và tạo cảnh. Trên toàn cầu, nền tảng này đang thu hút sự chú ý của các nhà phát triển công cụ sáng tạo và người dùng doanh nghiệp, với các ứng dụng mở rộng vào giáo dục, phát thanh và du lịch văn hóa.
Các Hệ lụy Rộng lớn hơn của AI Đa phương thức
Sự tiến bộ của các mô hình nền tảng đa phương thức có ý nghĩa vượt ra ngoài việc tạo video. Bằng cách tích hợp văn bản, hình ảnh, âm thanh và chuyển động vào các hệ thống thống nhất, những mô hình này cho phép máy móc giải thích ngữ cảnh theo cách gần giống với nhận thức của con người. Đối với các ngành công nghiệp, điều này có nghĩa là chu kỳ sản xuất nhanh hơn, rào cản thấp hơn để tiếp cận nội dung chất lượng cao và các hình thức tương tác mới giữa con người và phần mềm.
Đồng thời, sự trưởng thành của AI đa phương thức đặt ra các câu hỏi quan trọng về tính xác thực, quyền sở hữu trí tuệ và triển khai có trách nhiệm. Khi video được tạo ra trở nên ngày càng thực tế, các biện pháp bảo vệ kỹ thuật và khuôn khổ quản lý sẽ là điều cần thiết để duy trì niềm tin vào phương tiện truyền thông kỹ thuật số.
Nhìn về phía trước, các mô hình đa phương thức có khả năng đóng vai trò không chỉ trong các quy trình làm việc kỹ thuật số mà còn trong các hệ thống thế giới thực, từ robot và mô phỏng đến môi trường thông minh. Vòng tài trợ mới nhất của Công nghệ ShengShu đặt công ty vào vị trí để tham gia vào sự chuyển đổi đó, khi AI đa phương thức chuyển từ một tính năng sáng tạo sang một lớp nền tảng của năng suất thế hệ tiếp theo.












