Finansowanie
ShengShu Technology pozyskał ponad 86 milionów dolarów w rundzie finansowania A+, aby poszerzyć granice sztucznej inteligencji wielomodalnej

ShengShu Technology zakończył rundę finansowania A+ o wartości przekraczającej 600 milionów RMB (około 86 milionów dolarów amerykańskich), co stanowi ważny kamień milowy dla firmy, która skaluje swoje modele podstawowe wielomodalne dla aplikacji cyfrowych i fizycznych. Rundę tę współprowadzili Zhongguancun Science City i LINK-X CAPITAL, z udziałem strategicznym Wondershare, Visual China Group i TRS. Kilku istniejących inwestorów również zwiększyło swoje zobowiązania, co podkreśla ciągłe zaufanie do kierunku technicznego i postępów handlowych ShengShu.
Nowy kapitał przychodzi w momencie, gdy systemy sztucznej inteligencji wielomodalnej przechodzą od eksperymentalnych narzędzi do infrastruktury, która wspiera produkcję w świecie rzeczywistym. Trajektoria ShengShu odzwierciedla ten trend, a przełomy w badaniach coraz częściej przekładają się na wdrożone produkty wykorzystywane w różnych branżach.
Od wczesnych badań do modeli komercyjnych
ShengShu Technology był jedną z pierwszych zespołów na świecie, które skupiły się na algorytmach generatywnych wielomodalnych jako na kierunku badawczym. W 2022 roku firma wprowadziła architekturę U-ViT, co pomogło ustanowić podstawy techniczne dla modeli zdolnych do rozumowania w obrębie tekstu, obrazu i wideo. Ten podejście badawcze przygotowało grunt pod wprowadzenie Vidu w połowie 2024 roku.
Vidu wszedł na rynek z możliwością Reference-to-Video, która posunęła się poza konwencjonalne generowanie wideo z tekstu lub obrazu. Zamiast traktować każdy klatkę jako wyjście izolowane, system został zaprojektowany tak, aby zachować spójność wielu jednostek w różnych scenach, rozwiązując długoletnie wyzwanie w generowaniu wideo komercyjnego. Od czasu premiery ShengShu iterował szybko, wydając kolejne wersje, które poprawiły zrozumienie semantyczne, stabilność ruchu, spójność wizualną i szybkość wnioskowania.
Najnowsze wydanie, Vidu Q3, odzwierciedla celowe skupienie na narracji. Model obsługuje generowanie wideo z dźwiękiem do 16 sekund, natywny wyjście 1080p, precyzyjne przejścia między klatkami, renderowanie tekstu w wielu językach i wyjście w wielu językach. Te możliwości umiejscawiają system bliżej workflow produkcyjnych, a nie krótkich eksperymentalnych klipów.
Wydajność, szybkość i innowacje otwarte
Poza jakością wyjścia ShengShu podkreślił wydajność jako różnicę konkurencyjną. Pod koniec 2025 roku firma udostępniła otwarte źródło swojego frameworku TurboDiffusion, co znacznie zmniejszyło opóźnienia generowania wideo. Z tym frameworkiem pięciosekundowe wideo może być wygenerowane w czasie krótszym niż dwie sekundy na jednej wysokiej klasy karcie graficznej, co stanowi zysk o kilka rzędów wielkości w porównaniu z poprzednimi podejściami.
Ten nacisk na szybkość nie jest tylko benchmarkiem technicznym. Niższe opóźnienia i wymagania obliczeniowe mają bezpośredni wpływ na możliwość wdrożenia modeli wielomodalnych w skali, szczególnie w aplikacjach interaktywnych i narzędziach kreatywnych w czasie rzeczywistym. Redukując koszt i czas potrzebny do generowania wysokiej jakości wideo, ShengShu pcha sztuczną inteligencję wielomodalną bliżej codziennego użycia w środowiskach profesjonalnych.
Rozszerzanie przyjęcia na rynkach kreatywnych i przedsiębiorczych
ShengShu zbudował szeroki ekosystem produktowy wokół Vidu, obejmujący usługi zarządzane, oferty SaaS, aplikacje i narzędzia oparte na agentach. Produkty te obsługują twórców, studia i przedsiębiorstwa z ponad 200 krajów i regionów. W 2025 roku firma zgłosiła ponad dziesięciokrotny wzrost liczby użytkowników i przychodu, co wskazuje na przyspieszające przyjęcie.
W branży filmowej i rozrywkowej Vidu jest wykorzystywany w animacji, produkcji krótkich form i workflow, z zaangażowaniem właścicieli treści, dostawców narzędzi i studiów produkcyjnych. Równolegle, platformy internetowe i firmy produkujące inteligentne urządzenia stosują tę technologię do tworzenia aktywów marketingowych, treści interaktywnej i innowacji produktowych.
Reklama i gry wyłoniły się jako dodatkowe obszary zainteresowania. Marki i agencje używają Vidu do skalowania produkcji wideo dla kampanii, podczas gdy deweloperzy gier wdrożili go do tworzenia treści reklamowych i generowania scen. Na arenie międzynarodowej platforma zyskuje przyczółek wśród twórców narzędzi kreatywnych i użytkowników przedsiębiorstw, z aplikacjami sięgającymi edukacji, nadawania, turystyki kulturalnej.
Szersze implikacje sztucznej inteligencji wielomodalnej
Postępy modeli podstawowych wielomodalnych mają implikacje daleko wykraczające poza tworzenie wideo. Poprzez integrację tekstu, obrazu, dźwięku i ruchu w zjednoczone systemy, te modele umożliwiają maszynom interpretowanie kontekstu w sposób bardziej zbliżony do percepcji ludzkiej. Dla branż oznacza to szybsze cykle produkcyjne, niższe bariery wejścia dla wysokiej jakości treści i nowe formy interakcji między ludźmi i oprogramowaniem.
Jednocześnie dojrzałość sztucznej inteligencji wielomodalnej podnosi ważne pytania dotyczące autentyczności, własności intelektualnej i odpowiedzialnego wdrożenia. W miarę jak generowane wideo staje się coraz bardziej realistyczne, techniczne zabezpieczenia i ramy zarządzania będą niezbędne do utrzymania zaufania do mediów cyfrowych.
Spoglądając w przyszłość, modele wielomodalne prawdopodobnie odegrają rolę nie tylko w workflow cyfrowych, ale również w systemach świata fizycznego, od robotyki i symulacji po środowiska inteligentne. ShengShu Technology najnowsza runda finansowania pozycjonuje ją do udziału w tym przejściu, gdy sztuczna inteligencja wielomodalna przechodzi od nowinki kreatywnej do warstwy podstawowej następnej generacji produktywności.












