Financement

ShengShu Technology lève plus de 86 millions de dollars dans le cadre d’un financement de série A+ pour repousser les limites de l’IA multimodale

mm

ShengShu Technology a terminé un cycle de financement de série A+ dépassant 600 millions de RMB (environ 86 millions de dollars américains), marquant une étape importante pour l’entreprise dans son développement de modèles de base multimodaux pour les applications numériques et physiques. Le cycle a été co-dirigé par Zhongguancun Science City et LINK-X CAPITAL, avec la participation stratégique de Wondershare, Visual China Group et TRS. Plusieurs investisseurs existants ont également augmenté leurs engagements, soulignant la confiance continue dans la direction technique et le progrès commercial de ShengShu.

Le nouveau capital arrive à un moment où les systèmes d’IA multimodaux passent d’outils expérimentaux à des infrastructures qui sous-tendent la production réelle. La trajectoire de ShengShu reflète ce changement, avec des avancées de recherche qui se traduisent de plus en plus en produits déployés utilisés dans diverses industries.

Des recherches préliminaires aux modèles de grade commercial

ShengShu Technology a été l’une des premières équipes au monde à se concentrer sur les algorithmes génératifs multimodaux comme direction de recherche principale. En 2022, l’entreprise a introduit l’architecture U-ViT, contribuant à établir une base technique pour les modèles capables de raisonner sur le texte, l’image et la vidéo. Cette approche axée sur la recherche a ouvert la voie au lancement de Vidu en milieu 2024.

Vidu est entré sur le marché avec une fonctionnalité de référence à la vidéo qui a dépassé la génération de texte à vidéo ou d’image à vidéo conventionnelle. Au lieu de traiter chaque trame comme une sortie isolée, le système a été conçu pour préserver la cohérence multi-entité entre les scènes, résolvant un défi de longue date dans la génération de vidéos commerciales. Depuis son lancement, ShengShu a itéré rapidement, lançant des versions successives qui amélioraient la compréhension sémantique, la stabilité du mouvement, la cohérence visuelle et la vitesse d’inférence.

La dernière version, Vidu Q3, reflète une focalisation délibérée sur le récit. Le modèle prend en charge la génération audio-vidéo synchronisée jusqu’à 16 secondes, la sortie native 1080p, les transitions de plan précises, le rendu de texte multilingue et la sortie multilingue. Ces capacités positionnent le système plus près des flux de production, plutôt que des extraits expérimentaux courts.

Performances, vitesse et innovation ouverte

Au-delà de la qualité de sortie, ShengShu a mis l’accent sur l’efficacité comme différentiateur concurrentiel. Fin 2025, l’entreprise a ouvert son framework TurboDiffusion, une démarche qui a considérablement réduit la latence de génération de vidéos. Avec ce framework, une vidéo de cinq secondes peut être générée en moins de deux secondes sur une seule carte graphique haute performance, représentant des gains de plusieurs ordres de grandeur par rapport aux approches antérieures.

Cette focalisation sur la vitesse n’est pas seulement un jalon technique. Une latence et des exigences de calcul plus faibles affectent directement la faisabilité du déploiement de modèles multimodaux à grande échelle, en particulier pour les applications interactives et les outils de création en temps réel. En réduisant le coût et le temps nécessaires pour générer des vidéos de haute qualité, ShengShu pousse l’IA multimodale plus près de l’utilisation quotidienne dans les environnements professionnels.

Expansion de l’adoption sur les marchés créatifs et d’entreprise

ShengShu a construit un large écosystème de produits autour de Vidu, allant des services gérés aux offres SaaS, en passant par les applications et les outils basés sur des agents. Ces produits servent désormais les créateurs, les studios et les entreprises dans plus de 200 pays et régions. En 2025, l’entreprise a rapporté une croissance de plus de dix fois en termes d’utilisateurs et de revenus, indiquant une adoption accélérée.

Dans le secteur du cinéma et du divertissement, Vidu est utilisé dans l’animation, la production de courts métrages et les flux de production de longs métrages, avec un engagement auprès des propriétaires de contenu, des fournisseurs d’outils et des studios de production. Parallèlement, les plateformes Internet et les sociétés de matériel intelligent appliquent la technologie à la création d’actifs marketing, de contenu interactif et d’innovation de produits.

La publicité et le jeu vidéo sont également des domaines où Vidu trouve un écho. Les marques et les agences utilisent Vidu pour mettre à l’échelle la production de vidéos pour les campagnes, tandis que les développeurs de jeux déployent la technologie pour la création de contenu publicitaire et la génération de scènes. À l’échelle internationale, la plateforme gagne du terrain parmi les développeurs d’outils créatifs et les utilisateurs d’entreprise, avec des applications s’étendant à l’éducation, à la radiodiffusion et au tourisme culturel.

Les implications plus larges de l’IA multimodale

Les progrès des modèles de base multimodaux ont des implications qui vont bien au-delà de la création de vidéos. En intégrant le texte, l’image, l’audio et le mouvement dans des systèmes unifiés, ces modèles permettent aux machines d’interpréter le contexte d’une manière qui ressemble plus étroitement à la perception humaine. Pour les industries, cela signifie des cycles de production plus rapides, des barrières à l’entrée plus basses pour un contenu de haute qualité et de nouvelles formes d’interaction entre les humains et les logiciels.

En même temps, la maturation de l’IA multimodale soulève des questions importantes autour de l’authenticité, de la propriété intellectuelle et du déploiement responsable. À mesure que les vidéos générées deviennent de plus en plus réalistes, des garde-fous techniques et des cadres de gouvernance seront essentiels pour maintenir la confiance dans les médias numériques.

En regardant vers l’avenir, les modèles multimodaux sont susceptibles de jouer un rôle non seulement dans les flux de travail numériques mais également dans les systèmes du monde physique, allant de la robotique et de la simulation aux environnements intelligents. Le dernier cycle de financement de ShengShu Technology positionne l’entreprise pour participer à cette transition, à mesure que l’IA multimodale passe d’une nouveauté créative à une couche fondamentale de la productivité de la prochaine génération.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.