Financiación

ShengShu Technology recauda más de 86 millones de dólares en la ronda de financiación A+ para impulsar los límites de la inteligencia artificial multimodal

Published February 5, 2026

Updated May 16, 2026

Antoine Tardif, CEO & Founder of Unite.AI

ShengShu Technology ha completado una ronda de financiación A+ que supera los 600 millones de RMB (aproximadamente 86 millones de dólares estadounidenses), lo que marca un hito importante para la empresa a medida que escala sus modelos de inteligencia artificial multimodal para aplicaciones tanto digitales como del mundo físico. La ronda fue copresidida por Zhongguancun Science City y LINK-X CAPITAL, con la participación estratégica de Wondershare, Visual China Group y TRS. Varios inversores existentes también aumentaron sus compromisos, lo que subraya la confianza continuada en la dirección técnica y el progreso comercial de ShengShu.

El nuevo capital llega en un momento en que los sistemas de inteligencia artificial multimodal están pasando de herramientas experimentales a infraestructura que subyace a la producción del mundo real. La trayectoria de ShengShu refleja ese cambio, con avances en la investigación que se traducen cada vez más en productos desplegados que se utilizan en diversas industrias.

Desde la investigación temprana hasta los modelos de grado comercial

ShengShu Technology fue uno de los primeros equipos a nivel mundial en centrarse en algoritmos generativos multimodales como una dirección de investigación principal. En 2022, la empresa presentó la arquitectura U-ViT, lo que ayudó a establecer una base técnica para modelos capaces de razonar a través de texto, imagen y video. Este enfoque de investigación primero sentó las bases para el lanzamiento de Vidu a mediados de 2024.

Vidu entró en el mercado con una capacidad de referencia a video que se movió más allá de la generación convencional de texto a video o imagen a video. En lugar de tratar cada cuadro como una salida aislada, el sistema estaba diseñado para preservar la coherencia multi-entidad a través de escenas, abordando un desafío de larga data en la generación de video comercial. Desde su lanzamiento, ShengShu ha iterado rápidamente, lanzando versiones sucesivas que mejoraron la comprensión semántica, la estabilidad del movimiento, la coherencia visual y la velocidad de inferencia.

El lanzamiento más reciente, Vidu Q3, refleja un enfoque deliberado en la narración. El modelo admite la generación de audio y video sincronizados de hasta 16 segundos, salida nativa de 1080p, transiciones de disparo precisas, representación de texto multilingüe y salida multilingüe. Estas capacidades posicionan el sistema más cerca de los flujos de trabajo de producción, en lugar de clips experimentales de corta duración.

Rendimiento, velocidad y innovación abierta

Más allá de la calidad de la salida, ShengShu ha enfatizado la eficiencia como un diferenciador competitivo. A finales de 2025, la empresa dio a conocer su marco de TurboDiffusion, un movimiento que redujo significativamente la latencia de generación de video. Con este marco, un video de cinco segundos se puede generar en menos de dos segundos en una sola GPU de alta gama, lo que representa ganancias de varios órdenes de magnitud en comparación con los enfoques anteriores.

Este enfoque en la velocidad no es solo un benchmark técnico. La latencia y los requisitos de cómputo más bajos afectan directamente la viabilidad de implementar modelos multimodales a gran escala, especialmente para aplicaciones interactivas y herramientas creativas en tiempo real. Al reducir el costo y el tiempo necesarios para generar video de alta calidad, ShengShu está acercando la inteligencia artificial multimodal al uso diario en entornos profesionales.

Ampliación de la adopción en mercados creativos y empresariales

ShengShu ha construido un amplio ecosistema de productos alrededor de Vidu, que abarca servicios administrados, ofertas de SaaS, aplicaciones y herramientas basadas en agentes. Estos productos ahora sirven a creadores, estudios y empresas en más de 200 países y regiones. En 2025, la empresa informó de un crecimiento de más de diez veces en usuarios y ingresos, lo que indica una adopción acelerada.

En la industria del cine y el entretenimiento, Vidu se utiliza en animación, producción de cortometrajes y flujos de trabajo de características, con compromiso en propietarios de contenido, proveedores de herramientas y estudios de producción. En paralelo, las plataformas de Internet y las empresas de hardware inteligente están aplicando la tecnología para la creación de activos de marketing, contenido interactivo y innovación de productos.

La publicidad y los juegos han surgido como áreas adicionales de tracción. Las marcas y las agencias utilizan Vidu para ampliar la producción de video para campañas, mientras que los desarrolladores de juegos implementan la tecnología para contenido publicitario y generación de escenas. A nivel internacional, la plataforma está ganando tracción entre los desarrolladores de herramientas creativas y los usuarios empresariales, con aplicaciones que se extienden a la educación, la radiodifusión y el turismo cultural.

Las implicaciones más amplias de la inteligencia artificial multimodal

El progreso de los modelos de inteligencia artificial multimodal tiene implicaciones que van mucho más allá de la creación de video. Al integrar texto, imagen, audio y movimiento en sistemas unificados, estos modelos permiten que las máquinas interpreten el contexto de una manera que se asemeja más a la percepción humana. Para las industrias, esto significa ciclos de producción más rápidos, barreras de entrada más bajas para contenido de alta calidad y nuevas formas de interacción entre humanos y software.

Al mismo tiempo, la madurez de la inteligencia artificial multimodal plantea preguntas importantes sobre la autenticidad, la propiedad intelectual y el despliegue responsable. A medida que el video generado se vuelve cada vez más realista, los salvaguardas técnicos y los marcos de gobernanza serán esenciales para mantener la confianza en los medios digitales.

Mirando hacia adelante, los modelos multimodales probablemente desempeñarán un ShengShu Technology’s papel no solo en los flujos de trabajo digitales, sino también en los sistemas del mundo físico, desde la robótica y la simulación hasta los entornos inteligentes. La última ronda de financiación de ShengShu la posiciona para participar en esa transición, a medida que la inteligencia artificial multimodal se convierte de una novedad creativa en una capa fundamental de la productividad de la próxima generación.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.

Unite.AI

ShengShu Technology recauda más de 86 millones de dólares en la ronda de financiación A+ para impulsar los límites de la inteligencia artificial multimodal

Desde la investigación temprana hasta los modelos de grado comercial

Rendimiento, velocidad y innovación abierta

Ampliación de la adopción en mercados creativos y empresariales

Las implicaciones más amplias de la inteligencia artificial multimodal

You may like