Inteligencia artificial

ST-NeRF: Composición y edición para síntesis de video

Published May 7, 2021

Updated April 28, 2026

Martin Anderson

Un consorcio de investigación chino ha desarrollado técnicas para llevar capacidades de edición y composición a uno de los sectores de investigación de síntesis de imágenes más calientes del último año – Campos de Radiancia Neuronal (NeRF). El sistema se llama ST-NeRF (Campo de Radiancia Neuronal Coherente Espacio-Temporal).

Lo que parece ser un movimiento de cámara física en la imagen a continuación es en realidad solo un usuario “desplazándose” a través de puntos de vista en contenido de video que existe en un espacio 4D. El POV no está bloqueado para el rendimiento de las personas representadas en el video, cuyos movimientos se pueden ver desde cualquier parte de un radio de 180 grados.

ST-NeRF

Cada faceta dentro del video es un elemento capturado discretamente, compuesto junto con una escena coherente que se puede explorar dinámicamente.

Las facetas se pueden duplicar libremente dentro de la escena, o cambiar de tamaño:

ST-NeRF

Además, el comportamiento temporal de cada faceta se puede alterar fácilmente, ralentizar, ejecutar hacia atrás o manipular de cualquier manera, lo que abre el camino a arquitecturas de filtros y un nivel extremadamente alto de interpretación.

Dos facetas de NeRF separadas que se ejecutan a diferentes velocidades en la misma escena. Fuente: https://www.youtube.com/watch?v=Wp4HfOwFGP4

No hay necesidad de rotoscopiar a los intérpretes o entornos, o tener a los intérpretes que ejecuten sus movimientos ciegos y fuera del contexto de la escena pretendida. En cambio, la filmación se captura de manera natural a través de una matriz de 16 cámaras de video que cubren 180 grados:

16 cámaras ST-NeRF

Los tres elementos que se muestran arriba, las dos personas y el entorno, son distintos y están delineados solo con fines ilustrativos. Cada uno se puede intercambiar y cada uno se puede insertar en la escena en un punto anterior o posterior en su cronología de captura individual.

ST-NeRF es una innovación en la investigación sobre Campos de Radiancia Neuronal (NeRF), un marco de aprendizaje automático mediante el cual se sintetizan múltiples capturas de puntos de vista en un espacio virtual navegable mediante un entrenamiento extensivo (aunque la captura de un solo punto de vista también es un subsector de la investigación de NeRF).

Los Campos de Radiancia Neuronal funcionan recopilando múltiples puntos de vista de captura en un solo espacio 3D coherente y navegable, con los espacios entre la cobertura estimados y renderizados por una red neuronal. Cuando se utiliza video (en lugar de imágenes fijas), los recursos de renderizado necesarios suelen ser considerables. Fuente: https://www.matthewtancik.com/nerf

El interés en NeRF se ha vuelto intenso en los últimos nueve meses, y una lista mantenida por Reddit de documentos de NeRF derivados o exploratorios actualmente enumera sesenta proyectos.

Solo algunos de los muchos subproductos del documento original de NeRF. Fuente: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Capacitación asequible

El documento es una colaboración entre investigadores de la Universidad de Tecnología de Shanghái y DGene Digital Technology, y ha sido aceptado con cierto entusiasmo en Open Review.

ST-NeRF ofrece una serie de innovaciones sobre las iniciativas anteriores en espacios de video navegable derivados de ML. No menos, logra un alto nivel de realismo con solo 16 cámaras. Aunque DyNeRF de Facebook utiliza solo dos cámaras más que esto, ofrece un arco navegable mucho más restringido.

Un ejemplo del entorno de DyNeRF de Facebook, con un campo de movimiento más limitado y más cámaras por pie cuadrado necesarias para reconstruir la escena. Fuente: https://neural-3d-video.github.io

Además de carecer de la capacidad de editar y componer facetas individuales, DyNeRF es particularmente costoso en términos de recursos computacionales. En cambio, los investigadores chinos afirman que el costo de capacitación para sus datos sale a algo entre $900-$3,000, en comparación con los $30,000 para el modelo de generación de video de estado del arte DVDGAN, y sistemas intensivos como DyNeRF.

Los revisores también han observado que ST-NeRF hace una innovación importante al separar el proceso de aprendizaje de movimiento del proceso de síntesis de imagen. Esta separación es lo que permite la edición y la composición, con enfoques anteriores restrictivos y lineales en comparación.

Aunque 16 cámaras es una matriz muy limitada para un semicírculo de vista completo, los investigadores esperan reducir este número aún más en trabajos posteriores a través del uso de fondos estáticos pre-escaneados y enfoques de modelado de escena más basados en datos. También esperan incorporar capacidades de re-iluminación, una innovación reciente en la investigación de NeRF.

Abordar las limitaciones de ST-NeRF

En el contexto de los documentos de CS académicos que tienden a desechar la usabilidad real de un nuevo sistema en un párrafo final descartable, incluso las limitaciones que los investigadores reconocen para ST-NeRF son inusuales.

Observan que el sistema no puede individuar y renderizar objetos particulares en una escena, porque las personas en la filmación se segmentan en entidades individuales a través de un sistema diseñado para reconocer humanos y no objetos – un problema que parece fácil de solucionar con YOLO y marcos similares, con el trabajo más difícil de extraer video humano ya realizado.

Aunque los investigadores observan que actualmente no es posible generar movimiento lento, no parece haber nada que impida la implementación de esto utilizando innovaciones existentes en interpolación de fotogramas como DAIN y RIFE.

Al igual que con todas las implementaciones de NeRF, y en muchos otros sectores de la investigación de visión por computadora, ST-NeRF puede fallar en casos de occlusión severa, donde el sujeto está temporalmente oculto por otra persona u objeto, y puede ser difícil de rastrear continuamente o re-adquirir con precisión después. Como en otros lugares, esta dificultad puede tener que esperar soluciones aguas arriba. Mientras tanto, los investigadores conceden que la intervención manual es necesaria en estos fotogramas ocultos.

Finalmente, los investigadores observan que los procedimientos de segmentación de humanos actualmente dependen de diferencias de color, lo que podría llevar a la colación no intencional de dos personas en un bloque de segmentación – un obstáculo no limitado a ST-NeRF, sino intrínseco a la biblioteca que se utiliza, y que podría solucionarse mediante análisis de flujo óptico y otras técnicas emergentes.

Publicado por primera vez el 7 de mayo de 2021.