Inteligencia Artificial
¿Pueden los modelos mundiales de IA comprender realmente las leyes físicas?

La gran esperanza para los modelos de IA basados en lenguaje de visión es que algún día serán capaces de lograr una mayor autonomía y versatilidad, incorporando principios de leyes físicas de la misma manera que desarrollamos una comprensión innata de estos principios a través de la experiencia temprana.
Por ejemplo, los juegos de pelota para niños tienden a desarrollar Una comprensión de la cinética del movimiento., y del efecto del peso y la textura de la superficie en la trayectoria. Asimismo, las interacciones con escenarios comunes como baños, bebidas derramadas, el océano, piscinas y otros cuerpos líquidos diversos nos inculcarán una comprensión versátil y escalable de las formas en que se comporta el líquido bajo la gravedad.
Incluso los postulados de fenómenos menos comunes –como la combustión, las explosiones y la distribución del peso arquitectónico bajo presión– se absorben inconscientemente a través de la exposición a programas de televisión y películas o vídeos en las redes sociales.
En el momento en que estudiamos el principios Detrás de estos sistemas, a nivel académico, simplemente estamos "reequipando" nuestros modelos mentales intuitivos (pero desinformados) de ellos.
Maestros de Uno
En la actualidad, la mayoría de los modelos de IA son, por el contrario, más "especializados" y muchos de ellos son: afinado o entrenados desde cero con conjuntos de datos de imágenes o videos que son bastante específicos para ciertos casos de uso, en lugar de estar diseñados para desarrollar una comprensión tan general de las leyes vigentes.
Otros pueden presentar el apariencia de una comprensión de las leyes físicas; pero es posible que en realidad estén reproduciendo muestras de sus datos de entrenamiento, en lugar de comprender realmente los conceptos básicos de áreas como la física del movimiento de una forma que pueda producir representaciones verdaderamente novedosas (y científicamente plausibles) a partir de las indicaciones de los usuarios.
En este momento delicado de la producción y comercialización de sistemas de IA generativos, nos corresponde a nosotros y al escrutinio de los inversores distinguir el marketing elaborado de nuevos modelos de IA de la realidad de sus limitaciones.
Uno de noviembre Los artículos más interesantes, liderado por Bytedance Research, abordó este tema, explorando la brecha entre las capacidades aparentes y reales de los modelos generativos "para todo uso" como Sora.
El trabajo concluyó que en el estado actual de la técnica, es más probable que los resultados generados a partir de modelos de este tipo sean Ejemplos de imitación de sus datos de entrenamiento que demostrar realmente una comprensión completa de las limitaciones físicas subyacentes que operan en el mundo real.
El documento dice*:
'[Estos] modelos pueden verse fácilmente sesgados por ejemplos "engañosos" del conjunto de entrenamiento, lo que los lleva a generalizar de manera "basada en casos" bajo ciertas condiciones. Este fenómeno, también observado En modelos de lenguaje grandes, describe la tendencia de un modelo a hacer referencia a casos de entrenamiento similares al resolver nuevas tareas.
Por ejemplo, considere un modelo de video entrenado con datos de una pelota a alta velocidad que se mueve en un movimiento lineal uniforme. Si se aumenta la información invirtiendo horizontalmente los videos, introduciendo así un movimiento en dirección inversa, el modelo podría generar un escenario en el que una pelota a baja velocidad invierte su dirección después de los fotogramas iniciales, aunque este comportamiento no sea físicamente correcto.
Echemos un vistazo más de cerca al artículo titulado Evaluación de modelos mundiales con LLM para la toma de decisiones En breve. Pero primero, veamos el contexto de estas aparentes limitaciones.
Recuerdo de las cosas pasadas
Sin generalizaciónUn modelo de IA entrenado es poco más que una costosa hoja de cálculo de referencias a secciones de sus datos de entrenamiento: encuentre el término de búsqueda apropiado y podrá obtener una instancia de esos datos.
En ese escenario, el modelo actúa efectivamente como un "motor de búsqueda neuronal", ya que no puede producir interpretaciones abstractas o "creativas" del resultado deseado, sino que replica alguna variación menor de datos que vio durante el proceso de entrenamiento.
Esto se conoce como memorización – un problema controvertido que surge porque los modelos de IA verdaderamente dúctiles e interpretativos tienden a carecer de detalles, mientras que los modelos verdaderamente detallados tienden a carecer de originalidad y flexibilidad.
La capacidad de los modelos afectados por la memorización para reproducir datos de entrenamiento es un obstáculo legal potencial en los casos en que los creadores del modelo no tenían derechos irrestrictos para usar esos datos, y donde los beneficios de esos datos pueden demostrarse mediante un número creciente de métodos de extracción.
Debido a la memorización, pueden quedar rastros de datos no autorizados. persistir, encadenado, a través de múltiples sistemas de entrenamiento, como una marca de agua indeleble y no intencionada, incluso en proyectos en los que el profesional de aprendizaje automático se ha asegurado de que se utilicen datos "seguros".
Modelos mundiales
Sin embargo, el problema central de uso de la memorización es que tiende a transmitir la ilusión de inteligencia, o sugerir que el modelo de IA ha generalizado leyes o dominios fundamentales, cuando en realidad es el alto volumen de datos memorizados lo que proporciona esta ilusión (es decir, el modelo tiene tantos ejemplos de datos potenciales para elegir que es difícil para un humano saber si está regurgitando contenido aprendido o si tiene una comprensión verdaderamente abstracta de los conceptos involucrados en la generación).
Esta cuestión tiene ramificaciones para el creciente interés en modelos mundiales – la perspectiva de sistemas de IA altamente diversos y costosos de entrenar, que incorporen múltiples leyes conocidas y sean ampliamente explorables.
Los modelos del mundo son de particular interés en el espacio de imágenes y videos generativos. En 2023, RunwayML comenzó un iniciativa de investigación en el desarrollo y viabilidad de tales modelos; DeepMind recientemente contratado uno de los creadores del aclamado video generativo Sora para trabajar en un modelo de este tipo; y startups como Higgsfield están invirtiendo significativamente en modelos mundiales para síntesis de imágenes y vídeos.
Combinaciones difíciles
Una de las promesas de los nuevos desarrollos en sistemas de IA de video generativo es la perspectiva de que puedan aprender leyes físicas fundamentales, como el movimiento, la cinemática humana (como características de la marcha), dinámica de fluidos, y otros fenómenos físicos conocidos que son, al menos, visualmente familiares para los humanos.
Si la IA generativa pudiera lograr este hito, podría ser capaz de producir efectos visuales hiperrealistas que representen explosiones, inundaciones y eventos de colisión plausibles en múltiples tipos de objetos.
Por otra parte, si el sistema de IA simplemente ha sido entrenado con miles (o cientos de miles) de vídeos que representan tales eventos, podría ser capaz de reproducir los datos de entrenamiento de manera bastante convincente cuando se lo entrenó con un puntos de datos similares a la consulta de destino del usuario; todavía fallar si la consulta combina demasiados conceptos que, en dicha combinación, no están representados en absoluto en los datos.
Además, estas limitaciones no serían inmediatamente evidentes hasta que uno exigiera al sistema combinaciones desafiantes de este tipo.
Esto significa que un nuevo sistema generativo puede ser capaz de generar contenido de video viral que, aunque impresionante, puede crear una falsa impresión de las capacidades del sistema y la profundidad de su comprensión, porque la tarea que representa no es un desafío real para el sistema.
Por ejemplo, un evento relativamente común y bien difundido, como 'se demuele un edificio', podría estar presente en varios videos en un conjunto de datos utilizado para entrenar un modelo que se supone que tiene algún conocimiento de física. Por lo tanto, el modelo podría presumiblemente generalizar bien este concepto e incluso producir resultados realmente novedosos dentro de los parámetros aprendidos a partir de abundantes videos.
Esta es una en distribución Por ejemplo, el conjunto de datos contiene muchos ejemplos útiles para que el sistema de IA aprenda de ellos.
Sin embargo, si uno pidiera un ejemplo más extraño o engañoso, como 'La Torre Eiffel es destruida por invasores extraterrestres'Se requeriría que el modelo combinara diversos dominios como "propiedades metalúrgicas", "características de las explosiones", "gravedad", "resistencia del viento" y "naves espaciales extraterrestres".
Esta es una fuera de distribución (OOD) ejemplo, que combina tantos conceptos enredados que el sistema probablemente no podrá generar un ejemplo convincente o utilizará de manera predeterminada el ejemplo semántico más cercano con el que fue entrenado, incluso si ese ejemplo no se ajusta a la solicitud del usuario.
Exceptuando que el conjunto de datos de origen del modelo contenía efectos visuales basados en CGI de estilo Hollywood que representaban el mismo evento o uno similar, dicha representación requeriría absolutamente que se lograra una comprensión bien generalizada y dúctil de las leyes físicas.
Restricciones físicas
El nuevo artículo, una colaboración entre Bytedance, la Universidad de Tsinghua y Technion, sugiere no solo que los modelos como Sora No Realmente internalizamos leyes físicas deterministas de esta manera, pero ampliar los datos (un enfoque común durante los últimos 18 meses) parece, en la mayoría de los casos, no producir ninguna mejora real en este sentido.
El artículo explora no sólo los límites de extrapolación de leyes físicas específicas –como el comportamiento de los objetos en movimiento cuando chocan o cuando su camino se ve obstruido– sino también la capacidad de un modelo para generalización combinatoria – casos en los que las representaciones de dos principios físicos diferentes se fusionan en un único resultado generativo.
Un resumen en vídeo del nuevo artículo. Fuente: https://x.com/bingyikang/status/1853635009611219019
Las tres leyes físicas seleccionadas para el estudio por los investigadores fueron movimiento parabólico; movimiento lineal uniforme; y colisión perfectamente elástica.
Como se puede ver en el vídeo de arriba, los hallazgos indican que modelos como Sora no internalizan realmente las leyes físicas, sino que tienden a reproducir datos de entrenamiento.
Además, los autores descubrieron que facetas como el color y la forma se enredan tanto en el momento de la inferencia que una bola generada probablemente se transformaría en un cuadrado, aparentemente porque un movimiento similar en un ejemplo de conjunto de datos presentaba un cuadrado y no una bola (ver el ejemplo en el video incrustado arriba).
El documento, que tiene Notablemente comprometido El sector de la investigación en las redes sociales concluye:
'Nuestro estudio sugiere que el escalamiento por sí solo es insuficiente para que los modelos de generación de video descubran leyes físicas fundamentales, a pesar de su papel en el éxito más amplio de Sora...
'…[Los resultados] indican que el escalamiento por sí solo no puede resolver el problema de OOD, aunque sí mejora el rendimiento en otros escenarios.
'Nuestro análisis en profundidad sugiere que la generalización del modelo de video se basa más en la referencia a ejemplos de entrenamiento similares que en el aprendizaje de reglas universales. Observamos un orden de priorización de color > tamaño > velocidad > forma en este comportamiento "basado en casos".
'[Nuestro] estudio sugiere que el escalamiento ingenuo es insuficiente para que los modelos de generación de video descubran leyes físicas fundamentales.'
Cuando se le preguntó si el equipo de investigación había encontrado una solución al problema, uno de los autores del artículo... comentó:
Desafortunadamente, no lo hemos hecho. De hecho, esta es probablemente la misión de toda la comunidad de IA.
Método y datos
Los investigadores utilizaron un Autoencoder Variacional (VAE) y DiT arquitecturas para generar muestras de video. En esta configuración, el archivo comprimido representaciones latentes producido por el trabajo de VAE en conjunto con el modelado de DiT de la eliminación de ruido .
Los videos se entrenaron con Stable Diffusion V1.5-VAE. El esquema se mantuvo básicamente sin cambios, con solo mejoras arquitectónicas de fin de proceso:
'[Conservamos] la mayoría de los mecanismos originales de convolución 2D, normalización de grupos y atención en las dimensiones espaciales.
'Para inflar esta estructura en un autocodificador espacio-temporal, convertimos los últimos bloques de muestreo descendente 2D del codificador y los primeros bloques de muestreo ascendente 2D del decodificador en bloques 3D, y empleamos múltiples capas 1D adicionales para mejorar el modelado temporal.'
Para permitir el modelado de video, el VAE modificado se entrenó conjuntamente con datos de imagen y video HQ, con el componente Generative Adversarial Network (GAN) 2D nativo de la arquitectura SD1.5 aumentado para 3D.
El conjunto de datos de imágenes utilizado fue la fuente original de Stable Diffusion, LAION-Estética, con filtrado, además de Computador de datosPara los datos de vídeo, se seleccionó un subconjunto de los Vimeo-90K, Panda-70m y el Formato HDVG conjuntos de datos
Los datos se entrenaron durante un millón de pasos, con un recorte redimensionado aleatorio y un giro horizontal aleatorio aplicado como aumento de datos de los empleados.
Flipando
Como se señaló anteriormente, el aumento de datos de volteo horizontal aleatorio puede ser una desventaja en el entrenamiento de un sistema diseñado para producir movimiento auténtico. Esto se debe a que el resultado del modelo entrenado puede considerar ambas direcciones de un objeto y provocar inversiones aleatorias a medida que intenta negociar estos datos conflictivos (ver el video incrustado arriba).
Por otro lado, si uno gira horizontalmente off, es más probable entonces que el modelo produzca un resultado que se ajuste a solo una dirección aprendido de los datos de entrenamiento.
Así que no hay una solución fácil al problema, excepto que el sistema realmente asimile la totalidad de las posibilidades de movimiento tanto de la versión nativa como de la invertida, una habilidad que los niños desarrollan fácilmente, pero que es más desafiante, aparentemente, para los modelos de IA.
Examenes
Para el primer conjunto de experimentos, los investigadores formularon un simulador 2D para producir videos de movimiento de objetos y colisiones que concordaran con las leyes de la mecánica clásica, lo que proporcionó un conjunto de datos controlado y de gran volumen que excluía las ambigüedades de los videos del mundo real, para la evaluación de los modelos. Caja2D Se utilizó un motor de juego de física para crear estos vídeos.
Los tres escenarios fundamentales enumerados anteriormente fueron el foco de las pruebas: movimiento lineal uniforme, colisiones perfectamente elásticas y movimiento parabólico.
Se utilizaron conjuntos de datos de tamaño creciente (desde 30,000 a tres millones de vídeos) para entrenar modelos de diferentes tamaños y complejidades (DiT-S a DiT-L), y los primeros tres fotogramas de cada vídeo se utilizaron para el condicionamiento.

Detalles de los diferentes modelos entrenados en el primer conjunto de experimentos. Fuente: https://arxiv.org/pdf/2411.02385
Los investigadores descubrieron que los resultados en distribución (ID) escalaban bien con cantidades crecientes de datos, mientras que las generaciones OOD no mejoraron, lo que indica deficiencias en la generalización.

Resultados de la primera ronda de pruebas.
Los autores señalan:
'Estos hallazgos sugieren la incapacidad del escalamiento para realizar razonamiento en escenarios OOD'.
A continuación, los investigadores probaron y entrenaron sistemas diseñados para exhibir una competencia en la generalización combinatoria, en la que dos movimientos contrastantes se combinan para producir (con suerte) un movimiento cohesivo que sea fiel a la ley física detrás de cada uno de los movimientos separados.
Para esta fase de las pruebas, los autores utilizaron el PHYRE Simulador que crea un entorno 2D que representa múltiples objetos de formas diversas en caída libre, chocando entre sí en una variedad de interacciones complejas.
Las métricas de evaluación para esta segunda prueba fueron Distancia del vídeo de Fréchet (VFD); Índice de similitud estructural (SIM); Relación señal-ruido máxima (PSNR); Métricas de similitud perceptual aprendidas (LPIPS); y un estudio en humanos (indicado como “anormal” en los resultados).
Se crearon tres escalas de conjuntos de datos de entrenamiento: 100,000 0.6 vídeos, 3 millones de vídeos y entre 6 y XNUMX millones de vídeos. Se utilizaron los modelos DiT-B y DiT-XL debido a la mayor complejidad de los vídeos, y el primer fotograma se utilizó para el condicionamiento.
Los modelos fueron entrenados para un millón de pasos con una resolución de 256×256, con 32 cuadros por vídeo.

Resultados de la segunda ronda de pruebas.
El resultado de esta prueba sugiere que simplemente aumentar el volumen de datos es un enfoque inadecuado:
El documento dice:
Estos resultados sugieren que tanto la capacidad del modelo como la cobertura del espacio de combinación son cruciales para la generalización combinatoria. Esta perspectiva implica que las leyes de escalado para la generación de vídeo deberían centrarse en aumentar la diversidad de combinaciones, en lugar de simplemente aumentar el volumen de datos.
Finalmente, los investigadores realizaron más pruebas para intentar determinar si un modelo de generación de video puede realmente asimilar leyes físicas o si simplemente memoriza y reproduce datos de entrenamiento en el momento de la inferencia.
Aquí examinaron el concepto de generalización "basada en casos", donde los modelos tienden a imitar ejemplos de entrenamiento específicos cuando se enfrentan a situaciones nuevas, además de examinar ejemplos de movimiento uniforme, específicamente, cómo la dirección del movimiento en los datos de entrenamiento influye en las predicciones del modelo entrenado.
Dos conjuntos de datos de entrenamiento, para Movimiento uniforme y el colisiónSe seleccionaron varios videos de movimiento uniforme que mostraban velocidades entre 2.5 y 4 unidades, y los tres primeros fotogramas se utilizaron como condicionamiento. Valores latentes como velocidad se omitieron y, después del entrenamiento, se realizaron pruebas en escenarios vistos y no vistos.
A continuación vemos los resultados de la prueba de generación de movimiento uniforme:

Resultados de las pruebas de generación de movimiento uniforme, donde la variable 'velocidad' se omite durante el entrenamiento.
Los autores declaran:
'[Con] una gran brecha en el conjunto de entrenamiento, el modelo tiende a generar videos donde la velocidad es alta o baja para parecerse a los datos de entrenamiento cuando los cuadros iniciales muestran velocidades de rango medio.'
Para las pruebas de colisión, intervienen muchas más variables y se requiere que el modelo aprenda una lógica bidimensional. función no lineal.

Colisión: resultados de la tercera y última ronda de pruebas.
Los autores observan que la presencia de ejemplos "engañosos", como el movimiento inverso (es decir, una pelota que rebota en una superficie y revierte su curso), puede engañar al modelo y hacer que genere predicciones físicamente incorrectas.
Conclusión
Si un algoritmo que no es de IA (es decir, un método de procedimiento “horneado”) contiene reglas matematicas Para el comportamiento de fenómenos físicos como fluidos u objetos bajo gravedad o bajo presión, hay un conjunto de constantes inmutables disponibles para una representación precisa.
Sin embargo, los hallazgos del nuevo artículo indican que no se desarrolla ninguna relación equivalente ni comprensión intrínseca de las leyes físicas clásicas durante el entrenamiento de modelos generativos, y que cantidades crecientes de datos no resuelven el problema, sino que lo oscurecen, porque hay una mayor cantidad de videos de entrenamiento disponibles para que el sistema los imite en el momento de la inferencia.
* Mi conversión de las citas en línea de los autores a hipervínculos.
Primera publicación: martes 26 de noviembre de 2024












