Modelos y plataformas de IA

Nueva técnica permite a la inteligencia artificial comprender intuitivamente algunas leyes de la física

Publicado el 6 de diciembre de 2019

Actualizado el 25 de mayo de 2026

Por

Daniel Nelson

La inteligencia artificial ha podido desarrollar una comprensión de la física a través del aprendizaje por refuerzo desde hace algún tiempo, pero una nueva técnica desarrollada por investigadores del MIT podría ayudar a los ingenieros a diseñar modelos que demuestren una comprensión intuitiva de la física.

La investigación psicológica ha demostrado que, hasta cierto punto, los humanos tienen una comprensión intuitiva de las leyes de la física. Los bebés tienen expectativas de cómo deben interactuar y moverse los objetos, y las violaciones de estas expectativas harán que los bebés reaccionen con sorpresa. La investigación realizada por el equipo del MIT tiene el potencial de no solo impulsar nuevas aplicaciones de la inteligencia artificial, sino también ayudar a los psicólogos a comprender cómo los bebés perciben y aprenden sobre el mundo que los rodea.

El modelo diseñado por el equipo del MIT se llama ADEPT, y funciona haciendo predicciones sobre cómo deben comportarse los objetos en un espacio físico. El modelo observa los objetos y mantiene un seguimiento de una métrica de “sorpresa” a medida que lo hace. Si sucede algo inesperado, el modelo responde aumentando su valor de sorpresa. Acciones inesperadas y aparentemente imposibles, como la teleportación o la desaparición de un objeto, verán un aumento dramático en la sorpresa.

El objetivo del equipo de investigación era hacer que su modelo registrara los mismos niveles de sorpresa que los humanos registran cuando ven objetos que se comportan de manera poco plausible.

ADEPT tiene dos componentes principales, un motor de física y un módulo de gráficos inversos. El motor de física es responsable de predecir cómo se moverá un objeto, prediciendo una representación futura de un objeto, a partir de una serie de estados posibles. Mientras que el módulo de gráficos inversos es responsable de crear las representaciones de los objetos que se alimentarán al motor de física.

El módulo de gráficos inversos rastrea varios atributos, como la velocidad, la forma y la orientación de un objeto, extrayendo esta información de los fotogramas de los videos. El módulo de gráficos inversos solo se centra en los detalles más destacados, ignorando los detalles que no ayudarán al motor de física a interpretar el objeto y predecir nuevos estados. Al centrarse solo en los detalles más importantes, el modelo puede generalizar mejor a nuevos objetos. El motor de física luego toma estas descripciones de objetos y simula un comportamiento físico más complejo, como la fluidez o la rigidez, para hacer predicciones sobre cómo debe comportarse el objeto.

Después de que ocurre este proceso de ingesta, el modelo observa el siguiente fotograma real del video, que utiliza para recalcular su distribución de probabilidad con respecto a los comportamientos posibles de los objetos. La sorpresa es inversamente proporcional a la probabilidad de que un evento deba ocurrir, solo registrando una gran sorpresa cuando hay una gran discrepancia entre lo que el modelo cree que debe suceder a continuación y lo que realmente sucede a continuación.

El equipo de investigación necesitaba alguna manera de comparar la sorpresa de su modelo con la sorpresa de las personas que observan el mismo comportamiento de los objetos. En la psicología del desarrollo, los investigadores a menudo prueban a los bebés mostrándoles dos videos diferentes. En un video, se presenta un objeto que se comporta como se esperaría que los objetos se comporten en el mundo real, sin desaparecer o teleportarse de manera espontánea. En el otro video, un objeto viola las leyes de la física de alguna manera. El equipo de investigación tomó estos mismos conceptos básicos y hizo que 60 adultos vieran 64 videos diferentes de comportamiento físico esperado y no esperado. A los participantes se les pidió que calificaran su sorpresa en varios momentos del video en una escala del 1 al 100.

El análisis del rendimiento del modelo demostró que se desempeñó bastante bien en los videos donde un objeto se movía detrás de una pared y desaparecía cuando se quitaba la pared, coincidiendo generalmente con los niveles de sorpresa de los humanos en estos casos. El modelo también parecía sorprenderse por videos donde los humanos no demostraban sorpresa, pero que podrían haber demostrado. Por ejemplo, para que un objeto se mueva detrás de una pared a una velocidad determinada y salga inmediatamente al otro lado de la pared, debe haberse teletransportado o haber experimentado un aumento dramático en la velocidad.

Al comparar el rendimiento del modelo con el de las redes neuronales tradicionales que pueden aprender de la observación pero no registran explícitamente la representación de un objeto, los investigadores encontraron que la red ADEPT era mucho más precisa para discriminar entre escenas sorprendentes y no sorprendentes y que el rendimiento de ADEPT se alineaba más estrechamente con las reacciones humanas.

El equipo de investigación del MIT tiene como objetivo realizar más investigaciones y obtener una comprensión más profunda de cómo los bebés observan el mundo que los rodea y aprenden de estas observaciones, incorporando sus hallazgos en nuevas versiones del modelo ADEPT, y escenas y sorpresas poco sorprendentes y que el rendimiento de ADEPT se alineaba más estrechamente con las reacciones humanas.

Daniel Nelson

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.

Unite.AI

Nueva técnica permite a la inteligencia artificial comprender intuitivamente algunas leyes de la física

Descubre más