Inteligencia artificial

Investigadores desarrollan modelo informático JL2P para convertir guiones cinematográficos en animaciones

Actualizado on 9 de diciembre de 2022

Investigadores en Carnegie Mellon University han desarrollado un modelo de computadora que es capaz de traducir texto que describe movimientos físicos en animaciones simples generadas por computadora. Estos nuevos desarrollos podrían hacer posible la creación de películas y otras animaciones directamente desde un modelo de computadora que lee los guiones.

Los científicos han avanzado en lograr que las computadoras entiendan el lenguaje natural y generen poses físicas a partir del guión. Este nuevo modelo de computadora puede ser el nexo entre ellos.

Louis-Philippe Morency, profesor asociado de la Instituto de Tecnologías del Lenguaje (LTI), y Chaitanya Ahuja, un LTI Ph.D. estudiante, han estado usando una arquitectura neuronal que se llama Lenguaje conjunto a pose (JL2P). El modelo JL2P es capaz de incrustar oraciones y movimientos físicos de manera conjunta. Esto le permite aprender cómo el lenguaje está conectado con la acción, los gestos y los movimientos.

“Creo que estamos en una etapa temprana de esta investigación, pero desde una perspectiva de modelado, inteligencia artificial y teoría, es un momento muy emocionante”, dijo Morency. “En este momento, estamos hablando de animar personajes virtuales. Eventualmente, este vínculo entre lenguaje y gestos podría aplicarse a los robots; podríamos simplemente decirle a un robot asistente personal lo que queremos que haga.

“También podríamos eventualmente ir por el otro lado: usar este vínculo entre el lenguaje y la animación para que una computadora pueda describir lo que sucede en un video”, agregó.

El modelo Joint Language-to-Pose será presentado por Ahuja el 19 de septiembre en el Congreso Internacional de Visión 3D. Esa conferencia tendrá lugar en la ciudad de Quebec, Canadá.

El modelo JL2P fue creado por un enfoque de currículo-aprendizaje. El primer paso importante fue que el modelo aprendiera secuencias cortas y fáciles. Eso sería algo así como "Una persona camina hacia adelante". Luego pasó a secuencias más largas y difíciles como "Una persona da un paso adelante, luego se da la vuelta y vuelve a dar un paso adelante" o "Una persona salta un obstáculo mientras corre".

Cuando el modelo está usando las secuencias, observa verbos y adverbios. Estos describen la acción y la velocidad/aceleración de la acción. Luego, busca sustantivos y adjetivos que describen ubicaciones y direcciones. Según Ahuja, el objetivo final del modelo es animar secuencias complejas con múltiples acciones que suceden simultáneamente o en secuencia.

A partir de ahora, las animaciones se limitan a figuras de palitos, pero los científicos seguirán desarrollando el modelo. Una de las complicaciones que surgen es que, según Morency, están sucediendo muchas cosas al mismo tiempo. Algunos de ellos incluso están sucediendo en secuencias simples.

“La sincronía entre las partes del cuerpo es muy importante”, dijo Morency. “Cada vez que mueves las piernas, también mueves los brazos, el torso y posiblemente la cabeza. Las animaciones corporales necesitan coordinar estos diferentes componentes, mientras que al mismo tiempo logran acciones complejas. Llevar la narrativa del lenguaje dentro de este complejo entorno de animación es a la vez desafiante y emocionante. Este es un camino hacia una mejor comprensión del habla y los gestos”.

Si el modelo Joint Language-to-Pose es capaz de desarrollarse hasta el punto en que puede crear animaciones y acciones complejas basadas en el lenguaje, las posibilidades son enormes. No solo se puede usar en áreas como el cine y la animación, sino que también ayudará a desarrollar la comprensión del habla y los gestos.

En cuanto a la inteligencia artificial, este modelo JL2P podría usarse en robots. Por ejemplo, los robots podrían controlarse y decirles qué hacer, y podrían comprender el idioma y responder en consecuencia.

Estos nuevos desarrollos tendrán un impacto en muchos campos diferentes, y el modelo seguirá siendo más capaz de comprender un lenguaje complejo.

Temas relacionados:AI animación inteligencia artificial Lenguaje conjunto a pose

Hasta la próxima

IA utilizada para crear una molécula de fármaco que podría combatir la fibrosis

No Te Lo

Inteligencia artificial reconoce rostros de primates en la naturaleza

Alex MacFarland

Alex McFarland es un periodista y escritor sobre inteligencia artificial que explora los últimos avances en inteligencia artificial. Ha colaborado con numerosas empresas emergentes y publicaciones de IA en todo el mundo.