인공지능

연구자들, 영화 대본을 애니메이션으로 번역하는 JL2P 컴퓨터 모델 개발

Published September 11, 2019

Updated April 27, 2026

Alex McFarland

카네기 멜런 대학교의 연구자들은 물리적 움직임을 설명하는 텍스트를 단순한 컴퓨터 생성 애니메이션으로 번역할 수 있는 컴퓨터 모델을 개발했습니다. 이러한 새로운 개발은 영화와 다른 애니메이션을 컴퓨터 모델이 대본을 읽는 것에서 직접 생성할 수 있도록 만들 수 있습니다.

과학자들은 컴퓨터가 자연어를 이해하고 대본에서 물리적 姿勢를 생성하는 데 진행을 하고 있습니다. 이 새로운 컴퓨터 모델은 그들 사이의 연결고리가 될 수 있습니다.

언어 기술 연구소(LTI)의 부교수인 루이 필립 모렌시(Louis-Philippe Morency)와 LTI 박사 과정 학생인 차이타냐 아후자(Chaitanya Ahuja)는 조인트 언어- 姿勢(Joint Language-to-Pose)라고 불리는 신경 구조를 사용하고 있습니다. JL2P 모델은 문장과 물리적 움직임을 함께 임베딩할 수 있습니다. 이것은 언어가 행동, 제스처, 움직임과 어떻게 연결되는지 배우는 것을 허용합니다.

“저는 이 연구의 초기 단계에 있다고 생각하지만, 모델링, 인공 지능, 이론적 관점에서 볼 때 매우 흥미로운 순간입니다”라고 모렌시는 말했습니다. “현재 우리는 가상 캐릭터를 애니메이션화하는 것에 대해 이야기하고 있습니다. 궁극적으로 언어와 제스처 사이의 연결은 로봇에 적용될 수 있습니다. 우리는 개인용 로봇 조종사에게 무엇을 하라고 말할 수 있을 것입니다.

“우리는 또한 반대로 이동할 수 있습니다. 언어와 애니메이션 사이의 연결을 사용하여 컴퓨터가 비디오에서 발생하는 것을 설명할 수 있습니다”라고 그는 추가했습니다.

조인트 언어- 姿勢 모델은 9월 19일 캐나다 퀘벡 시티에서 열리는 3D 비전 국제 컨퍼런스에서 아후자에 의해 발표될 것입니다.

JL2P 모델은 커리큘럼 학습 접근 방식에 의해 생성되었습니다. 첫 번째 중요한 단계는 모델이 짧고 쉬운 시퀀스를 배우는 것이었습니다. 그것은 “사람이 앞으로 걸어간다”와 같은 것입니다. 그런 다음 더 길고 어려운 시퀀스로 이동했습니다. 예를 들어 “사람이 앞으로 걸어간다, 그런 다음 뒤로 돌아서서 다시 앞으로 걸어간다” 또는 “사람이 뛰면서 장애물을 뛰어넘는다”와 같은 시퀀스로 이동했습니다.

모델이 시퀀스를 사용할 때, 동사와 부사에 주목합니다. 이것은 행동과 행동의 속도/가속도를 설명합니다. 그런 다음 명사와 형용사에 주목합니다. 이것은 위치와 방향을 설명합니다. 아후자의 말에 따르면, 모델의 최종 목표는 동시에 발생하거나 시퀀스에서 발생하는 여러 동작이 있는 복잡한 시퀀스를 애니메이션화하는 것입니다.

현재로서는 애니메이션은 스틱 피규어로 제한됩니다. 그러나 과학자들은 모델을 계속 개발할 것입니다. 모렌시의 말에 따르면, 많은 것들이同時에 발생합니다. 일부는 심지어 단순한 시퀀스에서 발생합니다.

“신체 부위 간의 동기화는 매우 중요합니다”라고 모렌시는 말했습니다. “당신이 다리를 움직일 때마다, 당신은 또한 팔, 몸통, 그리고 가능하면 머리를 움직입니다. 몸 애니메이션은 이러한 다양한 구성 요소를 조정해야 하며, 동시에 복잡한 동작을 달성해야 합니다. 이러한 복잡한 애니메이션 환경 내에서 언어 내러티브를 가져오는 것은 도전적이지만 흥미롭습니다. 이것은 언어와 제스처에 대한 더 나은 이해를 위한 길입니다.”

조인트 언어- 姿勢 모델이 언어에 기반하여 복잡한 애니메이션과 동작을 생성할 수 있는 지점까지 개발할 수 있다면, 가능성은巨大합니다. 영화와 애니메이션과 같은 분야에서 사용될 수 있을 뿐만 아니라, 언어와 제스처에 대한 이해를 향상시키는 데도 도움이 될 것입니다.

인공 지능으로 돌아가면, JL2P 모델은 로봇에서 사용될 수 있습니다. 예를 들어, 로봇은 제어될 수 있고, 무엇을 하라고 命令할 수 있으며, 언어를 이해하고 응답할 수 있습니다.

이 새로운 개발은 많은 분야에 영향을 미칠 것이며, 모델은 복잡한 언어를 이해하는 능력이 계속 향상될 것입니다.