Inteligência artificial
Pesquisadores desenvolvem modelo de computador JL2P para traduzir roteiros de filmes em animações

Pesquisadores em Carnegie Mellon University desenvolveram um modelo de computador capaz de traduzir textos que descrevem movimentos físicos em animações simples geradas por computador. Esses novos desenvolvimentos podem possibilitar a criação de filmes e outras animações diretamente a partir de um modelo de computador que lê os scripts.
Os cientistas têm feito progressos em fazer com que os computadores entendam a linguagem natural e gerem poses físicas a partir do script. Este novo modelo de computador pode ser o elo entre eles.
Louis-Philippe Morency, professor associado da Instituto de Tecnologias de Linguagem (LTI) e Chaitanya Ahuja, um Ph.D. LTI. estudante, têm usado uma arquitetura neural chamada Linguagem para pose conjunta (JL2P). O modelo JL2P é capaz de incorporar frases e movimentos físicos em conjunto. Isso permite que ele aprenda como a linguagem está conectada à ação, gestos e movimentos.
“Acho que estamos em um estágio inicial desta pesquisa, mas, do ponto de vista de modelagem, inteligência artificial e teoria, é um momento muito empolgante”, disse Morency. “No momento, estamos falando sobre animação de personagens virtuais. Eventualmente, essa ligação entre linguagem e gestos poderá ser aplicada a robôs; talvez possamos simplesmente dizer a um robô assistente pessoal o que queremos que ele faça.”
“Também podemos eventualmente ir por outro caminho – usando esse link entre linguagem e animação para que um computador possa descrever o que está acontecendo em um vídeo”, acrescentou.
O modelo Joint Language-to-Pose será apresentado por Ahuja em 19 de setembro na Conferência Internacional sobre Visão 3D. Essa conferência acontecerá na cidade de Quebec, Canadá.
O modelo JL2P foi criado por uma abordagem de aprendizagem curricular. O primeiro passo importante foi o modelo aprender sequências curtas e fáceis. Isso seria algo como “Uma pessoa caminha para frente”. Em seguida, passou para sequências mais longas e difíceis, como “Uma pessoa dá um passo à frente, depois se vira e dá um passo à frente novamente” ou “Uma pessoa pula um obstáculo enquanto corre”.
Quando o modelo está usando as sequências, ele examina verbos e advérbios. Estes descrevem a ação e a velocidade/aceleração da ação. Em seguida, analisa substantivos e adjetivos que descrevem locais e direções. De acordo com Ahuja, o objetivo final do modelo é animar sequências complexas com múltiplas ações que acontecem simultaneamente ou em sequência.
A partir de agora, as animações são limitadas a bonecos, mas os cientistas vão continuar desenvolvendo o modelo. Uma das complicações que surge é que, de acordo com Morency, muitas coisas estão acontecendo ao mesmo tempo. Alguns deles estão até acontecendo em sequências simples.
“A sincronia entre as partes do corpo é muito importante”, disse Morency. “Toda vez que você move as pernas, também move os braços, o tronco e possivelmente a cabeça. As animações corporais precisam coordenar esses diferentes componentes, ao mesmo tempo em que realizam ações complexas. Trazer a narrativa da linguagem para esse complexo ambiente de animação é desafiador e empolgante. Este é um caminho para uma melhor compreensão da fala e dos gestos.”
Se o modelo Joint Language-to-Pose for capaz de se desenvolver a ponto de criar animações e ações complexas baseadas na linguagem, as possibilidades são enormes. Não só pode ser usado em áreas como cinema e animação, mas também ajudará a desenvolver a compreensão da fala e dos gestos.
Voltando à inteligência artificial, este modelo JL2P poderia ser usado em robôs. Por exemplo, os robôs podem ser controlados e instruídos sobre o que fazer, e eles seriam capazes de entender a linguagem e responder de acordo.
Esses novos desenvolvimentos impactarão muitos campos diferentes, e o modelo continuará se tornando mais capaz de entender linguagem complexa.