Intelligenza artificiale

Ricercatori sviluppano il modello di computer JL2P per tradurre sceneggiature di film in animazioni

Published September 11, 2019

Updated April 5, 2026

Alex McFarland

I ricercatori della Carnegie Mellon University hanno sviluppato un modello di computer in grado di tradurre il testo che descrive movimenti fisici in semplici animazioni generate al computer. Questi nuovi sviluppi potrebbero rendere possibile la creazione di film e altre animazioni direttamente da un modello di computer che legge le sceneggiature.

Gli scienziati hanno fatto progressi nel far comprendere ai computer sia il linguaggio naturale che la generazione di pose fisiche dalle sceneggiature. Questo nuovo modello di computer può essere il collegamento tra di essi.

Louis-Philippe Morency, professore associato presso l’Language Technologies Institute (LTI), e Chaitanya Ahuja, studente di dottorato presso l’LTI, hanno utilizzato un’architettura neurale chiamata Joint Language-to-Pose (JL2P). Il modello JL2P è in grado di incorporare congiuntamente frasi e movimenti fisici. Ciò gli consente di apprendere come il linguaggio sia collegato all’azione, ai gesti e ai movimenti.

“Penso che siamo in una fase iniziale di questa ricerca, ma da una prospettiva di modellazione, intelligenza artificiale e teoria, è un momento molto emozionante”, ha detto Morency. “Al momento, stiamo parlando di animare personaggi virtuali. Alla fine, questo collegamento tra linguaggio e gesti potrebbe essere applicato ai robot; potremmo semplicemente dire a un robot personale cosa vogliamo che faccia.

“Potremmo anche andare nella direzione opposta – utilizzando questo collegamento tra linguaggio e animazione in modo che un computer possa descrivere cosa sta succedendo in un video”, ha aggiunto.

Il modello Joint Language-to-Pose sarà presentato da Ahuja il 19 settembre alla Conferenza internazionale sulla visione 3D. La conferenza si terrà a Quebec City, in Canada.

Il modello JL2P è stato creato utilizzando un approccio di apprendimento del curriculum. Il primo passo importante è stato per il modello di apprendere sequenze brevi e facili. Ciò sarebbe qualcosa come “Una persona cammina in avanti”. Quindi è passato a sequenze più lunghe e più difficili come “Una persona fa un passo in avanti, poi si gira e fa un altro passo in avanti”, o “Una persona salta un ostacolo mentre corre”.

Quando il modello utilizza le sequenze, guarda i verbi e gli avverbi. Questi descrivono l’azione e la velocità/accelerazione dell’azione. Quindi, guarda i nomi e gli aggettivi che descrivono le posizioni e le direzioni. Secondo Ahuja, l’obiettivo finale per il modello è quello di animare sequenze complesse con più azioni che si verificano contemporaneamente o in sequenza.

Al momento, le animazioni sono limitate a figure di bastoncini, ma gli scienziati continueranno a sviluppare il modello. Una delle complicazioni che sorgono è che, secondo Morency, molte cose stanno accadendo allo stesso tempo. Alcune di esse stanno addirittura accadendo in semplici sequenze.

“La sincronia tra le parti del corpo è molto importante”, ha detto Morency. “Ogni volta che muovi le gambe, muovi anche le braccia, il torso e forse la testa. Le animazioni del corpo devono coordinare questi diversi componenti, mentre allo stesso tempo raggiungono azioni complesse. Portare la narrazione del linguaggio all’interno di questo ambiente di animazione complesso è sia una sfida che un’emozione. Questo è un percorso verso una migliore comprensione del linguaggio e dei gesti”.

Se il modello Joint Language-to-Pose sarà in grado di svilupparsi al punto in cui può creare animazioni complesse e azioni basate sul linguaggio, le possibilità sono enormi. Non solo potrà essere utilizzato in aree come il cinema e l’animazione, ma aiuterà anche a condurre a sviluppi nella comprensione del linguaggio e dei gesti.

Volgendo l’attenzione all’intelligenza artificiale, questo modello JL2P potrebbe essere utilizzato sui robot. Ad esempio, i robot potrebbero essere controllati e detto cosa fare, e sarebbero in grado di comprendere il linguaggio e rispondere di conseguenza.

Questi nuovi sviluppi avranno un impatto su molti campi diversi e il modello continuerà a migliorare la sua capacità di comprendere il linguaggio complesso.

Related Topics:AI animation artificial intelligence Joint Language-to-Pose

Alex McFarland

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.

Unite.AI

Ricercatori sviluppano il modello di computer JL2P per tradurre sceneggiature di film in animazioni

You may like