Inteligență artificială

Cercetătorii dezvoltă modelul computerizat JL2P pentru a traduce scenarii de film în animații

Published September 11, 2019

Updated April 5, 2026

Alex McFarland

Cercetătorii de la Carnegie Mellon University au dezvoltat un model computerizat care este capabil să traducă textul care descrie mișcări fizice în animații computerizate simple. Aceste noi dezvoltări ar putea face posibilă crearea de filme și alte animații direct dintr-un model computerizat care citește scenariile.

Oamenii de știință au făcut progrese în a face computerele să înțeleagă atât limba naturală, cât și să genereze poze fizice din scenarii. Acest nou model computerizat poate fi legătura dintre ele.

Louis-Philippe Morency, profesor asociat în cadrul Institutului pentru Tehnologii Lingvistice (LTI), și Chaitanya Ahuja, student doctorand LTI, au folosit o arhitectură neurală numită Joint Language-to-Pose (JL2P). Modelul JL2P este capabil să încorporeze în mod comun propoziții și mișcări fizice. Acest lucru îi permite să învețe cum limba este conectată la acțiune, gesturi și mișcări.

“Cred că suntem într-un stadiu incipient al acestei cercetări, dar din punct de vedere al modelării, inteligenței artificiale și teoriei, este un moment foarte interesant”, a spus Morency. “În acest moment, vorbim despre animarea personajelor virtuale. În cele din urmă, această legătură dintre limbaj și gesturi ar putea fi aplicată roboților; s-ar putea să putem să le spunem simplu unui robot personal asistent ce vrem să facă.

“De asemenea, am putea să mergem într-o direcție opusă – folosind această legătură dintre limbaj și animație, astfel încât un computer să poată descrie ce se întâmplă într-un videoclip”, a adăugat el.

Modelul Joint Language-to-Pose va fi prezentat de Ahuja pe 19 septembrie la Conferința Internațională privind Viziunea 3D. Conferința va avea loc în Quebec City, Canada.

Modelul JL2P a fost creat prin abordarea învățământului pe bază de curriculum. Primul pas important a fost ca modelul să învețe secvențe scurte și ușoare. Acesta ar fi ceva de genul “O persoană merge înainte.” Apoi a trecut la secvențe mai lungi și mai grele, cum ar fi “O persoană face un pas înainte, apoi se întoarce și face un alt pas înainte” sau “O persoană sare peste un obstacol în timp ce rulează.”

Când modelul utilizează secvențele, examinează verbele și adverbele. Acestea descriu acțiunea și viteza/accelerația acțiunii. Apoi, examinează substantivele și adjectivele, care descriu locațiile și direcțiile. Conform lui Ahuja, scopul final al modelului este de a anima secvențe complexe cu multiple acțiuni care se desfășoară simultan sau în secvență.

În acest moment, animațiile sunt limitate la figuri simple, dar oamenii de știință vor continua să dezvolte modelul. Una dintre complicațiile care apar este că, conform lui Morency, multe lucruri se întâmplă în același timp. Unele dintre ele se întâmplă chiar și în secvențe simple.

“Sincronizarea dintre părțile corpului este foarte importantă”, a spus Morency. “De fiecare dată când miști picioarele, miști și brațele, toracele și posibil capul. Animațiile corpului trebuie să coordoneze aceste componente diferite, în același timp realizând acțiuni complexe. Aduceerea narativului lingvistic în acest mediu de animație complexă este atât o provocare, cât și o oportunitate. Acesta este un drum către o mai bună înțelegere a vorbirii și a gesturilor.”

Dacă modelul Joint Language-to-Pose va reuși să se dezvolte până la punctul în care poate crea animații complexe și acțiuni pe baza limbajului, posibilitățile sunt imense. Nu numai că poate fi utilizat în domenii precum filmul și animația, dar va ajuta și la dezvoltarea înțelegerii vorbirii și a gesturilor.

Referitor la inteligența artificială, acest model JL2P poate fi utilizat pe roboți. De exemplu, roboții ar putea fi controlați și li s-ar putea spune ce să facă, și ar putea să înțeleagă limbajul și să răspundă corespunzător.

Aceste noi dezvoltări vor avea impact asupra multor domenii diferite, iar modelul va continua să devină mai capabil să înțeleagă limbajul complex.

Related Topics:AI animation artificial intelligence Joint Language-to-Pose

Alex McFarland

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.

Unite.AI

Cercetătorii dezvoltă modelul computerizat JL2P pentru a traduce scenarii de film în animații

You may like