Inteligența artificială
Cercetătorii dezvoltă un model de computer JL2P pentru a traduce scenariile de film în animații

Cercetători la Carnegie Mellon University au dezvoltat un model de computer care este capabil să traducă text care descrie mișcările fizice în animații simple generate de computer. Aceste noi dezvoltări ar putea face posibil ca filme și alte animații să fie create direct de pe un model de computer care citește scenariile.
Oamenii de știință au făcut progrese în a face computerele să înțeleagă atât limbajul natural, cât și să genereze ipostaze fizice din scenariu. Acest nou model de computer poate fi legătura dintre ele.
Louis-Philippe Morency, profesor asociat la Institutul de Tehnologii Limbii (LTI) și Chaitanya Ahuja, un doctorat LTI. student, au folosit o arhitectură neuronală numită Limbajul comun la poză (JL2P). Modelul JL2P este capabil să încorporeze împreună propoziții și mișcări fizice. Acest lucru îi permite să învețe modul în care limbajul este conectat la acțiune, gesturi și mișcări.
„Cred că suntem într-un stadiu incipient al acestei cercetări, dar din perspectiva modelării, inteligenței artificiale și teoriei, este un moment foarte interesant”, a spus Morency. „În acest moment, vorbim despre animarea personajelor virtuale. În cele din urmă, această legătură dintre limbaj și gesturi ar putea fi aplicată roboților; am putea fi capabili pur și simplu să-i spunem unui robot asistent personal ce vrem să facă.”
„De asemenea, am putea merge în altă direcție – folosind această legătură între limbaj și animație, astfel încât un computer să poată descrie ceea ce se întâmplă într-un videoclip”, a adăugat el.
Modelul Joint Language-to-Pose va fi prezentat de Ahuja pe 19 septembrie la Conferința Internațională privind Viziunea 3D. Acea conferință va avea loc în orașul Quebec, Canada.
Modelul JL2P a fost creat printr-o abordare curriculară-învățare. Primul pas important a fost ca modelul să învețe secvențe scurte și ușoare. Ar fi ceva de genul „O persoană merge înainte”. Apoi a trecut la secvențe mai lungi și mai grele, cum ar fi „O persoană face un pas înainte, apoi se întoarce și face din nou un pas înainte” sau „O persoană sare peste un obstacol în timp ce aleargă”.
Când modelul folosește secvențele, se uită la verbe și adverbe. Acestea descriu acțiunea și viteza/accelerarea acțiunii. Apoi, se uită la substantive și adjective care descriu locații și direcții. Potrivit lui Ahuja, scopul final al modelului este de a anima secvențe complexe cu acțiuni multiple care au loc simultan sau în secvență.
În prezent, animațiile sunt limitate la figuri, dar oamenii de știință vor continua să dezvolte modelul. Una dintre complicațiile care apar este că, potrivit lui Morency, o mulțime de lucruri se întâmplă în același timp. Unele dintre ele se întâmplă chiar în secvențe simple.
„Sincronia dintre părțile corpului este foarte importantă”, a spus Morency. „De fiecare dată când îți miști picioarele, îți miști și brațele, trunchiul și eventual capul. Animațiile corporale trebuie să coordoneze aceste componente diferite, realizând în același timp acțiuni complexe. Aducerea narațiunii lingvistice în acest mediu complex de animație este atât provocatoare, cât și incitantă. Aceasta este o cale către o mai bună înțelegere a vorbirii și a gesturilor.”
Dacă modelul Joint Language-to-Pose este capabil să se dezvolte până la punctul în care poate crea animații și acțiuni complexe bazate pe limbaj, posibilitățile sunt uriașe. Nu numai că poate fi folosit în domenii precum filmul și animația, dar va contribui și la dezvoltarea înțelegerii vorbirii și gesturilor.
Revenind la inteligența artificială, acest model JL2P ar putea fi folosit pe roboți. De exemplu, roboții ar putea fi controlați și să li se spună ce să facă și ar putea înțelege limbajul și să răspundă în consecință.
Aceste noi dezvoltări vor avea un impact asupra multor domenii diferite, iar modelul va deveni mai capabil să înțeleagă limbajul complex.