Umjetna inteligencija
Istraživači razvijaju JL2P računalni model za prevođenje filmskih scenarija u animacije

Istraživači na Carnegie Mellon University razvili su računalni model koji je sposoban prevesti tekst koji opisuje fizičke pokrete u jednostavne računalno generirane animacije. Ova nova dostignuća mogla bi omogućiti stvaranje filmova i drugih animacija izravno iz računalnog modela koji čita scenarij.
Znanstvenici napreduju u tome da računala razumiju i prirodni jezik i generiraju fizičke poze iz scenarija. Ovaj novi model računala može biti poveznica između njih.
Louis-Philippe Morency, izvanredni profesor na Institut za jezične tehnologije (LTI), i Chaitanya Ahuja, LTI Ph.D. student, koriste neuralnu arhitekturu koja se zove Joint Language-to-Pose (JL2P). Model JL2P sposoban je zajednički ugraditi rečenice i fizičke pokrete. To mu omogućuje da nauči kako je jezik povezan s radnjom, gestama i pokretima.
„Mislim da smo u ranoj fazi ovog istraživanja, ali s gledišta modeliranja, umjetne inteligencije i teorije, ovo je vrlo uzbudljiv trenutak“, rekao je Morency. „Trenutno govorimo o animiranju virtualnih likova. Na kraju bi se ova veza između jezika i gesti mogla primijeniti na robote; možda bismo mogli jednostavno reći robotu osobnom asistentu što želimo da radi.“
"Također bismo na kraju mogli krenuti drugim putem - koristeći ovu vezu između jezika i animacije kako bi računalo moglo opisati što se događa u videu", dodao je.
Model Joint Language-to-Pose Ahuja će predstaviti 19. rujna na Međunarodnoj konferenciji o 3D viziji. Konferencija će se održati u Quebec Cityju u Kanadi.
Model JL2P nastao je pristupom učenja prema kurikulumu. Prvi važan korak bio je da model nauči kratke, jednostavne sekvence. To bi bilo nešto poput "Osoba hoda naprijed." Zatim se prešlo na duže i teže sekvence poput "Osoba zakorači naprijed, zatim se okrene i ponovo zakorači naprijed" ili "Osoba preskoči prepreku dok trči."
Kada model koristi nizove, gleda glagole i priloge. Oni opisuju radnju i brzinu/ubrzanje akcije. Zatim gleda imenice i pridjeve koji opisuju lokacije i smjerove. Prema Ahuji, krajnji cilj modela je animirati složene sekvence s više radnji koje se događaju istovremeno ili u nizu.
Za sada su animacije ograničene na figurice, ali znanstvenici će nastaviti razvijati model. Jedna od komplikacija koja se javlja je da se prema Morencyju puno stvari događa u isto vrijeme. Neki od njih čak se događaju u jednostavnim sekvencama.
"Sinkronija između dijelova tijela vrlo je važna", rekao je Morency. “Svaki put kad pomičete noge, pomičete i ruke, torzo i možda glavu. Animacije tijela trebaju koordinirati ove različite komponente, dok u isto vrijeme postižu složene radnje. Dovođenje jezičnog narativa u ovo složeno okruženje animacije istovremeno je i izazovno i uzbudljivo. Ovo je put prema boljem razumijevanju govora i gesti.”
Ako se model Joint Language-to-Pose može razviti do točke u kojoj može stvarati složene animacije i radnje temeljene na jeziku, mogućnosti su ogromne. Ne samo da se može koristiti u područjima kao što su film i animacija, već će također pomoći u razvoju razumijevanja govora i gesta.
Što se tiče umjetne inteligencije, ovaj model JL2P mogao bi se koristiti na robotima. Na primjer, robotima bi se moglo upravljati i govoriti im što da rade, a oni bi mogli razumjeti jezik i reagirati u skladu s tim.
Ovi novi razvoji utjecat će na mnoga različita polja, a model će postajati sve sposobniji za razumijevanje složenog jezika.