výhonek Výzkumníci vyvíjejí počítačový model JL2P pro převod filmových scénářů do animací - Unite.AI
Spojte se s námi

Umělá inteligence

Výzkumníci vyvinuli počítačový model JL2P pro převod filmových scénářů do animací

aktualizováno on

Výzkumní pracovníci na Carnegie Mellon University vyvinuli počítačový model, který je schopen převést text popisující fyzické pohyby do jednoduchých počítačově generovaných animací. Tento nový vývoj by mohl umožnit vytváření filmů a dalších animací přímo z počítačového modelu, který čte scénáře. 

Vědci pokročili v tom, aby počítače rozuměly přirozenému jazyku a generovaly fyzické pózy ze skriptu. Tento nový počítačový model může být pojítkem mezi nimi. 

Louis-Philippe Morency, mimořádný profesor v Ústav jazykových technologií (LTI) a Chaitanya Ahuja, LTI Ph.D. student, používali neuronovou architekturu, která se nazývá Společný jazyk-k-póza (JL2P). Model JL2P je schopen společně vkládat věty a fyzické pohyby. To mu umožňuje naučit se, jak je jazyk propojen s akcí, gesty a pohyby. 

"Myslím, že jsme v rané fázi tohoto výzkumu, ale z hlediska modelování, umělé inteligence a teorie je to velmi vzrušující okamžik," řekl Morency. „Právě teď mluvíme o animaci virtuálních postav. Nakonec by toto spojení mezi jazykem a gesty mohlo být aplikováno na roboty; mohli bychom být schopni jednoduše říci robotovi osobního asistenta, co chceme, aby dělal.

„Také bychom nakonec mohli jít jinou cestou – pomocí tohoto propojení mezi jazykem a animací, aby počítač mohl popsat, co se děje ve videu,“ dodal.

Model Joint Language-to-Pose představí Ahuja 19. září v Mezinárodní konference o 3D vidění. Tato konference se bude konat v Quebec City v Kanadě. 

Model JL2P byl vytvořen přístupem kurikula-učení. Prvním důležitým krokem bylo, aby se model naučil krátké, snadné sekvence. Bylo by to něco jako „Člověk jde vpřed“. Poté se přešlo k delším a těžším sekvencím jako „Člověk vykročí vpřed, pak se otočí a znovu vykročí“ nebo „Člověk při běhu skočí přes překážku“. 

Když model používá posloupnosti, dívá se na slovesa a příslovce. Ty popisují akci a rychlost/zrychlení akce. Poté se podívá na podstatná a přídavná jména, která popisují umístění a směry. Podle Ahuja je konečným cílem modelu animovat složité sekvence s více akcemi, které se dějí současně nebo v sekvenci. 

V tuto chvíli jsou animace omezeny na panáčky, ale vědci budou model dále vyvíjet. Jedna z komplikací, která vzniká, je, že podle Morencyho se spousta věcí děje současně. Některé z nich se dokonce odehrávají v jednoduchých sekvencích. 

"Synchronizace mezi částmi těla je velmi důležitá," řekl Morency. „Pokaždé, když pohnete nohama, pohnete také rukama, trupem a možná i hlavou. Animace těla musí koordinovat tyto různé komponenty a zároveň dosahovat komplexních akcí. Vnést jazykové vyprávění do tohoto komplexního animačního prostředí je náročné i vzrušující. To je cesta k lepšímu porozumění řeči a gestům.“

Pokud se model Joint Language-to-Pose dokáže rozvinout do bodu, ve kterém dokáže vytvářet složité animace a akce založené na jazyce, možnosti jsou obrovské. Nejen, že může být použit v oblastech, jako je film a animace, ale také pomůže vést k rozvoji porozumění řeči a gestům. 

Pokud jde o umělou inteligenci, tento model JL2P by mohl být použit na robotech. Roboti by například mohli být schopni ovládat a říkat jim, co mají dělat, a byli by schopni rozumět jazyku a odpovídajícím způsobem reagovat. 

Tento nový vývoj ovlivní mnoho různých oblastí a model bude stále schopnější porozumět složitému jazyku.

 

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s řadou AI startupů a publikací po celém světě.