Connect with us

Kunstig intelligens

Forskere udvikler JL2P-computermodel til at oversætte filmmanuskripter til animationer

mm

Forskere ved Carnegie Mellon University har udviklet en computermodel, der kan oversætte tekst, der beskriver fysiske bevægelser, til simple computer-genererede animationer. Disse nye udviklinger kan gøre det muligt at lave film og andre animationer direkte fra en computermodel, der læser manuskripterne.

Videnskabsmænd har gjort fremskridt i at få computere til at forstå både naturligt sprog og generere fysiske stillinger fra manuskript. Denne nye computermodel kan være linket mellem dem.

Louis-Philippe Morency, en associeret professor ved Language Technologies Institute (LTI), og Chaitanya Ahuja, en LTI-ph.d.-studerende, har brugt en neural arkitektur, der kaldes Joint Language-to-Pose (JL2P). JL2P-modellen kan sammenføje sætninger og fysiske bevægelser. Dette giver den mulighed for at lære, hvordan sprog er forbundet med handling, gestus og bevægelser.

“Jeg tror, vi er i en tidlig fase af denne forskning, men fra et modellering-, kunstig intelligens- og teoretisk perspektiv er det en meget spændende tid,” sagde Morency. “Lige nu taler vi om at animere virtuelle karakterer. Til sidst kan dette link mellem sprog og gestus blive anvendt på robotter; vi kan måske blot fortælle en personlig assistentrobot, hvad vi vil have den til at gøre.

“Vi kan også til sidst gå den modsatte vej – bruge dette link mellem sprog og animation, så en computer kan beskrive, hvad der sker i en video,” tilføjede han.

Joint Language-to-Pose-modellen vil blive præsenteret af Ahuja den 19. september på International Conference on 3D Vision. Denne konference finder sted i Quebec City, Canada.

JL2P-modellen blev skabt ved hjælp af en curriculum-læringstilgang. Det første vigtige skridt var, at modellen skulle lære korte, lette sekvenser. Det ville være noget i retning af “En person går fremad.” Derefter gik den over til længere og sværere sekvenser, såsom “En person går fremad, vender sig om og går fremad igen” eller “En person hopper over et hinder, mens den løber.”

Når modellen bruger sekvenserne, ser den på verber og adverbier. Disse beskriver handlingen og hastigheden/accelerationen af handlingen. Derefter ser den på substantiver og adjektiver, der beskriver lokaliteter og retninger. Ifølge Ahuja er det endelige mål for modellen at animere komplekse sekvenser med multiple handlinger, der sker samtidigt eller i sekvens.

For tiden er animationerne begrænset til stregfigurer, men videnskabsmændene vil fortsætte med at udvikle modellen. En af de komplicerende faktorer, der opstår, er, at ifølge Morency, mange ting sker på samme tid. Nogle af dem sker endda i simple sekvenser.

“Synchronisering mellem kropsdele er meget vigtig,” sagde Morency. “Hver gang du flytter dine ben, flytter du også dine arme, din torso og muligvis dit hoved. Kroppens animationer skal koordinere disse forskellige komponenter, samtidig med at de opnår komplekse handlinger. At bringe sprogfortælling inden for denne komplekse animationsmiljø er både udfordrende og spændende. Dette er en vej mod en bedre forståelse af tale og gestus.”

Hvis Joint Language-to-Pose-modellen kan udvikles til et punkt, hvor den kan skabe komplekse animationer og handlinger baseret på sprog, er mulighederne enorme. Det kan ikke kun bruges i områder som film og animation, men det vil også bidrage til udviklingen af forståelse af tale og gestus.

Vendt til kunstig intelligens kan denne JL2P-model blive brugt på robotter. For eksempel kan robotter måske blive kontrolleret og fortalt, hvad de skal gøre, og de vil være i stand til at forstå sproget og reagere derefter.

Disse nye udviklinger vil påvirke mange forskellige fagområder, og modellen vil fortsætte med at blive mere kapabel til at forstå komplekse sprog.

Alex McFarland er en AI-journalist og forfatter, der udforsker de seneste udviklinger inden for kunstig intelligens. Han har samarbejdet med talrige AI-startups og publikationer verden over.