Følg os

Kunstig intelligens

Forskere udvikler JL2P-computermodel til at oversætte filmmanuskripter til animationer

mm

Forskere hos Carnegie Mellon University har udviklet en computermodel, der er i stand til at omsætte tekst, der beskriver fysiske bevægelser, til simple computergenererede animationer. Disse nye udviklinger kunne gøre det muligt for film og andre animationer at blive skabt direkte fra en computermodel, der læser manuskripterne. 

Forskere har gjort fremskridt med at fĂĄ computere til at forstĂĄ bĂĄde naturligt sprog og generere fysiske positurer fra script. Denne nye computermodel kan være bindeleddet mellem dem. 

Louis-Philippe Morency, en lektor i Sprogteknologisk Institut (LTI), og Chaitanya Ahuja, en LTI Ph.D. studerende, har brugt en neural arkitektur, der kaldes Fælles sprog-til-stilling (JL2P). JL2P-modellen er i stand til i fællesskab at indlejre sætninger og fysiske bevægelser. Dette giver den mulighed for at lære, hvordan sprog er forbundet med handling, bevægelser og bevægelser. 

"Jeg tror, ​​vi er i en tidlig fase af denne forskning, men fra et modellerings-, kunstig intelligens- og teoriperspektiv er det et meget spændende øjeblik," sagde Morency. "Lige nu taler vi om at animere virtuelle figurer. Til sidst kan denne forbindelse mellem sprog og bevægelser anvendes på robotter; vi kan måske simpelthen fortælle en personlig assistentrobot, hvad vi vil have den til at gøre."

"Vi kunne også i sidste ende gå den anden vej - ved at bruge denne forbindelse mellem sprog og animation, så en computer kunne beskrive, hvad der sker i en video," tilføjede han.

Joint Language-to-Pose-modellen vil blive præsenteret af Ahuja den 19. september pĂĄ den internationale konference om 3D-vision. Konferencen finder sted i Quebec City, Canada. 

JL2P-modellen blev skabt ved en pensum-læringstilgang. Det første vigtige skridt var, at modellen lærte korte, nemme sekvenser. Det ville være noget som "En person gĂĄr frem." Derefter gik det videre til længere og hĂĄrdere sekvenser sĂĄsom "En person træder frem, sĂĄ vender den om og træder frem igen," eller "En person hopper over en forhindring, mens han løber." 

NĂĄr modellen bruger sekvenserne, ser den pĂĄ verber og adverbier. Disse beskriver handlingen og hastigheden/accelerationen af ​​handlingen. Derefter ser den pĂĄ navneord og adjektiver, der beskriver placeringer og retninger. Ifølge Ahuja er slutmĂĄlet for modellen at animere komplekse sekvenser med flere handlinger, der sker samtidigt eller i rækkefølge. 

Lige nu er animationerne begrænset til pindefigurer, men forskerne vil fortsætte med at udvikle modellen. En af de komplikationer, der opstĂĄr, er, at der ifølge Morency sker en masse ting pĂĄ samme tid. Nogle af dem sker endda i simple sekvenser. 

"Synkroni mellem kropsdele er meget vigtig," sagde Morency. ”Hver gang du bevæger dine ben, bevæger du også dine arme, din torso og muligvis dit hoved. Kropsanimationerne skal koordinere disse forskellige komponenter, samtidig med at de opnår komplekse handlinger. At bringe sprogfortælling i dette komplekse animationsmiljø er både udfordrende og spændende. Dette er en vej mod bedre forståelse af tale og fagter."

Hvis Joint Language-to-Pose-modellen er i stand til at udvikle sig til det punkt, hvor den kan skabe komplekse animationer og handlinger baseret pĂĄ sprog, er mulighederne enorme. Det kan ikke kun bruges inden for omrĂĄder som film og animation, men det vil ogsĂĄ være med til at føre til udvikling i forstĂĄelsen af ​​tale og gestik. 

Med hensyn til kunstig intelligens kan denne JL2P-model bruges pĂĄ robotter. For eksempel kan robotter muligvis styres og fortælles, hvad de skal gøre, og de vil være i stand til at forstĂĄ sproget og reagere derefter. 

Disse nye udviklinger vil pĂĄvirke mange forskellige omrĂĄder, og modellen vil blive ved med at blive mere i stand til at forstĂĄ komplekst sprog.

 

Alex McFarland er en AI-journalist og forfatter, der udforsker den seneste udvikling inden for kunstig intelligens. Han har samarbejdet med adskillige AI-startups og publikationer verden over.