Kunstig intelligens
Forskere udvikler JL2P-computermodel til at oversætte filmmanuskripter til animationer

Forskere hos Carnegie Mellon University har udviklet en computermodel, der er i stand til at omsætte tekst, der beskriver fysiske bevægelser, til simple computergenererede animationer. Disse nye udviklinger kunne gøre det muligt for film og andre animationer at blive skabt direkte fra en computermodel, der læser manuskripterne.
Forskere har gjort fremskridt med at få computere til at forstå både naturligt sprog og generere fysiske positurer fra script. Denne nye computermodel kan være bindeleddet mellem dem.
Louis-Philippe Morency, en lektor i Sprogteknologisk Institut (LTI), og Chaitanya Ahuja, en LTI Ph.D. studerende, har brugt en neural arkitektur, der kaldes Fælles sprog-til-stilling (JL2P). JL2P-modellen er i stand til i fællesskab at indlejre sætninger og fysiske bevægelser. Dette giver den mulighed for at lære, hvordan sprog er forbundet med handling, bevægelser og bevægelser.
"Jeg tror, ​​vi er i en tidlig fase af denne forskning, men fra et modellerings-, kunstig intelligens- og teoriperspektiv er det et meget spændende øjeblik," sagde Morency. "Lige nu taler vi om at animere virtuelle figurer. Til sidst kan denne forbindelse mellem sprog og bevægelser anvendes på robotter; vi kan måske simpelthen fortælle en personlig assistentrobot, hvad vi vil have den til at gøre."
"Vi kunne også i sidste ende gå den anden vej - ved at bruge denne forbindelse mellem sprog og animation, så en computer kunne beskrive, hvad der sker i en video," tilføjede han.
Joint Language-to-Pose-modellen vil blive præsenteret af Ahuja den 19. september på den internationale konference om 3D-vision. Konferencen finder sted i Quebec City, Canada.
JL2P-modellen blev skabt ved en pensum-læringstilgang. Det første vigtige skridt var, at modellen lærte korte, nemme sekvenser. Det ville være noget som "En person går frem." Derefter gik det videre til længere og hårdere sekvenser såsom "En person træder frem, så vender den om og træder frem igen," eller "En person hopper over en forhindring, mens han løber."
Når modellen bruger sekvenserne, ser den på verber og adverbier. Disse beskriver handlingen og hastigheden/accelerationen af ​​handlingen. Derefter ser den på navneord og adjektiver, der beskriver placeringer og retninger. Ifølge Ahuja er slutmålet for modellen at animere komplekse sekvenser med flere handlinger, der sker samtidigt eller i rækkefølge.
Lige nu er animationerne begrænset til pindefigurer, men forskerne vil fortsætte med at udvikle modellen. En af de komplikationer, der opstår, er, at der ifølge Morency sker en masse ting på samme tid. Nogle af dem sker endda i simple sekvenser.
"Synkroni mellem kropsdele er meget vigtig," sagde Morency. ”Hver gang du bevæger dine ben, bevæger du også dine arme, din torso og muligvis dit hoved. Kropsanimationerne skal koordinere disse forskellige komponenter, samtidig med at de opnår komplekse handlinger. At bringe sprogfortælling i dette komplekse animationsmiljø er både udfordrende og spændende. Dette er en vej mod bedre forståelse af tale og fagter."
Hvis Joint Language-to-Pose-modellen er i stand til at udvikle sig til det punkt, hvor den kan skabe komplekse animationer og handlinger baseret på sprog, er mulighederne enorme. Det kan ikke kun bruges inden for områder som film og animation, men det vil også være med til at føre til udvikling i forståelsen af ​​tale og gestik.
Med hensyn til kunstig intelligens kan denne JL2P-model bruges på robotter. For eksempel kan robotter muligvis styres og fortælles, hvad de skal gøre, og de vil være i stand til at forstå sproget og reagere derefter.
Disse nye udviklinger vil pĂĄvirke mange forskellige omrĂĄder, og modellen vil blive ved med at blive mere i stand til at forstĂĄ komplekst sprog.