Connect with us

Artificiell intelligens

Forskare Utvecklar JL2P Datormodell för att Översätta Filmmanus till Animeringar

mm

Forskare vid Carnegie Mellon University har utvecklat en datormodell som kan översätta text som beskriver fysiska rörelser till enkla datorgenererade animeringar. Dessa nya utvecklingar kan göra det möjligt för filmer och andra animeringar att skapas direkt från en datormodell som läser manus.

Forskare har gjort framsteg i att få datorer att förstå både naturligt språk och generera fysiska poser från manus. Denna nya datormodell kan vara länken mellan dem.

Louis-Philippe Morency, en biträdande professor vid Language Technologies Institute (LTI), och Chaitanya Ahuja, en LTI-doktorand, har använt en neural arkitektur som kallas Joint Language-to-Pose (JL2P). JL2P-modellen kan samtidigt infoga meningar och fysiska rörelser. Detta gör att den kan lära sig hur språk är kopplat till handling, gester och rörelser.

“Jag tycker att vi är i ett tidigt skede av denna forskning, men från ett modell-, artificiellt intelligens- och teoretiskt perspektiv, är det en mycket spännande tid”, sa Morency. “Just nu pratar vi om att animera virtuella karaktärer. Till slut kan denna länk mellan språk och gester appliceras på robotar; vi kanske kan säga till en personlig assistansrobot vad vi vill att den ska göra.

“Vi kan också så småningom gå åt andra hållet – använda denna länk mellan språk och animering så att en dator kan beskriva vad som händer i en video”, tillade han.

Joint Language-to-Pose-modellen kommer att presenteras av Ahuja den 19 september på International Conference on 3D Vision. Den konferensen kommer att hållas i Quebec City, Kanada.

JL2P-modellen skapades med en curriculum-lärandeansats. Det första viktiga steget var för modellen att lära sig korta, enkla sekvenser. Det skulle vara något som “En person går framåt.” Den gick sedan vidare till längre och svårare sekvenser som “En person går framåt, sedan vänder sig om och går framåt igen”, eller “En person hoppar över ett hinder medan den springer.”

När modellen använder sekvenserna, tittar den på verb och adverb. Dessa beskriver handlingen och hastigheten/accelerationen av handlingen. Sedan tittar den på substantiv och adjektiv som beskriver platser och riktningar. Enligt Ahuja är det slutliga målet för modellen att animerar komplexa sekvenser med flera handlingar som sker samtidigt eller i sekvens.

Just nu är animeringarna begränsade till streckfigurer, men forskarna kommer att fortsätta utveckla modellen. En av de komplicerade sakerna som uppstår är att enligt Morency, många saker händer samtidigt. Vissa av dem händer till och med i enkla sekvenser.

“Synchronisering mellan kroppsdelar är mycket viktig”, sa Morency. “Varje gång du rör dina ben, rör du också dina armar, din torso och möjligtvis ditt huvud. Kroppsanimationer behöver koordinera dessa olika komponenter, samtidigt som de uppnår komplexa handlingar. Att föra in språkberättelse i denna komplexa animeringsmiljö är både utmanande och spännande. Detta är en väg mot bättre förståelse av tal och gester.”

Om Joint Language-to-Pose-modellen kan utvecklas till den punkt där den kan skapa komplexa animeringar och handlingar baserat på språk, är möjligheterna enorma. Den kan inte bara användas inom områden som film och animering, utan den kommer också att bidra till utvecklingen av förståelse av tal och gester.

När det gäller artificiell intelligens kan JL2P-modellen användas på robotar. Till exempel kan robotar kontrolleras och sägas vad de ska göra, och de kommer att kunna förstå språket och svara därefter.

Dessa nya utvecklingar kommer att påverka många olika områden, och modellen kommer att fortsätta bli mer kapabel att förstå komplexa språk.

Alex McFarland är en AI-journalist och författare som utforskar de senaste utvecklingarna inom artificiell intelligens. Han har samarbetat med många AI-startups och publikationer över hela världen.