Зв'язатися з нами

Дослідники розробляють комп’ютерну модель JL2P для перекладу сценаріїв фільмів на анімацію

Штучний Інтелект

Дослідники розробляють комп’ютерну модель JL2P для перекладу сценаріїв фільмів на анімацію

mm

Дослідники в Університет Карнегі-Меллона розробили комп’ютерну модель, яка здатна перекладати текст, що описує фізичні рухи, у просту комп’ютерну анімацію. Ці нові розробки можуть зробити можливим створення фільмів та іншої анімації безпосередньо з комп’ютерної моделі, яка читає сценарії. 

Вчені досягли прогресу в тому, щоб змусити комп’ютери розуміти як природну мову, так і генерувати фізичні пози зі сценарію. Ця нова модель комп'ютера може стати сполучною ланкою між ними. 

Луї-Філіп Морансі, доцент кафедри Інститут мовних технологій (LTI), і Чайтанья Ахуджа, доктор філософії LTI. студент, використовували нейронну архітектуру, яка називається Спільна мова-поза (JL2P). Модель JL2P здатна спільно вбудовувати речення та фізичні рухи. Це дозволяє йому дізнатися, як мова пов’язана з діями, жестами та рухами. 

«Я думаю, що ми перебуваємо на ранній стадії цього дослідження, але з точки зору моделювання, штучного інтелекту та теорії, це дуже захопливий момент», – сказав Моренсі. «Зараз ми говоримо про анімацію віртуальних персонажів. Зрештою, цей зв’язок між мовою та жестами можна буде застосувати до роботів; ми могли б просто сказати роботу-персональному асистенту, що ми хочемо, щоб він робив».

«Зрештою ми також могли б піти іншим шляхом — використовуючи зв’язок між мовою та анімацією, щоб комп’ютер міг описати те, що відбувається у відео», — додав він.

Модель Joint Language-to-Pose буде представлена ​​Ahuja 19 вересня на Міжнародній конференції з 3D Vision. Ця конференція відбудеться в Квебеку, Канада. 

Модель JL2P була створена на основі підходу до навчального плану. Першим важливим кроком для моделі було вивчення коротких, простих послідовностей. Це було б щось на зразок «людина йде вперед». Потім він перейшов до більш довгих і складних послідовностей, таких як «Людина робить крок вперед, потім повертається і знову робить крок вперед» або «Людина перестрибує через перешкоду під час бігу». 

Коли модель використовує послідовності, вона розглядає дієслова та прислівники. Вони описують дію та швидкість/прискорення дії. Потім він розглядає іменники та прикметники, які описують розташування та напрямки. За словами Ахуджа, кінцева мета моделі полягає в тому, щоб анімувати складні послідовності з кількома діями, які відбуваються одночасно або послідовно. 

На даний момент анімація обмежена фігурками, але вчені збираються продовжувати розробку моделі. Одна зі складнощів, яка виникає, полягає в тому, що, згідно з Моренсі, багато речей відбувається одночасно. Деякі з них навіть відбуваються в простих послідовностях. 

«Синхронність між частинами тіла дуже важлива», — сказав Моренсі. «Щоразу, коли ви рухаєте ногами, ви також рухаєте руками, тулубом і, можливо, головою. Анімація тіла повинна координувати ці різні компоненти, в той же час досягаючи складних дій. Впровадити мовний наратив у це складне анімаційне середовище є водночас складним і захоплюючим. Це шлях до кращого розуміння мови та жестів».

Якщо модель Joint Language-to-Pose зможе розвинутися до такої міри, коли вона зможе створювати складні анімації та дії на основі мови, можливості величезні. Його можна використовувати не тільки в таких сферах, як кіно та анімація, але й допоможе покращити розуміння мови та жестів. 

Якщо говорити про штучний інтелект, то цю модель JL2P можна використовувати на роботах. Наприклад, можна було б керувати роботами та вказувати, що робити, і вони могли б розуміти мову та відповідати відповідним чином. 

Ці нові розробки вплинуть на багато різних сфер, і модель буде все краще розуміти складну мову.

 

Алекс МакФарланд — журналіст і письменник, що займається штучним інтелектом, досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та публікаціями зі штучного інтелекту по всьому світу.