Искусственный интеллект
Исследователи разрабатывают компьютерную модель JL2P для перевода сценариев фильмов в анимацию

Исследователи Университет Карнеги-Меллона разработали компьютерную модель, способную преобразовывать текст, описывающий физические движения, в простую компьютерную анимацию. Эти новые разработки могут позволить создавать фильмы и другие анимации непосредственно из компьютерной модели, считывающей сценарии.
Ученые добились прогресса в том, чтобы заставить компьютеры понимать как естественный язык, так и генерировать физические позы из сценария. Эта новая компьютерная модель может стать связующим звеном между ними.
Луи-Филипп Моренси, адъюнкт-профессор Институт языковых технологий (LTI) и Чайтанья Ахуджа, доктор философии LTI. студент, использовали нейронную архитектуру, которая называется Совместный язык-поза (JL2P). Модель JL2P способна совместно встраивать предложения и физические движения. Это позволяет ему узнать, как язык связан с действием, жестами и движениями.
«Я думаю, мы находимся на ранней стадии этого исследования, но с точки зрения моделирования, искусственного интеллекта и теории это очень интересный момент», — сказал Моренси. «Сейчас мы говорим об анимации виртуальных персонажей. В конечном итоге эта связь между языком и жестами может быть применена к роботам; возможно, мы сможем просто сказать роботу-персонажу, что мы хотим, чтобы он сделал».
«Мы также могли бы в конечном итоге пойти другим путем — использовать эту связь между языком и анимацией, чтобы компьютер мог описать то, что происходит в видео», — добавил он.
Модель Joint Language-to-Pose будет представлена Ahuja 19 сентября на Международной конференции по 3D Vision. Эта конференция будет проходить в Квебеке, Канада.
Модель JL2P была создана на основе учебного плана. Первым важным шагом для модели было изучение коротких и простых последовательностей. Это было бы что-то вроде «Человек идет вперед». Затем он перешел к более длинным и сложным последовательностям, таким как «Человек делает шаг вперед, затем поворачивается и снова делает шаг вперед» или «Человек перепрыгивает через препятствие во время бега».
Когда модель использует последовательности, она рассматривает глаголы и наречия. Они описывают действие и скорость/ускорение действия. Затем он смотрит на существительные и прилагательные, которые описывают места и направления. По словам Ахуджи, конечной целью модели является анимация сложных последовательностей с несколькими действиями, которые происходят одновременно или последовательно.
На данный момент анимация ограничена фигурками из палочек, но ученые собираются продолжить разработку модели. Одна из возникающих сложностей заключается в том, что, согласно Моренси, множество вещей происходит одновременно. Некоторые из них даже происходят в простых последовательностях.
«Синхронность между частями тела очень важна», — сказал Моренси. «Каждый раз, когда вы двигаете ногами, вы также двигаете руками, туловищем и, возможно, головой. Анимация тела должна координировать эти различные компоненты, в то же время выполняя сложные действия. Внедрить языковое повествование в эту сложную анимационную среду одновременно сложно и увлекательно. Это путь к лучшему пониманию речи и жестов».
Если модель Joint Language-to-Pose сможет развиться до точки, в которой она сможет создавать сложные анимации и действия на основе языка, возможности огромны. Его можно не только использовать в таких областях, как кино и анимация, но он также поможет улучшить понимание речи и жестов.
Что касается искусственного интеллекта, то эту модель JL2P можно использовать на роботах. Например, роботов можно было бы контролировать и указывать им, что делать, и они могли бы понимать язык и реагировать соответствующим образом.
Эти новые разработки повлияют на множество различных областей, и модель будет становиться все более способной к пониманию сложного языка.